字体
关灯
   存书签 书架管理 返回目录
    第424章 幻当程序员小白用自然语言编程时会怎样?(第 1/3 页)

    =数据卡尺=

    如何用统计学的知识,来应用在数据上呢?

    -第一步-

    要弄明白统计学和数据之间的共性和非共性。

    统计学:每一个数据无论其数值是多少,其本身就作为一个数值独占的存在体,然而统计学本身就有意和无意的忽略了各个数值的先后排列。

    数据:每一个数据无论其数值是多少,其本身就作为一个数值独占的存在体,然而数据本身很注重各个数值的先后排列。

    比如:abracadabra

    用统计学来表示,就是a出现了5次,b出现了2次,c出现了1次,d出现了1次,r出现了2次。

    用数据来表示,就是abracadabra。

    那么如何把数据快速的解压缩出来呢?可以使用分段压缩方式,比如把一个大文件,分割成一个个片段,例如:

    abracadabra the fox jump.张三和李四一起去喝酒。

    那么,就可以根据前面的数据,本身就是采用英文的方式,也就是最多是52进制(区分大小写),而后面的中文可就麻烦了,毕竟中文本身进制相当大,那么就需要进行大进制处理。

    用统计学的方法,就是把数据平均分,然后分割成可以互相对齐的数据个体,然后统计这些数据个体各出现了多少次。

    然后进行统计,把统计数据记录下去。

    也就是说,把大英百科全书的纯文本内容用统计学的方式记录下来,就能对应到大小写英文字母+符号+空格+换行+换页……

    -->>(第 1/3 页)(本章未完,请点击下一页继续阅读)
上一章 目录 下一页
最近更新 骗了康熙 谍影:命令与征服 我在现代留过学 活埋大清朝 三国模拟器:这个马谡太稳健了 某霍格沃茨的魔文教授 大清要完 晋末长剑 我的谍战岁月 机战:先驱者的归来 不是吧君子也防 大唐腾飞之路 寒门崛起 万历明君 红楼琏二爷 大明烟火 机战之无限边境 说好的文弱谋士,你一人战三英? 蜀汉之庄稼汉 北齐怪谈
最多阅读 小老板 诸事皆宜百无禁忌 希腊神话 折尽春风 红警军团在废土 全世界的醋都被你吃了 三国军神 遮天这个霸体太稳健 斗罗之我的武魂是纸牌 1717新美洲帝国 改造大唐从养猪开始 重生之民国元帅 大清要完 洪荒之离线挂机十亿年 三国之蜀汉中兴 民国之文豪崛起 在暴戾的他怀里撒个娇 北宋穿越指南 酒仙斗罗 绝世唐门之黯金圣龙