第十章大数据模块
垃圾文件的确需要清理,只是如何辨别垃圾文件是一个很大的问题,陈宇需要好好的学习和整合一下!
这是一个很大的工程,毕竟处理的不是一两个,而是自动识别而且进行处理!
数据永远不可能爬完,因为时时刻刻都有新的数据产生,那么伴随而来的就是新的垃圾!
关于数据垃圾的处理,分为很多种,表层清理、深度清理!
等等各种东西都会出现,陈宇则是在这一块头疼。
查了一下资料,发现网络资料很不健全,看来只能去大学的图书馆或者是国家图书馆查阅资料了。
最重要的是电脑上看这些资料太繁琐!
“嫣儿,现在人人网的注册用户有多少?!”陈宇此时关注起来发布了一段时间的人人网,搞了一个病毒式的推广,也不知道现在结果如何了?!
“注册用户国内有多万,国外有4多万,这个数字还在攀升!你可以通过你设计的后台查看一下具体什么情况?!还有一些组件和功能你需要更新了!”嫣儿轻声道!
陈宇闻言点点头,连接上人人网的网站,后台数据当初设计的时候因为太急,没有用心,现在看起来很混乱,但是仔细看的话还是可以看得清楚的。
“后台还是需要重新设计啊!”陈宇轻叹一声,开始对后台进行重新设计起来,数据库的属性也需要变更一些,不过好在陈宇早有准备,直接用版本覆盖之前的数据,当然这不是删除,是覆盖。
这一次陈宇加入了大数据分析的设计!
这里面涉及很复杂的算法!
Haoop是一个能够对大量数据进行分布式处理的软件框架!他的性能还是和牛逼的,可以处理pb级别的数据!
还有hpcc技术!还有其他的各种技术!
十分驳杂!
大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展