什么是大数据?

大数据体现在三个方面:
容积大:数据容积达到TB,甚至PB级。传统数据库难以处理。
速度快:数据流入系统的速度很快(比如网购用户的点击流)需要及时响应和处理。这使得数据的暂时缓存再处理都变得不可能。
多样性:数据的来源和格式变化多端,可以是结构化数据(如关系数据库中的数据,csv数据),半结构化数据(XML,JSON),甚至是非结构化数据(如电子邮件,WORD文档和一般文本),数据也可能是文本数据,音频数据,视频数据,图像数据等等。

应对大容积问题,有2种技术:1是采用MPP(massive parallel processing)架构,FPGA(Field programmable gate array)技术的数据库或数据仓库,比如netezza数据仓库一体机,Teradata一体机. 2是基于apache-hadoop或类hadoop的分布式文件系统和分布式计算架构。前者需要数据有定义好的schema适合于处理大容量的结构化数据,后者无需事先定义好的schema适合处理变化的数据;前者还有一个优势是适合交互式,响应性强的任务,二后者适合批处理任务和分析处理任务。

快速流动的数据一般称为流数据或者CEP(complex event processing)。这种流数据不适合用hadoop处理。处理流数据的产品主要有2类:IBM专有产品InfoSphere Streams,和开源框架twitter的storm和yahoo的S4。
数据流速快和没有固定schema催生了noSQL数据库的发展:以键值对存储,面向列,无需固定的结构。

数据多样性使得一味地将关系数据库作为存储目的地变得不明智。一定的数据类型可能更适合特定的数据库,比如XML数据更适合存储在像MarkLogic这样的存储库,社交网络关系本质是图,更应存储在像Neo4j这样的图形数据库中。

大数据考虑点:
1.大数据很大,移动数据很难,因此要考虑把程序向数据处移动而不是把数据向程序所在的计算节点移。
2.大数据很乱,清洗和整理数据往往占了数据处理的80%的工作量。

3.大数据团队,建立数据科学家和数据分析师岗位。


参考资料:

1.腾讯大规模hadoop集群实践。http://www.csdn.net/article/2014-02-19/2818473-Tencent-Hadoop


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章