听孟小峰教授报告有感

今天下午在太原理工大学听取了孟小峰教授的报告,报告的题目为:云计算与大数据。

孟小峰教授是中国人民大学信息学院的副院长,在大数据领域带领其团队已经有了数年的积累,对于什么是大数据以及大数据的意义有着自己的实践与理解,对于大数据的获取、数据之间联系的建立以及数据信息的诠释有着实际的体会。在此就把通过这次报告我所得到的写下来,同时把我的疑问也记录下来。

1,一个新见解:大数据是一种需求。

之前我一直肤浅的理解大数据是一种技术,而这次报告一开始,孟教授就阐述了这个观点,即:大数据是一种需求。

随着网络的发展,人们在使用网络的过程中已经并且正在产生大量数据,这些数据正如在殷墟发现的甲骨文一般,蕴藏着重要的价值,但我们却无从下手去建立数据之间的联系,从而获得有价值的信息。在这个背景下,对于这些数据的分析的需求就造就了大数据这种技术,所以说,大数据是一种需求。

2,孟教授对于推动技术进步力量的认识

编程范式的发展、实际需求的推动以及硬件的发展。在孟教授看来,这三点是推动技术进步的因素。

在传统的CS模式中,C/C++所代表的编程范式解决了当时的需求,在网络时代,Java所代表的编程范式所面对的是BS的问题,而面对现在的对于海量数据的处理需求,直接促进产生了大数据相关的技术。

在报告会中,孟教授格外强调了硬件的发展对于技术的重要性,孟教授有一句话大意是这样的:起初我们在编程时不得不接触硬件,之后,我们的编程仿佛是在一个虚拟的环境中,不用去关心硬件,那么现在,我们必须重新去认识硬件,利用硬件来提高我们处理的速度。

孟教授介绍了关于现在的存储设备的变革,包括了非易失性的内存,这必将带来编程上的改变,只有改变现在的编程范式,才能更好地与现在的设备结合,提高性能,尤其是对于性能有要求的数据方面的操作。

3,数据源的改变

起初,数据是被动的,是在公司机构的日常生产中被动产生的(运营式),这种数据格式固定,在处理之前就有着明确的含义与使用方式;然后,数据是主动产生的,是人们借由互联网主动记录的,比如你的状态、照片等等(互联网),随后的发展,数据是自动产生的(感知网),而这种自动产生的大量数据,在孟教授看来,正是大数据的真正驱动力。数据的源变的复杂多样,这就意味着数据的格式变得不统一。以前 ,对于数据信息的获取就仿佛是使用网在池塘中捕鱼,池塘中的鱼是放养的,大小差不多,一网下去就会捞起不少,而现在对于数据中有价值信息的获取则是在大海中捕鱼,大海中的鱼大小不一,使用相同的网子必然导致捞起大的就错过小的,反之亦然。这就使得我们对于数据信息的抽取技术的变革,针对不同的数据使用不同的网子(有意思的点:孟教授的一个关于大数据分析的应用实现了自动生成数据抽取程序《关于定性分析大数据的应用》)。

4,大数据下编程范式的改变

之前的数据库编程范式是把会产生的数据已经做好了对应的格式,在使用过程中从产生到处理都是基于已经预定义好的数据规范。在大数据时代,数据的格式千差万别,多种多样,使用之前的编程范式已经无法解决现在的问题。面对现在的状况,新的编程范式已经由预定规律改变成了发现规律,即通过对已经获得的数据的分析发现数据的格式上的规律,以便进行下一步的处理。也就是说,现在的大数据模式已经成为了先有数据,后有模式,再使用发现的模式处理新的数据。
5,孟教授关于其成果的介绍

孟教授介绍了其带领团队在大数据领域的成果。我的疑惑也在这个地方。孟教授及其团队在大数据分析过程中,采用了一种数据抽样的方法,即,把现有的海量数据首先根据特征进行抽样,然后去分析抽取出的数据,在预置的置信区间中分析大数据,从而实现分析速度的提高。而这个预置区间就是一个可以接受的准确度。我的体会就是,孟教授通过采用这种方法以定性的方式分析大数据,来提供一些决策性的信息。但是,孟教授同时也介绍道,Google的无人汽车也是大数据的应用,那么,对于这种大数据应用,显然定性的分析是不可行的,那么仍把其归于大数据的范围,是不是把大数据的概念纠缠了?这个Google的无人车大数据与传统的多信息融合网络有什么区别(待查资料)?最后体会总觉得大数据这个概念有些模糊,应用领域有些过于宽泛。

6,关键点

大数据的关键点:数据集成、数据抽取、建立数据间的联系、分析数据的含义。

7,其他点,待查阅资料

Stream Process

包括:Storm(Twitter) S4(Yahoo!)

 

ScholarSpace

 

Online Aggregation

 

CCF大数据会议

 

数据科学家

8,网页

http://idke.ruc.edu.cn/

9,建议切入点

可以选择一类数据,开发对于这类数据的大数据分析工具来切入这个领域。

 

凭记忆整理,难免有纰漏,敬请谅解!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章