大数据:人文社科研究的新视角
通讯员:翁亮子 实习生:王寒升
编者按:为提高文科教师对大数据的认识,近日,人文社会科学研究院邀请国际软件学院院长崔晓晖作专题报告,百余名来自文科学院(系)、研究机构的科研工作者与会。报告题为《大数据背景下的人文社会科学研究》,笔者特将主要内容摘录如下,以期为科研工作者提供新思路。
什么是大数据
大数据即所涉及的数据量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助决策的信息。用传统算法和数据库系统可以处理的海量数据不算大数据。大数据已成为社会各界关注的新焦点,大数据时代已然来临。
大数据的特点,总体上可以用4V来概括,即:Volume(大量)、Variety(多样)、Value(价值)、Velocity(高速)。其数据特点主要有:多元异构高噪、高噪声、开放易获得、交互性、时效性等。而分析特点则包括:重发现非实证、重关系非因果、突发性、重预测和偏社会等。
大数据的主要作用是:
1、基于大数据的疾病预测:谷歌发现,疾病的爆发与人们在网页上的相关搜索高度相关,如流感高发期关于流感的搜索显著增多,过敏高发期关于过敏的搜索显著增多,传统的疾病监测数据需要1周左右的时间发布,谷歌设计的Flu Trends 可实时的对疾病爆发进行预测, 提升反应速度 。
2、大数据医疗:中国学者利用文本挖掘技术从海量的中成药文献中发现治疗慢性胃炎的用药规律,协助规范中西医联合治疗方案。
3、大数据农业:Climate公司从美国气象局获得几十年的天气数据,与各地的农业状况、土壤状况关联起来,帮助有需求的农场主预测未来农作物收成与市场。
4、大数据金融:2008年初,阿里巴巴通过对其平台上整个买家询盘数急剧下滑现象分析预测欧美对中国采购将下滑,提前半年从询盘上推断出世界贸易发生变化。
总而言之,在以数据为王的大数据时代,大数据伴随着云计算、物联网、移动互联网的发展,正在对全球经济社会产生巨大的影响。
人文社会科学的大数据研究
以大数据为代表的数据资源相对于数字文本、数字文献等数字信息资源,来源更加广泛,数据粒度更小,记录单元更加碎片化,结构更加多元化。机器生成数据也显著多于人工生成数据,信息质量参差不齐,对资料的汇集、保存和综合利用更加依赖计算机的辅助。人文社会科学越来越需要依赖计算机对研究过程的支撑。
人文社会科学的大数据研究基本特征是:
1、所涉及资料均大大超过一般的阅读、分析和理解所能处理的范畴,是以往“不可研究”或“难以研究”的,大数据分析方法的出现为人文社会科学提供了新的研究空间。
2、一般引入计算分析方法,是通过大量数据的汇集而“自动涌现”的,其理论的获得不同于传统人文社会科学研究。
3、构建了可持续完善和丰富的数据集和分析工具,可用性、共享性、重用性、协作性大大增强,为人文社会科学学者提供大规模协作的可能。
4、均具有跨学科特征。数字人文研究需要汇集专业领域技能、数据管理技能、数据分析技能和项目协作技能,因此这类项目往往由学科跨度较大的专业学者共同完成。
大数据的难点
1、传统的存储结构需要升级为扩展性的存储架构,否则无法适应现有的大数据存储。同时,对分布式的文件系统支撑,需要进行实时流处理,而传统的数据分析更多的是结构化,数据量是有限的,集中式处理、批量处理,也无法满足需要。
2、没有速度,再有价值的大数据也只能是一堆无法流通的钞票。传统的数据分析能力,无法处理这么大量的数据。
3、由于分析手段的限制,取样时的样本数不够大,不能充分利用所有的数据,无形中破坏了信息的完整性;受限于分析能力而无法获取复杂问题的答案,受限于时间而不得不采用某项简单的建模技术。
(编辑:付晓歌)