大数据发展产生的技术

核心提示大数据是指无法在现有时间概念框架中用传统的数字技术工具进行感知、采集、管理、处理和服务的海量数据集合,具有容量大、产生速度快、类型繁多、信息价值大、冗余信息多四个特征。舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中指出,“大数据时

大数据是指在现有的时间概念框架下,传统数字技术工具无法感知、收集、管理、处理和服务的海量数据集合。它具有容量大、生成速度快、类型多样、信息价值大、信息冗余四大特点。勋伯格在他的《大数据时代:生活、工作和思维的巨大变革》一书中指出,“大数据时代的到来必将改变我们未来的生活、工作和思维模式”。同时,勋伯格还提出了通过对大数据的分析和挖掘,探索事物的相关性,进而预测事物规律的研究方法。借助关联概念,构建了一种以海量数据计算、寻找关联、承认模糊性为特征的新的认知方法和思维方式。

当前,大数据技术已经影响到社会生活的方方面面,也给科学知识的生产带来了革命性的影响。基于大数据技术的科学知识生产模式,将科学研究对象的范围扩大到各种终端设备实时采集的海量数据,然后利用计算机进行集中管理和统计分析,进而挖掘事物的内在联系,形成所谓的数据密集型科学研究,这也是Hey等人提出的科学研究“第四范式”,在此背景下, 大数据处理系统逐渐成为新一代科研基础设施,知识生产模式也逐渐从假设驱动向数据驱动转变,并广泛应用于高能物理、环境监测、天文探测、生物医学等领域的研究。 总的来说,大数据时代的科学知识生产呈现出以下几大变化。

第一,逐步搭建基于大数据的研究服务平台。依托电子、通信、计算机等技术的快速发展,特别是各种监测、监控、传感、数据采集终端和超级计算机的广泛应用,基于大数据采集、存储、传输、计算、分析和集成的新型科研服务平台正在逐步构建。现在传统的通过精确计算少量具体数据来寻求事物之间因果关系的方法,已经无法应对以指数速度涌现的大规模数据集。比如深海探测器、医疗记录仪、cosmic 空空间站、太空卫星、大型强子对撞机等设备,为当代科学研究提供了全新的素材和研究对象。同时,产生的海量数据已经无法用传统的计算方法进行统计分析。在这方面,许多国家已经开始构建基于大数据的新型科研服务平台。

第二,提出科学知识生产的新逻辑途径。从逻辑实证主义出发,精确计算数据,寻求事物之间的因果关系,是科学家遵守的研究方法。然而,在大数据技术的环境下,海量的数据集超出了我们的理解甚至想象,这些数据中有相当一部分是重复的,甚至是无用的。对海量数据进行统计分析,挖掘事物之间的相关性,进而对未来进行科学预测和分析,得出新的结论,已经成为科学发现新的逻辑通道。在这种计算模式下,科学家不再需要深入分析每个数据与其他数据之间的关系,也不需要探究个别甚至局部数据背后的科学事实。而是需要他们从宏观的角度去观察、计算、分析海量数据中蕴含的相关性,进而探索相关性背后的内在规律。虽然这些规律有些不是必然的,但有统计学意义的结论仍然具有相当的科学价值。而且,这种“是什么”的现象背后,隐藏着“为什么”的问题,引发我们进一步的探索。从这个意义上说,大数据实际上并没有否定科学发现中的因果逻辑,而是对因果逻辑的补充甚至超越。

第三,塑造新的科学共同体合作模式。在大数据技术背景下,科研数据可以深度共享,高校、科研机构、高科技企业之间的相互依赖程度进一步提升。科学家可以在一定程度上共享甚至协作处理海量科研数据,甚至公众也可以参与新知识的生产。大数据技术正在不断构建新的科学共同体合作模式。一方面,数据共享让科学界更有凝聚力;另一方面,科学共同体之间的相互依存不断增加,合作方式不断拓展。现在各个领域的科学家都应该能够获取和使用自己领域甚至其他领域的各种非结构化数据。将大数据转化为科研对象,及时跟踪、获取、共享和利用各类数据的能力成为影响科学家知识生产能力的重要因素,这也内在要求不同领域的科学家建立高效的合作机制。例如,对海洋的观测需要计算机、海洋学、气象学等领域科学家的合作。,共同处理连续模型设计、自动数据管理控制和校准、数据分析、计算、可视化等过程的协作。科学共同体之间的合作不仅避免了重复劳动,而且大大提高了科学研究的效率和科学研究成果的社会展示。

第四,在全球范围内加强知识生产的协作。在科学知识生产网络化、全球化的背景下,单个科研机构很难拥有大数据知识生产的全部资源,这就要求不同国家的科学界在知识产权保护的前提下建立必要的合作共享关系。在一定范围内共享各类大型仪器设备、海量数据和技术方案,不仅可以节省大型昂贵设备的购置成本,还可以降低数据获取和处理的时间成本,从而提高学术资源在全球范围内的有效配置。比如微软全球望远镜,它是国际“虚拟天文台”的一部分,可以获得普通望远镜无法比拟的海量数据,它可以与天文学家常用的定量研究方法无缝链接。数据转化为科研对象,大数据的收集、获取、分析和计算成为全球科学界的共同事业。未来,科学知识在全球范围内的协同生产将成为科学研究的新常态。

历史科学研究经历了以观察、假设和验证为基础的实证科学,以理论分析、概括和总结为基础的理论科学,以建模、计算和分析为基础的计算科学三个阶段。如今,大数据技术正在推动当代科学研究进入所谓的大数据科学时期,即通过数据的收集、统计和分析来寻求相关规律。从假设驱动到数据驱动,从发现因果关系到寻求关联,开辟了科学知识生产的新逻辑通道。面对数据的爆炸式增长,大数据计算模式也是解决海量数据与有限数据处理能力之间矛盾的有效途径。虽然这种模式能否作为科学知识生产的新范式仍是一个值得进一步探讨的问题,但我们可以看到,基于大数据的知识生产应用日益广泛和深入,大数据的收集、计算和分析能力也成为科研机构知识生产能力的重要方面。同时,数据成为科学研究的直接对象,使得科学研究中科学理论与技术手段的界限日益模糊,科学能力与技术能力不断转化,共同推动大数据知识生产能力的快速提升。

面对大数据技术带来的科学知识生产新模式,我们应该加强对一些大数据项目的支持,建立一批先进完整的大数据技术服务平台,加大对开展大数据项目的科研院所和高新技术企业的支持,鼓励科学界积极开展国际交流与合作,以提升科学界的知识生产能力,在新一轮科技竞争中抢占制高点。加强国家层面的政策设计,构建完善的大数据技术平台,促进科学界与产业界的充分合作,促进科技成果的快速转化,既是提升科技创新能力的必由之路,也是建设创新型国家的重要目标和内容。

来源:中国社会科学网-中国社会科学期刊作者:丁大伟

 
友情链接
鄂ICP备19019357号-22