寻找成功新药的过程是药物研发中最难的部分,AI的发展正在打破这一困境。
和生物计算是两个独立且平行的行业。近年来,越来越多的人将它们结合在一起,形成一个融合词,越来越多的企业扎根于这一领域,产生了新的产业。

近日,在“首届中国生物计算大会”上,来自普林斯顿大学数学系和应用数学研究所的E渭南院士做了题为“机器学习与科学计算”的演讲,带来了自己对生物计算的理解。
图|尤因院士
以下为埃韦南院士发言实录,盛辉在不改变初衷的情况下做了修改:
在讨论生物计算之前,我先说说科学计算。我从2015年开始使用深度学习来分析生物数据,当时我做了一个叫Define的软件。当时我就看到了可能性,深度学习从数据分析和科学模型的角度给我们带来了新的机会。
科学计算有两大主题。第一个主题是处理物理模型。刚才的宣传片强调了数学、计算机、统计,却漏掉了最重要的物理。科学的主要模型来自物理学,比如牛顿方程,空空气动力学,弹性力学,电磁场理论,量子力学等等。
薛定谔方程是量子力学中最基本的方程,我们的任务就是求解这类方程。很多人说纳米技术和生物学会带来新的科学模型,至少现在不会。如果有任何新的科学模型,它们将从原始模型中派生出来。
在有效的数学方法出现之前,科学家解决实际问题的方法是简化模型。虽然物理学家发现了基本原理,但在实践中是另外一个,现在依然如此。
直到20世纪50年代,在电子计算机的帮助下才发生了根本性的变化。像我这样的人发展了一系列的方法,比如差分法,有限元法,谱法。有了这些方法,人类第一次实现了用基本原理解决实际问题,如桥梁设计、建筑设计、飞机设计等。对结构力学、航空空航天、天气预报、石油勘探开采等也有很大影响。

然而,仍有许多未解决的问题,包括药物设计。生物设计目前是一个非常实证的学科,结果就是做理论的人,做实验的人,做业务的人三种场景差别很大。为什么会这样?根本原因是维数灾难,即内部变量太多,复杂度随着维数的增加呈指数级增长。
第二个主题是数据处理。数据有很多种,比如DNA,基因组学,蛋白质组学。这些才是这里最关心的。
另一个例子是图像。我们把图像看作数据,它有三个主要任务。首先是成像,也就是反演,通过实验仪器和数据反演内部结构;二是图像处理,即去除图像噪声、处理图像分割、修复等。三是图像识别,即图像识别,也就是在一堆图像中识别猫狗的问题。
在我看来,科学计算最大的问题是把物理模型和数学模型结合起来。从模型出发,可以得到数据,从数据中得到更有效的模型。
举个例子,分子动力学是药物设计最重要的工具之一,但它是基于基本原理的药物设计不可或缺的工具。但难点在于原子之间的相互作用,理论上是通过电子来实现的,要遵循量子力学的原理。
1985年有了划时代的工作,通过量子力学计算原子间的相互作用力,使分子动力学成为可靠的工具。但是效果并不好,只能处理几百个原子。这是一个过于简单的系统。按照机器学习的套路,从量子力学模型中提供数据,在此基础上通过机器学习提供新的、更有效的、同样可靠的模型,从而很好的实现新的套路。
这样,机器学习、科学计算和高性能计算结合在一起,带来了一个数量级的变化。

除此之外,除了分子动力学,我们还开发了一系列对大家制毒有用的方法,比如深度学习。这些工具不能说100%成熟,但至少提供了新的可能性。
最后,我再强调一下AI对于科学的意义。比如自动驾驶,前景很好,但是在传统制造业领域,生物、化学、材料、工程等。会成为人工智能的主战场,也是更大的主战场,这是我们推动的。
包括生物制药、能源材料、先进制造,苏州都有一定优势。近年来,当谈到科学软件和工业软件时,这种新模式将促进新一代科学软件的发展,科学软件的建设将是我们的一个好机会。我希望我能抓住这个机会。
同时将推动科研从“小作坊”模式向“安卓”模式转变。科学家在自己的实验室里工作,是自给自足的“小农作坊”,未来是大平台。在大平台的基础上开发他们感兴趣的应用是平台研究,社区建设将成为重要趋势。我希望我们能一起努力建立一个良好的社区。
谢谢大家!


