图形正在成为科学技术的下一个前沿。
这里的图形是“图”而不是图像,来源于数学中的图论。图是研究人类世界中事物之间关系,并对其进行描述、刻画、分析和计算的技术。

Gartner的报告《2021年数据和分析技术十大趋势》预测,到2025年,图表技术将应用于80%的数据和分析创新。图形技术在金融、制造、能源等领域有着巨大的应用价值和前景,甚至在前沿的脑科学研究中也能看到。
目前,图计算已经成为国内外科技巨头竞争的“新风口”。中国工程院院士、清华大学计算机科学与技术系教授郑为民强调:“现在布局高性能图计算正当其时,相当于抓住了大数据、人工智能和高性能计算产业未来发展的牛鼻子,其影响不可估量。」
陈文光教授做客极客公园《方正公园》“重建”栏目|来源:直播截图
5月30日,在极客公园《重建》的视频直播中,清华大学计算机系教授、蚂蚁集团图计算技术负责人tran van quang与我们聊起了图计算。在他看来,图计算不仅是一种技术,更是一种理解世界的新方式。
图01是认识世界的新方式。
方正朴:图计算中的“图”是什么?它们是来自我们日常生活的图片吗?
陈文光:在英语中,这是比较容易区分的。图片英文是“image”,图形称为“graphics”。图计算对应的英文是指“图形处理”,这里的图实际上来源于数学中的图论。
在图论中,“图”是由节点和边组成的。你可以想象这个节点代表实体,然后边代表实体之间的关系。举个例子,比如我们把微博的用户关系抽象成一个图,账号抽象成图上的一个点,关注关系是图上的一条边。这个边缘其实是有方向的。我们称之为有向图。图的一些没有方向的边叫做无向图。
比如路网,怎么用一个图来表示?以场所,尤其是路口为节点,再以道路本身为边。这时,边也可以有属性,比如距离和宽度。
一些图像数据示例|来源:互联网
可以看出,图形数据可以很好地描述事物之间的关系,包括描述关系的方向和属性。更重要的是,需要注意的是,这种图可能非常大。比如社交网络账号的图,可能是一个有几亿个节点,几百亿条边的巨大规模。
方正朴:你之前提到“绘画是认识世界的新方式”,那么我们之前认识世界的方式是什么?数字作为认识世界的方式,先进在哪里?
Tran van quang:大学数据结构的课上,大家开始学的链表或者线性表,基本都是一维结构。然后我了解了树,树的用途很广。比如播树,我们今天的直播,一个视频流会分发给几千个人,不是一个一个分,而是先分一部分,再通过他们分其他的,这样就一路分下去了。树是一种非常有用的数据结构,但是它有一个限制,就是它上面不能有环。如果有一个环,它不可能是叫树,而一个图可以有一个环。
从数据结构发展的角度来看,图是事物之间关系的自然表达。当用它来表示关联时,它的描述能力比链表和树强得多。所以用图来认识世界是一种更直接更高级的方式,尤其是用来认识关系的时候。
传统的数据库叫做关系数据库,但实际上它的数据组织形式并不是关系原生的,而是以表的形式组织的,也就是一个个的表,然后通过表上的键连接起来。其实关系数据库应该叫表数据库,而图数据库应该改叫关系数据库。
方正朴:什么是图计算?和图形数据库有什么关系?
Tran van quang:图计算有广义和狭义之分。
狭义的图计算是指在固定的图上进行各种计算。比如路网图基本稳定,修路需要很长时间。我们可以在路网图上进行一些计算操作,比如寻找从水立方到故宫的最短路径,这是一个典型的可以通过地图计算解决的问题。
而广义的图计算可以做的事情更多,是指基于图数据的各种处理。比如这张图在变。在路网地图上,如果只把道路的宽度作为边的属性,可能会保持很长一段时间不变,但是如果我们把边道路的拥堵程度作为属性,地图是在变化的。相对于流图计算,数据是以流的形式源源不断的来,该如何处理。这些都属于广义图计算范畴。
广义的图形计算可以理解为包括图形数据库。
图2计算的发展需要技术和需求双轮驱动。
创始人Park:你在之前的采访中提到,你见过《编译原理》的合著者Monica Ram。她给了你很多感动和启发。好奇这具体指的是什么?
Tran van quang:我从2003年开始在清华大学工作,最初的学术方向是优化编译器。我们在PLDI国际峰会上发表了一篇论文。论文能被录用,说明大家还是认可这个作品的,但是它最后的效果如何呢?当时CPU基准测试的性能提升只有1%左右。
这个技术是有用的,但是总体影响没那么大。所以后来我转了另一个方向做程序分析。
之后我遇到了莫妮卡·拉姆,她说了一句对我影响很大的话:“好的软件不是通过程序分析和错误检查找到的,而是由正确的人构建的”。也就是说,一个好的软件应该是由合适的人从零开始构建的,程序分析实际上是在做辅助优化,并没有解决整个系统中最重要的问题。这项工作有用,但没那么有用。
受这种思想的影响,我从零开始走上了构建高级软件系统的道路。2010年开始一起玩图计算相关的学术研究。
方正朴:之前在清华做图计算相关的研究,为什么要创业?
Tran van quang:我们在图形计算方面取得了一些积极的成果。16年我们研究了一个分布式内存的图计算系统,比当时开源软件普遍使用的图计算框架GraphX快100倍左右,内存需求只有它的1/10左右。这就奠定了良好的基础。
当时就想弄清楚怎么做更好。我发现至少到2016年,我们自己开发的系统软件还是很少,所以我一直在想为什么?
我在清华培养了十几个博士生,他们写软件都很优秀。我发现他们毕业后主要是进了实业。但是他们的很多工作可能是在一个大型的现有软件上做一些增量改进。
所以我当时就想,我们已经有很好的软件基础了,比现有的产品领先一两个数量级。如果能成立公司,可以把优秀的毕业生聚集在一起,不断完善软件,然后就可以推广使用了。
这是为了探讨和回答我一直以来的疑问:我们自己做了系统软件,但是怎么用呢?所以当时就建立了费马科技。
创始人朴:费马科技当时做的很好。你为什么选择加入蚂蚁?
Tran van quang:如果你想真正发现图计算,第一步是解决它:制作它;第二步:有人用;第三步:大规模使用。当时困扰我的问题是如何从某人身上实现大规模使用。
到2020年,我们会发现自己的局限性。费马团队总体上技术很强,但我们在管理和营销方面相对较弱,尤其是后者。
虽然取得了一些成绩,但是也有一些标杆客户,比如京东金融、国家电网、民生银行等。但整体商业化路径不明,没有办法大规模推广。
当时觉得图计算要想获得更好的发展,还是需要技术和场景的双轮驱动。当时上学的时候,我们更多的是从技术驱动的角度去推动。
蚂蚁作为一家金融科技公司,对图计算场景的需求是全球领先的,而且当时蚂蚁本身在图计算方面也有很好的研究基础。所以,我们决定加入蚂蚁。
图03计算方兴未艾。
方正朴:图计算现在处于一个什么样的发展阶段?
陈文光:如果我用一个词来简单描述,那应该是方兴未艾。
数据库的普及度远高于其他数据库技术,增长了11倍|来源:互联网
图各行业都有一些典型案例,比如金融、证券、公共卫生。大家可能会密切关注。例如,在数据库流行度排名网站DB-Engines上,在过去十年中,图形数据库的关注度一直高于其他数据库。另一方面,一些功能成熟的产品也出现了。

我觉得图算整体还处于比较初级的阶段,它的整个产品形态目前还没有100%决定。如果对比关系数据库,无论从技术深度还是应用广度来看,图计算还是有很大差距的。
方正朴:图计算有哪些具体的行业应用?
陈文光:我先从金融风险控制的例子来介绍一下。
例如,在公司担保的情况下。给一个企业贷款,然后这个企业说我向企业A要担保,然后企业A向企业B要担保,然后企业B向企业C要担保,最后发现他们形成了一个环。那么这个担保是无效的,因为你一层一层下来,又回到原来那个陷入困境的公司。
可以抽象为在图上找环的问题。
要发现这个问题,传统的方法也不是不可能。比如有的银行使用MapReduce大数据处理方法,但是在企业担保场景下,它只能找到长度为6的环,而找不到更长的环。
那么像现金分析这样的场景,不仅需要找环,还需要非常快。用户去刷信用卡,肯定不想后台数两个小时才说有风险。
在金融场景中,“实时”更难。2020年双11,蚂蚁最高交易数为每秒58万笔。在如此高的吞吐率下检测异常,以确保事务能够按时完成,这是一个巨大的挑战。在有很多蚂蚁的风控场景下,我们希望在20毫秒内完成图计算。
图的应用不仅仅是在金融方面,还包括复杂电网的故障分析、电商产品的智能推荐、紧密连接、次紧密连接以及疫情期间的time 空同伴发现。另外,日常生活中大家在蚂蚁森林偷能量,也是用图数据库管理的。
方正朴:目前图计算广泛应用的行业有哪些特点?
Tran van quang:首先,行业的数字化要有一定的基础,能够产生大量的数据。其次,有复杂关系分析的需求,数据不是孤立的。比如目前物联网产生的一些数据,每个传感器按照时间上传一些数据,所以这些可能是一个时间序列数据库处理的。
总的来说,随着整个行业数字化水平的加深,复杂关联分析的需求进一步增加,图形计算会有更好的发展。
方正朴:将图计算融入AI可以解决什么样的问题?图与AI的结合目前发展如何?
Tran van quang:人工智能和图形计算融合产生的图形神经网络是目前发展迅速的重要领域。
人或各种实体之间的关系数据如何与神经网络结合?图形神经网络使用表示学习。通过图的结构,每个节点或边用一个向量表示,然后由神经网络进一步处理。这拓展了神经网络的应用范围,将实体之间的关系引入到AI的处理中。
目前,图形神经网络已经得到了广泛的应用。我们将图神经网络系统应用到芝麻信用中,提高了信用评分的准确性,取得了良好的效果。
方正朴:我知道你在尝试用图计算来模拟神经元。你想解决什么样的问题?为什么认为图计算有机会解决脑科学领域的相关问题?
Tran van quang:从科学发现的范式来看,第一范式是实验科学,第二范式是理论科学,第三范式实际上是基于模拟的方法。
大脑作为研究对象,受到伦理和法律的限制,直接研究起来非常困难,缺乏实验方法和手段。模拟是理解这一复杂系统运作的基本方法。
我们可以通过模拟来模拟大脑背后的机制。也许最后的结果是错的,但如果是对的,就验证了一个猜想。从这个角度来说,为脑科学和神经科学的研究提供了一种降低实验费用、扩大研究范围的途径。
方正朴:目前进展如何?
陈文光:其实这个方向国内外都很关注。欧洲有一个叫蓝脑计划,用超级计算机模拟人脑。但实际上,我们观察的最大难点是神经科学和计算机科学的交叉和融合。
所以我们目前在做一件事,和实验神经科学家合作,基于小鼠大脑的听觉,探索以下两个问题。首先,知道单个神经元应该模拟什么是合适的。如果粒度太粗,最终模拟的行为会是错误的;如果粒度太细,模拟的规模将受到限制。第二是神经元是如何连接的。其实这个很复杂,因为现在脑科学发现神经元的连接是不断产生和消失的。
我们希望先找到这两个问题的合理解释,然后再做大脑模拟。目前,整个项目仍在进行中。
图04计算的未来与产学研的思考
方正朴:目前,图计算的核心挑战是什么?
陈文光:我认为最大的挑战是人才和市场发展能否形成正反馈。做好一个产品,它可以服务很多人。大家觉得真的有用,市场扩大了,人才就会被吸引进来,进一步完善产品,然后服务更大的市场。
正迭代非常重要。现在,既有大公司,也有一些中等规模的创业公司。那么谁能持续吸引这个领域的人,扩大自己的市场服务对象呢?我觉得这可能是需要进一步解决的核心问题。
方正朴:目前图计算的全球竞争情况如何?蚂蚁大概处于什么样的位置?
Tran van quang:图计算的竞争还是很激烈的。大概有好几种。一个是Oracle、SAP这样的传统数据库巨头。事实上,他们并不专门做单一的图计算产品,但他们会将图计算与他们的关系数据库产品相结合,以扩展关系数据库。
另一种是独立产品公司。比如Neo4j是第一个建立图计算和图数据库的公司,其开源版本在国际上影响很大。TigerGraph也是一家比较成熟的商业图形数据库公司。另外,国内的邻建技术其实也做得不错。
嗯,蚂蚁,我们在服务内部业务方面做得很好。总的来说,我们在图计算系统的完备性和深度上还是有一定优势的,但是在产品的通用化上,也就是如何服务外部客户上有了很大的提升空。
方正朴:其实你在推动图计算的发展上有非常浓厚的“产学研”色彩。你如何看待目前产学研中的一些问题?
陈文广:我只能说,从我个人的经历和观察,我想分享一些看法。
很多老师的学术研究比十年前高了很多。我们可以看到,很多年轻教师都能在国际顶级计算机会议上发表论文,甚至连续发表几篇论文。
这初步解决了被制造出来的问题,后来我想我要解决的是可以使用的问题。解决这个问题有几种途径。一条路线是做创业公司,但这是一条相对直接但难度极高的路线。
另一种是知识产权转让,将研究成果转化为专利,然后交给企业使用。如果看最近10年的数据,这个方向会比以前好,但可能没有大家预期的那么好。
我觉得主要有两个原因:一是我们大学的老师往往不知道企业遇到的现实问题的核心是什么,想做研究的时候也没有相关的数据资源做支撑。站在一个企业的角度,他希望他的老师能帮他解决一个眼前的问题,而他在学术上更关心的根本问题往往不容易提炼出来。即使想和高校合作,问题本身也很难界定,合规提供数据也很难。
所以这就会导致学术研究和企业需求出现一定程度的脱节。
方正朴:你对解决方案有什么想法?
Tran van quang:目前我们可以看到,像华为、阿里、蚂蚁这样的人,越来越能够以更加开放的心态与学术界合作。
我可以给你举几个例子。日前,蚂蚁开放了部分自己的专利。此外,它还领导了图形数据库的国际基准测试计划。中国的几家图形数据库制造商和一些像intel这样的核心外国公司参加了会议。
这项工作的核心是给出一个测试标准,将内部业务和数据的特征抽象成数据模型和典型查询。数据生成器生成的图形数据在统计上与内部的一些真实数据是等价的,但是避免了数据隐私的问题。

这个东西有望在促进产学研方面有更好的效果。企业界把自己的需求提炼出来,变成可测量的问题,然后鼓励学术界在反映企业界真实情况的数据和场景下进行研究。
方正朴:你对推动科研高水平创新有什么想法?
Tran van quang:最近可以看到学校在征集从0到1的原创题。我觉得这其实是我们国家科技发展非常重要的一步。不是我们每个人都要提出一个问题,然后自己解决,这就叫成就。其实问好问题很重要。
如果问题的定义和目标都是别人,我们只会在后面优化。事实上,将很难实现真正的高水平创新。
我认为现在是我们更好地定义这个问题的时候了。


