国产数据库赛道终于要卷起来了。
尤其是在全球经济增长预期持续下行、科技创新引擎更难挖掘的当下。但这并不影响数据库赛道创业者的热情。

根据中国信通院数据库发展研究报告给出的数据,2020年全球数据库市场规模为671亿美元,其中中国数据库市场规模为35亿美元,占全球的5.2%。根据招商的一项研究,金融、电信、政务、制造、互联网作为数据库产品和服务的前5大行业,合计市场份额超过80%,2020年采购总额将超过192亿元。
中国已经成为全球重要的数据库市场。在这样的市场中,有基于云时代潮流的创新企业,如阿里云PolarDB、华为GaussDB、PingCAP等。从2000年开始逐步走向成熟的,如达蒙、NPC金仓、南大通用、神州通用等。按其应用场景可分为:基于开源MySQL技术路线或MySQL兼容的关系数据库、图形数据库、时间序列数据库、文本搜索等。
信通院的上述研究报告还指出,中国金融行业各类数据库应用的比例为:Oracle 55%,DB2 19%,MySQL 13%,PostgreSQL 6%,其他7%。
以阿里为代表的早期互联网公司曾经掀起一股“去IOE”的风潮,其中“去O”就是用MySQL取代Oracle。或者基于MySQL的二次改造,或者更多兼容MySQL的技术路线,以及相应的数据库社区,其实在国内已经成熟多年。
但是在关系数据库领域,商业数据库如Oracle、SQL server、IBM DB2等。继续占据主导地位,国产数据库异军突起也不是那么容易的。
2021年,国有大银行之一的邮储银行发布收购交易公告,目标为1.45亿元。竞标者和中标者只有甲骨文。其实不仅仅是邮储银行,还有银行、保险等金融行业、国企等。,仍然每年为甲骨文产品支付高额费用,以支撑其核心业务的平稳运行。
据石原子科技创始人叶建林介绍:“MySQL是一个开源数据库,主要是为OLTP场景设计的。其开源社区的研发方向侧重于加强其事务处理能力,如提高单核性能、多核可扩展性、增强集群能力等。但就处理大数据量复杂查询所需的能力而言,如优化器处理子查询的能力、高性能运算符HashJoin、SQL并行执行等。,社区被置于相对较低的优先级,因此MySQL的数据分析能力的改进进展缓慢。”
原子科技创始人叶建林
这也是StoneDB数据库产品想要突破的地方,试图建立一个完全兼容MySQL的集成HTAP数据库。
原子创业之初,已经吸收了很多数据库架构师、资深行业专家、连续创业者。“相比成熟的大公司,我们还是比我们小,但是相比其他创业公司,我们有非常强的快速执行能力,还有一心一图一战的能力。”目前,石原子是中国信通院分布式系统稳定性实验室成员单位,中国信通院公布的第十四批“可信数据库”,浙江省唯一入围2022年工信部新创的数据库厂商。
中小型市场的服务来源
早期客户案例的积累对企业产品研发有重要影响。一开始就锁定某个场景,会大大降低企业的试错成本,但也可能是国产数据库面对商业和社区生态竞争的无奈之举。
在此之前,石的原子小组曾做过一些深入的研究。通过走访国内上百家企业,他们发现了一个很有意思的现象:目前所有的数据库产品都服务于大型企业客户。但这并不意味着中小企业不需要数据库。相反,后面的企业有以下特点:团队高管有一定的技术背景,平台在线人数在200人以上,有数据驱动业务的意识。同时,大多数企业也选择MySQL作为数据库基础。
在叶建林看来,这也是最有潜力的科技型创业公司。可以说,使用MySQL的中小企业用户才是StoneDB的潜在用户。
“大部分互联网公司,每年在数据库服务上花费不到10万元的客户,一般都会选择MySQL作为首选数据库。只有行业顶端的企业,每年数据库支出几千万,才会有更多的选择。企业传统的非核心数据,上了云也会用MySQL、redis、MongoDB。”
然而,随着数据量和业务多态性的增加,OLAP集成的场景越来越多,MySQL的缺点也越来越突出。解决类似问题,我们通常使用MySQL的binlog同步机制或者ETL方法提取到相应的分析平台,然后使用Spark、Impala等计算引擎做计算,提供AP业务支持。然而,这种解决方案具有同步延迟高、架构复杂、操作和维护困难以及成本高的缺点。HTAP数据库应运而生,并成为学术界和工业界关注的焦点。
StoneDB最终选择改用StoneDB的数据库架构的原因有很多,但有以下几个共性:一是规模小;二是需要基于业务数据的分析,承受不了几个仓库的重量。
叶建林表示,“StoneDB的出现还在于,目前市场上还没有能够满足这部分客户需求的产品和解决方案。”
但对AP能力要求较高的金融场景,短时间内应该不是StoneDB的主要考虑。
在代码层面解决问题,以最小的成本获得MySQL原生AP能力。
对于一体化HTAP数据库的技术难度,叶建林明确指出:“如何在系统运行过程中最大限度地减少OLTP和OLAP之间的相互干扰,是HTAP系统设计中的一个难题。”

考虑到Gartner对HTAP定义的本质,HTAP实际上是通过内存计算实现的,可以使分析业务和交易业务共享相同的数据。通过消除数据库和数据仓库之间的数据迁移,可以分析实时事务数据并了解情况,而不仅仅是数据的后期分析。
目前,传统的解决方案是在原有OLTP系统的基础上引入独立的OLAP数据库,然后通过一些同步工具将OLTP数据同步到OLAP数据库,完成OLAP数据库中的业务数据分析。该方案有其优点,但目前存在诸多问题,如:1)系统复杂,稳定性难以保证;2)数据同步环节长,工具支持不全,数据同步环节经常中断,影响下游业务;3)对于高并发/大事务,消息队列往往消息很多,数据延迟不可控;4)OLAP数据库引入后,开发语言与原有业务不一致导致的运营成本和学习成本。总之,同步工具+消息队列+独立AP数据库的方案,在稳定性、实时性、管理成本上都存在很多问题。
“客户期待HTAP数据库解决方案具有更好的生态兼容性、更简单的架构、更低的数据延迟和更简单的使用。”叶建林指出。
为此,StoneDB的策略是采用集成架构部署,即所有代码都建立在MySQL原生代码的基础上,而不是由第三方OLAP系统打包。
对于客户来说,无需任何业务转换、语法调整或数据迁移,就可以将列表和保存的分析能力无缝叠加在原有的MySQL数据库上。与传统的MySQL内存相比,性能最高可提升100倍,接近业界主流专业OLAP系统的能力。同时,它还可以降低客户的总体拥有成本。传统上,需要两个系统来解决OLTP和OLAP需求,包括OLAP采购成本、计算和存储、同步链路成本和消息队列成本。
至于如何实现HTAP集成架构,避免传统的MySQL、ClickHouse、Elastic Search等系统的积木带来的数据同步延迟,可以尝试举例回答一二。
以一家SaaS CRM厂商的Stone Atom服务为例。其运营系统可以实时获取订单数据,为其客户提供实时运营管理能力。为此会采用多租户的应用架构,按库划分租户,单个表的数量可以达到上亿。
在此之前,该公司曾尝试过OLTP+OLAP两个独立系统的方案。OLTP使用MySQL,OLAP使用ClickHouse,通过ClickHouse的原始生物表将MySQL数据同步到ClickHouse,分析业务在ClickHouse完成。
但如上所述,该方案在实际使用中存在诸多问题,包括稳定性、性能瓶颈、运维成本等。
NEDB的出现让原有的MySQL+弹性搜索+ClickHouse的系统架构变得“多余”。
“这种架构最大的问题是太复杂了。你需要建立一个集群来提高你的数据分析能力,建立和维护的成本很高。”叶建林指出。
从产品到最终交付有多远?
作为一个年轻的创业公司,从运营开源生态到开源商业化,开发闭源产品,再到成功实现交付,还有很长的路要走,需要时间的积累。前提之一是如何准确把握从开发者到企业客户的需求。
在开源层面,StoneDB最近宣布将完全开源其核心代码和相关生态工具,并遵循GPL-2.0开源协议。走基础软件开源路线有其优势,有助于推动软件创新,但目前国内开源商业化也面临很大挑战。
StoneDB的策略是先开放内核,再为StoneDB增加AP小集群的能力。下一步是构建基于云基础设施的HTAP服务,利用云基础设施+云原生的共享存储构建整个HTAP的应用层,真正让MySQL具备大规模数据分析处理能力。
在这个过程中,StoneDB还将构建数据库生态系统,建立开发者社区,引入上下游合作伙伴,满足市场需求。
在商业化层面,史Atom希望以模式构建商业模式:通过好的产品满足客户需求,做数据服务,然后让客户完成“自助服务”。同时,团队会根据产品数据反馈,进行数据分析,推动增长。
在叶建林看来,业内很少有团队想着塑造PLG模式,团队也希望打造一个产品驱动的增长飞轮。
据了解,在StoneDB之前,Stone Atom还开发了企业级云原生数据仓库AtomData。从仓库到数据库,其实都有叶建林对企业定位和发展的深度思考。
“我们的目标是全场景数据服务提供商,数据仓库和数据库分发覆盖不同的应用场景。”
在场景的适用性上,差异是显而易见的。StoneDB基于其TP能力扩展了AP,因此不适合汇总分析多源数据。它的优势是时效性高,而AtomData适合对多源、异构、海量的数据进行汇总分析,不适合时效性要求高的场景。

“这两款产品就像物联网中云与边缘的关系。有云计算的需求,当然也会有边缘计算的需求。当然,带来的价值也是云和边缘的全链条覆盖。”
这就导致了两者在面向客户层面的交集,以及各自独立的区间。同时,他们可以在前期为企业构建不同的价值。“前者更多的是生态价值和品牌价值,后者带来的是商业价值。”
采访中,叶建林毫不掩饰自己对技术、产品、商业、开源生态的态度和策略。他也希望自己能做好面向国际市场的出海准备,基于国内市场特点带来的数据量大、场景复杂等优势来锤炼自己的产品,形成出海壁垒。
业界一直认为,没有大客户和打磨的场景,国产数据库可能达不到取代甲骨文的高度。除了新创等政策要求,企业客户做数据库迁移还是要下很大的决心和努力,前方可能还有无数的挑战。
但更大的问题是,数据库轨道变得越来越庞大。在新赛道和新兴细分市场,创新型公司不仅要尽快把握住短暂的技术红利期,还要与价值客户共同成长,保持自身的市场活力。叶建林还说,数据库是一条“坡长雪厚”的赛道。那么,在激烈的竞争中脱颖而出的人,就必须担起重担。


