湖仓一体技术

核心提示湖仓一体,正成为数据库行业发展新趋势。过去几年,全球数据库行业发展迅猛。2021年,Gartner魔力象限发生了两个关键的变化:1、Snowflake和Databricks两个云端数据仓库进入领导者象限;2、放开了魔力象限的收入门槛限制,S

湖库一体化正成为数据库行业的新趋势。

在过去的几年中,全球数据库行业发展迅速。2021年,Gartner魔力象限发生了两个关键变化:1 .雪花和Databricks两个云数据仓库已经进入领导者象限;2.魔力象限收入门槛限制放开,SingleStore、Exasol、MariaDB、Couchbase等数据库新势力首次入榜。

某种程度上,这种变化的背后,暗示着全球数据库进入了发展的黄金时代,也是一批新兴力量加速崛起的一年。其中最典型的例子就是雪花和Databricks经常隔空喊话空。前者是云仓的代表玩家,去年继续保持一倍以上的业务增长;后者因“湖仓合一”的推出,估值飙升至360亿美元。两者之争,其实就是新旧数据库架构之争。

近日,国内湖库一体化数据智能基础软件领域独角兽迪普科技完成1.1亿元B+轮融资,这一赛道也正式在国内迎来爆发式增长。

事实上,随着企业数字化进入深水区,数据使用场景呈现多元化趋势。过去容易被企业忽视的数据开始从幕后走向前台。如何为多种场景选择合适的数据库产品,已经成为很多CIO和管理者的必修题。但是,有一点可以肯定,过去的数据库已经难以匹配日益增长的数据复杂性需求。分布式架构基于可扩展性和可用性,突破了单机、共享、集群数据库的限制,近年来发展迅速。

什么是湖仓合一?

在湖库出现之前,数据仓库和数据湖是讨论最多的话题。在正式切入主题之前,先跟大家分享一个概念,就是大数据的工作流程是什么?这里涉及到两个比较陌生的术语:数据结构度和数据的信息密度。前者描述的是数据本身的标准化,后者描述的是单位存储卷所包含的信息量。

一般来说,人们获取的原始数据大多是非结构化的,信息密度相对较低。通过对数据的清洗、分析和挖掘,可以剔除无用的数据,找到数据中的相关性。在这个过程中,数据结构化程度和信息密度也在提高。最后一步是利用优化后的数据,将其转化为真正的生产资料。

简而言之,大数据处理的过程,其实就是一个提高数据结构化程度和信息密度的过程。在这个过程中,数据的特性一直在变化,不同的数据和适合的存储介质也是不同的,于是就有了一度火热的数据仓库和数据湖之争。

先说数据仓库。它是一个面向主题的、集成的、相对稳定的数据集,反映历史变化。它主要用于支持管理决策和全球信息共享。简单地说,数据仓库就像一个大型图书馆。里面的数据需要按照规格摆放,你可以按照类别找到你想要的信息。

目前,数据仓库的主流定义是位于多个数据库上的大容量存储库。其功能是存储大量结构化数据,为管理分析和经营决策提供统一的数据支持。虽然访问过程相对繁琐,对数据类型也有一定的限制,但在那个年代,数据仓库的功能性已经足够了,所以在2011年左右,市场还是以数据仓库为主。

移动互联网时代,数据量爆炸式增长,数据类型变得异构。受数据规模和数据类型的限制,传统的数据仓库无法支持互联网时代的商业智能。随着Hadoop和对象存储技术的成熟,数据湖的概念应运而生,由James Dixon于2011年提出。

与数据仓库相比,数据湖是一个不断发展和可扩展的基础设施,用于存储、处理和分析大数据。就像一个大型仓库,它可以存储任何形式和格式的原始数据。数据湖通常更大,存储成本更低。但它的问题也很明显。数据湖缺乏结构,一旦管理不好,就会变成数据沼泽。

在产品形态上,数据仓库一般是一个独立的、标准化的产品,数据湖更像是一个架构指南,需要配合一系列外围工具来实现业务需求。换句话说,数据湖的灵活性有利于早期开发和部署;数据仓库的标准化有利于大数据的后期运营和公司的长远发展。那么,有这种可能吗?有没有一种新的架构可以结合数据仓库和数据湖的优势?

于是,湖仓整体诞生了。根据DataBricks对Lakehouse的定义,湖和仓库的集成是一种结合了数据湖和数据仓库优点的新范式。在数据湖的低成本存储上,实现了类似于数据仓库中的数据结构和数据管理功能。湖和仓库的结合是一种新的更开放的建筑。有人给它打了个比喻,类似于在湖边建很多小房子。他们有的负责数据分析,有的运行机器学习,有的检索音视频等。至于那些数据源,很容易从数据湖中获得。

就湖库集成的发展轨迹来看,早期的湖库集成更多的是一种处理思路,将数据湖和数据仓库联系起来。现在,湖仓一体化虽然还处于发展的初级阶段,但它已经不仅仅是一个单纯的技术概念,还被赋予了更多与厂商产品层面相关的意义和价值。

这里需要注意的是,“湖库一体化”并不等同于“数据湖”+“数据仓库”。现在很多公司经常同时建立两种存储架构,即数据仓库和数据湖。一个大的数据仓库拖着几个小的数据湖,不代表这家公司有能力整合湖库。湖库合一绝不是简单的把数据湖和数据仓库打通,而是数据在这两种存储中会有很大的冗余。

为什么说湖仓一体化是未来?

那么,为什么湖库一体化能成为未来的新趋势呢?换句话说,在数据智能时代,虎仓经验不会成为企业构建大数据栈的必然选择吗?

事实上,从技术维度和应用趋势来看,快速成长的企业选择湖库一体化结构来替代传统的独立仓和独立湖已经成为不可逆转的趋势。

一个有说服力的例子是,现阶段国内外各大云厂商相继推出了自己的“湖库一体化”技术解决方案,如亚马逊云技术的红移频谱、微软的Azure Databricks、华为云的Fusion Insight、滴滴科技的FastData等。这些参与者已经成为云计算领域的领导者和数据智能领域的新生力量。

事实上,架构的演进是由业务直接驱动的。如果业务端提出了更高的性能要求,那么在构建大数据架构的过程中,就需要对数据库架构进行升级。以迪普科技为例,依托实时湖仓平台FastData,基于对先进制造、生物医药、商品流通、金融科技等行业的深入洞察,迪普科技从实际场景切入,为客户提供一站式数据智能平台技术建设方案。

滴滴科技认为,“在数据分析领域,湖库合一是未来。能够更好地满足AI时代的数据分析需求,在存储形式、计算引擎、数据处理与分析、开放性、面向AI的进化等方面都领先于过去的分析型数据库。”以AI应用层面为例,湖仓的集成架构自然适合AI分析,也更适合大规模机器学习的时代。

现在是布局湖仓的好时机吗?

尽管市场发展趋势如此,但基于技术发展进程,“湖库一体化”结构是必由之路。但这种新的开放架构还处于发展初期,国内外企业数字化水平和市场认知的差异造成了技术解决方案的巨大差异。

在业内投资人看来,“虽然美国企业服务市场比我们成熟得多,有很多可供借鉴的路径,但中国市场有很多中国特色。以对标Databricks的迪普科技为例。美国企业服务市场往往卖的是产品,而中国庞大的客户群体需要与客户高级场景更深度结合的解决方案。解决方案需要兼顾通用性和定制性。"

在之前与迪普科技的合作中,某大型品牌零售商已经完成了统一仓库的建设,实现了多条业务线的数据采集和各业务域的数据建设。在保证前端数据正常运行和底层应用“热切换”的前提下,滴滴科技与其紧密合作,在短短几个月内将多个数据仓库整合为一个统一的数据仓库,有效统一了业务口径,大大减少了开发和运营工作量,形成了整个业务价值链的闭环。

这就是“湖库合一”的能力价值:随着数据结构的逐渐多样化,3D图纸、现场视频、会议视频、音频等数据越来越多。为了深度挖掘数据价值,依托领先的湖库一体化技术架构,集团可以先将大量多模式数据存储到湖中,在未来计算能力允许的情况下,挖掘深度业务分析场景后,再从数据湖中抓取数据分析。

一般来说,大量企业要想保持持续增长,往往需要依靠大量有效的数据输出,从而实现智能决策。很多企业由于IT建设能力的限制,很多事情做不了。而通过湖库一体化的结构,可以充分发挥之前受限的数据价值。如果企业能够重视数据价值,并有意识地保存数据,就已经完成了数字化转型的重要命题之一。

为加快数字化进程,提高对湖库一体化技术框架的理解,可登录迪普科技官网了解详情。

滴滴科技的实时湖库平台FastData,主要特点是低成本、高性能、易用。该产品采用存储与计算分离的新一代数据处理技术,帮助企业建立统一治理、流批一体化、湖库一体化的云原生数据智能平台,实现海量数据的实时分析,成为支撑企业数字化转型的核心基础软件设施。

此外,滴滴科技FastData云产品的云服务体系也以灵活部署、易于操作的模式,为企业的不同需求提供多元化选择,通过云服务为众多行业客户构建数据智能基础设施。

 
友情链接
鄂ICP备19019357号-22