Kaiyun(中国)官方网站-体育专属平台

2024中国数据库十大发展趋势总结-Kaiyun体育|官方入口
新闻中心 分类
2024中国数据库十大发展趋势总结

  去年我写了 2023 年中国数据库十大发展总结,反响还挺好。今年这篇文章来晚一些,主要是因为今年过年前后是历年来最忙的时候。

  数据库的行业发展离不开经济大盘,这几年经济不好,对数据库等高科技行业的从业人员还是带来非常大的压力。

  不好的方面如特朗普关税战已经打响,好的方面是Deepseek的横空出世,带来高科技股的重估,最近一系列高科技股票都上涨了。

  还是按照惯例,我从市场环境,产品技术,厂商发展等几个维度总结下 24 年的情况以及对应趋势判断。受限于时间和水平不足,肯定有不少错漏之处,也欢迎大家一起探讨。

  国内软件从业人员一直幻想可以和美国一样,做软件可以赚钱。但是纯软件的商业模式在中国基本不成立,原因有很多,主要的原因还是中国的人工太便宜。软件这种提高人效的价值在中国不明显。

  公有云模式,构建在硬件,服务的基础上,还是有不错的毛利的。基本上公有云厂商数据库这块都是赚钱的。

  虽然在过年一年,经济下行压力很大,公有云基本稳定了基本盘,还是持续赚钱,但是数据库产品主要服务于在线应用,AI 还停留在训练阶段,因此和 AI 关联不大,产品持续 boring,没有什么特别大的创新。主要有:

  云原生最新的成果本质上是 multi-master,基本上是 Oracle 多年前的能力。

  AI 方向主要有向量,KV cahce 提升模型推理性能,DMS 解决非结构化数据等。向量后面展开讲一下,KV cache,DMS 这些方向都还是探索,失败的概率较大。

  向量数据库在海外,头部厂商已经有 2000 万美金的年收入,国内也就几百万人民币的水平。主要原因还是 AI 原生应用并没有起来。基本上向量数据库的 QPS 都非常低,几十~几百都算高了。

  Kaiyun体育官方网站 开云网站入口

  向量数据库可能在国内甚至都不能成为一个独立的市场。之所以这样,主要有两个原因:

  当前有限的 AI 应用都也还停留在解决效果问题上,而效果问题向量数据库能解决的有限,向量数据库擅长的并发,性能,性价比无用无之地。

  所以和客户更接近的比如 dify,fastgpt 有一定的使用空间,但总体应该也是没有太多规模。

  像海外 Azure,有一个服务 AI search,相比向量解决的更多一些,但总体在国内也是一样不解决根本性的业务逻辑,形成一个独立市场的问题。

  这两年经济困难,部分公司进行了较大幅度的裁员。这反而变向的促进了数据库,中间件这些产品的使用,云数据库的在客户的渗透比例进一步提高。

  另外一个明显的趋势是,云原生数据库逐步成熟,得到客户的认可。国内头部几个云原生厂商的占比都超过了 10%,最高 16%。云原生的使用比例超过 10%,是一个非常关键性的指标,基本上说明产品得到了客户的认可。未来超过 30%,就会形成替代性趋势。

  传统上,一般认为云原生的存算分离架构和分布式架构是两条路线。不过现在各家厂商现在有融趋势,分布式里面借鉴云原生的存算分离的能力,存算分离加上中间件分布式。

  国内厂商也在这块有类似创新,最值得提的是 Oracle 增加了分布式的能力,云原生的鼻祖 Aurora 增加了分布式能力,推出了 Aurora DSQL。

  相信再演进几个版本,技术更成熟,存算分离,分布式会变成数据库的一个 feature,不再是区分数据库的关键了。

  数据库理论上是一个高价值市场,全球每年有 1000 亿美金的空间,而且高毛利。

  但是这点在国内并不成立,讲一个残酷的事实,国内私有化只有达梦有利润,其他基本都是亏钱的,包括传统厂商如南大,人大,新厂商 OB,pingcap 等。以及云厂商投入到私有化的如 TDSQL,Guass 等。

  私有化这两年主要是分布式数据库替换 Oracle 场景,分布式数据库格局基于已经定了,国内主要是头部 5 家厂商(OB,GaussDB,GoldenDB,TDSQL,TiDB)。据了解,去年的收入 YOY,OB 是正增长,TDSQL 负增长。但是大家并不是特别赚钱,也没有加速形成规模。其中 OB 也在加大公有云的投入和出海,以降低私有化的依赖。

  GaussDB 给内部以及外部讲的“给世界一个更优的选择”也没有太走通。OpenGauss 也熄火比较严重,华为没有合入最新的 feature,几家生态厂商很难说服客户选择社区的版本。业内只有少数几个银行选择了这个路线,比如邮储,兴业等。

  阿里据说还在讨论将 polardb 私有化的事情,不知道是怎么考虑的,感觉并不是特别划算的一个生意。

  Kaiyun体育官方网站 开云网站入口

  国测持续进行中,原来主要集中在 TP 数据库,现在逐步渗透到分析数仓。另外受整体环境的影响,公有云部分客户也在咨询和考虑相关事情。

  预计信创不光是在私有化金融等关键行业成为刚需,也会逐步影响公有云的客户的一些选择,但预计今年并不会成为主流。

  我观察了一下,基本上数据库行业从业人员关注的都比较少,比如盖老师反馈是春节后才关注到。这个和当年 OB 打榜效果完全不一样,OB 当时打榜对行业外影响也可以忽略不计,但是数据库圈子反响还是比较大的。为啥会这样呢?可能主要有两个原因:

  春节的流量都被 Deepseek 抢走了。这个大家都知道,也不用展开说。

  在西方,数据库技术早已走向成熟,基本上不再有厂商打榜。Oracle 最后的记录是在 2013 年提交的。而且 TPC 记录的有效期为 3 年,目前榜单上排在前 4 位的世界纪录都是中国厂商创造的,只有 PolarDB 和 TDSQL 的记录处于有效期内。

  而且在 TPC-C 测试中,大家都采用了数据分片的水平扩展方式,基本上都能够实现线性扩展。所以打榜本身基本上就是堆节点,拼财力。

  这次 PolarDB 的总系统成本(包含 3 年的软硬件和服务支持成本)达到了 16 亿人民币。第二名的 TDSQL 总成本是 10 亿人民币,OceanBase 的最高纪录成本是 28 亿人民币。

  当能这是整体系统三年折算,polardb 这次打榜,按只花费一个月也超过了 4000 万的投入。这几千万的宣传价值感觉不如办几个市场大会好使。

  海外基金因为贸易战等原因,基本上和国内脱钩了。国内创投的钱基本被 AI 吸走了,这几年能融资的公司特别少,所以普遍创业公司资金都比较紧张。

  最近听到多个创业公司合伙人级别跳车,又重新到大厂去就业了,侧面印证了这个事情。

  另外,创业公司资金造血能力其实也比较弱,和大环境有很大关系。私有化卷的都不赚钱,公有云上国内 SAAS 本身没有起来,如果不成为云厂商的一方产品,在公有云是比较难单独售卖的。云市场模式,让客户付款,开票都会比较麻烦,国内技术人员决策能力又弱,导致好产品也难销售。

  春节期间写一了篇文章:2025 春节随想,从 deepseek 到 AI 数据库,简单构想了一下什么是 AI 数据库。

  为什么需要这种东西,主要解决了用户很容易存储和带语义的检索数据。相比传统数据库解决 ACID 问题,AI 数据库核心要解决的是查询效果,降低使用门槛和成本。其中 AI 数据库,效果是其核心价值。

  这两天看到李国良团队提了一个类似概念,Chat2Data,一个基于 RAG、向量数据库和 LLMs 的交互式数据分析系统。下面是 chat2Data 的全局图:

  当然这个 AI 数据库具体落地还是未知的,先想想价值方面,这个价值的主要体现在效果和成本两个方面:

  这个春节 Deepseek 爆火,业界普遍认为会加速 AI 原生应用的到来。也有反对者认为去年同样的时候是 kimi 的爆火,但并没有持续太久,Deepseek 能持续多久呢。

  Anyway,不管 Deepseek 能持续多久的热度,大模型这波浪潮还在持续,另外 deepseek 开源,显著降低成本,会有更多的更近,让应用有了更多可能。

  数据库其实期望 AI 原生应用能到来,训练场景基本用不上数据库。只有并发,在线的要求上去了,数据库才有发挥的空间。

  虽然 25 年经济不好说,最后让我们乐观点,期待一下,数据库可以在 AI 原生应用中逐步发挥作用吧。

  朱洁,个人著作:《大数据架构详解》获得 2017 电子工业出版社优秀作者奖