2024年下半年,数据库行业呈现加速发展态势。随着近些年来的积累,国产数据库发展渐入佳境,步入深水区,在更广泛、更核心的场景投产使用。同时伴随着如国测名单的发布,数据库行业加速洗牌,若干头部厂商呼之欲出。
在技术层面上,AI与数据库融合、多模态数据支持、存算分离与湖仓一体等创新方向有所突破;在产品层面上,性能、兼容性、安全等方面成为各厂商产品发展的重点,具体如下:
数据库产品在AI技术上的增强成为发展重点,不少数据库产品均推出了相关能力。相信未来数据库将更多地与AI技术结合,提升数据分析和处理能力,满足智能化应用需求。
随着数据类型日益多样化,数据库对多模态数据的支持需求加大,以向量、图、时序等为代表的非关系型数据正受到更多关注,很多传统关系型数据库产品还是内置对多模态的支持,以此更好地处理和分析复杂多样的数据结构、拓展应用场景。
存算分离与湖仓一体的融合成为重要趋势。前者通过资源隔离与扩展,可有效解决计算瓶颈的同时降低存储成本;后者则通过支持多数据源间的数据分析、共享、处理、存储,提升企业整体数据管理效率。
随着近几年的高速发展,产品版本迭代问题凸显,厂家纷纷推出LTS长期稳定版本以加速在传统行业落地。同时,分布式下以性能优化、多租户、稳定性为代表的内核能力,成为厂商更新的热点,以此使产品能更好地处理大规模和复杂业务场景。
兼容性和易用性正受到更多关注。前者通过加强SQL兼容性,使用户在迁移和使用数据库时更加方便,降低迁移成本和学习难度;后者则通过工具、图形化平台等多种手段,简化产品开发、管理成本,提升工作效率。这些基础功能的增强,正是当前国产数据库在替换改造中所亟需解决的痛点。
而在市场方面,国内数据库厂商竞争日益激烈。从国内某第三方平台的排名可见,头部厂商的更迭频繁,排名变化速度加快;但从市场发展来看,隐隐出现头部集中的现象,特别是伴随着国测等指导性文件的出台,更是加速了这一趋势。已上牌桌的厂商开始快速扩大占有规模,未上牌桌的厂商也在努力争取。新兴厂商较少,一批中小规模的企业正面临一定的生存压力。在国际市场上,国内企业出海发展相对较慢,仅有少数厂商开始海外布局,尚没有出现在海外具有一定知名度和影响力的国产数据库品牌。国内企业还需根据自身情况,考虑合适的时机出海,积极应对全球化竞争。
dbaplus社群携手一众数据库行业专家,汇总、梳理并提炼出主流数据库近半年的版本更迭、性能优化、功能提升等关键信息,希望对大家了解数据库发展趋势,以及数据库选型工作有所帮助和启发。
为方便阅读、重点呈现,本文对各板块内容进行了精简,需阅读完整版可点击文末【阅读原文】或登录以下链接进行下载:
1、Oracle推出了以AI为中心的企业应用开发架构,旨在解决传统开发中的复杂性和可维护性问题,帮助客户实现企业应用更灵活、更契合,开发维护更低成本的需求。创新的JSON关系二元性,继承JSON结构开发的灵活和简单又保证了数据的一致性、扩展性,大大提升了应用开发效率。
通过融合数据库,打破了AI数据格式枷锁的束缚,信息无边界,让跨系统开发更简单,AI应用更准确。同时,AI for Data让开发更加关注应用逻辑,而不需要加入大量数据维护和安全代码,让创新随需而行。
此外,Oracle的APEX低代码开发平台为企业提供了AI助手蓝图,可以零代码或低代码快速构建和扩展企业应用的能力,保证了企业应用的可校验和模块化输出。
2、Oracle Database 23ai现已可用于本地Exadata数据库一体机和ODA,同时通过了《信息安全技术网络安全等级保护基本要求》第四级安全计算环境 (数据库) 部分和《信息安全技术信息安全风险评估方法》的要求。
2024下半年,MySQL 8.0主要发布了两个版本,包括8.0.39和8.0.40,长期稳定版本发布了8.4.2和8.4.3,这些版本主要是bug修复,基本上没有发布新功能,而创新版发布了9.0.1和9.1.0,在JavaScript支持、新数据类型、性能优化以及企业版功能等方面有重大创新。特别是JavaScript存储程序和VECTOR数据类型的引入,为应用开发提供了新的可能性。以下是对这些更新的简要介绍:
2024年11月,微软发布了全新SQL Server 2025 CTP 1技术预览版,带来了多项重大更新,具体如下:
1、内置AI功能和AI服务调用:SQL Server 2025集成了先进的AI能力,支持向量搜索和RAG(检索增强生成)模式。新增的向量数据类型和DiskANN高级索引技术,显著提升了数据存储与查询效率。开发者可以通过T-SQL轻松实现混合AI向量搜索,还可以直接调用ChatGPT等AI服务,简化AI应用开发流程。
3、现代化开发工具和开发特性支持:在T-SQL中引入了正则表达式功能,增强数据处理与查询的灵活性,提升开发效率。同时在SSMS数据库管理工具中引入了微软Copilots辅助工具帮助用户智能编写SQL代码,提升了用户开发体验和生产力。
4、Azure SQL DB功能下沉:将Azure SQL DB的多项预览版功能引入本地SQL Server,如优化的查询执行计划和持久化统计信息,确保高性能和安全性,同时支持混合云部署。
5、强化安全性与性能:SQL Server 2025在安全性和性能方面进行了全面升级,支持Microsoft Entra托管身份,提升了凭证管理和合规性。
查询存储(Query Store)在AlwaysOn的辅助副本上:支持在AlwaysOn的辅助副本上使用查询存储功能,提升查询性能监控。
查询存储(Query Store)提示:通过查询存储提供调整查询计划的方法,无需修改应用代码。
参数敏感计划优化:为参数化语句自动启用多个缓存计划,适应不同的数据规模。
基数(CE)估算反馈:识别并修正查询计划中的基数估算问题,提升查询准确性。
加速数据库恢复(ADR)改进:提升ADR的存储和可扩展性,优化清理过程效率。
改进的快照备份支持:支持使用T-SQL创建快照备份,无需VDI客户端。
备份和恢复数据库到亚马逊S3兼容的对象存储:扩展URL备份/恢复语法,支持S3连接器。
去除SQL Server Native Client:推荐使用新的ODBC和OLE DB驱动,提升新应用开发的兼容性。
集成加速与卸载:利用Intel QuickAssist Technology加速技术,提升备份压缩和硬件卸载能力。
1、系统性能提升:优化了vacuum进程,引入新内存结构,最多可减少20倍内存占用,提高vacuum速度;改进I/O层性能,高并发工作负载下写入吞吐量可能提高至2倍;优化使用B树索引的IN子句查询性能,支持BRIN索引并行构建等。
2、开发者体验增强:增加SQL/JSON标准实施,如JSON_TABLE函数等,提供更多与JSON数据交互方式;MERGE命令新增RETURNING子句和更新视图等功能;批量加载和数据导出性能提升,COPY命令新增ON_ERROR选项。
3、逻辑复制增强:简化升级过程,无需删除逻辑复制槽;引入故障转移控制,新增pg_createsubscriber命令行工具。
5、其它更新:提供更安全的异步查询取消方法,内置排序规则程序,改进事件触发器、libpq API等功能。
MariaDB 11.4是最新的长期支持版本(LTS),该分支将一直支持到2029年5月29日。MariaDB在2024下半年关键新特性包括:
MariaDB提供了一个创新的Oracle兼容模式,只需简单配置即可实现近乎无缝的迁移。具体而言,通过设置SQL模式为Oracle模式:
MariaDB能够识别和执行大部分Oracle特有的SQL语法和数据类型。这意味着原有的Oracle表结构、存储过程和查询语句可以在MariaDB环境中直接运行,几乎不需要修改。
MariaDB向量是一项允许MariaDB服务器作为关系向量数据库运行的功能,用户喜爱的人工智能模型生成的向量可以存储在MariaDB中并进行搜索。
MariaDB Spider分片技术,类似一个中间件(可以把它比作MyCAT),可以让你的应用程序在一行代码不改的情况下轻松实现分库分表。
Spider存储引擎现在支持表选项,而不必在COMMENT/CONNECTION字符串中对其进行编码。
这里我们创建了两个数据库节点,版本都是MySQL 5.7,端口6666和6667,我们要实现把数据分散到这两个节点里。
创建分表规则,我们这里以哈希主键id为测试用例,将通过内部的取模规则,将数据分散到后端MySQL 5.7里。
客户端直接连接MariaDB Spider,并插入10条数据,此时回到后端MySQL数据库里查看,你会发现数据已经实现分散。
1、创建一个包含1000万行记录的sbtest1表(可以使用sysbench工具生成数据)。
5、然而,在MySQL中,InnoDB临时表(例如ibtmp1)所占的空间不会被释放,导致专用共享表空间不断增大。
2024下半年,OceanBase共发布9个版本,包括面向关键业务负载的全新里程碑版本4.2.5 LTS,以及面向实时分析(AP)场景的首个GA版本4.3.3(目前已迭代至4.3.4版本),其中值得关注的特性包括:
OceanBase 4.2.5 LTS版本是面向关键业务负载的全新长期支持版本,性能、稳定性和易用性方面都有显著提升。相较4.2.1 LTS版本,Sysbench基准测试中读写性能提升26%,批量写入性能提升54%,进一步增强OceanBase在关键业务场景下的性能能力。
1、性能优化和优化器能力:4.2.5版本引入了自适应链接和基线优先的SPM演进,通过分区表的晚期物化功能,优化了复杂查询处理能力。同时,优化器性能大幅提升,特别是在估行系统优化、DAS路径选择改进、以及CTE抽取和INLINE代价验证等方面。此外,存储层引入了Batch DML批量接口,进一步提升了DML操作的效率,适用于多种业务场景。
2、兼容性:4.2.5版本针对MySQL兼容性,新增了租户对锁函数、非法日期、XA 事务和中间快速加列的支持,进一步确保MySQL业务平滑迁移的无缝体验。同时针对Oracle兼容性,租户层面新增了DBMS_LOCK 包功能,并支持快速删列和存储过程远程调用的复杂类型,进一步加强关键业务系统对兼容性的能力。
3、系统稳定性和可靠性:4.2.5版本新增了备份配置项功能,提升了数据备份的灵活性和可控性。通过日志强管归档、Transfer活跃事务搬迁、以及基于IO负载的自适应仲裁升降级功能,提升系统在复杂业务场景下的容错能力和稳定性。
4、资源隔离与升级性能:4.2.5版本优化了资源隔离机制,如将统计信息和Clog日志提交纳入资源隔离,并实现了DDL资源隔离,使多租户环境下资源分配更为合理。在多租户升级场景下,表级恢复和升级性能也得到优化,显著缩短了大规模租户的升级耗时,升级过程更加顺畅。
5、安全性与易用性:新版本通过assume role提升了对象存储访问的安全性,并新增了行锁等待和重试等待事件的诊断功能、响应时间直方图和日志传输链路视图,大幅提升了系统的可观测性和诊断效率。同时,Observer资源规格的动态修改实时生效,以及日志副本并行迁移优化,使DBA的管理操作更加便捷。
此外,OceanBase 4.2.5扩展了其多模能力,新增了对OBKV-Redis模型的支持,进一步丰富了其生态系统。通过优化OB-HBase的过期删除机制,解决了“热key”场景下数据版本过多的问题,并新增了ColumnPaginationFilter和Reverse Scan接口,进一步提升了HBase兼容性。
总结来看,OceanBase 4.2.5 LTS版本通过一系列技术和功能优化,巩固了其在关键业务场景中的稳定性、性能和兼容性,同时大幅提升了用户的管理体验和易用性。
针对AP场景进行大幅性能优化,推出全新向量检索功能,实现SQL+AI一体化,深度融合AI与数据库处理,进一步满足客户在云+AI时代的数据管理需求,加速RAG、智能推荐、多模态搜索等业务场景的落地。
1、对多模态数据支持:4.3.3版本进一步扩展了对复杂数据类型的处理能力,新增Array类型,并对Roaringbitmap类型数据的计算性能进行了优化,为企业处理多样化数据结构提供更高的灵活性。
2、向量融合查询能力:4.3.3版本新增向量检索能力,支持向量数据类型和向量索引,并基于向量索引提供强大的搜索能力。用户可通过SQL及Python SDK等方式灵活调用OceanBase的向量检索能力,同时结合对海量数据的分布式存储能力、多模数据类型及多类型索引的支持,极大简化AI应用技术栈,助力企业高效构建AI应用。
3、多工作负载:4.3.3版本对AP(分析处理)场景进行大幅性能优化,尤其是在海量数据分析时,能够提供更短的响应时间和更高的吞吐能力。同时引入了列存副本的新形态,实现满足TP和AP负载的物理资源强隔离,确保系统在处理事务型负载时,不受分析型负载的影响,特别是在实时数据分析和决策场景中,能够保持系统的高性能与稳定性。
1、引入向量搜索:TiDB向量搜索提供了高级的语义搜索功能,可以在文档、图像、音频和视频等多种数据类型之间进行相似度搜索。TiDB向量搜索的SQL语法与MySQL兼容,熟悉MySQL的开发人员可以基于该功能轻松构建AI应用。
2、稳定性和高可用:通过Schema缓存控制、设置统计信息缓存使用内存的上限、PD和统计信息优化、管理大量执行计划绑定、增强资源组管理能力等新特性,进一步提升超大规模集群的稳定性。
3、扩展性和性能:每个TiDB集群支持超过100万张表,批量建表性能提升20多倍,通过多维度降低数据处理延迟、实例级执行计划缓存、projection算子下推等新特性,更好地满足金融领域对SQL处理低延迟的高要求。
4、SQL:支持分区表全局索引,降低了跨分区表查询的复杂性,帮助用户轻松应对大数据量历史表的处理。
5、管理及可观测性:TiKV的TOP SQL按“表”或“数据库”进行聚合、将CPU时间(TiDB&TiKV)系统表中显示等新特性提供了更加精确的资源可视化,提升诊断效率。
TiDB将聚焦企业级关键业务场景,继续夯实HTAP和AI方向的多维能力,包括可扩展的在线事务处理、实时的轻量级数据分析、高效的向量及全文检索能力等领域。
TiDB v9将在稳定性、性能和扩展性方面实现关键的提升:通过内存分配模型演进和计划绑定自动推荐增强集群的稳定性;通过Cascades优化器和向量搜索功能的增强实现性能的提升;通过TiCDC新架构和加速批量DDL等新特性进一步提升集群的扩展性。
Elasticsearch在2024下半年发布了三个大版本,8.15.x、8.16.x、8.17.x,带来了诸多新的功能特性,在性能上也有大幅度的提升,同时7.17.x发布更新了4个小版本,修复了部分兼容性已知问题。
8.16发布了新的索引的压缩算法zstd,同比lz4,至少可以节约10%的磁盘空间,对于规模庞大的集群,10%的磁盘空间节约明显可以降低成本。
注意,过高的数据压缩率必然会导致更高的cpu资源消耗,启用zstd压缩,依然要根据业务场景与资源消耗来评估,很多时候进行一些详细的索引设计是有必要的。
默认情况下,创建索引依然是lz4算法,使用zstd需要设置索引的编码。
8.17版本发布了logsdb索引模式,官方压测同比之前日志存储可以节约2.5倍的磁盘空间。
ELK组合至今依然是企业IT系统首选的日志平台,随着企业接入的日志量越来越多,存储成本越来越高,尤其日志规模动辄数百TB以上,同比要多近1倍的磁盘空间,logsdb日志索引模式可以有效降低企业成本。
{ settings: { index.mode: logsdb } }
Apache Flink社区正在积极准备 Flink 2.0,这是自Flink 1.0发布8年以来的首次大版本发布。作为一个重要的里程碑,Flink 2.0将引入许多激动人心的功能和改进,以及一些不兼容的破坏性变更。为了促进用户和上下游项目(例如,连接器)尽早适配这些变更,提前尝试这些令人兴奋的新功能同时收集反馈,目前提供了Flink 2.0的预览版本。
注意:Flink 2.0预览版不是稳定版本,请不要应用于生产环境。虽然这个预览版包含了Flink 2.0中绝大部分影响兼容性的变更,但2.0正式版仍可能引入额外的非兼容改动。
在配置方面,旧的flink-conf.yaml配置文件被彻底废弃,新的配置文件全面对接标准的YAML生态。同时,对现有配置项进行了全面的简化和梳理。需要提醒大家的是,Flink 1.X和Flink 2.0之间无法保证100%的Checkpoint (CP) 和Savepoint (SP) 状态兼容性。这主要是因为Flink对其序列化框架进行了多项升级和改造。不过,Flink社区正在积极准备工具,来帮助用户进行非兼容性状态的迁移。另外,Java 8的支持将不再提供,包括Per-job的部署模式也将在2.0版本中移除。用户可以更广泛地采用Application的部署模式。
注:关于API、连接器适配计划、配置等非兼容变更,以及存算分离状态管理、物化表、批作业的自适应执行、流式湖仓等重要新特性的具体信息,可阅读本期Newsletter完整版(点击本文文末【阅读原文】可下载)
2025年会正式发布Flink 2.0版本,届时所有preview版本中的预览性功能会更加稳定。同时,会持续完善上下游生态对2.0版本的适配,协助用户更好地升级到新的版本。
1、并行哈希Join成为默认策略:在24.11版本中,并行哈希Join算法取代了哈希Join,成为默认的Join策略。并行哈希Join是哈希Join的一种改进算法,通过将输入数据分片并并发地构建多个哈希表,实现了更快的Join操作,但需要更多内存资源。除了默认启用外,本次更新还对该算法进行了性能优化。现在,线程间分发的块在并行处理时使用零拷贝技术,避免了每次复制块列所带来的额外开销。
2、BFloat16数据类型:BFloat16数据类型由Google Brain团队开发,专用于表示向量嵌入。顾名思义,它由16位组成,其中1位为符号位,8位为指数,7位为尾数(小数部分)。这一数据类型的指数范围与Float32(单精度浮点数)相同,但尾数位数较少(7位,而非23位)。 现在,ClickHouse已支持BFloat16数据类型,非常适合用于AI和向量搜索场景。
3、可刷新物化视图:之前,可刷新物化视图是一种实验性功能,能够将查询结果存储以便快速读取。在24.9发布中,新增了APPEND功能,使得在更新视图时无需替换整个视图内容,而是直接将新行追加到表末尾。在24.10版本中,该功能不仅支持Replicated数据库引擎,而且已经可以正式应用于生产环境。
5、JSON数据类型和用于JSON数据分析的聚合函数:在24.8发布中,实验性地引入了全新的JSON数据类型。这个功能开发已久,之前版本的发布中也提到过它依赖的几种类型——Variable和Dynamic。JSON数据类型专为存储半结构化数据而设计,适用于每行数据结构可能不同或不希望将其拆分为单独列的情况。
2025年,ClickHouse将持续在新版本体现Join的性能优化和数据湖的整合。
1、3.0版本开启存算分离新纪元,基于云原生存算分离的架构,通过多计算集群可实现查询负载间的物理隔离及读写负载隔离;借助对象存储或HDFS等低成本共享存储系统能够大幅降低存储成本。
2、3.0版本湖仓一体再进化,新增数据湖写回功能,支持多数据源间的数据分析、共享、处理、存储;结合异步物化视图,可构建统一的湖仓数据处理引擎。
3、3.0版本半结构化场景持续发力,在倒排索引、N-Gram Bloom Filter、Variant数据类型方面持续增强,对半结构化数据的存储和处理分析更加灵活高效,相比Elasticsearch达到10倍性价比提升,且社区即将发布向量索引能力。
1、内置CDC同步:可以不依赖外部工具,支持从众多TP数据库直接CDC导入数据,打造HTAP Solution。
2、支持增量批量处理:统一实时和批量处理、增量处理,需要Doris支持增量读取表的更新数据。
4、存算一体和存算分离部署形态融合:不再需要两种部署形态,用户可以在使用过程中无缝切换,避免过早复杂性。
新增若干功能和优化。实现Iceberg表的写回功能;增强SQL拦截规则,支持对外表的拦截处理;新增系统表file_cache_statistics,用于查看BE节点的数据缓存性能指标等。
新增若干功能和优化。支持在构建物化视图中使用非确定性函数;支持原子替换异步物化视图定义等。
新增若干功能和优化。使用VARIANT类型的表支持部分列更新;支持默认开启 PreparedStatement;VARIANT 类型支持导出为CSV格式等。
新增若干功能和优化。支持explain DELETE FROM语句;支持常量表达式参数的Hint形式;完善MySQL协议返回列的信息等。
新增若干功能和优化。增加了information_schema.table_options和information_schema.table_properties系统表,支持查询建表时设置的一些属性等。
集成了配置审计(Cloud Config),支持资源的配置历史追踪、配置合规审计等能力。
适配了阿里云Dataworks数据集成,支持MySQL系列数据源整库全增量数据实时同步至阿里云SelectDB 版。
适配了阿里云DTS,支持PostgreSQL系列数据源整库迁移或全增量数据实时同步至阿里云SelectDB版。
适配了阿里云托管版Flink,支持用户上传Flink Doris Connector,将多种数据源增量数据实时同步至阿里云SelectDB版。
1、内置CDC同步:可以不依赖外部工具,支持从众多TP数据库直接CDC导入数据,打造HTAP Solution。
2、支持增量批量处理:统一实时和批量处理、增量处理,需要Doris支持增量读取表的更新数据。
4、存算一体和存算分离部署形态融合:不再需要两种部署形态,用户可以在使用过程中,无缝切换。避免过早复杂性。
5、跨可用区容灾:在主可用区故障或发生自然灾害时,可以较快切换到备可用区继续提供服务,保障数据不丢或者只丢失时间最近的少量数据。
6、数据备份恢复:支持在本地或异地备份,可恢复到历史上某个时间点的数据集,协助业务找回大部分数据,或者修复线上生产的错误数据,或者使用线上数据搭建仿真模拟测试环境。
7、支持Serverless云原生秒级弹性:及时感知业务访问压力变化,并且调度合适的计算和存储资源响应,灵活满足业务实际需要的同时,最大程度提升资源利用率,减少冗余浪费。
StarRocks在2024下半年发布了3.1、3.2、3.3等版本。这段时间内StarRocks社区主要致力于提升性能、稳定性和用户体验方面,特别是在物化视图、安全性和数据湖分析等方面。
请见《2024年度盘点:主流数据库、大数据技术栈的升级亮点与发展走向(下)》
我国北部湾海域油气勘探获重大突破!3月6日,中国海油发布消息,位于我国北部湾海域的涠洲10-5油气田获得高产油气流。这标志着北部湾盆地古生界潜山油气勘探获重大突破,为我国海洋石油工业发展开辟了新战场,对保障国家能源安全具有重要意义。
北京一别墅由9000万元降价到1500万元?业内:不可能,应该是“降了1500万元”
【央视首次曝光!歼-20发射新型导弹 “超视距”打掉3架“敌机”】歼-20搭载某新型空空导弹,在超视距空战演习中一次击落3架“敌机”。
上海市民求助:实在忍无可忍!这种店竟开进小区,顾客却说“氛围感拉满”……太讽刺→
家住上海高安路102号的陈先生求助。每天如同“泡”在螺蛳粉里。根据《上海市城市管理综合行政执法法律法规规章》,对于擅自改建占用物业共用部分,城管部门可处罚款。
专访全国人大代表、58同城姚劲波:预计10—15个龙头城市楼市上半年止跌回稳
两会期间,全国人大代表、58同城董事长兼CEO姚劲波提交了四份书面建议,其中,促进大学生就业、保护承租人权益、推动家政行业发展等关键议题,在关注相关行业发展的同时,也与楼市和就业密切相关。
“没想到,法律没有放弃我们犯错的人,做了好事也有‘奖励’。”2月11日,农历正月十四,还没到元宵节,社区矫正对象幸某便已在装修岗位上开工。这是近几年中他过得最开心的一个年:一是因为司法机关帮他在居住地找到了工作,二是因为被减了刑。