

DuckDB背后的团队针对湖仓一体架构中永久存在的"小更正"问题,冷漠了一套惩处决议。这一问题据称广漠困扰着基于Databricks、Snowflake、Google等时间构建的湖仓好意思满。
相沿这一开源磋磨型数据库经管系统的霸术与管事公司,于本周认真发布了DuckLake湖仓才调的首个分娩就绪版块。早在2025年5月发布的DuckLake宣言中,该团队就快活重新缠绵将数据仓库与数据湖整合于单一系统的架构理念。
具体而言,DuckLake冷漠使用磋磨型数据库来经管基于Apache Iceberg和Delta Lake(由Databricks引入、Linux基金会治理)等通用敞开表才调的湖仓好意思满中的元数据,并向工程师展示了如何将PostgreSQL、SQLite或DuckDB用作目次数据库。
在本周发布的DuckLake v1.0分娩就绪湖仓才调表率中,数据库大家们展示了如何应用该数据库惩处依赖Parquet文献才调的敞开表才调湖仓系统中广漠存在的"小更正"问题。
DuckDB Labs鸠合创举东说念主兼CEO Hannes Mühleisen向媒体诠释说念:"当你对表进行一个小更正,比如新增一转数据,就会影响数据湖的性能。由于其责任方式,系统必须写入一个只包含一转数据的新文献,同期还需要写入大宗元数据,并更新目次。这极其低效——Parquet这类才调本不稳妥存储单行数据,它但愿一次存储数百万行;而从对象存储中读取这些微细文献也极为低效,因为会触发大宗数据传输。"
Mühleisen同期亦然阿姆斯特丹数学与计较机科学谈判中心(Centrum Wiskunde & Informatica)的素质。他默示,DuckLake的作念法是应用元数据磋磨型数据库将这些小更正进行批量累积,再以相对较大的数据块写入Parquet文献。
"DuckLake与其他数据湖才调的中枢缠绵互异在于:咱们有一个数据库,况兼不怯生生使用它。咱们将数据湖的整个元数据存储在DuckLake数据库的目次中——哪些表存在、哪些文献存在、它们之间如何磋磨、随时分发生了哪些变更,一切尽在其中。当你新增一转数据时,咱们不会向对象存储写入新文献,而是将其添加到数据库的一张表中。重要洞悉在于:PostgreSQL、DuckDB等数据库系统处理小更正的能力,远远优于对象存储。"他说说念。
元数据数据库会存储行的新增、删除等小更正,待聚集到一定量后,再将其行为相对较大的文献"刷回"Parquet,同期对用户全齐透明。
在1.0版块发布随附的博客著作中,DuckDB Labs首席工程师Pedro Holanda默示,公司基准测试表示,与Iceberg比较,查询速率提高了926倍,滚球app下载数据收受速率提高了105倍。
"当我在博客中写到有1000倍性能差距时,我心境'可能有东说念主会不悦',但并莫得。大家的反馈是:'这如实是个着实存在的问题。'致使有东说念主说咱们是在靠架构'舞弊'。但这恰好阐发了问题:用更好的缠绵来'舞弊',本即是中枢方位。"他说。
不外,工程师们仍在围绕现存的湖仓架构捏续构建,并尝试惩处调换的问题。客岁DuckLake发布时,AWS资深工程师、AI数据库公司LanceDB软件工程师Jake Ye在博客中指出,业界正"日益围绕基于JSON的左券行为互操作性基础进行整合",同期也指出DuckLake在结构化可膨胀性、版块经管和传输层辨认等方面存在收受挑战。
Snowflake首席工程师Russell Spitzer其时也默示,很多形势"已在Iceberg上走了很长一段路,Iceberg社区也在入辖下手惩处元数据目次问题。DuckDB照旧一个新兴数据库,而现存厂商已在阛阓上深度布局。咱们可能还需要恭候一段时分,才能判断DuckLake的理念能否信得过落地。"
Q&A
Q1:DuckLake是什么?它主要惩处什么问题?
A:DuckLake是DuckDB Labs发布的一种湖仓才调表率,其1.0版块于近期认真推出。它主要惩处湖仓架构中的"小更正"问题——即每次对数据表进行微细修改(如新增一转)时,传统基于Parquet的敞开表才调齐需要写入新文献并更新大宗元数据,导致性能极低。DuckLake通过磋磨型数据库批量累积这些小更正,再长入写入Parquet,大幅提高后果。
Q2:DuckLake与Apache Iceberg比较性能互异有多大?
A:把柄DuckDB Labs发布的基准测试数据,DuckLake在查询速率上比Apache Iceberg快926倍,在数据收受速率上快105倍。这一性能提高主要起原于其中枢缠绵互异:使用磋磨型数据库(如PostgreSQL、SQLite或DuckDB)经管元数据,而非依赖对象存储处理时时的小范围变更,从而充分知道了数据库在处理小更正方面的自然上风。
Q3:DuckLake当今面对哪些挑战和质疑?
A:尽管性能知道亮眼滚球app,DuckLake仍面对一定的收受挑战。工程师Jake Ye指出,DuckLake在结构化可膨胀性、版块经管和传输层辨认方面还有待完善。Snowflake首席工程师Russell Spitzer则默示,很多企业已在Iceberg上参加较深,而Iceberg社区也在积极惩处元数据目次问题,DuckDB行为相对新兴的数据库,能否撼动现存阛阓花样仍需时分考证。
开云体育(kaiyun)官网