找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

279

积分

0

好友

27

主题
发表于 昨天 00:04 | 查看: 8| 回复: 0

Apache Hudi 社区新闻头图

Hudi 1.1 正式发布 🎉

Hudi 1.1 发布

Apache Hudi 1.1 已正式发布!此版本作为重要里程碑,引入了可插拔表格式框架,原生支持 Iceberg 和 Delta Lake 适配器,实现了真正的多格式读写能力。

同时,该版本带来了多项性能与功能提升:

  • 高级索引功能:增强了数据定位效率。
  • 更快的聚簇操作:通过 Parquet 二进制复制,聚簇速度提升高达 95%。
  • 提升并发性能:采用基于存储的锁机制。
  • 计算引擎优化:在 Spark 4.0 和 Flink 2.0 中实现了显著的性能提升,其中写入吞吐量最高可提升3倍。

这标志着向开放、无厂商锁定的湖仓一体架构迈出了关键一步,非常适合致力于构建面向未来数据管道的团队。

详细版本说明与解读:https://yunpan.plus/t/1577-1-1

Open Source Data Summit 2025 分享回顾

OSDS 2025 演讲

在 Open Source Data Summit 2025 上,Shiyan Xu 探讨了 Hudi 的流式优先湖仓设计,如何应对高频、可变的工作负载挑战,例如由更新与删除操作引发的小文件问题、延迟峰值及资源冲突。

分享重点介绍了以下经过验证的策略,用以构建稳定、可扩展的流式管道:

  • 高效写入的 Merge-on-Read 表类型
  • 实现低延迟查找的记录级索引
  • 自动文件大小调整与异步压缩
  • 1.0 版本中引入的非阻塞并发控制
  • 用于元数据优化的 LSM Timeline

观看演讲回放:https://opensourcedatasummit.com/streaming-lakehouse/

Uber 大规模摄取

在 Data Streaming Summit 上,Uber 的工程师 Zhenqiu Huang 详细分享了其超大规模数据管道的实践经验。Uber 运行着超过 5,000 条 Flink 流处理管道,每日向 Hudi 数据湖仓稳定摄取约 600TB 数据,并确保 P90 数据新鲜度低于 15 分钟。

实现这一目标的核心策略包括:

  • 针对成本峰值的集群自动扩缩容
  • 数据写入的部分排序优化
  • 非阻塞并发控制机制
  • 安全的偏移量提交策略
  • 跨区域灾难恢复方案

观看完整案例分享:https://www.youtube.com/watch?v=FDeP0JKe7RQ

Data Streaming Summit:使用 Hudi 构建高吞吐量流式湖仓

高吞吐量流式湖仓

另一场来自 Shiyan Xu 的分享深入探讨了如何利用 Hudi 构建高吞吐量的流式湖仓架构。演讲展示了 Hudi 在大规模数据摄取、高效可变数据处理以及实时管道性能优化方面的设计。

回放内容重点解析了 Hudi 的核心优势,如记录级索引、非阻塞并发控制以及智能文件大小管理技术。这些特性共同作用,能够在实现低延迟数据更新的同时,有效避免因小文件或资源瓶颈导致的管道性能问题。

获取构建稳健、可扩展数据流的关键洞察:https://www.youtube.com/watch?v=GUMiY44iy74

博客解读:深入 Hudi 索引子系统(下篇)

记录与二级索引查找流程

Shiyan Xu 撰写的最新博客深入探讨了 Hudi 的索引子系统,包括记录级索引、二级索引和表达式索引。这些索引机制能够大幅加速基于键值的查找、非主键过滤以及复杂谓词条件的查询。

博客亮点包括:

  • 异步索引构建:对数据写入过程实现零影响。
  • 事务一致性:通过元数据表保障。
  • 智能过滤:结合使用 Bloom Filter 和列统计信息进行高效文件剪枝。

这对于需要在大型、可变数据湖仓中优化查询性能的开发者具有重要参考价值。

阅读完整全文:https://yunpan.plus/t/1578-1-1

博客分享:Hudi 中的动态 Bloom Filter 解析

动态 Bloom Filter

Yongkyun Lee 的新文章详细解释了 Hudi 动态 Bloom Filter 的工作原理。与传统固定大小的布隆过滤器不同(可能导致误报率激增或内存浪费),Hudi 的动态版本能够随着数据量增长而自动调整,即使在 Upsert 操作量不可预测地激增时,也能保持高准确性和效率。

其带来的优势包括:可靠的文件剪枝效果、最小的内存占用,以及在 PB 级数据规模下依然流畅的查询性能。

阅读技术解析:https://yunpan.plus/t/1580-1-1

Hudi 基础教程:使用 Precombine Key 处理乱序数据

处理乱序数据

来自 Onehouse 的 Andy 通过视频详细介绍了 Hudi 的 Precombine Key 功能,该功能用于对乱序到达的数据流进行去重和合并,例如处理延迟的 IoT 遥测数据或 CDC 更新,确保保留具有最高优先级值(如最新时间戳)的记录。

教程内容涵盖:

  • 通过表属性配置 Precombine Key
  • 使用 Payload 类保障跨批次数据的一致性
  • 实时演示:将 Kafka 点击流数据摄取到可变的 Hudi 表中

该教程有助于确保实时湖仓摄取的数据准确性,不受延迟到达数据的影响。

观看实战演示:https://www.youtube.com/watch?v=stSliRIMXEg

Hudi 学习与资源

快速开始

官方文档https://hudi.apache.org/docs/overview

社区交流

社交媒体

贡献指南

您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2025-12-8 11:49 , Processed in 0.084062 second(s), 37 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 云栈社区.

快速回复 返回顶部 返回列表