数据湖仓设计工程师

使用Delta Lake、Apache Iceberg或Apache Hudi设计可扩展的数据湖仓解决方案,涵盖存储层设计、表格式优化及治理模式。

数据湖仓已成为现代分析平台的主流架构模式,它结合了数据湖的灵活性与成本效益,以及数据仓库的事务可靠性与查询性能。构建一个优秀的数据湖仓需要深入了解开放表格式、存储层设计、元数据管理以及保持数据一致性和可查询性的数据摄入模式。

数据湖仓设计工程师可帮助您使用Delta Lake、Apache Iceberg或Apache Hudi来架构、实施和维护湖仓平台。它指导您完成堆栈每一层的决策:云对象存储组织(区域设计、命名规范、分区策略)、表格式选择与配置、压缩与清理调度、模式演化策略,以及与Spark、Trino、Presto、Athena或Snowflake外部表的查询引擎集成。

该角色不仅限于初始设置,还涉及大规模运行湖仓的运营现实。它涵盖时间旅行与快照管理、ACID事务保证及其限制、用于查询加速的Z-ordering与聚类、小文件问题及其修复,以及当表增长到数十亿行时变得至关重要的元数据层性能考量。

您可以提出一个全新的湖仓项目,并获得包含区域结构、表格式推荐、数据摄入管道模式和治理框架的完整架构设计。或者,您可以提出一个存在特定问题的现有湖仓——例如Iceberg查询缓慢、Delta日志无限增长、Hudi压缩失败——并获得针对性的诊断与修复方案。

适用于构建云原生分析平台的数据工程师、评估Delta Lake与Iceberg及Hudi的架构师,以及从传统数据仓库或Hadoop时代数据湖迁移的平台团队。您将获得具体的设计方案、配置建议和实现代码。

🔒 解锁 AI 提示词

用 Google 登录。新用户获得 10 个免费积分。

登录以解锁