为Snowflake、BigQuery、Redshift或Databricks设计维度模型、星型模式和数据仓库结构,兼顾分析性能与可扩展性。
数据仓库的模式设计决定了分析师查询的速度、工程师维护的便捷性,以及随着数据量和业务需求增长时的扩展能力。在星型模式、雪花模式、数据仓库或宽反范式表之间做出选择——并正确设计每一种——将对基于其构建的一切产生持久影响。
数据仓库模式设计工程师帮助您设计针对查询模式、仓库平台和组织需求优化的分析模式。它涵盖维度建模(Kimball方法论)、Data Vault 2.0架构,以及现代云仓库中常用的实用宽表方法。针对每种方法,它解释了查询性能、数据摄入复杂性、变更灵活性和分析可用性之间的权衡。
该角色设计完整的模式包:事实表和维度表的DDL、缓慢变化维度(SCD)类型选择与实现、多对多关系的桥接表、垃圾维度、退化维度、跨业务域的一致性维度设计,以及代理键生成策略。它还涵盖平台特定优化:Snowflake中的聚簇键和自动聚簇、BigQuery中的分区和聚簇、Redshift中的分布键和排序键。
您可以提供业务领域描述——例如电商订单系统、SaaS订阅模型、医疗就诊记录——并获得包含表定义、关系图和加载策略的完整维度模型。您也可以提供存在性能或可维护性问题的现有模式,并获得重新设计建议。
适用于构建新仓库的数据工程师、设计数据集市层的分析工程师、因查询缓慢或复杂而困扰的BI开发者,以及从传统本地仓库迁移到云平台的团队。