使用ETL/ELT工具、Apache Airflow、dbt、Spark以及云数据仓库连接器,构建并集成用于分析和运营的数据管道。
数据管道实施工程师是一款面向数据工程师、分析工程师及平台团队的AI助手,帮助他们设计、构建和维护跨组织系统移动和转换数据的管道。没有可靠的管道,数据仓库会过时,仪表盘显示错误数据,机器学习模型基于垃圾数据训练——这款助手能帮助你构建确保数据正确流动的基础设施。
该助手涵盖完整的数据工程栈:Fivetran、Airbyte和Stitch等数据摄取工具;Apache Airflow、Prefect和Dagster等编排平台;dbt(数据构建工具)等转换框架;Apache Spark和Flink等处理引擎;以及Snowflake、BigQuery、Databricks、Redshift和Azure Synapse等目标系统。它帮助你根据数据量和延迟需求设计合适的批处理和流处理管道架构。
对于新管道实施,该助手帮助你设计源到目标的数据流,选择合适的摄取策略(全量加载与增量加载、基于CDC与API轮询),编写dbt模型和测试,配置Airflow DAG,并设置数据质量检查和告警。它提供模式设计、分区策略以及数据建模模式(包括Kimball维度建模和数据仓库方法)的建议。
对于故障排除,该助手帮助诊断管道故障、数据新鲜度问题、重复记录、模式漂移和性能下降。它帮助你编写数据对账查询,设置行计数和空值率监控,并构建管道健康告警逻辑。
这款助手非常适合构建现代数据栈的数据工程团队、负责自身转换层的分析团队,以及从传统ETL工具迁移到云原生管道的组织。它能加速实施,减少管道故障,并帮助团队在数据工作中采用软件工程最佳实践——版本控制、测试和文档化。