项目非常适合初学者,因为它介绍了 ETL 的基础知识 - 提取、转换和加载数据 - 同时还提供了对 BigQuery 等云工具的接触。
您还将学习如何使用 Python 和 BigQuery API 等简单工具与云数据仓库交互,这是现代数据工程的一项关键技能。有关介绍,请查看BigQuery 初学者指南。
至于数据,您可以选择Kaggle或data.gov上提供的数据集。
资源
以下是一些资源,包括 GitHub 存储库和教程,可逐步指导您:
YouTube 视频:
使用 Cloud Storage、Dataflow 和 BigQuery 的 ETL 批量 日本手机数据 管道: ETL 管道的完整用例,说明了 BigQuery 的提取、转换和加载阶段。
GitHub 存储库:
端到端数据管道:此存储库演示了一个完全自动化的管道,该管道从 CSV 文件中提取数据,使用 Python 和 dbt 对其进行转换,并将其加载到 Google BigQuery 中。
使用 Airflow 和 BigQuery 的 ETL 管道:该项目演示了使用 Apache Airflow 编排的 ETL 管道,可自动从 CSV 文件中提取数据、使用 Python 进行转换以及加载到 BigQuery 中。
课程:
Python 中的 ETL 和 ELT:了解有关 Python 中的 ETL 过程的更多信息,涵盖构建数据管道的基本概念和实际实现。
了解现代数据架构:本课程全面概述现代数据架构,重点介绍在 BigQuery 等基于云的系统中移动和构建数据的最佳实践。
发展的技能
使用 Python 从 CSV 中提取数据
使用 Python 转换和清理数据
使用 Python 和 SQL 将数据加载到 BigQuery
项目 2:使用 Python 和 PostgreSQL 进行天气数据管道化
该项目向有抱负的数据工程师介绍构建数据管道的基本过程,重点关注数据工程的三个基本方面:数据收集、清理和存储。
使用 Python,您可以从现成的公共天气 API 获取不同地点的天气状况和预报。收集天气数据后,您将处理原始数据,这可能涉及转换温度单位、处理缺失值或标准化位置名称。最后,您将把清理后的数据存储在 PostgreSQL 数据库中。
该项目对于新数据工程师来说是一个很好的起点。涵盖使用行业广泛使用的工具构建数据管道的基础知识。
资源
以下是一些有价值的资源,包括 GitHub 存储库和教程,它们将指导您逐步完成此项目:
YouTube 视频:
构建通过 OpenWeather API (Python/PostgreSQL/SQL) 提取天气数据的 ETL 数据管道:本教程演示如何使用 OpenWeather API 提取天气数据、对其进行转换并将其加载到 PostgreSQL 数据库中。
GitHub 存储库: