BigQuery构建派生数据集的工具
项目描述
BigQuery ETL
此存储库包含Mozilla数据团队的
- 不需要自定义容器的派生ETL作业
- 用户定义函数(UDFs)
- 用于计划bigquery-etl查询的Airflow DAGs
- 查询和UDFs部署、管理和计划工具
更多信息,请参阅 https://mozilla.github.io/bigquery-etl/
快速入门
先决条件
- Pyenv(可选)如果您想安装不同版本的Python,建议使用,请参阅此处的说明。安装pyenv后,请确保您的终端应用程序配置为以登录shell运行。
- Homebrew(不必要,但适用于Mac)- 按照以下说明在此处在您的Mac上安装Homebrew。
- Python 3.11+ - (如果您在Mac上且只安装了默认系统Python,请参阅此指南的说明)。
GCP CLI工具
- 针对Mozilla员工(非数据工程人员) - 安装GCP命令行工具,具体操作请参考docs.telemetry.mozilla.org上的说明。请注意,某些功能(例如编写UDFs或回填查询)可能不允许。运行
gcloud auth login --update-adc
以认证GCP。 - 针对数据工程人员 - 除了设置命令行工具外,如果您要修改生产系统,还需要登录到
shared-prod
。运行gcloud auth login --update-adc --project=moz-fx-data-shared-prod
(如果您之前还没有运行过)。
安装bqetl
- 克隆仓库
git clone git@github.com:mozilla/bigquery-etl.git
cd bigquery-etl
- 安装
bqetl
命令行工具
./bqetl bootstrap
- 安装标准的pre-commit钩子
venv/bin/pre-commit install
最后,如果您使用Visual Studio Code,您可能还想使用我们推荐的默认设置
cp .vscode/settings.json.default .vscode/settings.json
cp .vscode/launch.json.default .vscode/launch.json
现在您应该已经设置好了在仓库中开始工作的环境!对于许多任务来说,最简单的方法是使用bqetl
。您还可以阅读有关bqetl
的常见工作流程。
发布bqetl
的新版本
要将bqetl
的新版本推送到PyPI,请更新pyproject.toml
中的version
。版本号遵循CalVer方案,其中Micro版本号从1开始。例如,对于2024年3月首次发布的软件包版本,版本号将是2024.3.1
。
项目详情
关闭
哈希值 for mozilla_bigquery_etl-2024.5.1-py3-none-any.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 2d18603e6b87554c4f5a0122e03a856a9426d212ad84ab942f4b71d0fcd3b87e |
|
MD5 | 77ee9f468aa5481f5395dcc0481985a6 |
|
BLAKE2b-256 | 7c52bcd9cca77c4babcfbe2be551d8d96133bf512cb7303b05c1857e1faf9cca |