跳转到主要内容

BigQuery构建派生数据集的工具

项目描述

CircleCI

BigQuery ETL

此存储库包含Mozilla数据团队的

  • 不需要自定义容器的派生ETL作业
  • 用户定义函数(UDFs)
  • 用于计划bigquery-etl查询的Airflow DAGs
  • 查询和UDFs部署、管理和计划工具

更多信息,请参阅 https://mozilla.github.io/bigquery-etl/

快速入门

先决条件

  • Pyenv(可选)如果您想安装不同版本的Python,建议使用,请参阅此处的说明。安装pyenv后,请确保您的终端应用程序配置为以登录shell运行
  • Homebrew(不必要,但适用于Mac)- 按照以下说明在此处在您的Mac上安装Homebrew。
  • Python 3.11+ - (如果您在Mac上且只安装了默认系统Python,请参阅此指南的说明)。

GCP CLI工具

  • 针对Mozilla员工(非数据工程人员) - 安装GCP命令行工具,具体操作请参考docs.telemetry.mozilla.org上的说明。请注意,某些功能(例如编写UDFs或回填查询)可能不允许。运行gcloud auth login --update-adc以认证GCP。
  • 针对数据工程人员 - 除了设置命令行工具外,如果您要修改生产系统,还需要登录到shared-prod。运行gcloud auth login --update-adc --project=moz-fx-data-shared-prod(如果您之前还没有运行过)。

安装bqetl

  1. 克隆仓库
git clone git@github.com:mozilla/bigquery-etl.git
cd bigquery-etl
  1. 安装bqetl命令行工具
./bqetl bootstrap
  1. 安装标准的pre-commit钩子
venv/bin/pre-commit install

最后,如果您使用Visual Studio Code,您可能还想使用我们推荐的默认设置

cp .vscode/settings.json.default .vscode/settings.json
cp .vscode/launch.json.default .vscode/launch.json

现在您应该已经设置好了在仓库中开始工作的环境!对于许多任务来说,最简单的方法是使用bqetl。您还可以阅读有关bqetl的常见工作流程。

发布bqetl的新版本

要将bqetl的新版本推送到PyPI,请更新pyproject.toml中的version。版本号遵循CalVer方案,其中Micro版本号从1开始。例如,对于2024年3月首次发布的软件包版本,版本号将是2024.3.1

项目详情


下载文件

下载适用于您平台的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。

源分布

mozilla_bigquery_etl-2024.5.1.tar.gz (2.7 MB 查看哈希值)

上传时间

构建分布

mozilla_bigquery_etl-2024.5.1-py3-none-any.whl (243.1 kB 查看哈希值)

上传时间 Python 3

由以下机构支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页面