dbt的Databricks适配器插件
项目描述
dbt 允许数据分析师和工程师使用软件工程师构建应用程序的相同实践来转换他们的数据。
Databricks Lakehouse 提供一个简单的平台,统一所有数据、分析和AI工作负载。
dbt-databricks
《dbt-databricks》适配器包含了所有使dbt能够与Databricks协同工作的代码。这个适配器基于在dbt-spark中完成的出色工作。一些关键特性包括
- 易于设置。由于适配器使用纯Python API,因此无需安装ODBC驱动程序。
- 默认开放。例如,它默认使用高性能的Delta表格式。这有许多好处,包括让您可以使用
MERGE
作为默认的增量材料化策略。 - 支持Unity Catalog。dbt-databricks≥1.1.1支持Unity Catalog的3级命名空间(目录/模式/关系),因此您可以按您喜欢的任何方式组织和保护您的数据。
- 性能。适配器生成的SQL表达式将由本地的、矢量化Photon执行引擎自动加速。
选择dbt-databricks和dbt-spark
如果您正在Databricks上开发dbt项目,我们建议使用dbt-databricks
,原因如上所述。
dbt-spark
是一个积极开发的适配器,它可以在任何托管位置(例如,在AWS EMR上)与Databricks以及Apache Spark一起工作。
入门指南
安装
使用pip安装
pip install dbt-databricks
升级到最新版本
pip install --upgrade dbt-databricks
配置文件设置
your_profile_name:
target: dev
outputs:
dev:
type: databricks
catalog: [optional catalog name, if you are using Unity Catalog, only available in dbt-databricks>=1.1.1]
schema: [database/schema name]
host: [your.databrickshost.com]
http_path: [/sql/your/http/path]
token: [dapiXXXXXXXXXXXXXXXXXXXXXXX]
快速入门
以下快速入门将帮助您使用dbt-databricks
适配器快速入门
- 开发您的第一个dbt项目
- 使用Databricks与dbt Cloud(Azure | AWS)
- 在Databricks Workflows上运行dbt生产作业
- 使用Unity Catalog与dbt-databricks
- 使用GitHub Actions在Databricks上为dbt CI/CD
- 使用databricks_copy_into宏将数据从S3加载到Delta
- 为此存储库做出贡献
兼容性
《dbt-databricks》适配器已经过测试
- 支持Python 3.7或更高版本。
- 针对
Databricks SQL
和Databricks运行时版本9.1 LTS
及更高版本。
技巧和窍门
为Python模型选择计算
您可以通过在模型配置中设置http_path
属性来覆盖特定Python模型使用的计算。如果,例如,您想在All Purpose集群上运行Python模型,同时在SQL Warehouse上运行SQL模型,这可能会很有用。请注意,此功能仅适用于Python模型。
def model(dbt, session):
dbt.config(
http_path="sql/protocolv1/..."
)
项目详情
下载文件
下载适用于您的平台的文件。如果您不确定选择哪一个,请了解有关安装包的更多信息。
源分发
dbt_databricks-1.8.6.tar.gz (64.0 kB 查看散列值)
构建分发
dbt_databricks-1.8.6-py3-none-any.whl (89.0 kB 查看散列值)