adlfs · PyPI · Python 包索引

使用fsspec和dask访问Azure Datalake Gen1

这些详情尚未由PyPI验证

项目描述

用于Azure-Datalake Gen1和Gen2存储的文件系统接口

快速入门

可以使用以下命令安装此软件包

pip install adlfs

或

conda install -c conda-forge adlfs

adl:// 和 abfs:// 协议已包含在fsspec > 0.6.1的已知实现注册表中，否则用户必须明确通知fsspec支持的adlfs协议。

要使用Gen1文件系统

import dask.dataframe as dd

storage_options={'tenant_id': TENANT_ID, 'client_id': CLIENT_ID, 'client_secret': CLIENT_SECRET}

dd.read_csv('adl://{STORE_NAME}/{FOLDER}/*.csv', storage_options=storage_options)

要使用Gen2文件系统，您可以使用协议 abfs 或 az

import dask.dataframe as dd

storage_options={'account_name': ACCOUNT_NAME, 'account_key': ACCOUNT_KEY}

ddf = dd.read_csv('abfs://{CONTAINER}/{FOLDER}/*.csv', storage_options=storage_options)
ddf = dd.read_parquet('az://{CONTAINER}/folder.parquet', storage_options=storage_options)

Accepted protocol / uri formats include:
'PROTOCOL://container/path-part/file'
'PROTOCOL://container@account.dfs.core.windows.net/path-part/file'

or optionally, if AZURE_STORAGE_ACCOUNT_NAME and an AZURE_STORAGE_<CREDENTIAL> is 
set as an environmental variable, then storage_options will be read from the environmental
variables

要从公共存储blob读取，您需要指定 'account_name'。例如，您可以访问纽约出租车和豪华轿车委员会作为

storage_options = {'account_name': 'azureopendatastorage'}
ddf = dd.read_parquet('az://nyctlc/green/puYear=2019/puMonth=*/*.parquet', storage_options=storage_options)

详情

本包包含适用于 Azure Data Lake Gen1 和 Azure Data Lake Gen2 的 Pythonic 文件系统实现，简化了 Azure Data Lake 实现和 Dask 之间的交互。这是通过利用 intake/filesystem_spec 基类和 Azure Python SDK 实现的。

目前，对 Gen1 Data Lake 的操作仅支持使用具有适当凭据的 Azure ServicePrincipal 在所选资源上执行操作。

Gen2 Data Lake 的操作通过利用 Azure Blob Storage Python SDK 实现。

设置凭据

storage_options 可以根据文件系统使用不同的关键字参数进行实例化。最常用的参数包括

connection_string
account_name
account_key
sas_token
tenant_id、client_id 和 client_secret 结合用于 Azure ServicePrincipal，例如 storage_options={'account_name': ACCOUNT_NAME, 'tenant_id': TENANT_ID, 'client_id': CLIENT_ID, 'client_secret': CLIENT_SECRET}
anon：布尔值，可选。如果没有提供其他凭据，将尝试匿名访问的值。默认情况下（None），会检查 AZURE_STORAGE_ANON 环境变量。False 值（false、0、f）将解析为 False 并不会尝试匿名访问。否则，anon 的值解析为 True。
location_mode：有效值是 "primary" 或 "secondary"，适用于 RA-GRS 账户

有关更多参数详细信息，请参阅 AzureBlobFileSystem 的所有参数和 AzureDatalakeFileSystem 的所有参数。

以下环境变量也可以设置并用于身份验证

"AZURE_STORAGE_CONNECTION_STRING"
"AZURE_STORAGE_ACCOUNT_NAME"
"AZURE_STORAGE_ACCOUNT_KEY"
"AZURE_STORAGE_SAS_TOKEN"
"AZURE_STORAGE_TENANT_ID"
"AZURE_STORAGE_CLIENT_ID"
"AZURE_STORAGE_CLIENT_SECRET"

根据各种 storage_options 组合，可以为不同的用例实例化文件系统。以下列表描述了使用 AzureBlobFileSystem（即协议 abfs 或 az）的一些常见用例。请注意，所有情况都需要提供 account_name 参数

匿名连接到公共容器：storage_options={'account_name': ACCOUNT_NAME, 'anon': True} 将假定 ACCOUNT_NAME 指向公共容器，并尝试使用匿名登录。注意，anon 的默认值为 True。
使用 Azure 的 DefaultAzureCredential() 库自动解决凭据：storage_options={'account_name': ACCOUNT_NAME, 'anon': False} 将使用 DefaultAzureCredential 获取对容器 ACCOUNT_NAME 的有效凭据。DefaultAzureCredential 尝试通过以下机制和顺序进行身份验证：此处可视化。
不需要 storage_options 自动解决凭据：将 AZURE_STORAGE_ANON 设置为 false，从而自动解决凭据。这对于与 fsspec 兼容非常有用。
Azure ServicePrincipal：tenant_id、client_id 和 client_secret 都用作 Azure ServicePrincipal 的凭据：例如 storage_options={'account_name': ACCOUNT_NAME, 'tenant_id': TENANT_ID, 'client_id': CLIENT_ID, 'client_secret': CLIENT_SECRET}。

追加 Blob

AzureBlobFileSystem 接受所有 Async BlobServiceClient 参数。

默认情况下，写入操作会在Azure中创建BlockBlobs，一旦写入，就不能再追加。在创建和操作Blob时，可以使用mode="ab"来创建AppendBlob。当前，如果启用了分层命名空间，则不可用AppendBlobs。

项目详情

这些详情尚未由PyPI验证

发布历史发布通知 | RSS源

本版本

2024.7.0

2024年7月22日

2024.4.1

2024年4月15日

2024.4.0

2024年4月13日

2024.2.0

2024年2月5日

2024.1.0

2024年1月29日

2023.12.0

2023年12月23日

2023.10.0

2023年10月17日

2023.9.0

2023年9月17日

2023.8.0

2023年8月8日

2023.4.0

2023年4月27日

2023.1.0

2023年1月17日

2022.11.2

2022年11月24日

2022.11.1

2022年11月24日

2022.11.0 已撤回

2022年11月23日

撤回此发布的原因

AzureDatalakeFileSystem导入失败

2022.10.0

2022年10月3日

2022.9.1

2022年9月6日

2022.9.0

2022年9月6日

2022.7.0

2022年7月9日

2022.4.0

2022年4月15日

2022.4.0a0 预发布

2022年4月15日

2022.2.0

2022年2月5日

2021.10.0

2021年10月3日

2021.9.1

2021年9月10日

2021.8.2

2021年8月18日

2021.8.1

2021年8月13日

2021.7.1

2021年7月19日

2021.7.0 已撤回

2021年7月12日

撤回此发布的原因

匿名登录到公共仓库的行为更改导致用户问题

0.7.7

2021年6月14日

0.7.6

2021年6月9日

0.7.5

2021年5月11日

0.7.4

2021年4月26日

0.7.3

2021年4月15日

0.7.2

2021年4月12日

0.7.1

2021年4月9日

0.7.0

2021年3月31日

0.6.3

2021年2月16日

0.6.2

2021年2月12日

0.6.1

2021年2月9日

0.6.0

2021年1月15日

0.5.9

2020年12月19日

0.5.8

2020年12月9日

0.5.7

2020年11月19日

0.5.5

2020年10月6日

0.5.4

2020年10月4日

0.5.3

2020年9月15日

0.5.2 已撤回

2020年9月15日

0.5.1

2020年9月10日

0.5.0

2020年9月7日

0.4.0

2020年8月20日

0.3.3

2020年8月13日

0.3.2

2020年8月2日

0.3.1

2020年6月15日

0.3.0

2020年5月19日

0.2.5

2020年5月19日

0.2.4

2020年4月21日

0.2.3

2020年4月21日

0.2.2

2020年4月20日

0.2.0

2020年2月15日

0.1.5

2019年12月17日

0.1.4

2019年12月16日

0.1.3

2019年12月15日

0.1.3a0 预发布

2019年12月16日

0.1.2

2019年11月25日

0.1.1

2019年11月14日

0.1.0

2019年10月20日

0.0.11

2019年10月15日

0.0.10.post2

2019年10月14日

0.0.10.post1

2019年10月14日

0.0.10.post0

2019年10月14日

0.0.10

2019年10月14日

0.0.9.post0

2019年10月9日

0.0.9

2019年10月9日

0.0.8.post3

2019年10月9日

0.0.8.post2

2019年10月9日

0.0.8.post1

2019年10月9日

0.0.8.post0

2019年10月9日

0.0.8

2019年10月9日

0.0.8a0 预发布

2019年10月9日

0.0.7

2019年9月23日

0.0.6

2019年9月19日

0.0.5

2019年9月11日

0.0.5a0 预发布

2019年9月18日

0.0.2

2019年8月11日

下载文件

下载适用于您的平台的文件。如果您不确定选择哪个，请了解更多关于安装包的信息。

源分布

adlfs-2024.7.0.tar.gz (48.6 kB 查看散列)

上传时间 2024年7月22日 源

构建分布

adlfs-2024.7.0-py3-none-any.whl (41.3 kB 查看散列)

上传时间 2024年7月22日 Python 3

哈希值 for adlfs-2024.7.0.tar.gz

adlfs-2024.7.0.tar.gz 的哈希值
算法	哈希摘要
SHA256	`106995b91f0eb5e775bcd5957d180d9a14faef3271a063b1f65c66fd5ab05ddf`
MD5	`6b2f6d94b8666ee3e62866da8a048033`
BLAKE2b-256	`b41e6d5146676044247af566fa5843b335b1a647e6446070cec9c8b61c31b369`

哈希值 for adlfs-2024.7.0-py3-none-any.whl

adlfs-2024.7.0-py3-none-any.whl 的哈希值
算法	哈希摘要
SHA256	`2005c8e124fda3948f2a6abb2dbebb2c936d2d821acaca6afd61932edfa9bc07`
MD5	`3939b7b51567e18a1752ff5e7c4ab1e9`
BLAKE2b-256	`6f51a71c457bd0bc8af3e522b6999ff300852c7c446e384fd9904b0794f875df`

adlfs 2024.7.0

导航

验证详情

维护者

未验证详情

元数据

分类器

项目描述

用于Azure-Datalake Gen1和Gen2存储的文件系统接口

快速入门

详情

设置凭据

追加 Blob

项目详情

验证详情

维护者

未验证详情

元数据

分类器

发布历史发布通知 | RSS源

下载文件

源分布

构建分布

adlfs 2024.7.0

导航

验证详情

维护者

未验证详情

元数据

分类器

项目描述

用于Azure-Datalake Gen1和Gen2存储的文件系统接口

快速入门

详情

设置凭据

追加 Blob

项目详情

验证详情

维护者

未验证详情

元数据

分类器

发布历史 发布通知 | RSS源

下载文件

源分布

构建分布

发布历史发布通知 | RSS源