跳转到主要内容

Dask的高级表达式

项目描述

Dask表达式

Dask DataFrames具有查询优化。

这是Dask DataFrame的重新编写,包括查询优化和一般组织改进。

更多内容请查看我们的博客文章

示例

import dask_expr as dx

df = dx.datasets.timeseries()
df.head()

df.groupby("name").x.mean().compute()

查询表示

Dask-expr将用户代码编码在表达式树中

>>> df.x.mean().pprint()

Mean:
  Projection: columns='x'
    Timeseries: seed=1896674884

此表达式树将在执行前进行优化和修改

>>> df.x.mean().optimize().pprint()

Div:
  Sum:
    Fused(375f9):
    | Projection: columns='x'
    |   Timeseries: dtypes={'x': <class 'float'>} seed=1896674884
  Count:
    Fused(375f9):
    | Projection: columns='x'
    |   Timeseries: dtypes={'x': <class 'float'>} seed=1896674884

稳定性

这是自2024.3.0版本以来dask.DataFrame的默认后端。

API覆盖率

Dask-Expr涵盖了Dask DataFrame API的几乎所有内容。唯一缺少的功能是

  • 命名分组聚合

项目详情


发布历史 发布通知 | RSS源

下载文件

下载适合您平台的应用程序。如果您不确定要选择哪个,请了解更多关于安装包的信息。

源代码分发

dask_expr-1.1.15.tar.gz (222.2 kB 查看哈希值)

上传时间 源代码

构建分发

dask_expr-1.1.15-py3-none-any.whl (242.7 kB 查看哈希值)

上传时间 Python 3

由以下机构支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误日志 StatusPage StatusPage 状态页面