此项目提供了一系列用于轻量级数据整理的工具。
项目描述
datashaper
此项目提供了一系列用于轻量级数据整理的工具。
项目有两个目标
- 创建一个可共享的客户端/服务器模式,用于序列化整理指令
- 维护一个基本的整理引擎实现(基于Arquero),以及在Python中实现为Pandas
构建
- 您需要安装poetry Python包管理器。
- 运行:
poetry install
用法
该项目旨在用作轻量级数据整理的库。在示例文件夹中有一个笔记本,其中提供了创建数据整理管道和读取由js实现生成的json规范的几个示例。
合并两个表的示例
from datashaper.pipeline import Pipeline
import datashaper.types as types
import pandas as pd
# id name
# 1 bob
# 2 joe
# 3 jane
parents = pd.DataFrame({
"id": [1, 2, 3],
"name": ['bob', 'joe', 'jane']
})
# id kid
# 1 billy
# 1 jill
# 2 kaden
# 2 kyle
# 3 moe
kids = pd.DataFrame({
"id": [1, 1, 2, 2, 3],
"kid": ['billy', 'jill', 'kaden', 'kyle', 'moe']
})
pipeline = Pipeline()
pipeline.add_dataset('parents', parents)
pipeline.add_dataset('kids', kids)
pipeline.add(Step(
verb=Verb.join,
input="parents",
output="output",
args={
"other": "kids",
"on":["id"]
}
))
# id name kid
# 1 bob billy
# 1 bob jill
# 2 joe kaden
# 2 joe kyle
# 3 jane moe
result = pipeline.run()
贡献
本项目欢迎贡献和建议。大多数贡献都需要您同意贡献者许可协议(CLA),声明您有权并且实际上已经授予我们使用您贡献的权利。有关详细信息,请访问 https://cla.opensource.microsoft.com。
当您提交拉取请求时,CLA 机器人会自动确定您是否需要提供 CLA,并相应地装饰 PR(例如,状态检查,评论)。只需遵循机器人提供的说明。您只需要在整个使用我们的 CLA 的所有存储库中这样做一次。
本项目已采用 微软开源行为准则。有关更多信息,请参阅 行为准则常见问题解答 或通过 opencode@microsoft.com 联系我们,提出任何额外的问题或评论。
商标
本项目可能包含项目、产品或服务的商标或徽标。授权使用微软商标或徽标须遵守并遵循 微软商标和品牌指南。在修改后的本项目中使用微软商标或徽标不得引起混淆或暗示微软赞助。任何使用第三方商标或徽标的行为均受那些第三方政策的约束。
项目详情
下载文件
下载适合您平台文件。如果您不确定选择哪个,请了解有关 安装包 的更多信息。
源代码分发
datashaper-0.0.49.tar.gz (36.4 kB 查看散列)
构建分发
datashaper-0.0.49-py3-none-any.whl (72.0 kB 查看散列)
关闭
datashaper-0.0.49.tar.gz 的散列
算法 | 散列摘要 | |
---|---|---|
SHA256 | 05bfba5964474a62bdd5259ec3fa0173d01e365208b6a4aff4ea0e63096a7533 |
|
MD5 | 31bcb614cd195c5278c58f2a524f3b56 |
|
BLAKE2b-256 | e6d328663b75307748e36a026d32a6d60e0725ed054f28cc5a72fa418ac166ae |
关闭
datashaper-0.0.49-py3-none-any.whl 的散列
算法 | 散列摘要 | |
---|---|---|
SHA256 | 7f58cabacc834765595c6e04cfbbd05be6af71907e46ebc7a91d2a4add7c2643 |
|
MD5 | 2098e0cc9b3dd9fdb2c5d4ea1c674171 |
|
BLAKE2b-256 | cbb9f5cebf0fd2ebee6449663989f275f186928c92b94d05c9503c9ccc814757 |