一个基于数据包的便捷数据处理框架

这些详情尚未由PyPI验证

项目链接

主页

开发状态
- 4 - 测试版
目标受众
- 开发者
许可证
- OSI批准 :: MIT许可证
操作系统
- 与操作系统无关
编程语言
- Python :: 3.12
主题
- 软件开发 :: 库 :: Python模块

项目描述

DataFlows

PyPI - Python Version

DataFlows是一种简单直观的数据处理流构建方式。

它是为中小型数据处理而构建的——数据可以适合您的硬盘，但太大无法加载到Excel中或直接加载到Python中，也不足以需要启动Hadoop集群...
它是建立在Frictionless Data项目的基础上——这意味着所有这些流程产生的数据都很容易被其他人重用。
它是一种模式，而不是重量级的框架：如果您已经有一系列下载和提取脚本，这将是一个自然的选择

在下面的功能部分中了解更多。

快速入门

通过pip install.安装dataflows

（如果您使用的是最小UNIX操作系统，请先运行sudo apt install build-essential）

然后使用命令行界面为任何远程数据文件启动基本处理脚本

# Install from PyPi
$ pip install dataflows

# Inspect a remote CSV file
$ dataflows init https://raw.githubusercontent.com/datahq/dataflows/master/data/academy.csv
Writing processing code into academy_csv.py
Running academy_csv.py
academy:
#     Year           Ceremony  Award                                 Winner  Name                            Film
      (string)      (integer)  (string)                            (string)  (string)                        (string)
----  ----------  -----------  --------------------------------  ----------  ------------------------------  -------------------
1     1927/1928             1  Actor                                         Richard Barthelmess             The Noose
2     1927/1928             1  Actor                                      1  Emil Jannings                   The Last Command
3     1927/1928             1  Actress                                       Louise Dresser                  A Ship Comes In
4     1927/1928             1  Actress                                    1  Janet Gaynor                    7th Heaven
5     1927/1928             1  Actress                                       Gloria Swanson                  Sadie Thompson
6     1927/1928             1  Art Direction                                 Rochus Gliese                   Sunrise
7     1927/1928             1  Art Direction                              1  William Cameron Menzies         The Dove; Tempest
...

# dataflows create a local package of the data and a reusable processing script which you can tinker with
$ tree
.
├── academy_csv
│   ├── academy.csv
│   └── datapackage.json
└── academy_csv.py

1 directory, 3 files

# Resulting 'Data Package' is super easy to use in Python
[adam] ~/code/budgetkey-apps/budgetkey-app-main-page/tmp (master=) $ python
Python 3.6.1 (default, Mar 27 2017, 00:25:54)
[GCC 4.2.1 Compatible Apple LLVM 8.0.0 (clang-800.0.42.1)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> from datapackage import Package
>>> pkg = Package('academy_csv/datapackage.json')
>>> it = pkg.resources[0].iter(keyed=True)
>>> next(it)
{'Year': '1927/1928', 'Ceremony': 1, 'Award': 'Actor', 'Winner': None, 'Name': 'Richard Barthelmess', 'Film': 'The Noose'}
>>> next(it)
{'Year': '1927/1928', 'Ceremony': 1, 'Award': 'Actor', 'Winner': '1', 'Name': 'Emil Jannings', 'Film': 'The Last Command'}

# You now run `academy_csv.py` to repeat the process
# And obviously modify it to add data modification steps

功能

易于开始，易于扩展
几秒钟内在命令行上设置和运行...
- dataflows init => flow.py
- python flow.py
快速验证输入（特别是源）（非零长度，正确结构等。）
支持从源缓存数据，甚至在步骤之间
- 以便我们可以快速运行和测试（检索是慢的）
立即运行测试：并查看输出...
- 日志、调试、重新运行
降级为简单Python
约定优于配置
记录异常并/或终止
每个阶段的输入是数据包或数据资源（不是之前的任务）
- 基于数据包且兼容
处理器可以是一个函数（或一个类），逐行、逐资源或整个包处理
预存在的优秀的贡献库，包括读取器（收集器）、处理器和写入器

了解更多

深入了解教程，以更深入地了解dataflows能做什么。同时查看这个内置处理器列表，它还包括每个处理器的API参考。

项目详情

这些详情尚未由PyPI验证

项目链接

主页

开发状态
- 4 - 测试版
目标受众
- 开发者
许可证
- OSI批准 :: MIT许可证
操作系统
- 与操作系统无关
编程语言
- Python :: 3.12
主题
- 软件开发 :: 库 :: Python模块

发布历史发布通知 | RSS源

本版本

0.5.5

2024年4月1日

0.5.4

2024年3月22日

0.5.3

2024年3月22日

0.5.2

2024年3月22日

0.5.1

2024年3月22日

0.5.0

2024年3月20日

0.4.14

2024年3月13日

0.4.12

2024年3月13日

0.4.11

2024年3月13日

0.4.10

2024年3月13日

0.4.9

2024年3月12日

0.4.8

2024年3月12日

0.4.7

2024年3月12日

0.4.5

2023年10月11日

0.4.3

2023年9月26日

0.4.2

2023年9月26日

0.4.1

2023年9月26日

0.4.0

2023年7月19日

0.3.23

2023年7月18日

0.3.22

2023年4月17日

0.3.20

2023年2月21日

0.3.19

2023年2月20日

0.3.18

2023年2月20日

0.3.16

2022年8月18日

0.3.15

2022年7月31日

0.3.14

2022年7月26日

0.3.13

2022年7月4日

0.3.12

2022年5月29日

0.3.11

2022年1月26日

0.3.8

2021年10月18日

0.3.7

2021年10月17日

0.3.6

2021年10月17日

0.3.4

2021年10月6日

0.3.3

2021年9月30日

0.3.2

2021年9月24日

0.3.1

2021年8月23日

0.3.0

2021年8月22日

0.2.18

2021年8月4日

0.2.17

2021年5月31日

0.2.16

2021年5月15日

0.2.15

2021年5月14日

0.2.14

2021年5月14日

0.2.13

2021年5月3日

0.2.12

2021年4月12日

0.2.11

2021年4月7日

0.2.10

2021年4月6日

0.2.9

2021年3月27日

0.2.8

2021年3月21日

0.2.7

2021年3月15日

0.2.5

2021年2月17日

0.2.4

2021年2月17日

0.2.3

2021年2月17日

0.2.2

2020年12月22日

0.2.1

2020年12月6日

0.2.0

2020年11月23日

0.1.15

2020年11月17日

0.1.14

2020年11月17日

0.1.13

2020年11月8日

0.1.12

2020年11月7日

0.1.11

2020年11月5日

0.1.10

2020年10月20日

0.1.9

2020年10月16日

0.1.8

2020年10月11日

0.1.7

2020年10月7日

0.1.6

2020年8月23日

0.1.5

2020年8月11日

0.1.4

2020年7月30日

0.1.3

2020年7月29日

0.1.2

2020年6月21日

0.1.1

2020年6月13日

0.1.0

2020年5月26日

0.0.74

2020年5月25日

0.0.73

2020年5月25日

0.0.72

2020年5月15日

0.0.71

2020年2月20日

0.0.68

2020年2月5日

0.0.67

2020年1月19日

0.0.66

2020年1月14日

0.0.65

2019年12月26日

0.0.64

2019年11月17日

0.0.63

2019年10月8日

0.0.62

2019年10月7日

0.0.60

2019年10月3日

0.0.59

2019年10月3日

0.0.58

2019年9月2日

0.0.57

2019年7月2日

0.0.56

2019年6月16日

0.0.55

2019年5月27日

0.0.54

2019年5月27日

0.0.53

2019年5月23日

0.0.52

2019年5月13日

0.0.51

2019年5月2日

0.0.50

2019年4月28日

0.0.49

2019年4月28日

0.0.48

2019年4月6日

0.0.47

2019年4月5日

0.0.46

2019年3月30日

0.0.45

2019年3月25日

0.0.44

2019年3月9日

0.0.43

2019年3月9日

0.0.42

2019年3月9日

0.0.39

2019年1月20日

0.0.38

2019年1月13日

0.0.37

2018年11月27日

0.0.36

2018年11月26日

0.0.35

2018年11月22日

0.0.34

2018年11月22日

0.0.33

2018年11月18日

0.0.32

2018年10月29日

0.0.31

2018年10月21日

0.0.30

2018年10月19日

0.0.29

2018年10月18日

0.0.28

2018年10月17日

0.0.27

2018年10月17日

0.0.26

2018年10月17日

0.0.25

2018年10月17日

0.0.24

2018年10月17日

0.0.23

2018年10月16日

0.0.22

2018年10月16日

0.0.21

2018年10月16日

0.0.20

2018年10月15日

0.0.19

2018年10月10日

0.0.18

2018年10月10日

0.0.17

2018年10月10日

0.0.16

2018年10月10日

0.0.15

2018年10月9日

0.0.14

2018年10月8日

0.0.13

2018年10月7日

0.0.12

2018年10月3日

0.0.11

2018年10月3日

0.0.10

2018年9月13日

0.0.9

2018年9月13日

0.0.8

2018年9月8日

0.0.7

2018年8月1日

0.0.6

2018年7月12日

0.0.5

2018年7月7日

0.0.4

2018年7月7日

0.0.3

2018年6月27日

0.0.2

2018年6月20日

0.0.1

2018年6月7日

下载文件

下载适用于您平台的文件。如果您不确定选择哪个，请了解更多关于安装包的信息。

源分发

dataflows-0.5.5.tar.gz (42.7 kB 查看哈希)

上传于 2024年4月1日 源

构建分发

dataflows-0.5.5-py2.py3-none-any.whl (60.5 kB 查看哈希值)

上传于 2024年4月1日 Python 2 Python 3

dataflows-0.5.5.tar.gz 的哈希值

dataflows-0.5.5.tar.gz 的哈希值
算法	哈希摘要
SHA256	`401ed924ce56875a434f85ab1956ea8ff22f935c02877759a41f4bec2d42f682`
MD5	`59fb9c44506f86015b969c0e1ce244ca`
BLAKE2b-256	`66b977473354f017186817c9be060a1617685f33f0f7cf4235a51c89be658e92`

dataflows-0.5.5-py2.py3-none-any.whl 的哈希值

dataflows-0.5.5-py2.py3-none-any.whl 的哈希值
算法	哈希摘要
SHA256	`421ea43b3496e0c62ecaa28d273709e1e54c8ec597ce33b7abbc9c7607e8c60c`
MD5	`323332f72c9a72b31990da382b799a3d`
BLAKE2b-256	`7ba610ce6f728a4c38b5008582814e39c00f113bb2b1ff554674c546b06bc828`

dataflows 0.5.5

导航

验证详情

维护者

未验证详情

项目链接

元数据

分类器

项目描述

DataFlows

快速入门

功能

了解更多

项目详情

验证详情

维护者

未验证详情

项目链接

元数据

分类器

发布历史发布通知 | RSS源

下载文件

源分发

构建分发

dataflows 0.5.5

导航

验证详情

维护者

未验证详情

项目链接

元数据

分类器

项目描述

DataFlows

快速入门

功能

了解更多

项目详情

验证详情

维护者

未验证详情

项目链接

元数据

分类器

发布历史 发布通知 | RSS源

下载文件

源分发

构建分发

发布历史发布通知 | RSS源