跳转到主要内容

将任何文件加载到pandas DataFrame中,配置最少,重点关注生物信息学

项目描述

dataframer

PyPI version

尝试以最少的配置将任何文件加载到pandas DataFrame中,并重点关注生物信息学

示例

通常,您将从磁盘读取文件(open('my-file.txt', 'rb')),但在这里字节流更简单。

>>> from io import BytesIO
>>> from dataframer import dataframer
>>> from pandas import set_option

>>> set_option('display.max_columns', None)

>>> bytes = b'a,b,c,z\n1,2,3,foo\n4,5,6,bar'
>>> stream = BytesIO(bytes)

默认行为是在第一列之后删除非数值值。

>>> df_info = dataframer.parse(stream)
>>> df_info.data_frame
   b  c
a      
1  2  3
4  5  6
>>> df_info.label_map is None
True

或者,它们可以保留在原位...

>>> df_info = dataframer.parse(stream, keep_strings=True)
>>> df_info.data_frame
   b  c    z
a           
1  2  3  foo
4  5  6  bar
>>> df_info.label_map is None
True

...或者,它们可以用于组成更有意义的行标签。

>>> df_info = dataframer.parse(stream, relabel=True)
>>> df_info.data_frame
   b  c
a      
1  2  3
4  5  6
>>> df_info.label_map
{1: 'foo / 1', 4: 'bar / 4'}

或者,第一列也可以被视为数据。

>>> df_info = dataframer.parse(stream, col_zero_index=False)
>>> df_info.data_frame
   a  b  c
0  1  2  3
1  4  5  6
>>> df_info.label_map is None
True

如果您不需要整个文件,而是只想获取第一行以获取列信息

>>> df_info = dataframer.parse(stream, first_row_only=True)
>>> df_info.data_frame
   b  c
a      
1  2  3
>>> df_info.label_map is None
True

单列列表具有隐含的标题

>>> bytes = b'banana\napple\npear'
>>> stream = BytesIO(bytes)
>>> df_info = dataframer.parse(stream)
>>> df_info.data_frame
     item
0  banana
1   apple
2    pear

发布流程

在您的分支更新VERSION.txt,使用语义版本控制:当PR合并时,成功的Travis构建将推送新的版本到pypi。

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源代码分发

dataframer-0.0.3.tar.gz (4.8 kB 查看哈希值)

上传时间: 源代码

构建分发

dataframer-0.0.3-py2.py3-none-any.whl (4.9 kB 查看哈希值)

上传时间: Python 2 Python 3

由以下提供支持