将任何文件加载到pandas DataFrame中,配置最少,重点关注生物信息学
项目描述
dataframer
尝试以最少的配置将任何文件加载到pandas DataFrame中,并重点关注生物信息学
示例
通常,您将从磁盘读取文件(open('my-file.txt', 'rb')
),但在这里字节流更简单。
>>> from io import BytesIO
>>> from dataframer import dataframer
>>> from pandas import set_option
>>> set_option('display.max_columns', None)
>>> bytes = b'a,b,c,z\n1,2,3,foo\n4,5,6,bar'
>>> stream = BytesIO(bytes)
默认行为是在第一列之后删除非数值值。
>>> df_info = dataframer.parse(stream)
>>> df_info.data_frame
b c
a
1 2 3
4 5 6
>>> df_info.label_map is None
True
或者,它们可以保留在原位...
>>> df_info = dataframer.parse(stream, keep_strings=True)
>>> df_info.data_frame
b c z
a
1 2 3 foo
4 5 6 bar
>>> df_info.label_map is None
True
...或者,它们可以用于组成更有意义的行标签。
>>> df_info = dataframer.parse(stream, relabel=True)
>>> df_info.data_frame
b c
a
1 2 3
4 5 6
>>> df_info.label_map
{1: 'foo / 1', 4: 'bar / 4'}
或者,第一列也可以被视为数据。
>>> df_info = dataframer.parse(stream, col_zero_index=False)
>>> df_info.data_frame
a b c
0 1 2 3
1 4 5 6
>>> df_info.label_map is None
True
如果您不需要整个文件,而是只想获取第一行以获取列信息
>>> df_info = dataframer.parse(stream, first_row_only=True)
>>> df_info.data_frame
b c
a
1 2 3
>>> df_info.label_map is None
True
单列列表具有隐含的标题
>>> bytes = b'banana\napple\npear'
>>> stream = BytesIO(bytes)
>>> df_info = dataframer.parse(stream)
>>> df_info.data_frame
item
0 banana
1 apple
2 pear
发布流程
在您的分支更新VERSION.txt
,使用语义版本控制:当PR合并时,成功的Travis构建将推送新的版本到pypi。
项目详情
关闭
dataframer-0.0.3.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 1883b531db9ef68a0b202b8ede0c0ea4d3ecd927718e4f4eaf7a18320c8cb669 |
|
MD5 | 2d0ee5bb488e4d32900c5e0573d6d154 |
|
BLAKE2b-256 | 8c859d801ec21ebd4d9bd4717d506821ce869a7dc13288a34d2cc367c7d14e18 |
关闭
dataframer-0.0.3-py2.py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 8b5efcf33d6c22db5a769c1b62fc203e7d3c44c4642870d289e7b3cb9dd4d88d |
|
MD5 | d3dc75ae1fcdd936bb0cf49c6297805a |
|
BLAKE2b-256 | 7e4622a27c0b8e440bceff183a3d77c7e35d777c8e2c9099b9e9134b17cdd3c5 |