从一组表中检索每一列,将它们放在单个输出表中。
项目描述
collect-columns
此工具从一组表中的每一列检索列,并将它们编译成一个表。可选地,还可以将关联的GTF/GFF文件中的附加属性添加到输出表中。
安装
从PyPI安装: pip install collect-columns
从github安装
- 克隆仓库:
git clone https://github.com/biowdl/collect-columns.git
- 进入仓库:
cd collect-columns
- 使用pip安装:
pip install .
使用方法
collect-columns output_path input_files...
它假设所有输入计数表具有相同的格式。默认情况下,格式被假设为无标题和制表符分隔,第一列是特征标识符,第二列是感兴趣的价值。输出表将使用与输入表相同的分隔符,并包含标题。`feature`列将包含特征标识符,值列将以输入文件的名称命名或根据通过`-n`选项给出的名称命名,该选项接受一个名称列表作为参数。
请注意,如果输入表中存在具有相同特征标识符的多行,则默认情况下,这些值将在输出表中相互覆盖。请参阅`-S`标志。
为了使用不同的输入格式,可以提供以下选项
选项 | 参数 | 定义 |
---|---|---|
-f |
一个数字 | 包含特征标识符的列的索引。 |
-c |
一个数字 | 包含值/计数的列的索引。 |
-s |
一个字符 | 分隔符。 |
-H |
表示表有标题。 | |
-S |
表示如果存在具有相同特征id的多行,则应将值相加。如果设置此标志,则值将成为浮点数。默认情况下,仅取最后值,并给出警告。 |
要从GTF/GFF添加额外的属性,可以提供以下选项
选项 | 参数 | 定义 |
---|---|---|
-a |
一系列单词 | 要添加到输出表中的属性。 |
-g |
一个路径 | 从其中检索属性的gtf文件。 |
-F |
一个单词 | 用于将输入表中的行映射到gtf记录的属性。默认为`gene_id`。 |
示例
HTSeq-count
使用HTSeq-count的输出作为输入,以下命令
collect-columns all.tsv s1.tsv s2.tsv
将生成如下表格
特征 | s1.tsv | s2.tsv |
---|---|---|
MSTRG.1 | 10 | 11 |
MSTRG.2 | 60 | 12 |
... | ... | ... |
Stringtie
使用stringtie丰度输出作为输入,以下命令
collect-columns all.FPKM s1.abundance s2.abundance \
-c 7 \
-H \
-a ref_gene_id gene_name \
-g merged.gtf \
-n sample1 sample2 \
-S # Stringtie may at times return multiple rows for one gene, these values can simply be summed up.
将生成如下表格
特征 | ref_gene_id | 基因名 | 样本1 | 样本2 |
---|---|---|---|---|
MSTRG.1 | g_1 | 基因_1 | 185151.953125 | 151.964231 |
MSTRG.2 | g_2 | 基因_2 | 100160.070312 | 1160.030213 |
... | ... | ... | ... | ... |
项目详情
关闭
collect-columns-1.0.0.tar.gz的散列
算法 | 散列摘要 | |
---|---|---|
SHA256 | 13aefe84172da40d5b3ba4fc0066b9b11f05c6530bf951fee688ed050b8ba618 |
|
MD5 | 77cc6d2bfae220bd1a5719eb5f34c6d7 |
|
BLAKE2b-256 | 994fe68a69440ff76793b8f5332a3337a70408f08647e5c40d13e963f204abe4 |