跳转到主要内容

从一组表中检索每一列,将它们放在单个输出表中。

项目描述

collect-columns

此工具从一组表中的每一列检索列,并将它们编译成一个表。可选地,还可以将关联的GTF/GFF文件中的附加属性添加到输出表中。

安装

从PyPI安装: pip install collect-columns

从github安装

  • 克隆仓库: git clone https://github.com/biowdl/collect-columns.git
  • 进入仓库: cd collect-columns
  • 使用pip安装: pip install .

使用方法

collect-columns output_path input_files...

它假设所有输入计数表具有相同的格式。默认情况下,格式被假设为无标题和制表符分隔,第一列是特征标识符,第二列是感兴趣的价值。输出表将使用与输入表相同的分隔符,并包含标题。`feature`列将包含特征标识符,值列将以输入文件的名称命名或根据通过`-n`选项给出的名称命名,该选项接受一个名称列表作为参数。

请注意,如果输入表中存在具有相同特征标识符的多行,则默认情况下,这些值将在输出表中相互覆盖。请参阅`-S`标志。

为了使用不同的输入格式,可以提供以下选项

选项 参数 定义
-f 一个数字 包含特征标识符的列的索引。
-c 一个数字 包含值/计数的列的索引。
-s 一个字符 分隔符。
-H 表示表有标题。
-S 表示如果存在具有相同特征id的多行,则应将值相加。如果设置此标志,则值将成为浮点数。默认情况下,仅取最后值,并给出警告。

要从GTF/GFF添加额外的属性,可以提供以下选项

选项 参数 定义
-a 一系列单词 要添加到输出表中的属性。
-g 一个路径 从其中检索属性的gtf文件。
-F 一个单词 用于将输入表中的行映射到gtf记录的属性。默认为`gene_id`。

示例

HTSeq-count

使用HTSeq-count的输出作为输入,以下命令

collect-columns all.tsv s1.tsv s2.tsv

将生成如下表格

特征 s1.tsv s2.tsv
MSTRG.1 10 11
MSTRG.2 60 12
... ... ...

Stringtie

使用stringtie丰度输出作为输入,以下命令

collect-columns all.FPKM s1.abundance s2.abundance \
    -c 7 \
    -H \
    -a ref_gene_id gene_name \
    -g merged.gtf \
    -n sample1 sample2 \
    -S # Stringtie may at times return multiple rows for one gene, these values can simply be summed up.

将生成如下表格

特征 ref_gene_id 基因名 样本1 样本2
MSTRG.1 g_1 基因_1 185151.953125 151.964231
MSTRG.2 g_2 基因_2 100160.070312 1160.030213
... ... ... ... ...

项目详情


下载文件

下载适用于您平台的应用程序。如果您不确定要选择哪个,请了解更多关于安装包的信息。

源分布

collect-columns-1.0.0.tar.gz (5.9 kB 查看散列)

上传时间

构建分布

collect_columns-1.0.0-py3-none-any.whl (7.8 kB 查看散列)

上传时间 Python 3

由以下支持