跳转到主要内容

在Polaris中的数据整理

项目描述

Auroris

PyPI Conda PyPI - Downloads Conda PyPI - Python Version

test release code-check doc

Auroris是一个Python库,旨在帮助研究人员和科学家管理、清理和准备与药物发现相关的数据。Auroris将实施一系列技术来处理、转换、过滤、分析或可视化药物发现中常见的数据类型。

目前,Auroris支持小分子的整理,计划扩展到药物发现的其它模式。小分子整理模块包括

  • 🗄️ 分子标准化:确保每个分子以统一且明确的形式表示。

  • 🏷️ 检测具有矛盾标签的重复分子:识别并解决每个分子的活性数据中的不一致性。

  • ⛰️ 立体异构体之间活动悬崖的检测:识别立体异构体之间的显著活性差异。

  • 🔍 异常检测和可视化:检测和可视化分子活性数据中的异常值。

  • 📽️ 化学空间中分子分布的可视化:提供分子分布的图形表示。

可重复性和透明度是Polaris使命的核心。这就是为什么有了Auroris,您还可以自动生成详细的报告,总结在整理过程中数据集发生的变化。通过直观的API,您可以轻松定义复杂的整理工作流。一旦定义,该工作流就是可序列化的,因此是可重复的,这样您就可以透明地分享您是如何整理数据集的。

入门

from auroris.curation import Curator
from auroris.curation.actions import MoleculeCuration, OutlierDetection, Discretization

# Define the curation workflow
curator = Curator(
    steps=[
        MoleculeCuration(input_column="smiles"),
        OutlierDetection(method="zscore", columns=["SOL"]),
        Discretization(input_column="SOL", thresholds=[-3]),
    ],
    parallelized_kwargs = { "n_jobs": -1 }
)

# Run the curation
dataset, report = curator(dataset)

使用命令行运行整理

Curator 对象是可序列化的,因此您可以将其保存到JSON文件中,并从中加载以重现整理。

auroris [config_file] [destination] --dataset-path [data_path]

文档

请参阅文档,其中包含有关如何入门使用auroris的教程以及提供的功能的详细描述。

安装

您可以使用conda/mamba/micromamba安装auroris

conda install -c conda-forge auroris

您也可以使用pip。

pip install auroris

开发周期

设置开发环境

conda env create -n auroris -f env.yml
conda activate auroris

pip install --no-deps -e .
其他安装选项
Alternatively, using [uv](https://github.com/astral-sh/uv):
```shell
uv venv -p 3.12 auroris
source .venv/auroris/bin/activate
uv pip compile pyproject.toml -o requirements.txt --all-extras
uv pip install -r requirements.txt 
```   

测试

您可以使用以下命令在本地运行测试:

pytest

许可

根据Apache-2.0许可证。请参阅LICENSE

项目详情


下载文件

下载适用于您的平台的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。

源分布

auroris-0.1.9.tar.gz (1.9 MB 查看哈希值)

上传时间

构建分布

auroris-0.1.9-py3-none-any.whl (35.4 kB 查看哈希值)

上传时间 Python 3

由以下支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误日志 StatusPage StatusPage 状态页面