在Polaris中的数据整理
项目描述
Auroris
Auroris是一个Python库,旨在帮助研究人员和科学家管理、清理和准备与药物发现相关的数据。Auroris将实施一系列技术来处理、转换、过滤、分析或可视化药物发现中常见的数据类型。
目前,Auroris支持小分子的整理,计划扩展到药物发现的其它模式。小分子整理模块包括
-
🗄️ 分子标准化:确保每个分子以统一且明确的形式表示。
-
🏷️ 检测具有矛盾标签的重复分子:识别并解决每个分子的活性数据中的不一致性。
-
⛰️ 立体异构体之间活动悬崖的检测:识别立体异构体之间的显著活性差异。
-
🔍 异常检测和可视化:检测和可视化分子活性数据中的异常值。
-
📽️ 化学空间中分子分布的可视化:提供分子分布的图形表示。
可重复性和透明度是Polaris使命的核心。这就是为什么有了Auroris,您还可以自动生成详细的报告,总结在整理过程中数据集发生的变化。通过直观的API,您可以轻松定义复杂的整理工作流。一旦定义,该工作流就是可序列化的,因此是可重复的,这样您就可以透明地分享您是如何整理数据集的。
入门
from auroris.curation import Curator
from auroris.curation.actions import MoleculeCuration, OutlierDetection, Discretization
# Define the curation workflow
curator = Curator(
steps=[
MoleculeCuration(input_column="smiles"),
OutlierDetection(method="zscore", columns=["SOL"]),
Discretization(input_column="SOL", thresholds=[-3]),
],
parallelized_kwargs = { "n_jobs": -1 }
)
# Run the curation
dataset, report = curator(dataset)
使用命令行运行整理
Curator
对象是可序列化的,因此您可以将其保存到JSON文件中,并从中加载以重现整理。
auroris [config_file] [destination] --dataset-path [data_path]
文档
请参阅文档,其中包含有关如何入门使用auroris
的教程以及提供的功能的详细描述。
安装
您可以使用conda/mamba/micromamba安装auroris
。
conda install -c conda-forge auroris
您也可以使用pip。
pip install auroris
开发周期
设置开发环境
conda env create -n auroris -f env.yml
conda activate auroris
pip install --no-deps -e .
其他安装选项
Alternatively, using [uv](https://github.com/astral-sh/uv):
```shell
uv venv -p 3.12 auroris
source .venv/auroris/bin/activate
uv pip compile pyproject.toml -o requirements.txt --all-extras
uv pip install -r requirements.txt
```
测试
您可以使用以下命令在本地运行测试:
pytest
许可
根据Apache-2.0许可证。请参阅LICENSE。
项目详情
下载文件
下载适用于您的平台的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。
源分布
auroris-0.1.9.tar.gz (1.9 MB 查看哈希值)
构建分布
auroris-0.1.9-py3-none-any.whl (35.4 kB 查看哈希值)