保持原始LASER项目活力

这些详情尚未被PyPI验证

项目链接

首页

项目描述

laser-keep-alive 是一个旨在为开源Facebook AI Research (FAIR) 项目，无语言句子表示 (LASER)，提供稳定运行环境的计划。

安装

目前只能通过源代码进行安装。

git clone https://github.com/mingruimingrui/laser-keep-alive.git
cd laser-keep-alive
python setup.py install

为了确保硬件兼容性，可能需要显式安装 pytorch>=1.0。

基本用法

脚本示例

要在Python脚本中使用此包，最简单的方法是导入 laser.SentenceEncoder 类。

from laser import SentenceEncoder

# Loading the model
sent_encoder = SentenceEncoder(
    lang='en',
    model_path=path_to_model_file,
    bpe_codes=path_to_bpe_codes_file,
)

# Encode texts
# Given a List[str]
embeddings = sent_encoder.encode_sentences(list_of_texts)

# Where embeddings is a 2D np.ndarray
# of shape [num_texts, embedding_size]

命令行工具

laser-keep-alive 还可以直接从命令行运行。

$ python -m laser
usage: python -m laser [-h] {encode,filter} ...

Language-Agnostic SEntence Representations

positional arguments:
  {encode,filter}
    encode         Encode a text file line by line
    filter         Filter a parallel corpus based on similarity

optional arguments:
  -h, --help       show this help message and exit

目前，提供了以下命令行功能。

`编码`

按行将文本文件编码为句子嵌入。输出格式为.npy和.csv。如果您使用预训练模型，您的嵌入输出维度大小为1024。在.npy输出格式的情况下，这对应于np.float32的4096字节大小和np.float16的2048字节大小。（如果您不理解最后一句话，请不要担心）

`过滤器`

按行过滤并行语料库。仅保留具有低于阈值（默认：1.04）的欧几里得距离的句子。要应用更严格的过滤器，请使用更小的阈值。

下载预训练模型

由于该存储库不提供训练代码，因此需要预训练模型。

请参考此脚本下载预训练模型。

致谢

全部归功于Holger Schwenk，LASER工具包和FAIR的作者。有关FAIR和LASER的更多信息，请访问他们的网站。

FAIR网站：https://ai.facebook.com/
FAIR Github：https://github.com/facebookresearch
LASER Github：https://github.com/facebookresearch/LASER/

如果您喜欢这个项目，请访问LASER项目页面并给它一个星⭐。

许可

引用

请引用Holger Schwenk和Matthijs Douze（也是FAISS的创建者）。

@inproceedings{Schwenk2017LearningJM,
  title={Learning Joint Multilingual Sentence Representations with Neural Machine Translation},
  author={Holger Schwenk and Matthijs Douze},
  booktitle={Rep4NLP@ACL},
  year={2017},
}

项目详情

这些详情尚未被PyPI验证

项目链接

首页

发布历史发布通知 | RSS源

此版本

1.0.0

2020年4月18日

下载文件

下载您平台的文件。如果您不确定选择哪个，请了解有关安装包的更多信息。

源分布

laser-keep-alive-1.0.0.tar.gz (15.3 kB 查看哈希)

上传时间： 2020年4月18日 源

构建分布

laser_keep_alive-1.0.0-py3-none-any.whl (20.0 kB 查看哈希)

上传时间： 2020年4月18日 Python 3

哈希 for laser-keep-alive-1.0.0.tar.gz

laser-keep-alive-1.0.0.tar.gz的哈希
算法	哈希摘要
SHA256	`297dbaeb55d6d9670d56115d3aacbd07b312138c06a33977c74df8090c0c7123`
MD5	`c140c91ffd1c1137a7fb52db199abff5`
BLAKE2b-256	`b0061d2f9c153484f56439c88e6aea4fcc7584abca8b23935abe146283229f99`

哈希 for laser_keep_alive-1.0.0-py3-none-any.whl

laser_keep_alive-1.0.0-py3-none-any.whl的哈希
算法	哈希摘要
SHA256	`72b1f36e850129bc0c96fe5d6f368ab986c2b4106eee57f01932296baa5e4b7a`
MD5	`645cc1ed9233110271f00368a38584a3`
BLAKE2b-256	`41924a4248b946df80dc05199d46edb9a483aa2ad022b927d884495a36590313`

laser-keep-alive 1.0.0

导航

验证详情

维护者

未验证详情

项目链接

元数据

分类器

项目描述

安装

基本用法

脚本示例

命令行工具

`编码`

`过滤器`

下载预训练模型

致谢

许可

引用

项目详情

验证详情

维护者

未验证详情

项目链接

元数据

分类器

发布历史发布通知 | RSS源

下载文件

源分布

构建分布

laser-keep-alive 1.0.0

导航

验证详情

维护者

未验证详情

项目链接

元数据

分类器

项目描述

安装

基本用法

脚本示例

命令行工具

编码

过滤器

下载预训练模型

致谢

许可

引用

项目详情

验证详情

维护者

未验证详情

项目链接

元数据

分类器

发布历史 发布通知 | RSS源

下载文件

源分布

构建分布

`编码`

`过滤器`

发布历史发布通知 | RSS源