跳转到主要内容

floret Python绑定

项目描述

floret: 使用spaCy的fastText + Bloom嵌入的紧凑、全覆盖向量

floret是fastText的扩展版本,可以生成任何单词的词表示。它结合了

  • fastText的子词,为任何单词提供嵌入
  • Bloom嵌入("哈希技巧")以紧凑的向量表

安装

pip install floret

使用

使用以下选项训练floret向量

  • mode: "floret",将单词和子词存储在同一紧凑的哈希表中
  • hashCount: 将每个条目存储在哈希表中的1-4行(建议:2
  • bucket: 与hashCount>1结合,可以大大减少哈希表的大小(建议:25000--100000,从fastText默认的2000000减少)
  • minn: 字符ngram的最小长度(默认:3
  • maxn: 字符ngram的最大长度(默认:6
import floret

# train vectors
model = floret.train_unsupervised(
    "data.txt",
    model="cbow",
    mode="floret",
    hashCount=2,
    bucket=50000,
    minn=3,
    maxn=6,
)

# query vector
model.get_word_vector("broccoli")

# save full model
model.save_model("vectors.bin")

# export standard word-only vector table
model.save_vectors("vectors.vec")

# export floret vector table
model.save_floret_vectors("vectors.floret")

注意:使用默认设置mode="fasttext"floret训练原始fastText向量。

在spaCy中使用floret向量

导入floret向量到spaCy v3.2+

spacy init vectors LANG vectors.floret spacy_vectors_model --mode floret

注意

floret包含原始fasttext模块的所有功能。有关更多信息,请参阅fasttext文档

使用model.save_model("model.bin")保存的fasttextfloret二进制格式不兼容。

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。

源分发

floret-0.10.5.tar.gz (70.9 kB 查看哈希值)

上传时间

构建分发

floret-0.10.5-cp312-cp312-win_amd64.whl (243.4 kB 查看哈希值)

上传时间 CPython 3.12 Windows x86-64

floret-0.10.5-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (321.6 kB 查看哈希值)

上传时间 CPython 3.12 manylinux: glibc 2.17+ x86-64

floret-0.10.5-cp312-cp312-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (302.0 kB 查看哈希值)

上传时间 CPython 3.12 manylinux: glibc 2.17+ ARM64

floret-0.10.5-cp312-cp312-macosx_11_0_x86_64.whl (373.2 kB 查看哈希值)

上传时间 CPython 3.12 macOS 11.0+ x86-64

floret-0.10.5-cp312-cp312-macosx_11_0_arm64.whl (351.2 kB 查看哈希值)

上传时间 CPython 3.12 macOS 11.0+ ARM64

floret-0.10.5-cp311-cp311-win_amd64.whl (242.6 kB 查看哈希值)

上传时间 CPython 3.11 Windows x86-64

floret-0.10.5-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (321.6 kB 查看哈希值)

上传时间 CPython 3.11 manylinux: glibc 2.17+ x86-64

floret-0.10.5-cp311-cp311-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (302.8 kB 查看哈希值)

上传于 CPython 3.11 manylinux: glibc 2.17+ ARM64

floret-0.10.5-cp311-cp311-macosx_11_0_x86_64.whl (370.4 kB 查看哈希值)

上传于 CPython 3.11 macOS 11.0+ x86-64

floret-0.10.5-cp311-cp311-macosx_11_0_arm64.whl (351.4 kB 查看哈希值)

上传于 CPython 3.11 macOS 11.0+ ARM64

floret-0.10.5-cp310-cp310-win_amd64.whl (242.1 kB 查看哈希值)

上传于 CPython 3.10 Windows x86-64

floret-0.10.5-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (320.4 kB 查看哈希值)

上传于 CPython 3.10 manylinux: glibc 2.17+ x86-64

floret-0.10.5-cp310-cp310-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (301.9 kB 查看哈希值)

上传于 CPython 3.10 manylinux: glibc 2.17+ ARM64

floret-0.10.5-cp310-cp310-macosx_11_0_x86_64.whl (368.9 kB 查看哈希值)

上传于 CPython 3.10 macOS 11.0+ x86-64

floret-0.10.5-cp310-cp310-macosx_11_0_arm64.whl (350.2 kB 查看哈希值)

上传于 CPython 3.10 macOS 11.0+ ARM64

floret-0.10.5-cp39-cp39-win_amd64.whl (236.7 kB 查看哈希值)

上传于 CPython 3.9 Windows x86-64

floret-0.10.5-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (320.7 kB 查看哈希值)

上传于 CPython 3.9 manylinux: glibc 2.17+ x86-64

floret-0.10.5-cp39-cp39-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (302.2 kB 查看哈希值)

上传于 CPython 3.9 manylinux: glibc 2.17+ ARM64

floret-0.10.5-cp39-cp39-macosx_11_0_x86_64.whl (369.2 kB 查看哈希值)

上传于 CPython 3.9 macOS 11.0+ x86-64

floret-0.10.5-cp39-cp39-macosx_11_0_arm64.whl (350.5 kB 查看哈希值)

上传于 CPython 3.9 macOS 11.0+ ARM64

floret-0.10.5-cp38-cp38-win_amd64.whl (242.0 kB 查看哈希值)

上传于 CPython 3.8 Windows x86-64

floret-0.10.5-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (320.2 kB 查看哈希值)

上传于 CPython 3.8 manylinux: glibc 2.17+ x86-64

floret-0.10.5-cp38-cp38-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (301.7 kB 查看哈希值)

上传于 CPython 3.8 manylinux: glibc 2.17+ ARM64

floret-0.10.5-cp38-cp38-macosx_11_0_arm64.whl (350.1 kB 查看哈希值)

上传于 CPython 3.8 macOS 11.0+ ARM64

floret-0.10.5-cp38-cp38-macosx_10_16_x86_64.whl (368.9 kB 查看哈希值)

上传于 CPython 3.8 macOS 10.16+ x86-64

floret-0.10.5-cp37-cp37m-win_amd64.whl (241.6 kB 查看哈希值)

上传于 CPython 3.7m Windows x86-64

floret-0.10.5-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (324.0 kB 查看哈希值)

上传于 CPython 3.7m manylinux: glibc 2.17+ x86-64

floret-0.10.5-cp37-cp37m-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (305.6 kB 查看哈希值)

上传于 CPython 3.7m manylinux: glibc 2.17+ ARM64

floret-0.10.5-cp37-cp37m-macosx_10_16_x86_64.whl (364.3 kB 查看哈希值)

上传于 CPython 3.7m macOS 10.16+ x86-64

floret-0.10.5-cp36-cp36m-win_amd64.whl (255.8 kB 查看哈希值)

上传于 CPython 3.6m Windows x86-64

floret-0.10.5-cp36-cp36m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (324.3 kB 查看哈希值)

上传于 CPython 3.6m manylinux: glibc 2.17+ x86-64

floret-0.10.5-cp36-cp36m-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (305.0 kB 查看哈希值)

上传于 CPython 3.6m manylinux: glibc 2.17+ ARM64

floret-0.10.5-cp36-cp36m-macosx_10_16_x86_64.whl (364.5 kB 查看哈希值)

上传于 CPython 3.6m macOS 10.16+ x86-64

由以下支持