跳转到主要内容

工具生成和可视化bigcode的嵌入

项目描述

# bigcode-embeddings

注意:在使用此工具之前,必须使用[bigcode-ast-tools][2]生成数据

bigcode-embeddings 允许生成和可视化AST节点的嵌入。

## 安装

此项目应使用Python 3。

要安装包,可以运行以下命令:

` pip install bigcode-embeddings `

或克隆仓库并运行

` cd bigcode-embeddings pip install -r requirements.txt python setup.py install `

注意:tensorflow需要单独安装。

## 使用

### 训练嵌入

可以使用[bigcode-ast-tools][2]生成训练数据

给定从大小为30000的词汇表生成的 data.txt.gz,可以使用以下命令训练100D嵌入:

` ./bin/bigcode-embeddings train -o embeddings/ --vocab-size 30000 --emb-size 100 --l2-value 0.05 --learning-rate 0.01 data.txt.gz `

可以使用[Tensorboard][2]来可视化进度

` tensorboard --logdir embeddings/ `

在第一个epoch之后,可以从Tensorboard中访问嵌入的可视化。由 bigcode-ast-tools 生成的词汇表TSV文件可以加载到嵌入上以显示标签。

### 可视化嵌入

可以使用 visualize 子命令来可视化训练好的嵌入。如果生成的词汇文件是 vocab.tsv,则可以使用以下命令可视化上述嵌入:

` ./bin/data-explorer visualize clusters -m embeddings/embeddings.bin-STEP -l vocab.tsv `

其中 STEP 应该是 embeddings/ 目录中找到的最大值。

可以使用 -i 标志来生成交互式图形。

[1]: ../bigcode-ast-tools/README.md [2]: https://github.com/tensorflow/tensorboard

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解有关 安装包 的更多信息。

源代码分发

bigcode-embeddings-0.1.2.tar.gz (7.0 kB 查看哈希值)

上传时间 源代码

构建分发

bigcode_embeddings-0.1.2-py3-none-any.whl (10.4 kB 查看哈希值)

上传时间 Python 3

由以下组织支持