工具生成和可视化bigcode的嵌入
项目描述
# bigcode-embeddings
注意:在使用此工具之前,必须使用[bigcode-ast-tools][2]生成数据
bigcode-embeddings 允许生成和可视化AST节点的嵌入。
## 安装
此项目应使用Python 3。
要安装包,可以运行以下命令:
` pip install bigcode-embeddings `
或克隆仓库并运行
` cd bigcode-embeddings pip install -r requirements.txt python setup.py install `
注意:tensorflow需要单独安装。
## 使用
### 训练嵌入
可以使用[bigcode-ast-tools][2]生成训练数据
给定从大小为30000的词汇表生成的 data.txt.gz,可以使用以下命令训练100D嵌入:
` ./bin/bigcode-embeddings train -o embeddings/ --vocab-size 30000 --emb-size 100 --l2-value 0.05 --learning-rate 0.01 data.txt.gz `
可以使用[Tensorboard][2]来可视化进度
` tensorboard --logdir embeddings/ `
在第一个epoch之后,可以从Tensorboard中访问嵌入的可视化。由 bigcode-ast-tools 生成的词汇表TSV文件可以加载到嵌入上以显示标签。
### 可视化嵌入
可以使用 visualize 子命令来可视化训练好的嵌入。如果生成的词汇文件是 vocab.tsv,则可以使用以下命令可视化上述嵌入:
` ./bin/data-explorer visualize clusters -m embeddings/embeddings.bin-STEP -l vocab.tsv `
其中 STEP 应该是 embeddings/ 目录中找到的最大值。
可以使用 -i 标志来生成交互式图形。
[1]: ../bigcode-ast-tools/README.md [2]: https://github.com/tensorflow/tensorboard
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪个,请了解有关 安装包 的更多信息。
源代码分发
构建分发
bigcode-embeddings-0.1.2.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 889e98d29ccbe4459337a8dcb9830918aa1bc1bfbe17d4e2ded5f48e5e0b0530 |
|
MD5 | 17f064180c415d925d0be60d8d27eda4 |
|
BLAKE2b-256 | f3060e4ac9ab46ed577f3f5499fb4264b3e73bf6d59fe7dd343baba0215aa03f |
bigcode_embeddings-0.1.2-py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 46eb6fa689cb5f98f70bbab06f21440e743735d2d3eef4c02521c4670473fa22 |
|
MD5 | cab8721ab461cf820e6c8387ee77b23f |
|
BLAKE2b-256 | 17fcbd4bee5397bfb57eb847b82edf7691ae5af49deba15c2d94ff64203c3f57 |