一个使用产品目录内部结构来查找与您当前查看的页面“相似”内容的产品。
项目描述
简介
一个使用产品目录内部结构来查找与您当前查看的页面“相似”内容的产品。
此产品使用ZCatalog和ZCTextindex中的某些深层次的数据结构,因此如果这些结构发生变化,它可能在未来变得脆弱。但话又说回来,它们已经保持不变大约8年了;)
此产品也以相对于您站点中文档数量的线性时间运行,因此它可能会减慢速度。但话又说回来,我已经尽力让它非常高效。
工作原理
简而言之,此产品通过比较对象文本内容与站点上的所有其他对象来找到具有相似内容的其他对象。步骤如下
找到此文档的路径
在目录中查找此路径的record_id(docid)
在SearchableText索引中查找此文档中所有单词ID(wids)
确定此文档中最重要的前20个单词 [*]
对于前20个单词中的每一个,找到包含这些单词之一的所有文档
使用向量空间模型来衡量候选文档与我们前20个词的相似度。
返回最相似的10个文档。
[*] 我们使用TF*IDF算法(与ZCTextIndex.OkapiIndex中使用的相同)来计算前20个词,这些词在本文档中相对于所有文档的总数中出现比例较高。
待办事项
添加一些缓存;)
变更日志
1.5 - 2011-12-12
修复了用于编辑端口令牌的权限 [vangheem]
1.4
添加了对结果的安全性和语言检查 [Alessio Siniscalchi]
1.3
修复了损坏的1.2版本egg
1.2
添加了仅搜索某些类型的选项 [matth]
如果没有找到相似项,则不要显示端口 [matth]
1.1
修复了重要词选择代码中的错误 [matth]
1.0
初始发布
项目详细信息
关闭
collective.portlet.similarcontent-1.5.zip的哈希
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 925633721b2fca7f4bf32eff8a6a16f1403097df53d85608f62b4b2b0e23a618 |
|
MD5 | 8e5c04721fe41b939c4a3a54bbb387bd |
|
BLAKE2b-256 | d3ab5b888bf7d905199bf6858dea2ee350cf98fc86970dbc5087adbc68708946 |