跳转到主要内容

基于NLTK构建的信息提取工具包。

项目描述

信息提取工具包。

要与项目讨论,请加入我们的主要列表: http://groups.google.com/forum/?fromgroups#!forum/bluestocking-dev

此项目依赖于NLTK。在运行这些脚本之前,您需要安装它。

要运行测试

python tests.py

要运行factchecker演示,尝试这个

python factchecker.py “天空不是蓝色的。”

或者这个

python factchecker.py “人们从不吃鱼。金鱼不受欢迎。”

此测试将文档与作为参数传递的字符串中每个单词的Simple English Wikipedia文章进行对比。

(警告:长句子的文档查询时间较长)

包含的脚本

### parse.py

定义了用于包装原始文本的Document类和用于从文档中提取关系的Parser类。

文档有方法将它们转换为Doxaments(见下文)。

### doxament.py

定义了Doxament类。Doxament包含许多关系。可以查询Doxament以检查其与另一个Doxament的一致性。它们还可以合并以形成一个更完整的知识库。

关系封装了具有语义意义的词汇共现。

### other

来自 http://stackoverflow.com/questions/4460921/extract-the-first-paragraph-from-a-wikipedia-article-python 的wikipedia.py和wiki2plain.py

项目详情


由以下支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页面