基于NLTK构建的信息提取工具包。
项目描述
信息提取工具包。
要与项目讨论,请加入我们的主要列表: http://groups.google.com/forum/?fromgroups#!forum/bluestocking-dev
此项目依赖于NLTK。在运行这些脚本之前,您需要安装它。
要运行测试
python tests.py
要运行factchecker演示,尝试这个
python factchecker.py “天空不是蓝色的。”
或者这个
python factchecker.py “人们从不吃鱼。金鱼不受欢迎。”
此测试将文档与作为参数传递的字符串中每个单词的Simple English Wikipedia文章进行对比。
(警告:长句子的文档查询时间较长)
包含的脚本
### parse.py
定义了用于包装原始文本的Document类和用于从文档中提取关系的Parser类。
文档有方法将它们转换为Doxaments(见下文)。
### doxament.py
定义了Doxament类。Doxament包含许多关系。可以查询Doxament以检查其与另一个Doxament的一致性。它们还可以合并以形成一个更完整的知识库。
关系封装了具有语义意义的词汇共现。
### other
来自 http://stackoverflow.com/questions/4460921/extract-the-first-paragraph-from-a-wikipedia-article-python 的wikipedia.py和wiki2plain.py