跳转到主要内容

从网络论坛中提取帖子及其元数据的工具包

项目描述

Harvest - 从网络论坛中提取帖子及其元数据的工具包

Actions Status codecov PyPI version

由于论坛不公开其内容的标准化结构,自动提取论坛帖子和元数据是一项具有挑战性的任务。Harvest能够可靠地为许多网络论坛执行此任务,并提供了从网络论坛中提取数据的一种简单方法。

安装

在命令行

$ pip install harvest-webforum

如果您想从最新源安装,您可以这样做

$ git clone https://github.com/fhgr/harvest.git
$ cd harvest
$ python3 setup.py install

Python库

如以下所示,将harvest嵌入到您的代码中非常简单

from urllib.request import urlopen, Request
from harvest import extract_data

USER_AGENT = "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:70.0) Gecko/20100101 Firefox/70.0"

url = "https://forum.videolan.org/viewtopic.php?f=14&t=145604"
req = Request(url, headers={'User-Agent': USER_AGENT})
html = urlopen(req).read().decode('utf-8')

result = extract_data(html, url)
print(result)

WEB-FORUM-52黄金标准

语料库目前包含来自52个不同网络论坛的黄金标准文档。这些文档也用于harvest的集成测试。

出版物

  • Weichselbraun, Albert, Brasoveanu, Adrian M. P., Waldvogel, Roger and Odoni, Fabian. (2020). “Harvest - An Open Source Toolkit for Extracting Posts and Post Metadata from Web Forums”. IEEE/WIC/ACM International Joint Conference on Web Intelligence and Intelligent Agent Technology (WI-IAT 2020), Melbourne, Australia, Accepted 27 October 2020.

项目详情


下载文件

下载您平台对应的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源代码分发

harvest-webforum-1.1.0.tar.gz (18.7 kB 查看哈希值)

上传时间 源代码

构建分发

harvest_webforum-1.1.0-py3-none-any.whl (26.9 kB 查看哈希值)

上传时间 Python 3

支持者