自动提取和标准化在线文章或博客文章的发布日期
项目描述
[![版本][pypi-version]][pypi-url]
[![许可证][pypi-license]][license-url]
[![下载][pypi-downloads]][pypi-url]
[![Gitter][gitter-image]][gitter-url]
关于
=====
articleDateExtractor (文章日期提取器) 是一个简单的开源Python模块,由 [Webhose.io](https://webhose.io) 构建和维护,可自动检测、提取和标准化在线文章或博客文章的发布日期。
## 功能
1. 当网页中指定了发布日期信息时,提取发布日期信息,成功率超过90%。
## 快速示例
```python
import articleDateExtractor
d = articleDateExtractor.extractArticlePublishedDate("http://edition.cnn.com/2015/11/28/opinions/sutter-cop21-paris-preview-two-degrees/index.html")
print (d)
d = articleDateExtractor.extractArticlePublishedDate("http://techcrunch.com/2015/11/29/tyro-payments/")
print (d)
```
## 安装
通过pip可用
```bash
$ pip install articleDateExtractor
```
或者,您可以从源代码安装
```bash
$ git clone https://github.com/Webhose/article-date-extractor
$ cd article-date-extractor
$ python setup.py install
```
## 依赖关系
* [beautifulsoup4](http://www.crummy.com/software/BeautifulSoup/bs4/) >= 4.6.0
* [python-dateutil](https://github.com/dateutil/dateutil/) >= 2.4.2
## 关于Webhose.io
在[Webhose.io](https://webhose.io)我们爬取、结构化、统一和汇总来自数百万在线来源(新闻网站、博客、讨论论坛、评论等)的数据,因此需要一个
可扩展的解决方案来自动提取和结构化非结构化网络数据至关重要。我们使用多个信号和算法来自动检测帖子文本的位置、作者姓名、评论
以及当然日期。通过articleDateExtractor(文章日期提取器),我们依赖许多“不同类型的标准”来自动检测日期(成功率超过90%)。
[license-url]: https://github.com/Webhose/article-date-extractor/blob/master/LICENSE
[gitter-url]: https://gitter.im/Webhose
[gitter-image]: https://img.shields.io/badge/Gitter-Join%20Chat-blue.svg?style=flat
[pypi-url]: https://pypi.python.org/pypi/articleDateExtractor
[pypi-license]: https://img.shields.io/pypi/l/articleDateExtractor.svg?style=flat
[pypi-version]: https://img.shields.io/pypi/v/articleDateExtractor.svg?style=flat
[pypi-downloads]: https://img.shields.io/pypi/dm/articleDateExtractor.svg?style=flat
[![许可证][pypi-license]][license-url]
[![下载][pypi-downloads]][pypi-url]
[![Gitter][gitter-image]][gitter-url]
关于
=====
articleDateExtractor (文章日期提取器) 是一个简单的开源Python模块,由 [Webhose.io](https://webhose.io) 构建和维护,可自动检测、提取和标准化在线文章或博客文章的发布日期。
## 功能
1. 当网页中指定了发布日期信息时,提取发布日期信息,成功率超过90%。
## 快速示例
```python
import articleDateExtractor
d = articleDateExtractor.extractArticlePublishedDate("http://edition.cnn.com/2015/11/28/opinions/sutter-cop21-paris-preview-two-degrees/index.html")
print (d)
d = articleDateExtractor.extractArticlePublishedDate("http://techcrunch.com/2015/11/29/tyro-payments/")
print (d)
```
## 安装
通过pip可用
```bash
$ pip install articleDateExtractor
```
或者,您可以从源代码安装
```bash
$ git clone https://github.com/Webhose/article-date-extractor
$ cd article-date-extractor
$ python setup.py install
```
## 依赖关系
* [beautifulsoup4](http://www.crummy.com/software/BeautifulSoup/bs4/) >= 4.6.0
* [python-dateutil](https://github.com/dateutil/dateutil/) >= 2.4.2
## 关于Webhose.io
在[Webhose.io](https://webhose.io)我们爬取、结构化、统一和汇总来自数百万在线来源(新闻网站、博客、讨论论坛、评论等)的数据,因此需要一个
可扩展的解决方案来自动提取和结构化非结构化网络数据至关重要。我们使用多个信号和算法来自动检测帖子文本的位置、作者姓名、评论
以及当然日期。通过articleDateExtractor(文章日期提取器),我们依赖许多“不同类型的标准”来自动检测日期(成功率超过90%)。
[license-url]: https://github.com/Webhose/article-date-extractor/blob/master/LICENSE
[gitter-url]: https://gitter.im/Webhose
[gitter-image]: https://img.shields.io/badge/Gitter-Join%20Chat-blue.svg?style=flat
[pypi-url]: https://pypi.python.org/pypi/articleDateExtractor
[pypi-license]: https://img.shields.io/pypi/l/articleDateExtractor.svg?style=flat
[pypi-version]: https://img.shields.io/pypi/v/articleDateExtractor.svg?style=flat
[pypi-downloads]: https://img.shields.io/pypi/dm/articleDateExtractor.svg?style=flat
项目详情
关闭
articleDateExtractor-0.20-py2.py3-none-any.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | ed874d1ecb616c7e99d00e6ef89d4d8049f248e346c68f1bc53c3f829a3083e8 |
|
MD5 | 63f351cabf45cff1917f86a8cd34ce07 |
|
BLAKE2b-256 | 2e2e999a17cfa059798d09fabf00b3294fc9c441dd7402563e5553cb6cca26e9 |