跳转到主要内容

自动提取和标准化在线文章或博客文章的发布日期

项目描述

[![版本][pypi-version]][pypi-url]

[![许可证][pypi-license]][license-url]
[![下载][pypi-downloads]][pypi-url]
[![Gitter][gitter-image]][gitter-url]

关于
=====

articleDateExtractor (文章日期提取器) 是一个简单的开源Python模块,由 [Webhose.io](https://webhose.io) 构建和维护,可自动检测、提取和标准化在线文章或博客文章的发布日期。

## 功能


1. 当网页中指定了发布日期信息时,提取发布日期信息,成功率超过90%。


## 快速示例


```python

import articleDateExtractor

d = articleDateExtractor.extractArticlePublishedDate("http://edition.cnn.com/2015/11/28/opinions/sutter-cop21-paris-preview-two-degrees/index.html")

print (d)

d = articleDateExtractor.extractArticlePublishedDate("http://techcrunch.com/2015/11/29/tyro-payments/")

print (d)

```


## 安装

通过pip可用

```bash

$ pip install articleDateExtractor
```
或者,您可以从源代码安装

```bash

$ git clone https://github.com/Webhose/article-date-extractor
$ cd article-date-extractor
$ python setup.py install
```

## 依赖关系

* [beautifulsoup4](http://www.crummy.com/software/BeautifulSoup/bs4/) >= 4.6.0
* [python-dateutil](https://github.com/dateutil/dateutil/) >= 2.4.2


## 关于Webhose.io


在[Webhose.io](https://webhose.io)我们爬取、结构化、统一和汇总来自数百万在线来源(新闻网站、博客、讨论论坛、评论等)的数据,因此需要一个
可扩展的解决方案来自动提取和结构化非结构化网络数据至关重要。我们使用多个信号和算法来自动检测帖子文本的位置、作者姓名、评论
以及当然日期。通过articleDateExtractor(文章日期提取器),我们依赖许多“不同类型的标准”来自动检测日期(成功率超过90%)。




[license-url]: https://github.com/Webhose/article-date-extractor/blob/master/LICENSE

[gitter-url]: https://gitter.im/Webhose
[gitter-image]: https://img.shields.io/badge/Gitter-Join%20Chat-blue.svg?style=flat


[pypi-url]: https://pypi.python.org/pypi/articleDateExtractor
[pypi-license]: https://img.shields.io/pypi/l/articleDateExtractor.svg?style=flat
[pypi-version]: https://img.shields.io/pypi/v/articleDateExtractor.svg?style=flat
[pypi-downloads]: https://img.shields.io/pypi/dm/articleDateExtractor.svg?style=flat


项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源代码分发

此版本没有可用的源代码分发文件。请参阅生成分发归档的教程。

构建分发

articleDateExtractor-0.20-py2.py3-none-any.whl (6.7 kB 查看哈希值)

上传时间 Python 2 Python 3

由以下组织支持