http://abclinuxu.cz 的API。
项目描述
简介
此模块包含爬取http://abclinuxu.cz网站的基本API。
安装
pip install abclinuxuapi
文档
完整的模块文档托管在ReadTheDocs:http://abclinuxuapi.readthedocs.org
免责声明
此API由我(Bystroushaak)制作,并不正式与http://abclinuxu.cz项目相关。
示例
迭代所有已发布的博客
>>> import abclinuxuapi
>>> for blog in abclinuxuapi.iter_blogposts():
... print blog.title
...
Czech blacklist 1.0.21 iOS aplikace, filemanager, prehravani multimedii... ENCFS - lze doporucit? mozna uskali? Vývoj v C# + Oracle ODP.NET + EntityFramework Skončila svoboda? Abclinuxu - vyjádření k útokům Eliptické křivky - vztah Weierstrass, Montgomery, Edwards kopirovanie raspbianu na microsd kartu Půjdem dolem, půjdem horem? Podotčeno… Abclinuxu presmerovano... Dead man Valentýn 2018 (genderově korektní mikrozápisek) Textilosaurus - co je nového? Kvíz: Znáte český kraj? Název filmu Trilium Notes jako platforma pro mini-aplikace Marketingový "průzkum" pro zjištění obětí na další útok Vítězný únor 2018 Reverse engineering komunikace Xorg a nvidia driveru Vtipná konstrukce v shellu Anketa: Kdy budou další presidentské volby v ČR? Debian 9 a data corruption s detektivní zápletkou Proč je tolik povyku s meltdownem mezi normálními usery Tabletové skúsenosti pre ľahší život. ...
获取特定博客的结构化信息
>>> blog = abclinuxuapi.Blogpost("https://www.abclinuxu.cz/blog/bystroushaak/2017/9/autorske-okenko-neal-asher", lazy=False)
>>> blog.created_ts
1506733800.0
>>> blog.last_modified_ts
1508752260.0
>>> blog.tags
['knihy', 'ProtectedByTagManager', 'recenze', 'sci-fi']
>>> blog.has_tux
False
>>> blog.rating
Rating(100%@5)
>>> blog.readed
1470
>>> blog.comments_n
73
>>> blog.comments[65]
Comment(username=andrea, id=18)
>>> blog.comments[65].registered
False
>>> blog.comments[65].timestamp
1506861120.0
>>> print blog.comments[65].text
supr blogísky, ráda je čtu.
<p class="separator"></p>
myslím že jsem tu od Tebe viděla souhrn knih, které jsi přečetl. měl bys třeba top50 sci-fi, které bych si určitě měla přečíst? nebo alespoň top 10, první trojka?
>>> blog.comments[65].responses
[Comment(username=bystroushaak, id=19)]
>>> print blog.text
<h2>Autorské okénko: Neal Asher</h2>
<p>Dvacátého září jsem dočetl všechno...
变更日志
0.4.16
abclinuxu_uploader.py; 检测大于1MB的图片。添加了–url参数来处理这些。
concept.py; 检测上传大于1MB的图片,并在这种情况下引发ValueError。
0.4.15
当使用过长的标题时,增加了更好的错误检测。
0.4.14
修复了从博客描述中解析评论数量时的错误。
0.4.13
0.4.12
添加了abclinxuapi.number_of_blog_pages()函数,用于找出有多少篇博客。
0.4.11
在特定博客上增加了评论解析的禁止列表(详细信息请见http://abclinuxu.cz/blog/Strider_BSD_koutek/2006/8/objevil-jsem-ameriku的HTML源代码)。
0.4.0 - 0.4.10
在README中增加了徽章。
Blogpost.comments现在默认为空列表,而不是None。
修复了上传器中的错误。
更新了标签的解析。
增加了对Blog.uid的支持。
修复了测试中的错误(新年的解析)。
增加了绕过懒标签解析的可能性。
修复了日期解析函数中的错误。
增加了对abclinuxu文章中使用的更罕见的日期格式的解析支持。
修复了日期解析函数中的另一个错误。
因为SSL库让我很烦躁,所以增加了verify=False。
增加了解析日期的另一个特殊情况。
修复了日期格式的问题。
修复了在http://abclinuxu.cz/blog/msk/2016/8/hlada-sa-linux-embedded-vyvojar上解析评论的问题 - 没有链接到评论。
修复了http://abclinuxu.cz/blog/leos/2007/2/prepis-diskusniho-fora-hw-sekce#31的情况下的评论解析。
0.3.0 - 0.3.11
增加了博客文章下的评论解析。
修复了错误。
修复了user.py中的错误。
增加了iter_blogposts(),first_blog_page()函数以浏览博客列表。
实现了Blogpost.get_image_urls()。
增加了date_izolator()。修复了与相对日期相关的评论解析中的错误。
修复了解析Blogpost内容中的错误。
为用户对象增加了博客迭代器。
修复了#4 - 用户名解析中的错误。
修复了审查评论的解析。
增加了Comment.censored。
Comment.registered_user重命名为Comment.registered。
修复了跳过审查评论的错误。
修复了旧博客的问题(不同的HTML)。
实现了#6:为所有重要类实现了.__repr__()。
修复了#7 - 在摘要中打开HTML注释的博客。
修复了Blogpost._parse_content_tag()中的错误。
试图解决旧博客中的混乱。有缺失的标签、交叉的标签和许多其他混乱的问题。
修复了由http://abclinuxu.cz/blog/Mostly_IMDB/2008/6/radeon-hd-4850-a-tak-vubec#17引起的错误。
增加了许多文档,修复了docstrings等。
User.has_blog()已更改为bool属性User.has_blog。
重构了Concept类。
为shared.download()增加了新的参数data。
User.ts_to_concept_date移动到shared.ts_to_concept_date()。
0.2.0
增加了许多功能。
修复了损坏的setup.py。
0.1.0
创建。
现在可以用来读取abclinuxu的数据,但还不完整,需要做大量工作。
项目详情
abclinuxuapi-0.4.16.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | f5db920d635a808297f39c189b3b9a1e51317f86d3c93a18c4c3b7cef7b04760 |
|
MD5 | 2cc404f3915d3c6609ac3afdc10f0a66 |
|
BLAKE2b-256 | ceec2f28f006f8d5c749d0a713a7a480e547370b5e094fa12546f90ff9d7fc33 |