跳转到主要内容

未提供项目描述

项目描述

reddit-to-sqlite

将Reddit数据保存到SQLite。基于Dogsheep。

将帖子记录和评论记录插入SQLite数据库。可以安全地重复运行;将刷新已保存的结果(见下面“重新加载”)。创建postscomments表,以及一个具有统一视图的items视图。

用法

reddit-to-sqlite r/python
reddit-to-sqlite u/catherinedevlin 
reddit-to-sqlite --help 

默认情况下,写入本地reddit.db数据库(可以通过--db更改)。

授权

reddit-to-sqlite将查找授权信息文件(位置由--auth确定,默认为~/.config/reddit-to-sqlite.json),如果未找到,将查询用户并将信息保存到那里。您需要一个Reddit用户名和密码,并且您需要在Reddit上注册您的应用程序以获取client_id和client_secret。(更多信息

限制

无论是用于用户还是用于subreddit,都无法保证获取所有帖子或评论,因为

  • Reddit的API只为每个API调用提供最后1000个条目,并且不支持分页;
  • 如果评论嵌套在单个帖子下面且深度嵌套在长的评论链中,则不会检索它们(见replace_more

重新加载

可以为特定用户或subreddit重复运行reddit_to_sql,每次都替换之前保存的结果。但是,为了节省过多的API使用,它将按时间顺序回溯,并在达到最后一个保存的帖子的时间戳后停止,再加上一个重叠期(默认7天)。这样,最近的变化(分数,新评论)将被记录,但除非增加--post_reload,否则不会记录较旧的内容。如果帖子在发布很久之后仍然有感兴趣的评论,可以增加--post_reload

在加载单个用户的评论时,默认情况下,reddit_to_sql会在到达数据库中已记录的最新评论后的1天后停止。但是,如果您对评论分数感兴趣,可能希望设置更长的--comment_reload,因为分数可能在评论发布后超过一天仍然会发生变化。

注意

  • author以区分大小写的形式保存,因此使用LIKE进行不区分大小写的搜索可能很有帮助。

项目详情


下载文件

下载适用于您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源分布

reddit-to-sqlite-0.1.0.tar.gz (6.5 kB 查看哈希)

上传时间

构建分布

reddit_to_sqlite-0.1.0-py3-none-any.whl (7.3 kB 查看哈希)

上传时间 Python 3

由...