跳转到主要内容

一个从Twitter数据中提取标签的twarc插件

项目描述

twarc-hashtags

此模块扩展了twarc,增加了一个hashtags命令,可以提取和统计推文数据集中的标签。

安装

pip install twarc-hashtags

收集一些Twitter数据,例如

twarc2 search blacklivesmatter tweets.jsonl 

因为您已安装了插件,所以您有了一个新的子命令 hashtags

twarc2 hashtags tweets.jsonl hashtags.csv

然后在您的首选电子表格程序或DataFrame库中打开hashtags.csv

幕后twarc-hashtags使用Python的SQLite原生支持来创建数据库,然后插入/查询它。您可以在程序完成后在当前工作目录中看到此数据库,即hashtags.db

选项

--group:按天、周、月、年分组结果

--limit:限制此数量的标签(如果使用--group,则为每个组)

--db:如果您想将数据库命名为除hashtags.db之外的名称

--no-insert:使用现有数据库而不是插入(对于大量推文很有用)

项目详情


下载文件

下载适用于您的平台的文件。如果您不确定要选择哪个,请了解更多关于安装包的信息。

源分布

twarc-hashtags-0.0.5.tar.gz (3.7 kB 查看哈希值)

由以下机构支持