一个从Twitter数据中提取标签的twarc插件
项目描述
twarc-hashtags
此模块扩展了twarc,增加了一个hashtags
命令,可以提取和统计推文数据集中的标签。
安装
pip install twarc-hashtags
收集一些Twitter数据,例如
twarc2 search blacklivesmatter tweets.jsonl
因为您已安装了插件,所以您有了一个新的子命令 hashtags
twarc2 hashtags tweets.jsonl hashtags.csv
然后在您的首选电子表格程序或DataFrame库中打开hashtags.csv
。
幕后twarc-hashtags使用Python的SQLite原生支持来创建数据库,然后插入/查询它。您可以在程序完成后在当前工作目录中看到此数据库,即hashtags.db
。
选项
--group:按天、周、月、年分组结果
--limit:限制此数量的标签(如果使用--group,则为每个组)
--db:如果您想将数据库命名为除hashtags.db
之外的名称
--no-insert:使用现有数据库而不是插入(对于大量推文很有用)