跳转到主要内容

生成Twitter数据的网络可视化

项目描述

twarc-network

Build Status

twarc-network从您使用twarc收集的推文文件构建回复、引用、转发和提及网络。它将以gexfgmldot、json、csv或html文件的形式输出网络。它使用networkx进行图模型,pydot进行dot输出,以及d3进行html展示。

如果您了解CSS,可以修改生成的HTML文件以适应您的需求。如果您有更好的展示方式,请发送pull request!导出为gexf、gml或dot文件可以导入到GephiCytoscapeGraphViz等工具进行进一步分析和可视化。

安装

要安装,您需要

pip3 install twarc-network

收集数据

首先,您需要使用twarc收集一些数据

twarc2 search blacklivesmatter > tweets.jsonl

输出格式

一旦您收集到一些数据,您可以创建默认的D3 HTML可视化

twarc2 network tweets.jsonl network.html

dot

twarc2 tweets.jsonl --format dot network.dot

gexf

twarc2 network tweets.jsonl --format gexf network.gexf

gml

twarc2 network tweets.jsonl --format gml network.gml

或json

twarc2 network tweets.jsonl --format json network.json

或CSV边列表

twarc2 network tweets.jsonl --format csv network.csv

更改节点

推文可以相互连接,形成回复、引用和转发。如果您想查看围绕推文节点而非用户的网络,您可以

twarc2 network tweets.jsonl --nodes tweets network.html

当在推文中一起使用时,标签可以相互连接。因此,您可以可视化一个节点为标签的网络

twarc2 network tweets.jsonl --nodes hashtags > network.html

更改边

默认情况下,在构建用户和推文图时,所有类型的交互都被用作边:推文的转发、回复或引用;用户的转发、回复、引用或提及。但您也可以限制考虑的类型。例如,如果您只想使用转发边,您可以

twarc2 network tweets.jsonl tweets.html --edges retweet

或者,如果您只想使用回复和引用,您可以

twarc2 network tweets.jsonl tweets.html --edges reply --edges quote

组件大小

根据您正在分析的数据,删除图中小于某个数字的弱连接组件可能很有帮助。例如,如果您不想可视化仅连接到彼此的两个节点的网络,您可以

twarc2 network tweets.jsonl tweets.html --min-component-size 3

这虽然不太常见,但您也可以删除属于过大子图中的节点。例如,如果您想删除任何大于10的组件

twarc2 network tweets.jsonl tweets.html --max-component-size 10

属性

可能的节点属性如下

  • screen_name:当节点是用户时,其用户名;默认情况下,它用作节点的标签。当节点是推文时,其作者的用户名。
  • user_id:当节点是用户时,其id;如果您想将其用作节点的标签,可以使用标志 --id-as-label。当节点是推文时,其作者的id。
  • start_date:使节点出现在图中的第一个交互日期。例如,如果节点是转发,则是其创建日期。或者如果节点是原始推文,则是第一个转发、回复或引用的日期。格式为 dd/mm/yyyy hh:mm:ss

可能的边属性如下

  • type:当节点是推文时,以下值之一:retweetreplyquote
  • retweet:当节点是用户时,源对目标进行的转发的数量。
  • reply:当节点是用户时,源对目标进行的回复的数量。
  • quote:当节点是用户时,源对目标进行的引用的数量。
  • mention:当节点是用户时,源对目标进行的提及的数量。
  • weight:当节点是用户时,retweetreplyquotemention 的总和。当节点是标签时,包含两个标签的推文数量。

项目详情


下载文件

下载适合您平台的文件。如果您不确定该选择哪个,请了解有关 安装包 的更多信息。

源分布

twarc-network-0.2.0.tar.gz (8.0 kB 查看哈希值)

上传时间

支持:

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页面