生成Twitter数据的网络可视化
项目描述
twarc-network
twarc-network从您使用twarc收集的推文文件构建回复、引用、转发和提及网络。它将以gexf、gml、dot、json、csv或html文件的形式输出网络。它使用networkx进行图模型,pydot进行dot输出,以及d3进行html展示。
如果您了解CSS,可以修改生成的HTML文件以适应您的需求。如果您有更好的展示方式,请发送pull request!导出为gexf、gml或dot文件可以导入到Gephi、Cytoscape和GraphViz等工具进行进一步分析和可视化。
安装
要安装,您需要
pip3 install twarc-network
收集数据
首先,您需要使用twarc收集一些数据
twarc2 search blacklivesmatter > tweets.jsonl
输出格式
一旦您收集到一些数据,您可以创建默认的D3 HTML可视化
twarc2 network tweets.jsonl network.html
或dot
twarc2 tweets.jsonl --format dot network.dot
或gexf
twarc2 network tweets.jsonl --format gexf network.gexf
或gml
twarc2 network tweets.jsonl --format gml network.gml
或json
twarc2 network tweets.jsonl --format json network.json
或CSV边列表
twarc2 network tweets.jsonl --format csv network.csv
更改节点
推文可以相互连接,形成回复、引用和转发。如果您想查看围绕推文节点而非用户的网络,您可以
twarc2 network tweets.jsonl --nodes tweets network.html
当在推文中一起使用时,标签可以相互连接。因此,您可以可视化一个节点为标签的网络
twarc2 network tweets.jsonl --nodes hashtags > network.html
更改边
默认情况下,在构建用户和推文图时,所有类型的交互都被用作边:推文的转发、回复或引用;用户的转发、回复、引用或提及。但您也可以限制考虑的类型。例如,如果您只想使用转发边,您可以
twarc2 network tweets.jsonl tweets.html --edges retweet
或者,如果您只想使用回复和引用,您可以
twarc2 network tweets.jsonl tweets.html --edges reply --edges quote
组件大小
根据您正在分析的数据,删除图中小于某个数字的弱连接组件可能很有帮助。例如,如果您不想可视化仅连接到彼此的两个节点的网络,您可以
twarc2 network tweets.jsonl tweets.html --min-component-size 3
这虽然不太常见,但您也可以删除属于过大子图中的节点。例如,如果您想删除任何大于10的组件
twarc2 network tweets.jsonl tweets.html --max-component-size 10
属性
可能的节点属性如下
screen_name
:当节点是用户时,其用户名;默认情况下,它用作节点的标签。当节点是推文时,其作者的用户名。user_id
:当节点是用户时,其id;如果您想将其用作节点的标签,可以使用标志--id-as-label
。当节点是推文时,其作者的id。start_date
:使节点出现在图中的第一个交互日期。例如,如果节点是转发,则是其创建日期。或者如果节点是原始推文,则是第一个转发、回复或引用的日期。格式为dd/mm/yyyy hh:mm:ss
。
可能的边属性如下
type
:当节点是推文时,以下值之一:retweet
、reply
或quote
。retweet
:当节点是用户时,源对目标进行的转发的数量。reply
:当节点是用户时,源对目标进行的回复的数量。quote
:当节点是用户时,源对目标进行的引用的数量。mention
:当节点是用户时,源对目标进行的提及的数量。weight
:当节点是用户时,retweet
、reply
、quote
和mention
的总和。当节点是标签时,包含两个标签的推文数量。
项目详情
关闭
twarc-network-0.2.0.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | d7e23f30faca5b0e4f013793d31a09a293a54bcc8256f49f4f7125dee787c338 |
|
MD5 | 5ea5fd76c41f82ced66d805aa80c3dc1 |
|
BLAKE2b-256 | 9ceaee4ffb31a7e4f004fcc2588b0de73306aac57569c07d09b119074212268c |