从谷歌学术收集引文图
项目描述
étudier 是一个小型Python程序,它使用 Selenium、requests-html 和 networkx 来驱动一个 非无头 浏览器收集特定 谷歌学术 引用或搜索结果集的引文图。生成的网络以 GEXF 和 GraphML 文件以及包含 D3 网络可视化的HTML文件(如上图所示)的形式写入。
如果你想知道为什么它使用非无头浏览器,那是因为谷歌对这个数据非常 保密,并且会定期要求你解决验证码(在照片中识别街道标志、汽车等)来证明你不是机器人。étudier 允许你在出现这些验证码任务时完成它们,然后继续收集数据。你需要有一个浏览器来进行交互。
安装
在执行其他操作之前,你需要安装 ChromeDriver。如果你在OS X上使用Homebrew,这就像这样简单
brew cask install chromedriver
然后你需要安装 Python 3 和
pip3 install etudier
运行
要使用 étudier,你首先需要导航到你感兴趣的谷歌学术页面,例如,这里是引用 Sherry Ortner 的 自六十年代以来的人类学理论 的引用页面。然后你开始启动指向该页面的 etudier。
% etudier 'https://scholar.google.com/scholar?start=0&hl=en&as_sdt=20000005&sciodt=0,21&cites=17950649785549691519&scipsc='
如果你对从谷歌学术的关键词搜索结果开始感兴趣,你也可以这样做。例如,如果我想了解关于CSCW会议和记忆的论文,以下是搜索 "cscw memory" 的url
% etudier 'https://scholar.google.com/scholar?hl=en&as_sdt=0%2C21&q=cscw+memory&btnG='
注意:引用URL非常重要,这样可以防止shell将 ampersands 解释为将进程放入后台的尝试。
--pages
默认情况下,étudier 将收集该页面的10个引用,然后查看每个引用的前10个引用。因此,您最终收集的引用不会超过100个(每页10个 * 10个引用)。
如果您想获取超过一页的结果,请使用 --pages
。例如,这将导致收集的结果不超过400(20 * 20)。
% etudier --pages 2 'https://scholar.google.com/scholar?start=0&hl=en&as_sdt=20000005&sciodt=0,21&cites=17950649785549691519&scipsc='
--depth
最后,如果您想查看引用的引用,请使用 --depth 参数。
% etudier --depth 2 'https://scholar.google.com/scholar?start=0&hl=en&as_sdt=20000005&sciodt=0,21&cites=17950649785549691519&scipsc='
这将收集初始的10个引用,每个的顶级10个引用,然后是那些引用中的顶级10个引用,因此引用不会超过1000(10 * 10 * 10)。由于肯定存在一些交叉引用重复,所以不会更多。
--output
默认情况下,output.gexf
、output.graphml
和 output.html
文件将被写入当前工作目录,但您可以使用 --output
选项来更改此设置,以控制使用的文件名前缀。输出文件将包含从Google Scholar收集的原始元数据,包括:
- id - 由Google分配的簇标识符
- url - 发表的URL
- title - 发表的标题
- authors - 发表作者列表,以逗号分隔
- year - 发表年份
- cited-by - 引用该发表的其它出版物数量
- cited-by-url - 引用发表列表的Google Scholar URL
- modularity - 从社区检测获得的模块化值
HTML/D3输出的功能
- 节点的颜色表示其引用组
- 节点的大小表示其被引用的次数
- 单击节点可打开其源网站
- 可拖动的节点
- 缩放和平移
- 双击以居中节点
- 可调整大小的窗口
- 文本标签
- 悬停以突出显示一阶邻域
- 单击并按住节点以淡出周围区域
项目详情
下载文件
下载适用于您平台文件。如果您不确定选择哪个,请了解有关安装包的更多信息。
源分布
构建分布
etudier-0.2.0.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 6ee4c4b09a889b8bd6cb9bc6fb0abca174ecfa83d00f7b88419a7740c844d0d8 |
|
MD5 | 9147a47bd00b942d4e7e0b95d261fc5e |
|
BLAKE2b-256 | 55ac37983a814ca0346be96a3fe1d53f51dee9d0bb9cf48abdca42458b78bb34 |