跳转到主要内容

从谷歌学术收集引文图

项目描述

Étudier in Action

étudier 是一个小型Python程序,它使用 Seleniumrequests-htmlnetworkx 来驱动一个 非无头 浏览器收集特定 谷歌学术 引用或搜索结果集的引文图。生成的网络以 GEXFGraphML 文件以及包含 D3 网络可视化的HTML文件(如上图所示)的形式写入。

如果你想知道为什么它使用非无头浏览器,那是因为谷歌对这个数据非常 保密,并且会定期要求你解决验证码(在照片中识别街道标志、汽车等)来证明你不是机器人。étudier 允许你在出现这些验证码任务时完成它们,然后继续收集数据。你需要有一个浏览器来进行交互。

安装

在执行其他操作之前,你需要安装 ChromeDriver。如果你在OS X上使用Homebrew,这就像这样简单

brew cask install chromedriver

然后你需要安装 Python 3

pip3 install etudier

运行

要使用 étudier,你首先需要导航到你感兴趣的谷歌学术页面,例如,这里是引用 Sherry Ortner 的 自六十年代以来的人类学理论 的引用页面。然后你开始启动指向该页面的 etudier

% etudier 'https://scholar.google.com/scholar?start=0&hl=en&as_sdt=20000005&sciodt=0,21&cites=17950649785549691519&scipsc='

如果你对从谷歌学术的关键词搜索结果开始感兴趣,你也可以这样做。例如,如果我想了解关于CSCW会议和记忆的论文,以下是搜索 "cscw memory" 的url

% etudier 'https://scholar.google.com/scholar?hl=en&as_sdt=0%2C21&q=cscw+memory&btnG='

注意:引用URL非常重要,这样可以防止shell将 ampersands 解释为将进程放入后台的尝试。

--pages

默认情况下,étudier 将收集该页面的10个引用,然后查看每个引用的前10个引用。因此,您最终收集的引用不会超过100个(每页10个 * 10个引用)。

如果您想获取超过一页的结果,请使用 --pages。例如,这将导致收集的结果不超过400(20 * 20)。

% etudier --pages 2 'https://scholar.google.com/scholar?start=0&hl=en&as_sdt=20000005&sciodt=0,21&cites=17950649785549691519&scipsc=' 

--depth

最后,如果您想查看引用的引用,请使用 --depth 参数。

% etudier --depth 2 'https://scholar.google.com/scholar?start=0&hl=en&as_sdt=20000005&sciodt=0,21&cites=17950649785549691519&scipsc='

这将收集初始的10个引用,每个的顶级10个引用,然后是那些引用中的顶级10个引用,因此引用不会超过1000(10 * 10 * 10)。由于肯定存在一些交叉引用重复,所以不会更多。

--output

默认情况下,output.gexfoutput.graphmloutput.html 文件将被写入当前工作目录,但您可以使用 --output 选项来更改此设置,以控制使用的文件名前缀。输出文件将包含从Google Scholar收集的原始元数据,包括:

  • id - 由Google分配的簇标识符
  • url - 发表的URL
  • title - 发表的标题
  • authors - 发表作者列表,以逗号分隔
  • year - 发表年份
  • cited-by - 引用该发表的其它出版物数量
  • cited-by-url - 引用发表列表的Google Scholar URL
  • modularity - 从社区检测获得的模块化值

HTML/D3输出的功能

  • 节点的颜色表示其引用组
  • 节点的大小表示其被引用的次数
  • 单击节点可打开其源网站
  • 可拖动的节点
  • 缩放和平移
  • 双击以居中节点
  • 可调整大小的窗口
  • 文本标签
  • 悬停以突出显示一阶邻域
  • 单击并按住节点以淡出周围区域

项目详情


下载文件

下载适用于您平台文件。如果您不确定选择哪个,请了解有关安装包的更多信息。

源分布

etudier-0.2.0.tar.gz (11.2 kB 查看哈希值)

上传时间

构建分布

etudier-0.2.0-py3-none-any.whl (9.7 kB 查看哈希值)

上传时间 Python 3

支持者