跳转到主要内容

用于访问COVID建模数据协作数据库的Python客户端

项目描述

cmdc.py

注意: cmdc 库已被重命名为 covidcountydata

请使用该包而不是此包。有关更多信息,请参阅GitHub上的covidcountydata包

此包将保持活跃,以供cmdc的历史用户使用,但我们强烈建议所有用户升级到新包,以继续接收新功能和错误修复。

旧版文档

cmdc 是一个用于访问COVID建模数据协作数据库的Python客户端

链接

COVID建模数据协作

COVID建模数据协作(CMDC)是一个由Schmidt Futures资助的项目,旨在简化研究人员和政策制定者采纳和理解COVID-19相关政策的资料获取过程。我们通过以下几种方式实现这一目标:

  • 收集独特的、难以获取且未广泛传播的数据集
  • 将其他相关组织收集的数据聚合到一个集中数据库中
  • 与其他相关组织合作,扩大和改进其数据收集流程
  • 构建工具,如本库和即将推出的R等价库,以简化数据获取过程

有关我们的项目和收集到的数据的更多信息,可以在我们的网站上找到。

我们一直在寻找愿意帮助我们构建CMDC的人,以及愿意使用CMDC的人。请联系我们

安装

此软件包可在Python包索引(pypi)上找到,可以通过以下方式安装

pip install cmdc

数据集

我们将努力保持本页面上数据集/主题的广泛列表是最新的,但随着我们收集更多数据,它可能会落后。您可以通过编写来在客户端对象中找到可用的数据集

import cmdc

c = cmdc.Client()
print(c.datasets)

您还可以在网上找到这些数据集的文档在线。该文档将包括有关特定数据集中包含的变量、数据来源以及您应该注意的任何注意事项的更详细信息。我们鼓励您了解您使用的数据,以确保它适合您预期的分析——不了解您处理的数据将保证后续分析的失败。

可用的数据集

目前可用的数据集包括

  • mobility_devices:由加州大学伯克利分校、芝加哥大学、宾夕法尼亚大学和耶鲁大学的研究人员生产的数据集,关于县内的流动性
  • mobility_locations:由加州大学伯克利分校、芝加哥大学、宾夕法尼亚大学和耶鲁大学的研究人员生产的数据集,关于州内的流动性
  • covid:该数据集包括关于COVID大流行的特定信息,包括总数、测试和住院等数据。它仅基于官方来源,并建立在COVID AtlasCOVID Tracking Project的优秀工作之上。此数据集仅包括每个变量的最新观察值。有关特定日期的数据的历史记录,请参阅covid_historical数据集
  • covid_historical:与covid表相同,但增加了跟踪数据访问日期的vintage列。
  • demographics:一个包含关于不同美国地理区域的基线信息的数据集。包括总人口、65岁以上人口的比例、未投保个人的比例等数据...
  • economics:此数据集包括关于不同地理区域经济状况的信息。

数据键

我们数据库中的所有数据都通过一个或多个常见的“键”进行索引。这些键是

  • vintage:数据下载到我们数据库的日期和时间。我们收集此信息是因为数据的快速变化性质,并需要记录数据何时更改/纠正/更新。
  • dt:观察值对应的日期和时间。对于像COVID测试这样的序列,这可能是一天的频率,但对于其他像失业这样的序列,可能是一周或一个月的频率。
  • fips:联邦信息处理标准编号,用于表示州/县。
  • meta_date:对于观察频率低且变化缓慢的数据集,如人口统计,我们使用meta_date列而不是dt,因为我们将与许多dt的值关联meta_date的值。

当加载具有共同键的两个序列时,它们将在它们的共同键上合并。

API密钥

CMDC数据是公开且免费的。我们打算保持这种方式。

我们确实有API密钥系统,出于几个原因

  1. 为了了解可能帮助我们优先处理工作的使用模式
  2. 了解我们的用户基础范围。我们希望确保我们尽可能对尽可能多的群体有帮助,并大致了解有多少个群体是一个很好的基准!

CMDC库可以自动为您处理API密钥。

如果您选择使用API密钥,请按照以下示例在客户端运行register方法

c = Client()
c.register()

您将被提示输入电子邮件地址。在输入有效的电子邮件地址后,我们将发放API密钥,将其存储在您的机器上,并自动将其应用于将来对我们服务器的所有请求。

如果您在任何时候想删除您的API密钥,请删除文件~/.cmdc/apikey

示例

我们在README中提供了几个简单的示例,但您可以在examples文件夹中找到更多示例。

简单示例:所有FIPS的单个数据集

以下示例加载了县内所有县的流动性数据

c = cmdc.Client()

c.mobility_devices()
df = c.fetch()

简单示例:单个县的单个数据集

以下示例仅加载了德克萨斯州特拉维斯县的 demographic 信息。

请注意,我们可以通过指定fips代码来选择特定的地理区域。我们可以对之前列出的任何键执行类似操作。

c = Client()
c.demographics(fips=48453)
df = c.fetch()

简单示例:一个州内所有县的单个数据集

以下示例仅加载了德克萨斯州所有县的 demographic 信息。

请注意,我们可以通过指定fips代码来选择特定的地理区域。我们可以对之前列出的任何键执行类似操作。

c = Client()
c.demographics(state=48)
df = c.fetch()

中级示例:单个县的多数据集

以下示例加载了covid和demographic数据,展示了如何将多个数据集的调用链在一起。它将自动合并并返回这些数据集。

请注意,对任何数据集(在本例中为fips=6037)应用过滤器将应用到所有数据集。

c = Client()
(
    c
    .covid(fips=6037)
    .demographics()
)
df = c.fetch()

中级示例:一个州内所有县的多数据集

以下示例

高级示例:具有多个过滤器和变量选择的多数据集

以下示例从三个数据集加载特定FIPS代码的数据,使用特定的demographic日期,并从数据集中选择某些变量。

c = Client()
(
    c
    .economics(meta_date="2018-01-01", variable="GDP_All industry total")
    .covid(fips=6037)
    .demographics(variable="Total population")
)
df = c.fetch()

cmdc/examples.py文件中还有更多示例。我们鼓励您探索它们,并在有问题时联系我们!

项目详情


下载文件

下载适合您平台的应用程序。如果您不确定要选择哪一个,请了解有关安装包的更多信息。

源分布

cmdc-0.3.1.tar.gz (11.4 kB 查看哈希值)

上传时间:

由以下机构支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误日志 StatusPage StatusPage 状态页面