用于访问COVID建模数据协作数据库的Python客户端
项目描述
cmdc.py
注意: cmdc
库已被重命名为 covidcountydata
请使用该包而不是此包。有关更多信息,请参阅GitHub上的covidcountydata包
此包将保持活跃,以供cmdc的历史用户使用,但我们强烈建议所有用户升级到新包,以继续接收新功能和错误修复。
旧版文档
cmdc
是一个用于访问COVID建模数据协作数据库的Python客户端
链接
COVID建模数据协作
COVID建模数据协作(CMDC)是一个由Schmidt Futures资助的项目,旨在简化研究人员和政策制定者采纳和理解COVID-19相关政策的资料获取过程。我们通过以下几种方式实现这一目标:
- 收集独特的、难以获取且未广泛传播的数据集
- 将其他相关组织收集的数据聚合到一个集中数据库中
- 与其他相关组织合作,扩大和改进其数据收集流程
- 构建工具,如本库和即将推出的R等价库,以简化数据获取过程
有关我们的项目和收集到的数据的更多信息,可以在我们的网站上找到。
我们一直在寻找愿意帮助我们构建CMDC的人,以及愿意使用CMDC的人。请联系我们!
安装
此软件包可在Python包索引(pypi)上找到,可以通过以下方式安装
pip install cmdc
数据集
我们将努力保持本页面上数据集/主题的广泛列表是最新的,但随着我们收集更多数据,它可能会落后。您可以通过编写来在客户端对象中找到可用的数据集
import cmdc
c = cmdc.Client()
print(c.datasets)
您还可以在网上找到这些数据集的文档在线。该文档将包括有关特定数据集中包含的变量、数据来源以及您应该注意的任何注意事项的更详细信息。我们鼓励您了解您使用的数据,以确保它适合您预期的分析——不了解您处理的数据将保证后续分析的失败。
可用的数据集
目前可用的数据集包括
mobility_devices
:由加州大学伯克利分校、芝加哥大学、宾夕法尼亚大学和耶鲁大学的研究人员生产的数据集,关于县内的流动性mobility_locations
:由加州大学伯克利分校、芝加哥大学、宾夕法尼亚大学和耶鲁大学的研究人员生产的数据集,关于州内的流动性covid
:该数据集包括关于COVID大流行的特定信息,包括总数、测试和住院等数据。它仅基于官方来源,并建立在COVID Atlas和COVID Tracking Project的优秀工作之上。此数据集仅包括每个变量的最新观察值。有关特定日期的数据的历史记录,请参阅covid_historical
数据集covid_historical
:与covid表相同,但增加了跟踪数据访问日期的vintage
列。demographics
:一个包含关于不同美国地理区域的基线信息的数据集。包括总人口、65岁以上人口的比例、未投保个人的比例等数据...economics
:此数据集包括关于不同地理区域经济状况的信息。
数据键
我们数据库中的所有数据都通过一个或多个常见的“键”进行索引。这些键是
vintage
:数据下载到我们数据库的日期和时间。我们收集此信息是因为数据的快速变化性质,并需要记录数据何时更改/纠正/更新。dt
:观察值对应的日期和时间。对于像COVID测试这样的序列,这可能是一天的频率,但对于其他像失业这样的序列,可能是一周或一个月的频率。fips
:联邦信息处理标准编号,用于表示州/县。meta_date
:对于观察频率低且变化缓慢的数据集,如人口统计,我们使用meta_date
列而不是dt
,因为我们将与许多dt
的值关联meta_date
的值。
当加载具有共同键的两个序列时,它们将在它们的共同键上合并。
API密钥
CMDC数据是公开且免费的。我们打算保持这种方式。
我们确实有API密钥系统,出于几个原因
- 为了了解可能帮助我们优先处理工作的使用模式
- 了解我们的用户基础范围。我们希望确保我们尽可能对尽可能多的群体有帮助,并大致了解有多少个群体是一个很好的基准!
CMDC库可以自动为您处理API密钥。
如果您选择使用API密钥,请按照以下示例在客户端运行register
方法
c = Client()
c.register()
您将被提示输入电子邮件地址。在输入有效的电子邮件地址后,我们将发放API密钥,将其存储在您的机器上,并自动将其应用于将来对我们服务器的所有请求。
如果您在任何时候想删除您的API密钥,请删除文件~/.cmdc/apikey
示例
我们在README中提供了几个简单的示例,但您可以在examples
文件夹中找到更多示例。
简单示例:所有FIPS的单个数据集
以下示例加载了县内所有县的流动性数据
c = cmdc.Client()
c.mobility_devices()
df = c.fetch()
简单示例:单个县的单个数据集
以下示例仅加载了德克萨斯州特拉维斯县的 demographic 信息。
请注意,我们可以通过指定fips代码来选择特定的地理区域。我们可以对之前列出的任何键执行类似操作。
c = Client()
c.demographics(fips=48453)
df = c.fetch()
简单示例:一个州内所有县的单个数据集
以下示例仅加载了德克萨斯州所有县的 demographic 信息。
请注意,我们可以通过指定fips代码来选择特定的地理区域。我们可以对之前列出的任何键执行类似操作。
c = Client()
c.demographics(state=48)
df = c.fetch()
中级示例:单个县的多数据集
以下示例加载了covid和demographic数据,展示了如何将多个数据集的调用链在一起。它将自动合并并返回这些数据集。
请注意,对任何数据集(在本例中为fips=6037
)应用过滤器将应用到所有数据集。
c = Client()
(
c
.covid(fips=6037)
.demographics()
)
df = c.fetch()
中级示例:一个州内所有县的多数据集
以下示例
高级示例:具有多个过滤器和变量选择的多数据集
以下示例从三个数据集加载特定FIPS代码的数据,使用特定的demographic日期,并从数据集中选择某些变量。
c = Client()
(
c
.economics(meta_date="2018-01-01", variable="GDP_All industry total")
.covid(fips=6037)
.demographics(variable="Total population")
)
df = c.fetch()
在cmdc/examples.py
文件中还有更多示例。我们鼓励您探索它们,并在有问题时联系我们!
项目详情
cmdc-0.3.1.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 373d35fba48835b2179dbd5a0dfddaab94a237f5e0de35eb17a70a9411d1e6ed |
|
MD5 | 4d40f3779736a90470c1e960675da6b2 |
|
BLAKE2b-256 | be42f13b34bb2fb8dd11c4767c8acfab08cb364d77574d9b072803ee15b47b56 |