A (JSONP) dataproxy
项目描述
Data Proxy:一个用于将数据代理到json (jsonp) 格式的google app-engine应用程序。
作者:James Gardner <http://jimmyg.org>
作者:Stefan Urbanek <stefan.urbanek@gmail.com>
转换模块
======================
对于每种资源类型,应该有一个模块在transform/<type>_transform.py中
每个模块应该实现
* ``transformer(flow, url, query)``, 应返回一个Transformer子类
* Transformer子类具有 __init__(flow, url, query)
现有模块
* transform/csv_transform - CSV文件
* transform/xls_transform - Excel XLS文件
随机笔记
============
挂载点
最大文件大小
http://someproxy.example.org/mount_point?url=url_encoded&sheet=1&range=A1:K3&doc=no&indent=4&format=jsonp
响应格式
header
url = http://...file.xls
option = 'row=5&row=7&row_range=10:100000:5000',
response
sheet = 'Sheet 1',
data = [
[...],
[...],
[...],
]
* 下载整个电子表格
* 下载单个工作表(在URL中添加 ``sheet=1``)
* 下载单个工作表中的范围(在URL中添加 ``range=A1:K3``) [对于CSV文件来说有点棘手,但我认为可以做到]
* 选择工作表中有限的行(添加 ``row=5&row=7&row_range=10:100000:5000`` - rowrange格式将给出每5000行之间的10到100000行)
障碍
-------
一些数据集不是基于文本的格式 => 此阶段不要处理它们
Excel电子表格有格式和不同类型 => 忽略它,暂时将所有内容转换为字符串
一些数据集非常大 => 不要代理超过100K的数据 - 如果需要,用户负责过滤
我们不希望重新下载数据集 => 需要一种缓存数据的方式 -> 存储API
某些应用程序可能非常流行并给系统带来压力 -> 可能需要API密钥和速率限制,以便可以禁用单个应用程序/源。我们如何在data.gov.uk上获得读取API密钥?
作者:James Gardner <http://jimmyg.org>
作者:Stefan Urbanek <stefan.urbanek@gmail.com>
转换模块
======================
对于每种资源类型,应该有一个模块在transform/<type>_transform.py中
每个模块应该实现
* ``transformer(flow, url, query)``, 应返回一个Transformer子类
* Transformer子类具有 __init__(flow, url, query)
现有模块
* transform/csv_transform - CSV文件
* transform/xls_transform - Excel XLS文件
随机笔记
============
挂载点
最大文件大小
http://someproxy.example.org/mount_point?url=url_encoded&sheet=1&range=A1:K3&doc=no&indent=4&format=jsonp
响应格式
header
url = http://...file.xls
option = 'row=5&row=7&row_range=10:100000:5000',
response
sheet = 'Sheet 1',
data = [
[...],
[...],
[...],
]
* 下载整个电子表格
* 下载单个工作表(在URL中添加 ``sheet=1``)
* 下载单个工作表中的范围(在URL中添加 ``range=A1:K3``) [对于CSV文件来说有点棘手,但我认为可以做到]
* 选择工作表中有限的行(添加 ``row=5&row=7&row_range=10:100000:5000`` - rowrange格式将给出每5000行之间的10到100000行)
障碍
-------
一些数据集不是基于文本的格式 => 此阶段不要处理它们
Excel电子表格有格式和不同类型 => 忽略它,暂时将所有内容转换为字符串
一些数据集非常大 => 不要代理超过100K的数据 - 如果需要,用户负责过滤
我们不希望重新下载数据集 => 需要一种缓存数据的方式 -> 存储API
某些应用程序可能非常流行并给系统带来压力 -> 可能需要API密钥和速率限制,以便可以禁用单个应用程序/源。我们如何在data.gov.uk上获得读取API密钥?
项目详情
关闭
dataproxy-0.1.0.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 0095638765fb7686c619b118acc492970d2aed9f4d1ea686039d12c367772007 |
|
MD5 | 5636e1e40bdd84bf8caf387d841e2f8d |
|
BLAKE2b-256 | 1bd54f3d0e0e171d2bb7d646785dbe568f5b040145eeb6dc3a95b65279be3f4a |