跳转到主要内容

A (JSONP) dataproxy

项目描述

Data Proxy:一个用于将数据代理到json (jsonp) 格式的google app-engine应用程序。

作者:James Gardner <http://jimmyg.org>
作者:Stefan Urbanek <stefan.urbanek@gmail.com>

转换模块
======================

对于每种资源类型,应该有一个模块在transform/<type>_transform.py中

每个模块应该实现
* ``transformer(flow, url, query)``, 应返回一个Transformer子类
* Transformer子类具有 __init__(flow, url, query)

现有模块
* transform/csv_transform - CSV文件
* transform/xls_transform - Excel XLS文件


随机笔记
============

挂载点
最大文件大小

http://someproxy.example.org/mount_point?url=url_encoded&sheet=1&range=A1:K3&doc=no&indent=4&format=jsonp

响应格式

header
url = http://...file.xls
option = 'row=5&row=7&row_range=10:100000:5000',
response
sheet = 'Sheet 1',
data = [
[...],
[...],
[...],
]

* 下载整个电子表格
* 下载单个工作表(在URL中添加 ``sheet=1``)
* 下载单个工作表中的范围(在URL中添加 ``range=A1:K3``) [对于CSV文件来说有点棘手,但我认为可以做到]
* 选择工作表中有限的行(添加 ``row=5&row=7&row_range=10:100000:5000`` - rowrange格式将给出每5000行之间的10到100000行)


障碍
-------
一些数据集不是基于文本的格式 => 此阶段不要处理它们
Excel电子表格有格式和不同类型 => 忽略它,暂时将所有内容转换为字符串
一些数据集非常大 => 不要代理超过100K的数据 - 如果需要,用户负责过滤
我们不希望重新下载数据集 => 需要一种缓存数据的方式 -> 存储API
某些应用程序可能非常流行并给系统带来压力 -> 可能需要API密钥和速率限制,以便可以禁用单个应用程序/源。我们如何在data.gov.uk上获得读取API密钥?

项目详情


下载文件

下载适合您平台文件的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源分发

dataproxy-0.1.0.tar.gz (93.1 kB 查看哈希值)

上传时间

由以下组织支持