wa-kat · PyPI · Python 包索引

Czech Webarchive的网页分析器。

这些详情尚未由PyPI验证

项目链接

主页

项目描述

简介

https://img.shields.io/pypi/dm/wa-kat.svg

https://readthedocs.org/projects/wa-kat/badge/?version=latest

https://img.shields.io/github/issues/WebArchivCZ/WA-KAT.svg

https://img.shields.io/pypi/l/wa-kat.svg

WA-KAT是一个项目，通过半自动分析对电子资源进行编目，从而简化了捷克国家图书馆Webarchive的保管人的工作。

文档

模块文档和描述可在Read the Docs找到

http://wa-kat.readthedocs.org

贡献者

Bystroushaak <bystrousak[a]kitakitsune.org>，开发者

变更日志

1.1.16

将dnspython的版本锁定为支持Python 2.7的最后一个版本（1.16.0）（#107）。

项目现在使用提供的Dockerfile进行构建并正确运行。

1.1.15

删除pathlib的锁定版本。

1.1.14

锁定依赖项，以便Dockerfile现在可以再次构建（#107）。

1.1.13

唉。Python包依赖关系真的是一件麻烦事（#107）。

1.1.12

将pathlib添加到依赖项中（#107）。

1.1.11

尝试修复setuptools中的语法错误。

1.1.10

由于较新版本中的语法错误，将setuptools锁定为40.8.0（#107）。

1.1.9

实现了#100 - 字段588的日期格式。

修复了过时的whois查找调用（#101）。

1.1.8

修复了#95 - UDP记录器/ DNS名称解析中的错误（#101）。

将记录器（#87）重写为更好的架构。

1.1.7

实现了HTML lang和xml:lang参数的解析（#88）。

1.1.6

添加了对Sentry的支持（#92）。

1.1.5

将URL添加到日志记录中。

修复了build_keyword_index.py脚本以替换HTML实体。

从aleph下载了额外的40,000条记录。关键词已重新生成。

在MRC模板中禁用了HTML转义。

1.1.4

修复了结构化记录器的IP地址。

1.1.3

修复了软件包的元数据。

1.1.2

通过结构化日志提高了记录器的功能。

创建日期检测器更新（#89）以反映第三方API中的最新更改。

添加了结构化日志记录服务器。

1.1.1

修复了download_as_file()装饰器，使其不再尝试将结果作为JSON返回。

1.1.0

尝试移除ZODB/ZEO，因为它严重损坏。

1.0.0 - 1.0.6

与 Seeder 连接。这是第一个正式的工作版本，已准备好投入生产。

添加了更好的 Seeder 连接。

#85: 修复了 whois 解析中的错误。

#85: 更新了 memento web 的 API 链接。

Dockerfile 已迁移到 ubuntu 16.04。

从 MANIFEST.in 中移除了重复行。

修复了错误日志路径中的错误。

#86: 添加了自定义错误日志路径/选项，可切换到 stderr。

最后尝试将需求锁定到旧版本。

0.4.1 - 0.4.5

添加了缺少的 MANIFEST.in。

添加了 settings.ZEO_SERVER_PATH。

conf/ 目录已移动到 templates/。

模板根据 #78 进行了相应更新。

#80: 008 中的语言现在从用户输入解析。

0.4.0

beta 版本，几乎准备好投入生产使用。

#26: 添加了更多的管理员文档。

#26: 添加了大量有关项目管理的信息。

更新了 / bin 脚本。

向 wa_kat_server.py 添加了 argparse 接口。

移除了不再需要的文件。

#26: 管理员文档已移至 admin_manual.rst。

#26: 添加了隐藏日志的描述。管理员文档已移至自己的文件。

#26: 添加了按钮的描述。

#26: 添加了周期、频率和规则的描述。

#26: 添加了语言和注释的描述。

#26: 添加了 Konspekt / Subkonspekt 的描述。

#26: 添加了关键字小部件的描述。

#26: 添加了地点信息。

修复了关键字中的错误。

#26: 修复了动态帮助子系统的少量错误。

#26: 手册中的一些小修复。

#26: 添加了 HelpOverlay，用户现在可以显示快速帮助。

#26: 添加了作者选择器文档。

向作者选择器添加了进度条。

#26: 添加了发布者文档。

#26: 添加了副标题和创建日期的文档。

#26: 添加了标题的描述。

#26: 添加了更多关于进度条的文档。

url_progress_bar.png -> url_progressbar.png。

向 ISSN 请求添加了进度条。

修复了验证高亮中的 .reset() 调用。

#25: 添加了 ISSN 文档。向 URL 添加了更多文档。

#26: 添加了 URL 字段的文档。

#26: 添加了带有应用程序截图的 wa_kat.png。

#26: 手册包含在索引中。添加了基本描述。

向 overlay_controller.py 添加了文档字符串。修复了 #25。

#25: 向 placeholder_handler.py 添加了文档字符串。

#25: 向 progressbar.py 添加了文档字符串。

#25: 向 shared.py 添加了文档字符串。

#25: 向 output_picker.py 添加了文档字符串。

#25: 向 log_view2.py 添加了文档字符串。

#25: 向 input_controllericker.py 添加了文档字符串。

#25: 向 conspect_handler.py 添加了文档字符串。

#25: 向下拉列表处理器添加了文档字符串。

#25: 向 errorbox.py 添加了文档字符串。

#25: 向 author_picker.py 添加了文档字符串。

#25: 向 author_picker.py 添加了文档字符串。

AlephReaderAdapter 已重构为 AlephISSNReaderAdapter。

#25: 向 wa_kat_main.py 添加了文档字符串。

#25: 更新了 rules_view.py 的文档字符串。

#25: 向 view.py 添加了文档字符串。

#25: 向 descritors.py 添加了文档字符串。

#25: 修复了 data_model.py 的文档字符串。

#25: 修复了文档。

bottle_index.py 已移动到 rest_api/。

#25: 向 data_model.py 添加了文档字符串。

#25: 向 settings.py 添加了文档字符串。

修复了清理按钮中的错误。

#25: 删除了不再使用的文件 conspect_database.py。

#25: 修复了 worker.py 的文档字符串。

修复了黑色覆盖层的尺寸。

#25: 向 rest_api/__init__.py 添加了文档字符串。

#25: 向 analyzers_api.py 添加了文档字符串。

rest_api/__init__.py 已拆分为 rst_api/analyzers_api.py。

#25: 向 to_output.py 添加了文档字符串。

#25: 向 aleph_api.py 添加了文档字符串。

shared.RESPONSE_TYPE 已重命名为 JSON_MIME。

#25: 向 shared.py 添加了文档字符串。

修复了 HTML 实体错误 ' -> ‘。

第25号：未记录一些全局变量，因为HTML中存在大量垃圾邮件。

第25号：为keywords.py添加了文档字符串。

第25号：为virtual_fs.py添加了文档字符串。

第26号：添加了用户手册的链接。

第26号：在manual.rst中添加了更多占位符。

第33号：添加了问号，将打开帮助（#26）。

修复了#73。

第25号：更新了convertors.rst的文档字符串。

第25号：为mrc.py添加了文档字符串。

第25号：为to_dc.py添加了文档字符串。

第25号：修复了convertors的.rst文件中的无效路径。

第25号：为iso_codes.py添加了文档字符串。

第25号：更新。

第25号：更新了作者的文档字符串。

第25号：更新了aleph连接器的文档字符串。

第25号：更新了connectors/的文档字符串。

第25号：为init添加了文档字符串。

第25号：为annotation_detector.py添加了文档字符串。

第25号：为author_detector.py添加了文档字符串。

第25号：为keyword_detector.py添加了文档字符串。

第26号：更新了手册。

第25号：为language_detector.py添加了文档字符串。

第25号：为place_detector.py添加了文档字符串。

第25号：为source_string.py添加了文档字符串。

第25号：为title_detector.py添加了文档字符串。

第25号：为creation_date_detector.py添加了文档字符串。

添加了对textblob的新要求，以改进关键词匹配。

第4号：改进了创建日期解析。删除了重复项。

第2号：略微改进了关键词解析。添加了文档字符串（#25）。

第26号：添加了文档的第一部分。

修复了语言检测器的错误。语言现在应该只出现一次。

关键词匹配的性能略有提高。修复了#2。

第2号：添加了_extract_keywords_from_text()。

第2号：为分析器添加了更好的Unicode解码器。

第2号：在SourceString构造函数中添加了更好的utf / unicode处理。

第2号：添加了新的预计算数据集：KEYWORDS_LOWER。

第2号：添加了对dhtmlparser的新版本要求。

为所有必需元素添加了红色下划线。

实现了get_creation_date_tags()。关闭#4。

第4号：实现了_get_whois_tags()。

第4号：添加了对pythonwhois的新要求。

settings.py：添加了新变量WHOIS_URL。

添加了从008字段传输第18个字符。关闭#66。

第4号：实现了从MementoWeb.org解析资源的功能。

修复了#72 - 重定向到具有损坏SSL的页面的问题。

第72号：添加了更好的错误信息记录。

第25号：为Dublin核心转换器添加了Sphinx文档文件（#13）。

Dublin核心转换器已集成到应用程序中。关闭#13。

第13号：添加了测试（#22）。

第13号：重新格式化。添加了文档字符串（#25）。

第22号：添加了DC测试的草图（#13）。

第13号：添加了作者的解析。

第13号：添加了周期性和地点解析。

第13号：在转换器中导入。添加了文档字符串。

第13号：添加了关键词的处理。添加了url。

第13号：添加了dcterms:alternative、dcterms:created和DDC。

第13号：添加了对标题、出版商、描述、语言、issn和MDT的解析。

第13号：添加了to_dc()的第一稿。

第13号：添加了对xmltodict和odictliteral的要求。

修复了额外信息获取器中的错误。关闭#70，#71。

第70号：修复了urlbar中的错误。

第66号：现在将额外信息传输到输出。

第66号：添加了新功能 - item_to_mrc()。

第66号：将end_date添加到aleph连接器的解析中。

第66号：添加了对创建日期的更好解析。

第22号、#66号：添加了mrc转换器的测试。

第66号：添加了val_to_mrc()。

添加了对marcxml-parser新版本的要求。

修复了setup.py中的错误。

第22号：修复了测试中的错误。

第25号、#26号：更新了文档文件。

第66号：将mrc_to_marc.py重命名为mrc.py，因为添加了新功能。

第66号：添加了dict_to_mrc()。

第66号：在前端中处理了额外信息。

第66号：从Aleph中读取了额外信息。

0.3.0

添加了作者选择器和与Aleph的连接。

修复了许多错误，现在大部分组件都能正常工作。

setup.py: 添加了脚本的定义。

为/bin目录下的所有脚本添加了wa_kat前缀。

为seeder添加了超时和错误处理。关闭了#16。

添加了文档字符串（#25）。

#16: 添加了settings.SEEDER_TIMEOUT。

#16: 添加了处理Seeder可用性的逻辑（#51）。

修复了.reset()中的错误。关闭了#69。

#69: 添加了基本.reset()的功能。

#25: 添加了文档字符串。

#51: 添加了从Seeder读取数据的适配器。基本数据集现在可以工作。

#51: 将Seeder的数据传输到前端。

#51: 修复了Seeder连接器代码中的错误。

#25: 添加了文档字符串和其他注释。

添加了对字幕的支持。关闭了#64。

添加了更新后的数据集。修复了#68。

#68: 添加了跳过已弃用记录的功能。

#68: 修复了构建关键词缓存的逻辑。

#68: 实现了更好的关键词解析器。

命名规范已更改。

build_keyword_index.py重命名为wa-kat_build_keyword_index.py。

#51: 将连接器的部分添加到Seeder。

移除了未使用的空间。

#68: 修复了当没有可用英文对应项时的情况。

#51: 向数据模型中添加了issn。

移除了不再需要的文件。

#51: 将Seeder代码移动到connectors/seeder.py。

#32: 对虚拟文件系统/conspectus代码进行了性能优化。修复了#67。

为请求添加了自定义头部（#24）和身份验证头部（#51）。

现在使用自定义头部进行分析。修复了#24。

#32: 添加了更多的前端日志。

#32: 重新编写，从settings.py / 虚拟文件系统加载API_PATH。

#32: 现在通过虚拟文件系统将周期传输到前端。

#32: 添加了新的虚拟文件系统/periodes.py。

#59: 修复了输出模板，以包括新的conspect字典中的数据。

#59: 移除了未使用的文件，并用新版本替换了代码。

#32, #59: 完全重新编写了conspect处理器代码。

#32, #59: searchable_conspect类重命名为whole_conspect_subconspect。

#32: 添加了conspect代码（#59）。现在实现了虚拟文件系统。

#32: 实现了虚拟文件系统/conspectus.py

#32: 优化了。

#32: GUI_TO_REST_PERIODE现在从虚拟文件系统/ settings.py中读取。

#32: settings.py现在在虚拟文件系统中可用。

#32: 添加了brython配置的虚拟文件系统的第一部分。

#51: 将规则数据添加到输出数据集中。

#32: 作者错误现在由LogView组件记录。

为creation_date添加了特殊请求的默认值。修复了#65。

#59: 添加了处理后的JSON数据。这将需要重写Web GUI。

#59: 添加了一个将数据集从Dan Kindl处理为JSON的脚本。

移除了未使用的文件。

#59: 添加了Dan Kindl的数据集。

#32: 添加了加载齿轮动画。

#32: 将进度条重写为使用实例而不是静态类。

修复了少量错误。

#32: 修复了被覆盖元素滚动的问题。

移除了未使用的文件。

输出模板已修复，无需作者字段。关闭了#62。

#62: 重新构建。从作者选择器中移除了required标志。

#62: publisher_switcher.py重命名为author_switcher.py。

#62: 重新编写，使出版社始终可见，作者可选。

#24: 添加了settings.ANALYZER_USER_AGENT。

添加了新设置：NTK_ALEPH_URL。修复了#61。

随机注释已更新。

#51: REMOTE_INFO_URL重命名为SEEDER_TOKEN。移除了MOCK API。

#61: ISSN请求被重定向到NTK的Aleph。

更改了Python解释器版本描述注释。

#58: 支持作者信息输出。

#58: 修复了作者选择器中的错误。

#58: 移除了调试打印和GUI元素。

#58: 修复了从Aleph读取作者信息的代码。

在主页上添加了替代作者描述。

#58: 在主页上添加了更友好的输入文本。

#58: 在输出中添加了公司/个人指示符。

增加了对个人/法人更好的检测。

完整的作者记录现在传输到前端。

添加了另一个包含ISSN和作者记录的示例。

添加了更多权限记录的示例。

第58号：出版商现在放入264b。

第58号：作者分析现在放入出版商字段。

第58号：在AuthorPicker中添加了描述符协议。包括到表单数据中。

增加了对事件传播的更好处理。

第58号：增加了选择元素剩余逻辑。

第58号：禁用了作者搜索输入的自动完成功能。

更改日志已更新。

第58号：添加了到Aleph REST API（AuthorPickerAdapter）的工作连接。

第58号：将make_request()和func_on_enter()移动到components/shared.py。

第58号：在作者输入中添加了 Vybrat按钮。

第58号：添加了作者选择器的草图。

第58号：为作者选择器添加了更好的样式定义。

第58号：添加了选择作者的用户界面元素。

0.2.0

几乎完成。

修复了出版商验证器中的错误。

0.1.0

创建项目。

项目详情

这些详情尚未由PyPI验证

项目链接

主页

发布历史发布通知 | RSS源

本版本

1.1.16

2021年1月26日

1.1.15

2021年1月26日

1.1.14

2021年1月26日

1.1.13

2021年1月11日

1.1.12

2021年1月11日

1.1.11

2021年1月11日

1.1.10

2021年1月11日

1.1.9

2017年11月12日

1.1.8

2017年4月20日

1.1.7

2017年3月14日

1.1.6

2017年3月10日

1.1.5

2017年2月12日

1.1.4

2017年2月12日

1.1.3

2017年2月12日

1.1.2

2017年2月12日

1.1.1

2017年1月26日

1.1.0

2016年12月18日

1.0.6

2016年11月9日

1.0.5

2016年10月17日

1.0.4

2016年10月17日

1.0.3

2016年10月17日

1.0.2

2016年6月23日

1.0.1

2016年6月6日

1.0.0

2016年6月6日

0.4.5

2016年5月12日

0.4.4

2016年5月11日

0.4.3

2016年4月7日

0.4.2

2016年4月7日

0.4.1

2016年4月7日

0.4.0

2016年4月7日

0.3.0

2016年3月12日

0.1.0

2015年12月4日

下载文件

下载适合您平台的应用程序。如果您不确定选择哪个，请了解更多关于安装包的信息。

源分发

wa-kat-1.1.16.tar.gz (3.4 MB 查看哈希值)

上传时间 2021年1月26日 源

wa-kat-1.1.16.tar.gz的哈希值

wa-kat-1.1.16.tar.gz的哈希值
算法	哈希摘要
SHA256	`edff22868552c202ca7ae1fcc473148b9cb6a2311947a879b1a3c37d25b03009`
MD5	`84a766af3f67407d66a2e4fd6579fca7`
BLAKE2b-256	`6c8c1b0c480b25464ddb24fadbba6ae8e712d1f3ea3ef695ebecc30d45f60952`

wa-kat 1.1.16

导航

验证详情

维护者

未验证详情

项目链接

元数据

分类器

项目描述

简介

文档

贡献者

变更日志

1.1.16

1.1.15

1.1.14

1.1.13

1.1.12

1.1.11

1.1.10

1.1.9

1.1.8

1.1.7

1.1.6

1.1.5

1.1.4

1.1.3

1.1.2

1.1.1

1.1.0

1.0.0 - 1.0.6

0.4.1 - 0.4.5

0.4.0

0.3.0

0.2.0

0.1.0

项目详情

验证详情

维护者

未验证详情

项目链接

元数据

分类器

发布历史 发布通知 | RSS源

下载文件

源分发

发布历史发布通知 | RSS源