Czech Webarchive的网页分析器。
项目描述
简介
WA-KAT是一个项目,通过半自动分析对电子资源进行编目,从而简化了捷克国家图书馆Webarchive的保管人的工作。
文档
模块文档和描述可在Read the Docs找到
贡献者
Bystroushaak <bystrousak[a]kitakitsune.org>,开发者
变更日志
1.1.16
将dnspython的版本锁定为支持Python 2.7的最后一个版本(1.16.0)(#107)。
项目现在使用提供的Dockerfile进行构建并正确运行。
1.1.15
删除pathlib的锁定版本。
1.1.14
锁定依赖项,以便Dockerfile现在可以再次构建(#107)。
1.1.13
唉。Python包依赖关系真的是一件麻烦事(#107)。
1.1.12
将pathlib添加到依赖项中(#107)。
1.1.11
尝试修复setuptools中的语法错误。
1.1.10
由于较新版本中的语法错误,将setuptools锁定为40.8.0(#107)。
1.1.9
实现了#100 - 字段588的日期格式。
修复了过时的whois查找调用(#101)。
1.1.8
修复了#95 - UDP记录器/ DNS名称解析中的错误(#101)。
将记录器(#87)重写为更好的架构。
1.1.7
实现了HTML lang和xml:lang参数的解析(#88)。
1.1.6
添加了对Sentry的支持(#92)。
1.1.5
将URL添加到日志记录中。
修复了build_keyword_index.py脚本以替换HTML实体。
从aleph下载了额外的40,000条记录。关键词已重新生成。
在MRC模板中禁用了HTML转义。
1.1.4
修复了结构化记录器的IP地址。
1.1.3
修复了软件包的元数据。
1.1.2
通过结构化日志提高了记录器的功能。
创建日期检测器更新(#89)以反映第三方API中的最新更改。
添加了结构化日志记录服务器。
1.1.1
修复了download_as_file()装饰器,使其不再尝试将结果作为JSON返回。
1.1.0
尝试移除ZODB/ZEO,因为它严重损坏。
1.0.0 - 1.0.6
与 Seeder 连接。这是第一个正式的工作版本,已准备好投入生产。
添加了更好的 Seeder 连接。
#85: 修复了 whois 解析中的错误。
#85: 更新了 memento web 的 API 链接。
Dockerfile 已迁移到 ubuntu 16.04。
从 MANIFEST.in 中移除了重复行。
修复了错误日志路径中的错误。
#86: 添加了自定义错误日志路径/选项,可切换到 stderr。
最后尝试将需求锁定到旧版本。
0.4.1 - 0.4.5
添加了缺少的 MANIFEST.in。
添加了 settings.ZEO_SERVER_PATH。
conf/ 目录已移动到 templates/。
模板根据 #78 进行了相应更新。
#80: 008 中的语言现在从用户输入解析。
0.4.0
beta 版本,几乎准备好投入生产使用。
#26: 添加了更多的管理员文档。
#26: 添加了大量有关项目管理的信息。
更新了 / bin 脚本。
向 wa_kat_server.py 添加了 argparse 接口。
移除了不再需要的文件。
#26: 管理员文档已移至 admin_manual.rst。
#26: 添加了隐藏日志的描述。管理员文档已移至自己的文件。
#26: 添加了按钮的描述。
#26: 添加了周期、频率和规则的描述。
#26: 添加了语言和注释的描述。
#26: 添加了 Konspekt / Subkonspekt 的描述。
#26: 添加了关键字小部件的描述。
#26: 添加了地点信息。
修复了关键字中的错误。
#26: 修复了动态帮助子系统的少量错误。
#26: 手册中的一些小修复。
#26: 添加了 HelpOverlay,用户现在可以显示快速帮助。
#26: 添加了作者选择器文档。
向作者选择器添加了进度条。
#26: 添加了发布者文档。
#26: 添加了副标题和创建日期的文档。
#26: 添加了标题的描述。
#26: 添加了更多关于进度条的文档。
url_progress_bar.png -> url_progressbar.png。
向 ISSN 请求添加了进度条。
修复了验证高亮中的 .reset() 调用。
#25: 添加了 ISSN 文档。向 URL 添加了更多文档。
#26: 添加了 URL 字段的文档。
#26: 添加了带有应用程序截图的 wa_kat.png。
#26: 手册包含在索引中。添加了基本描述。
向 overlay_controller.py 添加了文档字符串。修复了 #25。
#25: 向 placeholder_handler.py 添加了文档字符串。
#25: 向 progressbar.py 添加了文档字符串。
#25: 向 shared.py 添加了文档字符串。
#25: 向 output_picker.py 添加了文档字符串。
#25: 向 log_view2.py 添加了文档字符串。
#25: 向 input_controllericker.py 添加了文档字符串。
#25: 向 conspect_handler.py 添加了文档字符串。
#25: 向下拉列表处理器添加了文档字符串。
#25: 向 errorbox.py 添加了文档字符串。
#25: 向 author_picker.py 添加了文档字符串。
#25: 向 author_picker.py 添加了文档字符串。
AlephReaderAdapter 已重构为 AlephISSNReaderAdapter。
#25: 向 wa_kat_main.py 添加了文档字符串。
#25: 更新了 rules_view.py 的文档字符串。
#25: 向 view.py 添加了文档字符串。
#25: 向 descritors.py 添加了文档字符串。
#25: 修复了 data_model.py 的文档字符串。
#25: 修复了文档。
bottle_index.py 已移动到 rest_api/。
#25: 向 data_model.py 添加了文档字符串。
#25: 向 settings.py 添加了文档字符串。
修复了清理按钮中的错误。
#25: 删除了不再使用的文件 conspect_database.py。
#25: 修复了 worker.py 的文档字符串。
修复了黑色覆盖层的尺寸。
#25: 向 rest_api/__init__.py 添加了文档字符串。
#25: 向 analyzers_api.py 添加了文档字符串。
rest_api/__init__.py 已拆分为 rst_api/analyzers_api.py。
#25: 向 to_output.py 添加了文档字符串。
#25: 向 aleph_api.py 添加了文档字符串。
shared.RESPONSE_TYPE 已重命名为 JSON_MIME。
#25: 向 shared.py 添加了文档字符串。
修复了 HTML 实体错误 ' -> ‘。
第25号:未记录一些全局变量,因为HTML中存在大量垃圾邮件。
第25号:为keywords.py添加了文档字符串。
第25号:为virtual_fs.py添加了文档字符串。
第26号:添加了用户手册的链接。
第26号:在manual.rst中添加了更多占位符。
第33号:添加了问号,将打开帮助(#26)。
修复了#73。
第25号:更新了convertors.rst的文档字符串。
第25号:为mrc.py添加了文档字符串。
第25号:为to_dc.py添加了文档字符串。
第25号:修复了convertors的.rst文件中的无效路径。
第25号:为iso_codes.py添加了文档字符串。
第25号:更新。
第25号:更新了作者的文档字符串。
第25号:更新了aleph连接器的文档字符串。
第25号:更新了connectors/的文档字符串。
第25号:为init添加了文档字符串。
第25号:为annotation_detector.py添加了文档字符串。
第25号:为author_detector.py添加了文档字符串。
第25号:为keyword_detector.py添加了文档字符串。
第26号:更新了手册。
第25号:为language_detector.py添加了文档字符串。
第25号:为place_detector.py添加了文档字符串。
第25号:为source_string.py添加了文档字符串。
第25号:为title_detector.py添加了文档字符串。
第25号:为creation_date_detector.py添加了文档字符串。
添加了对textblob的新要求,以改进关键词匹配。
第4号:改进了创建日期解析。删除了重复项。
第2号:略微改进了关键词解析。添加了文档字符串(#25)。
第26号:添加了文档的第一部分。
修复了语言检测器的错误。语言现在应该只出现一次。
关键词匹配的性能略有提高。修复了#2。
第2号:添加了_extract_keywords_from_text()。
第2号:为分析器添加了更好的Unicode解码器。
第2号:在SourceString构造函数中添加了更好的utf / unicode处理。
第2号:添加了新的预计算数据集:KEYWORDS_LOWER。
第2号:添加了对dhtmlparser的新版本要求。
为所有必需元素添加了红色下划线。
实现了get_creation_date_tags()。关闭#4。
第4号:实现了_get_whois_tags()。
第4号:添加了对pythonwhois的新要求。
settings.py:添加了新变量WHOIS_URL。
添加了从008字段传输第18个字符。关闭#66。
第4号:实现了从MementoWeb.org解析资源的功能。
修复了#72 - 重定向到具有损坏SSL的页面的问题。
第72号:添加了更好的错误信息记录。
第25号:为Dublin核心转换器添加了Sphinx文档文件(#13)。
Dublin核心转换器已集成到应用程序中。关闭#13。
第13号:添加了测试(#22)。
第13号:重新格式化。添加了文档字符串(#25)。
第22号:添加了DC测试的草图(#13)。
第13号:添加了作者的解析。
第13号:添加了周期性和地点解析。
第13号:在转换器中导入。添加了文档字符串。
第13号:添加了关键词的处理。添加了url。
第13号:添加了dcterms:alternative、dcterms:created和DDC。
第13号:添加了对标题、出版商、描述、语言、issn和MDT的解析。
第13号:添加了to_dc()的第一稿。
第13号:添加了对xmltodict和odictliteral的要求。
修复了额外信息获取器中的错误。关闭#70,#71。
第70号:修复了urlbar中的错误。
第66号:现在将额外信息传输到输出。
第66号:添加了新功能 - item_to_mrc()。
第66号:将end_date添加到aleph连接器的解析中。
第66号:添加了对创建日期的更好解析。
第22号、#66号:添加了mrc转换器的测试。
第66号:添加了val_to_mrc()。
添加了对marcxml-parser新版本的要求。
修复了setup.py中的错误。
第22号:修复了测试中的错误。
第25号、#26号:更新了文档文件。
第66号:将mrc_to_marc.py重命名为mrc.py,因为添加了新功能。
第66号:添加了dict_to_mrc()。
第66号:在前端中处理了额外信息。
第66号:从Aleph中读取了额外信息。
0.3.0
添加了作者选择器和与Aleph的连接。
修复了许多错误,现在大部分组件都能正常工作。
setup.py: 添加了脚本的定义。
为/bin目录下的所有脚本添加了wa_kat前缀。
为seeder添加了超时和错误处理。关闭了#16。
添加了文档字符串(#25)。
#16: 添加了settings.SEEDER_TIMEOUT。
#16: 添加了处理Seeder可用性的逻辑(#51)。
修复了.reset()中的错误。关闭了#69。
#69: 添加了基本.reset()的功能。
#25: 添加了文档字符串。
#51: 添加了从Seeder读取数据的适配器。基本数据集现在可以工作。
#51: 将Seeder的数据传输到前端。
#51: 修复了Seeder连接器代码中的错误。
#25: 添加了文档字符串和其他注释。
添加了对字幕的支持。关闭了#64。
添加了更新后的数据集。修复了#68。
#68: 添加了跳过已弃用记录的功能。
#68: 修复了构建关键词缓存的逻辑。
#68: 实现了更好的关键词解析器。
命名规范已更改。
build_keyword_index.py重命名为wa-kat_build_keyword_index.py。
#51: 将连接器的部分添加到Seeder。
移除了未使用的空间。
#68: 修复了当没有可用英文对应项时的情况。
#51: 向数据模型中添加了issn。
移除了不再需要的文件。
#51: 将Seeder代码移动到connectors/seeder.py。
#32: 对虚拟文件系统/conspectus代码进行了性能优化。修复了#67。
为请求添加了自定义头部(#24)和身份验证头部(#51)。
现在使用自定义头部进行分析。修复了#24。
#32: 添加了更多的前端日志。
#32: 重新编写,从settings.py / 虚拟文件系统加载API_PATH。
#32: 现在通过虚拟文件系统将周期传输到前端。
#32: 添加了新的虚拟文件系统/periodes.py。
#59: 修复了输出模板,以包括新的conspect字典中的数据。
#59: 移除了未使用的文件,并用新版本替换了代码。
#32, #59: 完全重新编写了conspect处理器代码。
#32, #59: searchable_conspect类重命名为whole_conspect_subconspect。
#32: 添加了conspect代码(#59)。现在实现了虚拟文件系统。
#32: 实现了虚拟文件系统/conspectus.py
#32: 优化了。
#32: GUI_TO_REST_PERIODE现在从虚拟文件系统/ settings.py中读取。
#32: settings.py现在在虚拟文件系统中可用。
#32: 添加了brython配置的虚拟文件系统的第一部分。
#51: 将规则数据添加到输出数据集中。
#32: 作者错误现在由LogView组件记录。
为creation_date添加了特殊请求的默认值。修复了#65。
#59: 添加了处理后的JSON数据。这将需要重写Web GUI。
#59: 添加了一个将数据集从Dan Kindl处理为JSON的脚本。
移除了未使用的文件。
#59: 添加了Dan Kindl的数据集。
#32: 添加了加载齿轮动画。
#32: 将进度条重写为使用实例而不是静态类。
修复了少量错误。
#32: 修复了被覆盖元素滚动的问题。
移除了未使用的文件。
输出模板已修复,无需作者字段。关闭了#62。
#62: 重新构建。从作者选择器中移除了required标志。
#62: publisher_switcher.py重命名为author_switcher.py。
#62: 重新编写,使出版社始终可见,作者可选。
#24: 添加了settings.ANALYZER_USER_AGENT。
添加了新设置:NTK_ALEPH_URL。修复了#61。
随机注释已更新。
#51: REMOTE_INFO_URL重命名为SEEDER_TOKEN。移除了MOCK API。
#61: ISSN请求被重定向到NTK的Aleph。
更改了Python解释器版本描述注释。
#58: 支持作者信息输出。
#58: 修复了作者选择器中的错误。
#58: 移除了调试打印和GUI元素。
#58: 修复了从Aleph读取作者信息的代码。
在主页上添加了替代作者描述。
#58: 在主页上添加了更友好的输入文本。
#58: 在输出中添加了公司/个人指示符。
增加了对个人/法人更好的检测。
完整的作者记录现在传输到前端。
添加了另一个包含ISSN和作者记录的示例。
添加了更多权限记录的示例。
第58号:出版商现在放入264b。
第58号:作者分析现在放入出版商字段。
第58号:在AuthorPicker中添加了描述符协议。包括到表单数据中。
增加了对事件传播的更好处理。
第58号:增加了选择元素剩余逻辑。
第58号:禁用了作者搜索输入的自动完成功能。
更改日志已更新。
第58号:添加了到Aleph REST API(AuthorPickerAdapter)的工作连接。
第58号:将make_request()和func_on_enter()移动到components/shared.py。
第58号:在作者输入中添加了 Vybrat按钮。
第58号:添加了作者选择器的草图。
第58号:为作者选择器添加了更好的样式定义。
第58号:添加了选择作者的用户界面元素。
0.2.0
几乎完成。
修复了出版商验证器中的错误。
0.1.0
创建项目。
项目详情
wa-kat-1.1.16.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | edff22868552c202ca7ae1fcc473148b9cb6a2311947a879b1a3c37d25b03009 |
|
MD5 | 84a766af3f67407d66a2e4fd6579fca7 |
|
BLAKE2b-256 | 6c8c1b0c480b25464ddb24fadbba6ae8e712d1f3ea3ef695ebecc30d45f60952 |