跳转到主要内容

Czech Webarchive的网页分析器。

项目描述

简介

https://badge.fury.io/py/wa-kat.png https://img.shields.io/pypi/dm/wa-kat.svg https://readthedocs.org/projects/wa-kat/badge/?version=latest https://img.shields.io/github/issues/WebArchivCZ/WA-KAT.svg https://img.shields.io/pypi/l/wa-kat.svg

WA-KAT是一个项目,通过半自动分析对电子资源进行编目,从而简化了捷克国家图书馆Webarchive的保管人的工作。

文档

模块文档和描述可在Read the Docs找到

贡献者

  • Bystroushaak <bystrousak[a]kitakitsune.org>,开发者

变更日志

1.1.16

  • 将dnspython的版本锁定为支持Python 2.7的最后一个版本(1.16.0)(#107)。

  • 项目现在使用提供的Dockerfile进行构建并正确运行。

1.1.15

  • 删除pathlib的锁定版本。

1.1.14

  • 锁定依赖项,以便Dockerfile现在可以再次构建(#107)。

1.1.13

  • 唉。Python包依赖关系真的是一件麻烦事(#107)。

1.1.12

  • 将pathlib添加到依赖项中(#107)。

1.1.11

  • 尝试修复setuptools中的语法错误。

1.1.10

  • 由于较新版本中的语法错误,将setuptools锁定为40.8.0(#107)。

1.1.9

  • 实现了#100 - 字段588的日期格式。

  • 修复了过时的whois查找调用(#101)。

1.1.8

  • 修复了#95 - UDP记录器/ DNS名称解析中的错误(#101)。

  • 将记录器(#87)重写为更好的架构。

1.1.7

  • 实现了HTML lang和xml:lang参数的解析(#88)。

1.1.6

  • 添加了对Sentry的支持(#92)。

1.1.5

  • 将URL添加到日志记录中。

  • 修复了build_keyword_index.py脚本以替换HTML实体。

  • 从aleph下载了额外的40,000条记录。关键词已重新生成。

  • 在MRC模板中禁用了HTML转义。

1.1.4

  • 修复了结构化记录器的IP地址。

1.1.3

  • 修复了软件包的元数据。

1.1.2

  • 通过结构化日志提高了记录器的功能。

  • 创建日期检测器更新(#89)以反映第三方API中的最新更改。

  • 添加了结构化日志记录服务器。

1.1.1

  • 修复了download_as_file()装饰器,使其不再尝试将结果作为JSON返回。

1.1.0

  • 尝试移除ZODB/ZEO,因为它严重损坏。

1.0.0 - 1.0.6

  • 与 Seeder 连接。这是第一个正式的工作版本,已准备好投入生产。

  • 添加了更好的 Seeder 连接。

  • #85: 修复了 whois 解析中的错误。

  • #85: 更新了 memento web 的 API 链接。

  • Dockerfile 已迁移到 ubuntu 16.04。

  • 从 MANIFEST.in 中移除了重复行。

  • 修复了错误日志路径中的错误。

  • #86: 添加了自定义错误日志路径/选项,可切换到 stderr。

  • 最后尝试将需求锁定到旧版本。

0.4.1 - 0.4.5

  • 添加了缺少的 MANIFEST.in。

  • 添加了 settings.ZEO_SERVER_PATH

  • conf/ 目录已移动到 templates/

  • 模板根据 #78 进行了相应更新。

  • #80: 008 中的语言现在从用户输入解析。

0.4.0

  • beta 版本,几乎准备好投入生产使用。

  • #26: 添加了更多的管理员文档。

  • #26: 添加了大量有关项目管理的信息。

  • 更新了 / bin 脚本。

  • 向 wa_kat_server.py 添加了 argparse 接口。

  • 移除了不再需要的文件。

  • #26: 管理员文档已移至 admin_manual.rst。

  • #26: 添加了隐藏日志的描述。管理员文档已移至自己的文件。

  • #26: 添加了按钮的描述。

  • #26: 添加了周期、频率和规则的描述。

  • #26: 添加了语言和注释的描述。

  • #26: 添加了 Konspekt / Subkonspekt 的描述。

  • #26: 添加了关键字小部件的描述。

  • #26: 添加了地点信息。

  • 修复了关键字中的错误。

  • #26: 修复了动态帮助子系统的少量错误。

  • #26: 手册中的一些小修复。

  • #26: 添加了 HelpOverlay,用户现在可以显示快速帮助。

  • #26: 添加了作者选择器文档。

  • 向作者选择器添加了进度条。

  • #26: 添加了发布者文档。

  • #26: 添加了副标题和创建日期的文档。

  • #26: 添加了标题的描述。

  • #26: 添加了更多关于进度条的文档。

  • url_progress_bar.png -> url_progressbar.png。

  • 向 ISSN 请求添加了进度条。

  • 修复了验证高亮中的 .reset() 调用。

  • #25: 添加了 ISSN 文档。向 URL 添加了更多文档。

  • #26: 添加了 URL 字段的文档。

  • #26: 添加了带有应用程序截图的 wa_kat.png。

  • #26: 手册包含在索引中。添加了基本描述。

  • 向 overlay_controller.py 添加了文档字符串。修复了 #25。

  • #25: 向 placeholder_handler.py 添加了文档字符串。

  • #25: 向 progressbar.py 添加了文档字符串。

  • #25: 向 shared.py 添加了文档字符串。

  • #25: 向 output_picker.py 添加了文档字符串。

  • #25: 向 log_view2.py 添加了文档字符串。

  • #25: 向 input_controllericker.py 添加了文档字符串。

  • #25: 向 conspect_handler.py 添加了文档字符串。

  • #25: 向下拉列表处理器添加了文档字符串。

  • #25: 向 errorbox.py 添加了文档字符串。

  • #25: 向 author_picker.py 添加了文档字符串。

  • #25: 向 author_picker.py 添加了文档字符串。

  • AlephReaderAdapter 已重构为 AlephISSNReaderAdapter。

  • #25: 向 wa_kat_main.py 添加了文档字符串。

  • #25: 更新了 rules_view.py 的文档字符串。

  • #25: 向 view.py 添加了文档字符串。

  • #25: 向 descritors.py 添加了文档字符串。

  • #25: 修复了 data_model.py 的文档字符串。

  • #25: 修复了文档。

  • bottle_index.py 已移动到 rest_api/。

  • #25: 向 data_model.py 添加了文档字符串。

  • #25: 向 settings.py 添加了文档字符串。

  • 修复了清理按钮中的错误。

  • #25: 删除了不再使用的文件 conspect_database.py。

  • #25: 修复了 worker.py 的文档字符串。

  • 修复了黑色覆盖层的尺寸。

  • #25: 向 rest_api/__init__.py 添加了文档字符串。

  • #25: 向 analyzers_api.py 添加了文档字符串。

  • rest_api/__init__.py 已拆分为 rst_api/analyzers_api.py。

  • #25: 向 to_output.py 添加了文档字符串。

  • #25: 向 aleph_api.py 添加了文档字符串。

  • shared.RESPONSE_TYPE 已重命名为 JSON_MIME。

  • #25: 向 shared.py 添加了文档字符串。

  • 修复了 HTML 实体错误 &apos; -> ‘。

  • 第25号:未记录一些全局变量,因为HTML中存在大量垃圾邮件。

  • 第25号:为keywords.py添加了文档字符串。

  • 第25号:为virtual_fs.py添加了文档字符串。

  • 第26号:添加了用户手册的链接。

  • 第26号:在manual.rst中添加了更多占位符。

  • 第33号:添加了问号,将打开帮助(#26)。

  • 修复了#73。

  • 第25号:更新了convertors.rst的文档字符串。

  • 第25号:为mrc.py添加了文档字符串。

  • 第25号:为to_dc.py添加了文档字符串。

  • 第25号:修复了convertors的.rst文件中的无效路径。

  • 第25号:为iso_codes.py添加了文档字符串。

  • 第25号:更新。

  • 第25号:更新了作者的文档字符串。

  • 第25号:更新了aleph连接器的文档字符串。

  • 第25号:更新了connectors/的文档字符串。

  • 第25号:为init添加了文档字符串。

  • 第25号:为annotation_detector.py添加了文档字符串。

  • 第25号:为author_detector.py添加了文档字符串。

  • 第25号:为keyword_detector.py添加了文档字符串。

  • 第26号:更新了手册。

  • 第25号:为language_detector.py添加了文档字符串。

  • 第25号:为place_detector.py添加了文档字符串。

  • 第25号:为source_string.py添加了文档字符串。

  • 第25号:为title_detector.py添加了文档字符串。

  • 第25号:为creation_date_detector.py添加了文档字符串。

  • 添加了对textblob的新要求,以改进关键词匹配。

  • 第4号:改进了创建日期解析。删除了重复项。

  • 第2号:略微改进了关键词解析。添加了文档字符串(#25)。

  • 第26号:添加了文档的第一部分。

  • 修复了语言检测器的错误。语言现在应该只出现一次。

  • 关键词匹配的性能略有提高。修复了#2。

  • 第2号:添加了_extract_keywords_from_text()。

  • 第2号:为分析器添加了更好的Unicode解码器。

  • 第2号:在SourceString构造函数中添加了更好的utf / unicode处理。

  • 第2号:添加了新的预计算数据集:KEYWORDS_LOWER。

  • 第2号:添加了对dhtmlparser的新版本要求。

  • 为所有必需元素添加了红色下划线。

  • 实现了get_creation_date_tags()。关闭#4。

  • 第4号:实现了_get_whois_tags()。

  • 第4号:添加了对pythonwhois的新要求。

  • settings.py:添加了新变量WHOIS_URL。

  • 添加了从008字段传输第18个字符。关闭#66。

  • 第4号:实现了从MementoWeb.org解析资源的功能。

  • 修复了#72 - 重定向到具有损坏SSL的页面的问题。

  • 第72号:添加了更好的错误信息记录。

  • 第25号:为Dublin核心转换器添加了Sphinx文档文件(#13)。

  • Dublin核心转换器已集成到应用程序中。关闭#13。

  • 第13号:添加了测试(#22)。

  • 第13号:重新格式化。添加了文档字符串(#25)。

  • 第22号:添加了DC测试的草图(#13)。

  • 第13号:添加了作者的解析。

  • 第13号:添加了周期性和地点解析。

  • 第13号:在转换器中导入。添加了文档字符串。

  • 第13号:添加了关键词的处理。添加了url。

  • 第13号:添加了dcterms:alternative、dcterms:created和DDC。

  • 第13号:添加了对标题、出版商、描述、语言、issn和MDT的解析。

  • 第13号:添加了to_dc()的第一稿。

  • 第13号:添加了对xmltodict和odictliteral的要求。

  • 修复了额外信息获取器中的错误。关闭#70,#71。

  • 第70号:修复了urlbar中的错误。

  • 第66号:现在将额外信息传输到输出。

  • 第66号:添加了新功能 - item_to_mrc()。

  • 第66号:将end_date添加到aleph连接器的解析中。

  • 第66号:添加了对创建日期的更好解析。

  • 第22号、#66号:添加了mrc转换器的测试。

  • 第66号:添加了val_to_mrc()。

  • 添加了对marcxml-parser新版本的要求。

  • 修复了setup.py中的错误。

  • 第22号:修复了测试中的错误。

  • 第25号、#26号:更新了文档文件。

  • 第66号:将mrc_to_marc.py重命名为mrc.py,因为添加了新功能。

  • 第66号:添加了dict_to_mrc()。

  • 第66号:在前端中处理了额外信息。

  • 第66号:从Aleph中读取了额外信息。

0.3.0

  • 添加了作者选择器和与Aleph的连接。

  • 修复了许多错误,现在大部分组件都能正常工作。

  • setup.py: 添加了脚本的定义。

  • 为/bin目录下的所有脚本添加了wa_kat前缀。

  • 为seeder添加了超时和错误处理。关闭了#16。

  • 添加了文档字符串(#25)。

  • #16: 添加了settings.SEEDER_TIMEOUT。

  • #16: 添加了处理Seeder可用性的逻辑(#51)。

  • 修复了.reset()中的错误。关闭了#69。

  • #69: 添加了基本.reset()的功能。

  • #25: 添加了文档字符串。

  • #51: 添加了从Seeder读取数据的适配器。基本数据集现在可以工作。

  • #51: 将Seeder的数据传输到前端。

  • #51: 修复了Seeder连接器代码中的错误。

  • #25: 添加了文档字符串和其他注释。

  • 添加了对字幕的支持。关闭了#64。

  • 添加了更新后的数据集。修复了#68。

  • #68: 添加了跳过已弃用记录的功能。

  • #68: 修复了构建关键词缓存的逻辑。

  • #68: 实现了更好的关键词解析器。

  • 命名规范已更改。

  • build_keyword_index.py重命名为wa-kat_build_keyword_index.py。

  • #51: 将连接器的部分添加到Seeder。

  • 移除了未使用的空间。

  • #68: 修复了当没有可用英文对应项时的情况。

  • #51: 向数据模型中添加了issn。

  • 移除了不再需要的文件。

  • #51: 将Seeder代码移动到connectors/seeder.py。

  • #32: 对虚拟文件系统/conspectus代码进行了性能优化。修复了#67。

  • 为请求添加了自定义头部(#24)和身份验证头部(#51)。

  • 现在使用自定义头部进行分析。修复了#24。

  • #32: 添加了更多的前端日志。

  • #32: 重新编写,从settings.py / 虚拟文件系统加载API_PATH。

  • #32: 现在通过虚拟文件系统将周期传输到前端。

  • #32: 添加了新的虚拟文件系统/periodes.py。

  • #59: 修复了输出模板,以包括新的conspect字典中的数据。

  • #59: 移除了未使用的文件,并用新版本替换了代码。

  • #32, #59: 完全重新编写了conspect处理器代码。

  • #32, #59: searchable_conspect类重命名为whole_conspect_subconspect。

  • #32: 添加了conspect代码(#59)。现在实现了虚拟文件系统。

  • #32: 实现了虚拟文件系统/conspectus.py

  • #32: 优化了。

  • #32: GUI_TO_REST_PERIODE现在从虚拟文件系统/ settings.py中读取。

  • #32: settings.py现在在虚拟文件系统中可用。

  • #32: 添加了brython配置的虚拟文件系统的第一部分。

  • #51: 将规则数据添加到输出数据集中。

  • #32: 作者错误现在由LogView组件记录。

  • 为creation_date添加了特殊请求的默认值。修复了#65。

  • #59: 添加了处理后的JSON数据。这将需要重写Web GUI。

  • #59: 添加了一个将数据集从Dan Kindl处理为JSON的脚本。

  • 移除了未使用的文件。

  • #59: 添加了Dan Kindl的数据集。

  • #32: 添加了加载齿轮动画。

  • #32: 将进度条重写为使用实例而不是静态类。

  • 修复了少量错误。

  • #32: 修复了被覆盖元素滚动的问题。

  • 移除了未使用的文件。

  • 输出模板已修复,无需作者字段。关闭了#62。

  • #62: 重新构建。从作者选择器中移除了required标志。

  • #62: publisher_switcher.py重命名为author_switcher.py。

  • #62: 重新编写,使出版社始终可见,作者可选。

  • #24: 添加了settings.ANALYZER_USER_AGENT。

  • 添加了新设置:NTK_ALEPH_URL。修复了#61。

  • 随机注释已更新。

  • #51: REMOTE_INFO_URL重命名为SEEDER_TOKEN。移除了MOCK API。

  • #61: ISSN请求被重定向到NTK的Aleph。

  • 更改了Python解释器版本描述注释。

  • #58: 支持作者信息输出。

  • #58: 修复了作者选择器中的错误。

  • #58: 移除了调试打印和GUI元素。

  • #58: 修复了从Aleph读取作者信息的代码。

  • 在主页上添加了替代作者描述。

  • #58: 在主页上添加了更友好的输入文本。

  • #58: 在输出中添加了公司/个人指示符。

  • 增加了对个人/法人更好的检测。

  • 完整的作者记录现在传输到前端。

  • 添加了另一个包含ISSN和作者记录的示例。

  • 添加了更多权限记录的示例。

  • 第58号:出版商现在放入264b。

  • 第58号:作者分析现在放入出版商字段。

  • 第58号:在AuthorPicker中添加了描述符协议。包括到表单数据中。

  • 增加了对事件传播的更好处理。

  • 第58号:增加了选择元素剩余逻辑。

  • 第58号:禁用了作者搜索输入的自动完成功能。

  • 更改日志已更新。

  • 第58号:添加了到Aleph REST API(AuthorPickerAdapter)的工作连接。

  • 第58号:将make_request()和func_on_enter()移动到components/shared.py。

  • 第58号:在作者输入中添加了 Vybrat按钮。

  • 第58号:添加了作者选择器的草图。

  • 第58号:为作者选择器添加了更好的样式定义。

  • 第58号:添加了选择作者的用户界面元素。

0.2.0

  • 几乎完成。

  • 修复了出版商验证器中的错误。

0.1.0

  • 创建项目。

项目详情


下载文件

下载适合您平台的应用程序。如果您不确定选择哪个,请了解更多关于安装包的信息。

源分发

wa-kat-1.1.16.tar.gz (3.4 MB 查看哈希值)

上传时间

支持者

AWSAWS 云计算和安全赞助商 DatadogDatadog 监控 FastlyFastly CDN GoogleGoogle 下载分析 MicrosoftMicrosoft PSF赞助商 PingdomPingdom 监控 SentrySentry 错误日志 StatusPageStatusPage 状态页面