将字节内容转换为Unicode的工具。

这些详细信息尚未由PyPI 验证

项目链接

主页

项目描述

Unicodec软件包文档

此软件包提供以下功能：

将HTML文档的字节内容解码为Unicode文本
检测HTML文档字节内容的编码
根据WHATWG HTML标准将编码名称归一化到规范形式

欢迎在Telegram群组中提供反馈：@grablab 和 @grablab_ru。

安装

pip install -U unicodec

用法示例 #1

使用urllib下载网络文档并将其内容转换为Unicode。

from urllib.request import urlopen

from unicodec import decode_content, detect_content_encoding

res = urlopen("http://lib.ru")
rawdata = res.read()
data = decode_content(rawdata, content_type_header=res.headers["content-type"])
print(data[:70])
print(detect_content_encoding(rawdata, res.headers["content-type"]))

输出

<html><head><title>Lib.Ru: Библиотека Максима Мошкова</title></head><b
koi8-r

用法示例 #2

使用urllib3下载网络文档并将其内容转换为Unicode。

from urllib3 import PoolManager

from unicodec import decode_content, detect_content_encoding

res = PoolManager().urlopen("GET", "http://lib.ru")
rawdata = res.data
data = decode_content(rawdata, content_type_header=res.headers["content-type"])
print(data[:70])
print(detect_content_encoding(rawdata, res.headers["content-type"]))

输出

<html><head><title>Lib.Ru: Библиотека Максима Мошкова</title></head><b
koi8-r

用法示例 #3

将编码名称转换为规范形式（根据WHATWG HTML标准）。

from unicodec.normalization import normalize_encoding_name

for name in ["iso8859-1", "utf8", "cp1251"]:
    print("{} -> {}".format(name, normalize_encoding_name(name)))

输出

iso8859-1 -> windows-1252
utf8 -> utf-8
cp1251 -> windows-1251

参考

项目详情

这些详细信息尚未由PyPI 验证

项目链接

主页

发布历史发布通知 | RSS源

此版本

0.0.8

2022年12月20日

0.0.7

2022年12月20日

0.0.6

2022年12月20日

0.0.5

2022年12月19日

0.0.4

2022年12月18日

0.0.3

2022年12月18日

0.0.2

2022年12月18日

0.0.1

2022年12月18日

下载文件

下载适合您平台的文件。如果您不确定选择哪个，请了解更多关于安装软件包的信息。

源代码分发

unicodec-0.0.8.tar.gz (9.4 kB 查看哈希值)

上传时间 2022年12月20日 源代码

哈希值 for unicodec-0.0.8.tar.gz

unicodec-0.0.8.tar.gz 的哈希值
算法	哈希摘要
SHA256	`a0ba4aa8dd39442cda402a180b1bdc6a74c24b717c530ac1ce954924ae974e3d`
MD5	`a3a6499e76e5d13fbfa1d953967a4080`
BLAKE2b-256	`dc386fb81b2431d28bcbae01a2fda8f540a3fe36da4fee5900ae470b0b493321`

unicodec 0.0.8

导航

已验证详细信息

维护者

未验证详细信息

项目链接

元数据

分类器

项目描述

Unicodec软件包文档

安装

用法示例 #1

用法示例 #2

用法示例 #3

参考

项目详情

已验证详细信息

维护者

未验证详细信息

项目链接

元数据

分类器

发布历史发布通知 | RSS源

下载文件

源代码分发

unicodec 0.0.8

导航

已验证详细信息

维护者

未验证详细信息

项目链接

元数据

分类器

项目描述

Unicodec软件包文档

安装

用法示例 #1

用法示例 #2

用法示例 #3

参考

项目详情

已验证详细信息

维护者

未验证详细信息

项目链接

元数据

分类器

发布历史 发布通知 | RSS源

下载文件

源代码分发

发布历史发布通知 | RSS源