sre-yield · PyPI · Python 包索引

将正则表达式展开为其可能的匹配项

这些详情未经PyPI验证

项目链接

主页

项目描述

快速入门

sre_yield的目标是高效地生成给定正则表达式可以匹配的所有值，或者高效地计算可能的匹配项。它使用解析的正则表达式，因此您得到的结果比尝试仅分割字符串要准确得多。

>>> s = 'foo|ba[rz]'
>>> s.split('|')  # bad
['foo', 'ba[rz]']

>>> import sre_yield
>>> list(sre_yield.AllStrings(s))  # better
['foo', 'bar', 'baz']

它通过遍历由sre_parse（与re模块内部使用的相同）构建的树来完成此操作，并根据需要构建链式/重复迭代器。尽管如此，根据您的输入字符串，可能会有重复的结果 - 这些是sre_parse没有优化的情况。

>>> import sre_yield
>>> list(sre_yield.AllStrings('.|a', charset='ab'))
['a', 'b', 'a']

...并且在简单的情况下也会发生

>>> list(sre_yield.AllStrings('a|a'))
['a', 'a']

特殊情况

成员检查'abc' in values_obj 必须是完整匹配 - 它必须覆盖整个字符串。想象一下它周围有^(...)$。因为re.search可以在任意字符串的任何位置匹配，模拟这将产生大量垃圾匹配 - 这可能不是您想要的。（如果您想要这样，请在两边添加.*。）

下面是一个快速示例，使用来自http://xkcd.com/1313/的总统正则表达式

>>> s = 'bu|[rn]t|[coy]e|[mtg]a|j|iso|n[hl]|[ae]d|lev|sh|[lnd]i|[po]o|ls'

>>> import re
>>> re.search(s, 'kennedy') is not None  # note .search
True
>>> v = sre_yield.AllStrings(s)
>>> v.__len__()
23
>>> 'bu' in v
True
>>> v[:5]
['bu', 'rt', 'nt', 'ce', 'oe']

如果您确实想要模拟搜索，您会很快得到大量匹配项。限制一些重复可以帮助，但它仍然是一个非常大的数字。

>>> v2 = sre_yield.AllStrings('.{,30}(' + s + ').{,30}')
>>> el = v2.__len__()  # too big for int
>>> print(str(el).rstrip('L'))
57220492262913872576843611006974799576789176661653180757625052079917448874638816841926032487457234703154759402702651149752815320219511292208238103
>>> 'kennedy' in v2
True

捕获组

如果您对在生成值时提取会匹配的内容感兴趣，您可以使用AllMatches而不是来获取Match对象。

>>> v = sre_yield.AllMatches(r'a(\d)b')
>>> m = v[0]
>>> m.group(0)
'a0b'
>>> m.group(1)
'0'

这甚至适用于简单的后向引用，在这种情况下是要匹配引号。

>>> v = sre_yield.AllMatches(r'(["\'])([01]{3})\1')
>>> m = v[0]
>>> m.group(0)
'"000"'
>>> m.groups()
('"', '000')
>>> m.group(1)
'"'
>>> m.group(2)
'000'

报告错误等

我们欢迎错误报告 - 请参阅我们的问题跟踪器GitHub，以查看是否已报告过。如果您想讨论任何事情，我们还有一个谷歌群组。

相关模块

我们了解三个类似模块，但每个模块的目标都不同。

xeger

Xeger最初是用Java编写的链接，并移植到Python链接。该模块生成随机条目，如果您只想获取少量匹配值，这可能是足够的。此模块和xeger在处理重复方面的统计方法有所不同

>>> import random
>>> v = sre_yield.AllStrings('[abc]{1,4}')
>>> len(v)
120

# Now random.choice(v) has a 3/120 chance of choosing a single letter.
>>> len([x for x in v if len(x) == 1])
3

# xeger(v) has ~25% chance of choosing a single letter, because the length
and match are chosen independently.
# (This doesn't run, so the doctests don't require xeger)
> from rstr import xeger
> sum([1 if len(xeger('[abc]{1,4}')) == 1 else 0 for _ in range(120)])
26

此外，xeger在默认匹配'.'为可打印字符方面有所不同（您可以通过在sre_yield中设置charset=string.printable来实现，如果需要的话）。

sre_dump

另一个遍历sre_parse树的模块是sre_dump，尽管它不会生成匹配项，只重建字符串模式（如果您手动生成树，这非常有用）。如果您对空间感兴趣，这是一本很好的读物。链接

jpetkau1

可以通过使用随机化来找到匹配项，因此可以处理锚点。但不保证，但另一个深入了解内部的好方法。链接（以及python-list上的稍旧版本）。

sre_yield与re模块之间的差异

当然，有一些有效的正则表达式sre_yield无法处理。这些包括诸如后视、后向引用等，但也包括一些其他异常

重复的最大值取决于系统 - 在CPython的sre模块中，有一个特殊值被处理为无限大（取决于构建，为2**16-1或2**32-1）。在sre_yield中，这被视为一个字面值，而不是无限大，因此（在2**16-1平台上）
```
>>> len(sre_yield.AllStrings('a*')[-1])
65535
>>> import re
>>> len(re.match('.*', 'a' * 100000).group(0))
100000
```
re模块的文档说“正则表达式模式字符串可能不包含空字节”，但这似乎运行良好。
顺序不依赖于贪婪性。
正则表达式被视为fullmatch。

sre_yield被复杂的锚点使用所困惑，但支持简单的使用

>>> list(sre_yield.AllStrings('foo$'))
['foo']
>>> list(sre_yield.AllStrings('^$'))
['']
>>> list(sre_yield.AllStrings('.\\b.'))  # doctest: +IGNORE_EXCEPTION_DETAIL
Traceback (most recent call last):
...
ParseError: Non-end-anchor None found at END state

项目详情

这些详情未经PyPI验证

项目链接

主页

发布历史发布通知 | RSS源

本版本

1.2

2019年8月10日

1.1

2018年11月16日

1.0

2014年4月14日

下载文件

下载适合您平台的文件。如果您不确定要选择哪个，请了解更多关于安装包的信息。

源分布

sre_yield-1.2.tar.gz (20.7 kB 查看哈希值)

上传时间 2019年8月10日 源

构建分布

sre_yield-1.2-py3-none-any.whl (27.8 kB 查看哈希值)

上传时间 2019年8月10日 Python 3

哈希值用于 sre_yield-1.2.tar.gz

用于 sre_yield-1.2.tar.gz 的哈希值
算法	哈希摘要
SHA256	`e94f1a2a3cbafffe1dcd15c1d54e401a1517e052aa64c7d3164f88dc761d7b8a`
MD5	`8627ef9bb9386014b800d0a83eb96e61`
BLAKE2b-256	`f2a64588fe0f6c6e3b03ddbfc2bd97227adfcf5ad0f49f79828529ab4d580eeb`

哈希值用于 sre_yield-1.2-py3-none-any.whl

用于 sre_yield-1.2-py3-none-any.whl 的哈希值
算法	哈希摘要
SHA256	`5747dc54435ede1890f7c046c8d4e0053cef41a973a2b78170222df0252e9efa`
MD5	`1c7244252285550a6b5a84f86308c738`
BLAKE2b-256	`19f2dd65830662f61afc67df940446407766cc4d529de78b1e3ecc4c3c862a44`

sre-yield 1.2

导航

验证详情

维护者

未验证详情

项目链接

元数据

类别

项目描述

快速入门

特殊情况

捕获组

报告错误等

sre_yield与re模块之间的差异

项目详情

验证详情

维护者

未验证详情

项目链接

元数据

类别

发布历史发布通知 | RSS源

下载文件

源分布

构建分布

sre-yield 1.2

导航

验证详情

维护者

未验证详情

项目链接

元数据

类别

项目描述

快速入门

特殊情况

捕获组

报告错误等

相关模块

xeger

sre_dump

jpetkau1

sre_yield与re模块之间的差异

项目详情

验证详情

维护者

未验证详情

项目链接

元数据

类别

发布历史 发布通知 | RSS源

下载文件

源分布

构建分布

发布历史发布通知 | RSS源