Python正则表达式修饰符 & Python读取GBK文件 两篇

唔姆,这两个标签页在电脑上挂了好久了,把它们扔到这就可以关掉了,好!

Python正则表达式 re模块

re的matchsearch等方法都有一个参数flag(标志位),下面是它的使用方式:

正则表达式修饰符 - 可选标志

正则表达式可以包含一些可选标志修饰符来控制匹配的模式。修饰符被指定为一个可选的标志。多个标志可以通过按位 OR(|) 它们来指定。如 re.I | re.M 被设置成 I 和 M 标志:

修饰符 描述
re.A 只匹配ASCII
re.I 使匹配对大小写不敏感
re.L 做本地化识别(locale-aware)匹配
re.M 多行匹配,影响 ^ 和 $
re.S 使 . 匹配包括换行在内的所有字符
re.U 根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B
re.X 该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。

转载自

  1. 正则表达式修饰符 - 可选标志

关于python编码问题无法读取GBK文件

emmm……想读取txt文件内容,python却报了如下错误:

1
UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 4040: illegal multibyte sequence

解决方案代码示例

1
2
3
4
5
6
7
import codecs

fileHandler = open('test.txt', mode='r', encoding='UTF-8')
report_lines = fileHandler.readlines()
for line in report_lines:
log=line.rstrip()
print(log)

参考资料

  1. 关于python编码问题无法读取GBK文件