在对文本进行处理的时候经常会遇见要对括号和标点进行匹配
常见的英文(半角)符号如( ) 直接用正则匹配即可
但是遇见全角字符(中文括号、标点),直接用正则匹配会存在问题:
因为编码通常为为utf8,若直接匹配,中文括号的3字节编码会和一些中文的字节编码重复,产生意想不到的结果
若用decode转为unicode编码,则可避免产生错误结果,但也无法直接用正则匹配到
经过试验,发现一个看上去最佳的解决方法:
将字符串decode之后调用一个将全角符号转为半角符号的方法,然后处理返回的字符串
def strQ2B(ustring):
"""全角转半角"""
rstring = ""
for uchar in ustring:
inside_code=ord(uchar)
if inside_code == 12288: #全角空格直接转换
inside_code = 32
elif (inside_code >= 65281 and inside_code <= 65374): #全角字符(除空格)根据关系转化
inside_code -= 65248
rstring += unichr(inside_code)
return rstring
def p(s):
s1 = strQ2B(s.decode())
p = re.compile('[()]',re.S)
s1 = p.sub('',s1)
return s1
过后转念一想,这种方法本质上不就是将正则的pattern字符和目标的编码对应么 所以将正则的字符串也用unicode表示就好了啊
一试果然如此
#!/usr/bin/env python
#-*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf8')
import re
if __name__ == '__main__':
s = '123(45)a啊速度(伤害)有限公司'
ss = re.sub(u'[()()]', '', s.decode())
print ss
总的来说 两种方法都还是有必要存在的。
第二种方法简单直接 如果能快速方便列出所有形式的待匹配符号,就果断选用第二个
反之,若待匹配的各种符号太多太繁琐,就统一转为半角再处理更好
今天的文章python匹配文本中全角符号的两种方法分享到此就结束了,感谢您的阅读,如果确实帮到您,您可以动动手指转发给其他人。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/33251.html