現(xiàn)在我有一個(gè)字符串:
my_string = "我是誰匈织?我在哪兒辕狰?永乌!不管了。不管了允跑。"
string.split()
要求是按標(biāo)點(diǎn)符號(hào)將文本切分成幾個(gè)部分坛增,先看python內(nèi)置的split()方法
# e.g.1
string_list = my_string.split('。')
print(string_list)
>>> ['我是誰雕欺?我在哪兒岛马?!不管了', '不管了', '']
可以看到split('屠列。')確實(shí)將這個(gè)字符串按句號(hào)分割了啦逆,返回的是list
但是split()方法的缺點(diǎn)是只能定義一個(gè)分隔符。比如我們想在遇到中文的句號(hào)和問號(hào)的時(shí)候笛洛,將字符串分割開來:
# e.g.2
string_list = my_string.split('夏志?。')
print(string_list)
>>> ['我是誰苛让?我在哪兒沟蔑?!不管了狱杰。不管了瘦材。']
string_list = my_string.split('?仿畸!')
print(string_list)
>>> ['我是誰食棕?我在哪兒', '不管了。不管了。']
可以看到宣蠕,split將"例隆。?"這個(gè)整體作為分隔符了抢蚀,因此根本實(shí)現(xiàn)不了分割的目標(biāo)镀层。
P.s. 像e.g.1里的那樣,如果字符串的末尾出現(xiàn)了我們想要分割的分隔符皿曲,會(huì)導(dǎo)致返回list的最后一個(gè)元素是空字符串""
唱逢,這種情況在匹配等任務(wù)中是致命的,因此有必要避免這種情況屋休。這里提供兩個(gè)方法:
# 方法1:在切分之前坞古,對(duì)字符串進(jìn)行strip()處理——去掉開頭和結(jié)尾的分隔符
string_list = string_list.strip("\s \n ! ! ? ?劫樟。")
# 轉(zhuǎn)義的字符要用空格隔開
# 方法2:在切分后痪枫,過濾掉split返回的list中的空字符串
# filter_data()函數(shù)的功能是:對(duì)于一個(gè)由string組成的list [str1, str2, str3, ......],過濾掉那些空字符串''叠艳、特殊字符串'\n'奶陈,并返回過濾后的新list
def not_break(sen):
return (sen != '\n' and sen != '\u3000' and sen != '' and not sen.isspace())
def filter_data(ini_data):
# ini_data是由句子組成的string
new_data = list(filter(not_break, [data.strip() for data in ini_data]))
return new_data
推薦第二種~
re.split()
如果想要實(shí)現(xiàn)“多個(gè)分隔符對(duì)句子進(jìn)行切分”的功能,就要依靠python中更為強(qiáng)大的正則方法來實(shí)現(xiàn)了附较。
首先要引入re
庫吃粒,依然以上面的字符串為例:
import re
'''
函數(shù)原型 re.split(pattern, string, maxsplit=0, flags=0)
pattern: 分隔符(str)
string: 原始字符串(str)
maxsplit:最大分割次數(shù)
flags:沒有深入研究,感覺是個(gè)輔助功能參數(shù)拒课,比如說flags=re.IGNORECASE應(yīng)該是不區(qū)分大小寫
'''
#e.g.3
my_string = "我是誰徐勃?我在哪兒?早像!不管了僻肖。不管了。"
string_list = re.split("扎酷。", my_string)
>>> ['我是誰檐涝?我在哪兒?法挨!不管了', '不管了', '']
# 一個(gè)分隔符的時(shí)候谁榜,和string.split()功能一致(所以以后都用re.split()好了,嗯凡纳,功能還更強(qiáng)大)
string_list = filter_data(re.split(r"[窃植。|!]", my_string))
print(string_list)
>>> ['我是誰荐糜?我在哪兒巷怜?', '不管了', '不管了']
# 這就是功能強(qiáng)大之處
'''解釋一下 r"[葛超。 |!]"
1) 正則表達(dá)式和 \ 會(huì)有沖突延塑,'r'是為了保證python在解析"[绣张。 |!]"的時(shí)候关带,把它當(dāng)做一個(gè)字符串來處理侥涵,不轉(zhuǎn)義
2) 當(dāng)定義多個(gè)分隔符的時(shí)候,要將分隔符放在‘[]’中(貌似只是一種書寫規(guī)范宋雏,因?yàn)椴粵]有[]功能好像依然不變)或者'()'中芜飘,
兩種括號(hào)的區(qū)別可以看下面的例子
3) 除了第一個(gè)分隔符,后面的分隔符都要用'|'隔開
'''
string_list = filter_data(re.split(r"(磨总。|嗦明!|?)", my_string))
print(string_list)
>>> ['我是誰', '蚪燕?', '我在哪兒', '娶牌?', '!', '不管了', '馆纳。', '不管了', '裙戏。']
# 這種方式方便我們復(fù)原原始文本
按所有的中英文標(biāo)點(diǎn)符號(hào)切分字符串
對(duì)一些“白癡”的操作,引用庫是個(gè)更安逸的方式
from zhon.hanzi import punctuation as chinese_punctuation # 中文標(biāo)點(diǎn)符號(hào)
import string
english_punctuation = string.punctuation # 英文標(biāo)點(diǎn)符號(hào)
chi_punc = '|'.join([c for c in chinese_punctuation])
eng_punc = '|'.join([c for c in english_punctuation])
punc = chi_punc + eng_punc
>>> punc: '"|#|$|%|&|'|(|)|*|+|厕诡,|-|/|:|;|<|=|>|@|[|\|]|^|_|`|{|||}|~|?|?|?|?|?|\u3000|营勤、|〃|〈|〉|《|》|「|」|『|』|【|】|〔|〕|〖|〗|?|?|?|?|?|〝|〞|?|?|?|?|–|—|‘|’|?|“|”|?|?|…|?|﹏|﹑|﹔|·|灵嫌!|?|?|葛作。!|"|#|$|%|&|\'|(|)|*|+|,|-|.|/|:|;|<|=|>|?|@|[|\\|]|^|_|`|{|||}|~'
# 注意 punc 中的'||'會(huì)導(dǎo)致逐字符分句的情況寿羞,所以手動(dòng)拋去;如果真要把‘|’也當(dāng)做分隔符赂蠢,再做研究
punc = punc[:-6]+punc[-4:]
my_string = "sen1绪穆。sen2.sen3?sen4“”sen5,.,"
my_stringList = filter_data(re.split(r''+("["+punc+"]"), my_string))
# 效果
>>> ['sen1', 'sen2', 'sen3', 'sen4', 'sen5']
所有解決了的問題虱岂,都應(yīng)該被牢記