python中的string.split()和re.split()

現(xiàn)在我有一個(gè)字符串：

my_string = "我是誰匈织？我在哪兒辕狰？永乌！不管了。不管了允跑。"

string.split()

要求是按標(biāo)點(diǎn)符號(hào)將文本切分成幾個(gè)部分坛增，先看python內(nèi)置的split()方法

# e.g.1
string_list = my_string.split('。')
print(string_list)
>>> ['我是誰雕欺？我在哪兒岛马？！不管了', '不管了', '']

可以看到split('屠列。')確實(shí)將這個(gè)字符串按句號(hào)分割了啦逆，返回的是list
但是split()方法的缺點(diǎn)是只能定義一個(gè)分隔符。比如我們想在遇到中文的句號(hào)和問號(hào)的時(shí)候笛洛，將字符串分割開來：

# e.g.2
string_list = my_string.split('夏志？。')
print(string_list)
>>> ['我是誰苛让？我在哪兒沟蔑？！不管了狱杰。不管了瘦材。']

string_list = my_string.split('？仿畸！')
print(string_list)
>>> ['我是誰食棕？我在哪兒', '不管了。不管了。']

可以看到宣蠕，split將"例隆。？"這個(gè)整體作為分隔符了抢蚀，因此根本實(shí)現(xiàn)不了分割的目標(biāo)镀层。
P.s. 像e.g.1里的那樣，如果字符串的末尾出現(xiàn)了我們想要分割的分隔符皿曲，會(huì)導(dǎo)致返回list的最后一個(gè)元素是空字符串""唱逢，這種情況在匹配等任務(wù)中是致命的，因此有必要避免這種情況屋休。這里提供兩個(gè)方法：

# 方法1：在切分之前坞古，對(duì)字符串進(jìn)行strip()處理——去掉開頭和結(jié)尾的分隔符
string_list = string_list.strip("\s  \n ! ! ? ？劫樟。")
# 轉(zhuǎn)義的字符要用空格隔開

# 方法2：在切分后痪枫，過濾掉split返回的list中的空字符串
# filter_data()函數(shù)的功能是：對(duì)于一個(gè)由string組成的list [str1, str2, str3, ......]，過濾掉那些空字符串''叠艳、特殊字符串'\n'奶陈，并返回過濾后的新list
def not_break(sen):
    return (sen != '\n' and sen != '\u3000' and  sen != '' and not sen.isspace())
def filter_data(ini_data):
    # ini_data是由句子組成的string
    new_data = list(filter(not_break, [data.strip() for data in ini_data]))
    return new_data

推薦第二種～

re.split()

如果想要實(shí)現(xiàn)“多個(gè)分隔符對(duì)句子進(jìn)行切分”的功能，就要依靠python中更為強(qiáng)大的正則方法來實(shí)現(xiàn)了附较。
首先要引入re庫吃粒，依然以上面的字符串為例：

import re
'''
函數(shù)原型 re.split(pattern, string, maxsplit=0, flags=0)
pattern: 分隔符（str）
string: 原始字符串（str）
maxsplit：最大分割次數(shù)
flags：沒有深入研究，感覺是個(gè)輔助功能參數(shù)拒课，比如說flags=re.IGNORECASE應(yīng)該是不區(qū)分大小寫
'''
#e.g.3
my_string = "我是誰徐勃？我在哪兒？早像！不管了僻肖。不管了。"
string_list = re.split("扎酷。", my_string)
>>> ['我是誰檐涝？我在哪兒？法挨！不管了', '不管了', '']
# 一個(gè)分隔符的時(shí)候谁榜，和string.split()功能一致（所以以后都用re.split()好了，嗯凡纳，功能還更強(qiáng)大）

string_list = filter_data(re.split(r"[窃植。|！]", my_string))
print(string_list)
>>> ['我是誰荐糜？我在哪兒巷怜？', '不管了', '不管了']
# 這就是功能強(qiáng)大之處

'''解釋一下 r"[葛超。 |！]"
1） 正則表達(dá)式和 \ 會(huì)有沖突延塑，'r'是為了保證python在解析"[绣张。 |！]"的時(shí)候关带，把它當(dāng)做一個(gè)字符串來處理侥涵，不轉(zhuǎn)義
2） 當(dāng)定義多個(gè)分隔符的時(shí)候，要將分隔符放在‘[]’中（貌似只是一種書寫規(guī)范宋雏，因?yàn)椴粵]有[]功能好像依然不變）或者'()'中芜飘，
    兩種括號(hào)的區(qū)別可以看下面的例子
3） 除了第一個(gè)分隔符，后面的分隔符都要用'|'隔開
'''
string_list = filter_data(re.split(r"(磨总。|嗦明！|？)", my_string))
print(string_list)
>>> ['我是誰', '蚪燕？', '我在哪兒', '娶牌？', '！', '不管了', '馆纳。', '不管了', '裙戏。']
# 這種方式方便我們復(fù)原原始文本

按所有的中英文標(biāo)點(diǎn)符號(hào)切分字符串

對(duì)一些“白癡”的操作，引用庫是個(gè)更安逸的方式

from zhon.hanzi import punctuation as chinese_punctuation  # 中文標(biāo)點(diǎn)符號(hào)
import string 
english_punctuation = string.punctuation  # 英文標(biāo)點(diǎn)符號(hào)

chi_punc = '|'.join([c for c in chinese_punctuation])
eng_punc = '|'.join([c for c in english_punctuation])
punc = chi_punc + eng_punc
>>> punc: '＂|＃|＄|％|＆|＇|（|）|＊|＋|厕诡，|－|／|：|；|＜|＝|＞|＠|［|＼|］|＾|＿|｀|｛|｜|｝|～|?|?|?|?|?|\u3000|营勤、|〃|〈|〉|《|》|「|」|『|』|【|】|〔|〕|〖|〗|?|?|?|?|?|〝|〞|?|?|?|?|–|—|‘|’|?|“|”|?|?|…|?|﹏|﹑|﹔|·|灵嫌！|？|?|葛作。!|"|#|$|%|&|\'|(|)|*|+|,|-|.|/|:|;|<|=|>|?|@|[|\\|]|^|_|`|{|||}|~'
# 注意 punc 中的'||'會(huì)導(dǎo)致逐字符分句的情況寿羞，所以手動(dòng)拋去；如果真要把‘|’也當(dāng)做分隔符赂蠢，再做研究
punc = punc[:-6]+punc[-4:]
my_string = "sen1绪穆。sen2.sen3？sen4“”sen5,.,"
my_stringList = filter_data(re.split(r''+("["+punc+"]"), my_string))

# 效果
>>> ['sen1', 'sen2', 'sen3', 'sen4', 'sen5']

所有解決了的問題虱岂，都應(yīng)該被牢記

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末玖院，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子第岖，更是在濱河造成了極大的恐慌难菌，老刑警劉巖，帶你破解...
沈念sama閱讀 219,039評(píng)論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件蔑滓，死亡現(xiàn)場(chǎng)離奇詭異郊酒，居然都是意外死亡遇绞，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,426評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門燎窘，熙熙樓的掌柜王于貴愁眉苦臉地迎上來摹闽，“玉大人，你說我怎么就攤上這事褐健「堵梗” “怎么了？”我有些...
開封第一講書人閱讀 165,417評(píng)論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵铝量，是天一觀的道長(zhǎng)倘屹。經(jīng)常有香客問我，道長(zhǎng)慢叨，這世上最難降的妖魔是什么纽匙？我笑而不...
開封第一講書人閱讀 58,868評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮拍谐，結(jié)果婚禮上烛缔，老公的妹妹穿的比我還像新娘。我一直安慰自己轩拨，他們只是感情好践瓷，可當(dāng)我...
茶點(diǎn)故事閱讀 67,892評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著亡蓉，像睡著了一般晕翠。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上砍濒，一...
開封第一講書人閱讀 51,692評(píng)論 1贊 305
城市分裂傳說
那天淋肾，我揣著相機(jī)與錄音，去河邊找鬼爸邢。笑死樊卓，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的杠河。我是一名探鬼主播碌尔，決...
沈念sama閱讀 40,416評(píng)論 3贊 419
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼券敌！你這毒婦竟也來了唾戚？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,326評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤陪白，失蹤者是張志新（化名）和其女友劉穎颈走，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體咱士，經(jīng)...
沈念sama閱讀 45,782評(píng)論 1贊 316
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡立由，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,957評(píng)論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年轧钓，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片锐膜。...
茶點(diǎn)故事閱讀 40,102評(píng)論 1贊 350
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡毕箍，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出道盏，到底是詐尸還是另有隱情而柑，我是刑警寧澤，帶...
沈念sama閱讀 35,790評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布荷逞，位于F島的核電站媒咳，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏种远。R本人自食惡果不足惜涩澡，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,442評(píng)論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望坠敷。院中可真熱鬧妙同，春花似錦、人聲如沸膝迎。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,996評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽限次。三九已至芒涡，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間卖漫，已是汗流浹背拖陆。一陣腳步聲響...
開封第一講書人閱讀 33,113評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留懊亡，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,332評(píng)論 3贊 373
代替公主和親
正文我出身青樓乎串，卻偏偏與公主長(zhǎng)得像店枣，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子叹誉，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,044評(píng)論 2贊 355

python中的string.split()和re.split()

string.split()

re.split()

按所有的中英文標(biāo)點(diǎn)符號(hào)切分字符串

推薦閱讀更多精彩內(nèi)容