python中的string.split()和re.split()

現(xiàn)在我有一個(gè)字符串:

my_string = "我是誰匈织?我在哪兒辕狰?永乌!不管了。不管了允跑。"

string.split()

要求是按標(biāo)點(diǎn)符號(hào)將文本切分成幾個(gè)部分坛增,先看python內(nèi)置的split()方法

# e.g.1
string_list = my_string.split('。')
print(string_list)
>>> ['我是誰雕欺?我在哪兒岛马?!不管了', '不管了', '']

可以看到split('屠列。')確實(shí)將這個(gè)字符串按句號(hào)分割了啦逆,返回的是list
但是split()方法的缺點(diǎn)是只能定義一個(gè)分隔符。比如我們想在遇到中文的句號(hào)和問號(hào)的時(shí)候笛洛,將字符串分割開來:

# e.g.2
string_list = my_string.split('夏志?。')
print(string_list)
>>> ['我是誰苛让?我在哪兒沟蔑?!不管了狱杰。不管了瘦材。']

string_list = my_string.split('?仿畸!')
print(string_list)
>>> ['我是誰食棕?我在哪兒', '不管了。不管了。']

可以看到宣蠕,split將"例隆。?"這個(gè)整體作為分隔符了抢蚀,因此根本實(shí)現(xiàn)不了分割的目標(biāo)镀层。
P.s. 像e.g.1里的那樣,如果字符串的末尾出現(xiàn)了我們想要分割的分隔符皿曲,會(huì)導(dǎo)致返回list的最后一個(gè)元素是空字符串""唱逢,這種情況在匹配等任務(wù)中是致命的,因此有必要避免這種情況屋休。這里提供兩個(gè)方法:

# 方法1:在切分之前坞古,對(duì)字符串進(jìn)行strip()處理——去掉開頭和結(jié)尾的分隔符
string_list = string_list.strip("\s  \n ! ! ? ?劫樟。")
# 轉(zhuǎn)義的字符要用空格隔開
# 方法2:在切分后痪枫,過濾掉split返回的list中的空字符串
# filter_data()函數(shù)的功能是:對(duì)于一個(gè)由string組成的list [str1, str2, str3, ......],過濾掉那些空字符串''叠艳、特殊字符串'\n'奶陈,并返回過濾后的新list
def not_break(sen):
    return (sen != '\n' and sen != '\u3000' and  sen != '' and not sen.isspace())
def filter_data(ini_data):
    # ini_data是由句子組成的string
    new_data = list(filter(not_break, [data.strip() for data in ini_data]))
    return new_data

推薦第二種~

re.split()

如果想要實(shí)現(xiàn)“多個(gè)分隔符對(duì)句子進(jìn)行切分”的功能,就要依靠python中更為強(qiáng)大的正則方法來實(shí)現(xiàn)了附较。
首先要引入re庫吃粒,依然以上面的字符串為例:

import re
'''
函數(shù)原型 re.split(pattern, string, maxsplit=0, flags=0)
pattern: 分隔符(str)
string: 原始字符串(str)
maxsplit:最大分割次數(shù)
flags:沒有深入研究,感覺是個(gè)輔助功能參數(shù)拒课,比如說flags=re.IGNORECASE應(yīng)該是不區(qū)分大小寫
'''
#e.g.3
my_string = "我是誰徐勃?我在哪兒?早像!不管了僻肖。不管了。"
string_list = re.split("扎酷。", my_string)
>>> ['我是誰檐涝?我在哪兒?法挨!不管了', '不管了', '']
# 一個(gè)分隔符的時(shí)候谁榜,和string.split()功能一致(所以以后都用re.split()好了,嗯凡纳,功能還更強(qiáng)大)

string_list = filter_data(re.split(r"[窃植。|!]", my_string))
print(string_list)
>>> ['我是誰荐糜?我在哪兒巷怜?', '不管了', '不管了']
# 這就是功能強(qiáng)大之處

'''解釋一下 r"[葛超。 |!]"
1) 正則表達(dá)式和 \ 會(huì)有沖突延塑,'r'是為了保證python在解析"[绣张。 |!]"的時(shí)候关带,把它當(dāng)做一個(gè)字符串來處理侥涵,不轉(zhuǎn)義
2) 當(dāng)定義多個(gè)分隔符的時(shí)候,要將分隔符放在‘[]’中(貌似只是一種書寫規(guī)范宋雏,因?yàn)椴粵]有[]功能好像依然不變)或者'()'中芜飘,
    兩種括號(hào)的區(qū)別可以看下面的例子
3) 除了第一個(gè)分隔符,后面的分隔符都要用'|'隔開
'''
string_list = filter_data(re.split(r"(磨总。|嗦明!|?)", my_string))
print(string_list)
>>> ['我是誰', '蚪燕?', '我在哪兒', '娶牌?', '!', '不管了', '馆纳。', '不管了', '裙戏。']
# 這種方式方便我們復(fù)原原始文本

按所有的中英文標(biāo)點(diǎn)符號(hào)切分字符串

對(duì)一些“白癡”的操作,引用庫是個(gè)更安逸的方式

from zhon.hanzi import punctuation as chinese_punctuation  # 中文標(biāo)點(diǎn)符號(hào)
import string 
english_punctuation = string.punctuation  # 英文標(biāo)點(diǎn)符號(hào)

chi_punc = '|'.join([c for c in chinese_punctuation])
eng_punc = '|'.join([c for c in english_punctuation])
punc = chi_punc + eng_punc
>>> punc: '"|#|$|%|&|'|(|)|*|+|厕诡,|-|/|:|;|<|=|>|@|[|\|]|^|_|`|{|||}|~|?|?|?|?|?|\u3000|营勤、|〃|〈|〉|《|》|「|」|『|』|【|】|〔|〕|〖|〗|?|?|?|?|?|〝|〞|?|?|?|?|–|—|‘|’|?|“|”|?|?|…|?|﹏|﹑|﹔|·|灵嫌!|?|?|葛作。!|"|#|$|%|&|\'|(|)|*|+|,|-|.|/|:|;|<|=|>|?|@|[|\\|]|^|_|`|{|||}|~'
# 注意 punc 中的'||'會(huì)導(dǎo)致逐字符分句的情況寿羞,所以手動(dòng)拋去;如果真要把‘|’也當(dāng)做分隔符赂蠢,再做研究
punc = punc[:-6]+punc[-4:]
my_string = "sen1绪穆。sen2.sen3?sen4“”sen5,.,"
my_stringList = filter_data(re.split(r''+("["+punc+"]"), my_string))

# 效果
>>> ['sen1', 'sen2', 'sen3', 'sen4', 'sen5']

所有解決了的問題虱岂,都應(yīng)該被牢記

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末玖院,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子第岖,更是在濱河造成了極大的恐慌难菌,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,039評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蔑滓,死亡現(xiàn)場(chǎng)離奇詭異郊酒,居然都是意外死亡遇绞,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,426評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門燎窘,熙熙樓的掌柜王于貴愁眉苦臉地迎上來摹闽,“玉大人,你說我怎么就攤上這事褐健「堵梗” “怎么了?”我有些...
    開封第一講書人閱讀 165,417評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵铝量,是天一觀的道長(zhǎng)倘屹。 經(jīng)常有香客問我,道長(zhǎng)慢叨,這世上最難降的妖魔是什么纽匙? 我笑而不...
    開封第一講書人閱讀 58,868評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮拍谐,結(jié)果婚禮上烛缔,老公的妹妹穿的比我還像新娘。我一直安慰自己轩拨,他們只是感情好践瓷,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,892評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著亡蓉,像睡著了一般晕翠。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上砍濒,一...
    開封第一講書人閱讀 51,692評(píng)論 1 305
  • 那天淋肾,我揣著相機(jī)與錄音,去河邊找鬼爸邢。 笑死樊卓,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的杠河。 我是一名探鬼主播碌尔,決...
    沈念sama閱讀 40,416評(píng)論 3 419
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼券敌!你這毒婦竟也來了唾戚?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,326評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤陪白,失蹤者是張志新(化名)和其女友劉穎颈走,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體咱士,經(jīng)...
    沈念sama閱讀 45,782評(píng)論 1 316
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡立由,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,957評(píng)論 3 337
  • 正文 我和宋清朗相戀三年轧钓,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片锐膜。...
    茶點(diǎn)故事閱讀 40,102評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡毕箍,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出道盏,到底是詐尸還是另有隱情而柑,我是刑警寧澤,帶...
    沈念sama閱讀 35,790評(píng)論 5 346
  • 正文 年R本政府宣布荷逞,位于F島的核電站媒咳,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏种远。R本人自食惡果不足惜涩澡,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,442評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望坠敷。 院中可真熱鬧妙同,春花似錦、人聲如沸膝迎。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,996評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽限次。三九已至芒涡,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間卖漫,已是汗流浹背拖陆。 一陣腳步聲響...
    開封第一講書人閱讀 33,113評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留懊亡,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,332評(píng)論 3 373
  • 正文 我出身青樓乎串,卻偏偏與公主長(zhǎng)得像店枣,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子叹誉,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,044評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • Python中的正則表達(dá)式(re) import rere.match #從開始位置開始匹配鸯两,如果開頭沒有則無re...
    BigJeffWang閱讀 7,082評(píng)論 0 99
  • 搞懂Python 正則表達(dá)式用法 Python 正則表達(dá)式 正則表達(dá)式是一個(gè)特殊的字符序列,它能幫助你方便的檢查一...
    廈熱閱讀 1,583評(píng)論 0 2
  • 類 !/usr/bin/python -- coding: UTF-8 -- class Employee:'所有...
    SkTj閱讀 957評(píng)論 0 0
  • 一长豁、概述 今天這篇文章帶領(lǐng)大家學(xué)習(xí)一下Python中的正則表達(dá)式,當(dāng)然了,正則表達(dá)式本身的內(nèi)容就足以寫好幾本書了,...
    CDA數(shù)據(jù)分析師培訓(xùn)閱讀 64評(píng)論 0 2
  • 常用模塊 認(rèn)識(shí)模塊 什么是模塊 什么是模塊匠襟? 常見的場(chǎng)景:一個(gè)模塊就是一個(gè)包含了python定義和聲明的文件钝侠,文...
    go以恒閱讀 1,953評(píng)論 0 6