Python 數(shù)據(jù)處理(三十六)—— 文本數(shù)據(jù)處理(續(xù))

5 使用 .str 索引

可以使用 [] 符號直接按位置進(jìn)行索引兔毙,如果索引超過字符串的長度论衍,結(jié)果將是 NaN

In [96]: s = pd.Series(
   ....:     ["A", "B", "C", "Aaba", "Baca", np.nan, "CABA", "dog", "cat"], dtype="string"
   ....: )
   ....: 

In [97]: s.str[0]
Out[97]: 
0       A
1       B
2       C
3       A
4       B
5    <NA>
6       C
7       d
8       c
dtype: string

In [98]: s.str[1]
Out[98]: 
0    <NA>
1    <NA>
2    <NA>
3       a
4       a
5    <NA>
6       A
7       o
8       a
dtype: string

6 提取子字符串

6.1 提取第一個匹配項(extract)

0.23 版本之前酌予,extract 方法的參數(shù) expand 默認(rèn)為 False阶牍。當(dāng) expand=False 時笙纤,expand 會根據(jù)正則表達(dá)式模式返回一個 SeriesIndexDataFrame

當(dāng) expand=True 時宵蛀,它總是返回一個 DataFrame,這種方式更加符合用戶的需求县貌,從 0.23.0 版本開始就是默認(rèn)的

extract 方法接受一個至少包含一個捕獲組的正則表達(dá)式

如果是包含多個組的正則表達(dá)式將返回一個 DataFrame术陶,每個捕獲組是一列

In [99]: pd.Series(
   ....:     ["a1", "b2", "c3"],
   ....:     dtype="string",
   ....: ).str.extract(r"([ab])(\d)", expand=False)
   ....: 
Out[99]: 
      0     1
0     a     1
1     b     2
2  <NA>  <NA>

未匹配的行會填充 NaN,可以從混亂的字符串序列中提取出有規(guī)則的信息煤痕。

對于命名分組

In [100]: pd.Series(["a1", "b2", "c3"], dtype="string").str.extract(
   .....:     r"(?P<letter>[ab])(?P<digit>\d)", expand=False
   .....: )
   .....: 
Out[100]: 
  letter digit
0      a     1
1      b     2
2   <NA>  <NA>

對于可選的分組

In [101]: pd.Series(
   .....:     ["a1", "b2", "3"],
   .....:     dtype="string",
   .....: ).str.extract(r"([ab])?(\d)", expand=False)
   .....: 
Out[101]: 
      0  1
0     a  1
1     b  2
2  <NA>  3

注意:正則表達(dá)式中的任何捕獲組名稱都將用作列名梧宫,否則將使用捕獲組號

如果 expand=True,則返回一個 DataFrame

In [102]: pd.Series(["a1", "b2", "c3"], dtype="string").str.extract(r"[ab](\d)", expand=True)
Out[102]: 
      0
0     1
1     2
2  <NA>

如果 expand=False摆碉,則返回一個 Series

In [103]: pd.Series(["a1", "b2", "c3"], dtype="string").str.extract(r"[ab](\d)", expand=False)
Out[103]: 
0       1
1       2
2    <NA>
dtype: string

對于索引塘匣,如果 expand=True,且只有一個捕獲組則返回一個只有一列的 DataFrame

In [104]: s = pd.Series(["a1", "b2", "c3"], ["A11", "B22", "C33"], dtype="string")

In [105]: s
Out[105]: 
A11    a1
B22    b2
C33    c3
dtype: string

In [106]: s.index.str.extract("(?P<letter>[a-zA-Z])", expand=True)
Out[106]: 
  letter
0      A
1      B
2      C

此時巷帝,如果 expand=False 將會返回一個 Index

In [107]: s.index.str.extract("(?P<letter>[a-zA-Z])", expand=False)
Out[107]: Index(['A', 'B', 'C'], dtype='object', name='letter')

對于索引忌卤,正則表達(dá)式設(shè)置多個分組將返回 DataFrame

In [108]: s.index.str.extract("(?P<letter>[a-zA-Z])([0-9]+)", expand=True)
Out[108]: 
  letter   1
0      A  11
1      B  22
2      C  33

如果 expand=False 將會拋出 ValueError 異常

>>> s.index.str.extract("(?P<letter>[a-zA-Z])([0-9]+)", expand=False)
ValueError: only one regex group is supported with Index
6.2 提取所有匹配(extractall)

對于 extract 只返回第一個匹配項

In [109]: s = pd.Series(["a1a2", "b1", "c1"], index=["A", "B", "C"], dtype="string")

In [110]: s
Out[110]: 
A    a1a2
B      b1
C      c1
dtype: string

In [111]: two_groups = "(?P<letter>[a-z])(?P<digit>[0-9])"

In [112]: s.str.extract(two_groups, expand=True)
Out[112]: 
  letter digit
A      a     1
B      b     1
C      c     1

extract 不同,extractall 方法返回每個匹配項楞泼,其結(jié)果始終是具有 MultiIndexDataFrame驰徊。

MultiIndex 的最后一級名為 match,標(biāo)示的是匹配的順序

In [113]: s.str.extractall(two_groups)
Out[113]: 
        letter digit
  match             
A 0          a     1
  1          a     2
B 0          b     1
C 0          c     1

對于只有一個匹配的 Series

In [114]: s = pd.Series(["a3", "b3", "c2"], dtype="string")

In [115]: s
Out[115]: 
0    a3
1    b3
2    c2
dtype: string

extractall(pat).xs(0, level='match')extract(pat) 的結(jié)果一致

In [116]: extract_result = s.str.extract(two_groups, expand=True)

In [117]: extract_result
Out[117]: 
  letter digit
0      a     3
1      b     3
2      c     2

In [118]: extractall_result = s.str.extractall(two_groups)

In [119]: extractall_result
Out[119]: 
        letter digit
  match             
0 0          a     3
1 0          b     3
2 0          c     2

In [120]: extractall_result.xs(0, level="match")
Out[120]: 
  letter digit
0      a     3
1      b     3
2      c     2

Index 也支持 .str.extractall现拒,它返回一個 DataFrame,其結(jié)果與 Series.str 相同望侈。

In [121]: pd.Index(["a1a2", "b1", "c1"]).str.extractall(two_groups)
Out[121]: 
        letter digit
  match             
0 0          a     1
  1          a     2
1 0          b     1
2 0          c     1

In [122]: pd.Series(["a1a2", "b1", "c1"], dtype="string").str.extractall(two_groups)
Out[122]: 
        letter digit
  match             
0 0          a     1
  1          a     2
1 0          b     1
2 0          c     1
7 測試字符串匹配與包含

您可以檢查字符串元素中是否包含正則匹配模式

In [123]: pattern = r"[0-9][a-z]"

In [124]: pd.Series(
   .....:     ["1", "2", "3a", "3b", "03c", "4dx"],
   .....:     dtype="string",
   .....: ).str.contains(pattern)
   .....: 
Out[124]: 
0    False
1    False
2     True
3     True
4     True
5     True
dtype: boolean

或者字符串元素是否與模式匹配

In [125]: pd.Series(
   .....:     ["1", "2", "3a", "3b", "03c", "4dx"],
   .....:     dtype="string",
   .....: ).str.match(pattern)
   .....: 
Out[125]: 
0    False
1    False
2     True
3     True
4    False
5     True
dtype: boolean

而在 1.1.0 版本中

In [126]: pd.Series(
   .....:     ["1", "2", "3a", "3b", "03c", "4dx"],
   .....:     dtype="string",
   .....: ).str.fullmatch(pattern)
   .....: 
Out[126]: 
0    False
1    False
2     True
3     True
4    False
5    False
dtype: boolean

注意

match印蔬、fullmatchcontains 之間的區(qū)別是:

  • fullmatch:測試整個字符串是否與正則表達(dá)式完全匹配
  • match:測試字符串的開頭是否與正則表達(dá)式匹配
  • contains:測試字符串中的任何位置是否存在正則表達(dá)式的匹配

這三個函數(shù)于 re 模塊的 re.fullmatchre.matchre.search 對應(yīng)

match, fullmatch, contains, startswithendswith 有一個額外的 na 參數(shù)脱衙,用于將缺失值替換為 TrueFalse

In [127]: s4 = pd.Series(
   .....:     ["A", "B", "C", "Aaba", "Baca", np.nan, "CABA", "dog", "cat"], dtype="string"
   .....: )
   .....: 

In [128]: s4.str.contains("A", na=False)
Out[128]: 
0     True
1    False
2    False
3     True
4    False
5    False
6     True
7    False
8    False
dtype: boolean

8 創(chuàng)建指標(biāo)變量

您可以從字符串列中提取指標(biāo)變量侥猬。例如,如果使用 '|' 分隔的字符串

In [129]: s = pd.Series(["a", "a|b", np.nan, "a|c"], dtype="string")

In [130]: s.str.get_dummies(sep="|")
Out[130]: 
   a  b  c
0  1  0  0
1  1  1  0
2  0  0  0
3  1  0  1

字符串 Index 也支持 get_dummies捐韩,它返回一個 MultiIndex

In [131]: idx = pd.Index(["a", "a|b", np.nan, "a|c"])

In [132]: idx.str.get_dummies(sep="|")
Out[132]: 
MultiIndex([(1, 0, 0),
            (1, 1, 0),
            (0, 0, 0),
            (1, 0, 1)],
           names=['a', 'b', 'c'])

9 方法總覽

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末退唠,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子荤胁,更是在濱河造成了極大的恐慌瞧预,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,734評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件仅政,死亡現(xiàn)場離奇詭異垢油,居然都是意外死亡,警方通過查閱死者的電腦和手機圆丹,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,931評論 3 394
  • 文/潘曉璐 我一進(jìn)店門滩愁,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人辫封,你說我怎么就攤上這事硝枉×觯” “怎么了?”我有些...
    開封第一講書人閱讀 164,133評論 0 354
  • 文/不壞的土叔 我叫張陵妻味,是天一觀的道長正压。 經(jīng)常有香客問我,道長弧可,這世上最難降的妖魔是什么蔑匣? 我笑而不...
    開封第一講書人閱讀 58,532評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮棕诵,結(jié)果婚禮上裁良,老公的妹妹穿的比我還像新娘。我一直安慰自己校套,他們只是感情好价脾,可當(dāng)我...
    茶點故事閱讀 67,585評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著笛匙,像睡著了一般侨把。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上妹孙,一...
    開封第一講書人閱讀 51,462評論 1 302
  • 那天秋柄,我揣著相機與錄音,去河邊找鬼蠢正。 笑死骇笔,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的嚣崭。 我是一名探鬼主播笨触,決...
    沈念sama閱讀 40,262評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼雹舀!你這毒婦竟也來了芦劣?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,153評論 0 276
  • 序言:老撾萬榮一對情侶失蹤说榆,失蹤者是張志新(化名)和其女友劉穎虚吟,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體签财,經(jīng)...
    沈念sama閱讀 45,587評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡稍味,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,792評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了荠卷。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片模庐。...
    茶點故事閱讀 39,919評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖油宜,靈堂內(nèi)的尸體忽然破棺而出掂碱,到底是詐尸還是另有隱情怜姿,我是刑警寧澤,帶...
    沈念sama閱讀 35,635評論 5 345
  • 正文 年R本政府宣布疼燥,位于F島的核電站沧卢,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏醉者。R本人自食惡果不足惜但狭,卻給世界環(huán)境...
    茶點故事閱讀 41,237評論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望撬即。 院中可真熱鬧立磁,春花似錦、人聲如沸剥槐。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,855評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽粒竖。三九已至颅崩,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間蕊苗,已是汗流浹背沿后。 一陣腳步聲響...
    開封第一講書人閱讀 32,983評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留朽砰,地道東北人尖滚。 一個月前我還...
    沈念sama閱讀 48,048評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像锅移,于是被迫代替她去往敵國和親熔掺。 傳聞我的和親對象是個殘疾皇子饱搏,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,864評論 2 354

推薦閱讀更多精彩內(nèi)容