Python 數(shù)據(jù)處理（三十六）—— 文本數(shù)據(jù)處理（續(xù)）

5 使用 .str 索引

可以使用 [] 符號直接按位置進(jìn)行索引兔毙，如果索引超過字符串的長度论衍，結(jié)果將是 NaN

In [96]: s = pd.Series(
   ....:     ["A", "B", "C", "Aaba", "Baca", np.nan, "CABA", "dog", "cat"], dtype="string"
   ....: )
   ....: 

In [97]: s.str[0]
Out[97]: 
0       A
1       B
2       C
3       A
4       B
5    <NA>
6       C
7       d
8       c
dtype: string

In [98]: s.str[1]
Out[98]: 
0    <NA>
1    <NA>
2    <NA>
3       a
4       a
5    <NA>
6       A
7       o
8       a
dtype: string

6 提取子字符串

6.1 提取第一個匹配項(extract)

在 0.23 版本之前酌予，extract 方法的參數(shù) expand 默認(rèn)為 False阶牍。當(dāng) expand=False 時笙纤，expand 會根據(jù)正則表達(dá)式模式返回一個 Series、Index 或 DataFrame

當(dāng) expand=True 時宵蛀，它總是返回一個 DataFrame，這種方式更加符合用戶的需求县貌，從 0.23.0 版本開始就是默認(rèn)的

extract 方法接受一個至少包含一個捕獲組的正則表達(dá)式

如果是包含多個組的正則表達(dá)式將返回一個 DataFrame术陶，每個捕獲組是一列

In [99]: pd.Series(
   ....:     ["a1", "b2", "c3"],
   ....:     dtype="string",
   ....: ).str.extract(r"([ab])(\d)", expand=False)
   ....: 
Out[99]: 
      0     1
0     a     1
1     b     2
2  <NA>  <NA>

未匹配的行會填充 NaN，可以從混亂的字符串序列中提取出有規(guī)則的信息煤痕。

對于命名分組

In [100]: pd.Series(["a1", "b2", "c3"], dtype="string").str.extract(
   .....:     r"(?P<letter>[ab])(?P<digit>\d)", expand=False
   .....: )
   .....: 
Out[100]: 
  letter digit
0      a     1
1      b     2
2   <NA>  <NA>

對于可選的分組

In [101]: pd.Series(
   .....:     ["a1", "b2", "3"],
   .....:     dtype="string",
   .....: ).str.extract(r"([ab])?(\d)", expand=False)
   .....: 
Out[101]: 
      0  1
0     a  1
1     b  2
2  <NA>  3

注意：正則表達(dá)式中的任何捕獲組名稱都將用作列名梧宫，否則將使用捕獲組號

如果 expand=True，則返回一個 DataFrame

In [102]: pd.Series(["a1", "b2", "c3"], dtype="string").str.extract(r"[ab](\d)", expand=True)
Out[102]: 
      0
0     1
1     2
2  <NA>

如果 expand=False摆碉，則返回一個 Series

In [103]: pd.Series(["a1", "b2", "c3"], dtype="string").str.extract(r"[ab](\d)", expand=False)
Out[103]: 
0       1
1       2
2    <NA>
dtype: string

對于索引塘匣，如果 expand=True，且只有一個捕獲組則返回一個只有一列的 DataFrame

In [104]: s = pd.Series(["a1", "b2", "c3"], ["A11", "B22", "C33"], dtype="string")

In [105]: s
Out[105]: 
A11    a1
B22    b2
C33    c3
dtype: string

In [106]: s.index.str.extract("(?P<letter>[a-zA-Z])", expand=True)
Out[106]: 
  letter
0      A
1      B
2      C

此時巷帝，如果 expand=False 將會返回一個 Index

In [107]: s.index.str.extract("(?P<letter>[a-zA-Z])", expand=False)
Out[107]: Index(['A', 'B', 'C'], dtype='object', name='letter')

對于索引忌卤，正則表達(dá)式設(shè)置多個分組將返回 DataFrame

In [108]: s.index.str.extract("(?P<letter>[a-zA-Z])([0-9]+)", expand=True)
Out[108]: 
  letter   1
0      A  11
1      B  22
2      C  33

如果 expand=False 將會拋出 ValueError 異常

>>> s.index.str.extract("(?P<letter>[a-zA-Z])([0-9]+)", expand=False)
ValueError: only one regex group is supported with Index

6.2 提取所有匹配(extractall)

對于 extract 只返回第一個匹配項

In [109]: s = pd.Series(["a1a2", "b1", "c1"], index=["A", "B", "C"], dtype="string")

In [110]: s
Out[110]: 
A    a1a2
B      b1
C      c1
dtype: string

In [111]: two_groups = "(?P<letter>[a-z])(?P<digit>[0-9])"

In [112]: s.str.extract(two_groups, expand=True)
Out[112]: 
  letter digit
A      a     1
B      b     1
C      c     1

與 extract 不同，extractall 方法返回每個匹配項楞泼，其結(jié)果始終是具有 MultiIndex 的 DataFrame驰徊。

MultiIndex 的最后一級名為 match，標(biāo)示的是匹配的順序

In [113]: s.str.extractall(two_groups)
Out[113]: 
        letter digit
  match             
A 0          a     1
  1          a     2
B 0          b     1
C 0          c     1

對于只有一個匹配的 Series

In [114]: s = pd.Series(["a3", "b3", "c2"], dtype="string")

In [115]: s
Out[115]: 
0    a3
1    b3
2    c2
dtype: string

extractall(pat).xs(0, level='match') 與 extract(pat) 的結(jié)果一致

In [116]: extract_result = s.str.extract(two_groups, expand=True)

In [117]: extract_result
Out[117]: 
  letter digit
0      a     3
1      b     3
2      c     2

In [118]: extractall_result = s.str.extractall(two_groups)

In [119]: extractall_result
Out[119]: 
        letter digit
  match             
0 0          a     3
1 0          b     3
2 0          c     2

In [120]: extractall_result.xs(0, level="match")
Out[120]: 
  letter digit
0      a     3
1      b     3
2      c     2

Index 也支持 .str.extractall现拒，它返回一個 DataFrame，其結(jié)果與 Series.str 相同望侈。

In [121]: pd.Index(["a1a2", "b1", "c1"]).str.extractall(two_groups)
Out[121]: 
        letter digit
  match             
0 0          a     1
  1          a     2
1 0          b     1
2 0          c     1

In [122]: pd.Series(["a1a2", "b1", "c1"], dtype="string").str.extractall(two_groups)
Out[122]: 
        letter digit
  match             
0 0          a     1
  1          a     2
1 0          b     1
2 0          c     1

7 測試字符串匹配與包含

您可以檢查字符串元素中是否包含正則匹配模式

In [123]: pattern = r"[0-9][a-z]"

In [124]: pd.Series(
   .....:     ["1", "2", "3a", "3b", "03c", "4dx"],
   .....:     dtype="string",
   .....: ).str.contains(pattern)
   .....: 
Out[124]: 
0    False
1    False
2     True
3     True
4     True
5     True
dtype: boolean

或者字符串元素是否與模式匹配

In [125]: pd.Series(
   .....:     ["1", "2", "3a", "3b", "03c", "4dx"],
   .....:     dtype="string",
   .....: ).str.match(pattern)
   .....: 
Out[125]: 
0    False
1    False
2     True
3     True
4    False
5     True
dtype: boolean

而在 1.1.0 版本中

In [126]: pd.Series(
   .....:     ["1", "2", "3a", "3b", "03c", "4dx"],
   .....:     dtype="string",
   .....: ).str.fullmatch(pattern)
   .....: 
Out[126]: 
0    False
1    False
2     True
3     True
4    False
5    False
dtype: boolean

注意：

match印蔬、fullmatch 和 contains 之間的區(qū)別是：

fullmatch：測試整個字符串是否與正則表達(dá)式完全匹配
match：測試字符串的開頭是否與正則表達(dá)式匹配
contains：測試字符串中的任何位置是否存在正則表達(dá)式的匹配

這三個函數(shù)于 re 模塊的 re.fullmatch、re.match 和 re.search 對應(yīng)

像 match, fullmatch, contains, startswith 和 endswith 有一個額外的 na 參數(shù)脱衙，用于將缺失值替換為 True 或 False

In [127]: s4 = pd.Series(
   .....:     ["A", "B", "C", "Aaba", "Baca", np.nan, "CABA", "dog", "cat"], dtype="string"
   .....: )
   .....: 

In [128]: s4.str.contains("A", na=False)
Out[128]: 
0     True
1    False
2    False
3     True
4    False
5    False
6     True
7    False
8    False
dtype: boolean

8 創(chuàng)建指標(biāo)變量

您可以從字符串列中提取指標(biāo)變量侥猬。例如，如果使用 '|' 分隔的字符串

In [129]: s = pd.Series(["a", "a|b", np.nan, "a|c"], dtype="string")

In [130]: s.str.get_dummies(sep="|")
Out[130]: 
   a  b  c
0  1  0  0
1  1  1  0
2  0  0  0
3  1  0  1

字符串 Index 也支持 get_dummies捐韩，它返回一個 MultiIndex

In [131]: idx = pd.Index(["a", "a|b", np.nan, "a|c"])

In [132]: idx.str.get_dummies(sep="|")
Out[132]: 
MultiIndex([(1, 0, 0),
            (1, 1, 0),
            (0, 0, 0),
            (1, 0, 1)],
           names=['a', 'b', 'c'])

9 方法總覽

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末退唠，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子荤胁，更是在濱河造成了極大的恐慌瞧预，老刑警劉巖，帶你破解...
沈念sama閱讀 217,734評論 6贊 505
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件仅政，死亡現(xiàn)場離奇詭異垢油，居然都是意外死亡，警方通過查閱死者的電腦和手機圆丹，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,931評論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門滩愁，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人辫封，你說我怎么就攤上這事硝枉×觯” “怎么了？”我有些...
開封第一講書人閱讀 164,133評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵妻味，是天一觀的道長正压。經(jīng)常有香客問我，道長弧可，這世上最難降的妖魔是什么蔑匣？我笑而不...
開封第一講書人閱讀 58,532評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮棕诵，結(jié)果婚禮上裁良，老公的妹妹穿的比我還像新娘。我一直安慰自己校套，他們只是感情好价脾，可當(dāng)我...
茶點故事閱讀 67,585評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著笛匙，像睡著了一般侨把。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上妹孙，一...
開封第一講書人閱讀 51,462評論 1贊 302
城市分裂傳說
那天秋柄，我揣著相機與錄音，去河邊找鬼蠢正。笑死骇笔，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的嚣崭。我是一名探鬼主播笨触，決...
沈念sama閱讀 40,262評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼雹舀！你這毒婦竟也來了芦劣？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,153評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤说榆，失蹤者是張志新（化名）和其女友劉穎虚吟，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體签财，經(jīng)...
沈念sama閱讀 45,587評論 1贊 314
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡稍味，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,792評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了荠卷。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片模庐。...
茶點故事閱讀 39,919評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖油宜，靈堂內(nèi)的尸體忽然破棺而出掂碱，到底是詐尸還是另有隱情怜姿，我是刑警寧澤，帶...
沈念sama閱讀 35,635評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布疼燥，位于F島的核電站沧卢，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏醉者。R本人自食惡果不足惜但狭，卻給世界環(huán)境...
茶點故事閱讀 41,237評論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望撬即。院中可真熱鬧立磁，春花似錦、人聲如沸剥槐。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,855評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽粒竖。三九已至颅崩，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間蕊苗，已是汗流浹背沿后。一陣腳步聲響...
開封第一講書人閱讀 32,983評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留朽砰，地道東北人尖滚。一個月前我還...
沈念sama閱讀 48,048評論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像锅移，于是被迫代替她去往敵國和親熔掺。傳聞我的和親對象是個殘疾皇子饱搏，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,864評論 2贊 354