如何提取高考完型填空高頻詞匯

1. 手機(jī)軟件拍照搜集所有完型填空文章,放入組卷中心

1578378828382.png

2. 復(fù)制網(wǎng)頁(yè)源碼到sublime

按F12找到源碼位置,右鍵復(fù)制outerHTML

1578378934621.png

復(fù)制到sublime

1578379175050.png

3. 確認(rèn)正則表達(dá)式提取選項(xiàng)內(nèi)單詞

觀察源碼,每個(gè)ABCD選項(xiàng)后都有換行符

1578379617444.png

故正則為

A.([\s\S]+?)B.([\s\S]+?)C.([\s\S]+?)D.([\s\S]+?)\n

4. 利用代碼提取所有單詞姑原,另存為xlsx

讀取源文件到str

正則表示取出ABCD后面的單詞

數(shù)據(jù)清洗: 替換掉&nbsp等雜質(zhì)

數(shù)據(jù)裝入list,轉(zhuǎn)為Series呜舒,計(jì)算頻率

import re
import pandas as pd
import numpy
'''
復(fù)制源碼提取選項(xiàng)并統(tǒng)計(jì)頻率,D選項(xiàng)后面是換行符
'''
# 讀取text文本文件
f = open("/Users/josephxie/Desktop/完型填空.html","r")   #設(shè)置文件對(duì)象
str = f.read()     #將txt文件的所有內(nèi)容讀入到字符串str中
f.close()   #將文件關(guān)閉
pattern = re.compile(r'<[\s\S]+?>')
str = re.sub(pattern, '', str)

str = str.replace('&nbsp;',' ')
str = str.replace('\n      ','')
pattern = re.compile(r'<td width=[\s\S]+?>')
str = re.sub(pattern, '', str)
list = []
reg = r'A.([\s\S]+?)B.([\s\S]+?)C.([\s\S]+?)D.([\s\S]+?)\n'
words = re.findall(reg, str)
for i in words:
    for j in i:
        list.append(j.lstrip())
# print(list)
data = pd.Series(list)  # 計(jì)算頻率,統(tǒng)計(jì)出現(xiàn)次數(shù)
data = data.value_counts()
data.to_excel('/Users/josephxie/Desktop/text.xlsx')

共有1013個(gè)結(jié)果

正則匹配

5. 觀察結(jié)果锭汛,部分?jǐn)?shù)據(jù)出現(xiàn)問(wèn)題

發(fā)現(xiàn)部分選項(xiàng)沒(méi)有匹配到,將錯(cuò)誤數(shù)據(jù)手動(dòng)復(fù)制到新sublime中重新提取

  1. 有部分正文內(nèi)容有a.
  2. 有部分選項(xiàng)后面沒(méi)有換行符
1578380304026.png
image-20200107203908720

觀察后正則變?yōu)?/p>

A.([\s\S]+?)B.([\s\S]+?)C.([\s\S]+?)D.([\s\S]+?) 

重新提取

'''
手動(dòng)從結(jié)果中提取失敗的選項(xiàng),D選項(xiàng)后面是空格
'''
f2 = open("/Users/josephxie/Desktop/Html2","r")   #設(shè)置文件對(duì)象
str2 = f2.read()     #將txt文件的所有內(nèi)容讀入到字符串str中
f2.close()   #將文件關(guān)閉
list2 = []
reg = r'A.([\s\S]+?)B.([\s\S]+?)C.([\s\S]+?)D.([\s\S]+?) '
words2 = re.findall(reg, str2)
for i in words2:
    for j in i:
        list2.append(j.lstrip())
data2 = pd.Series(list2)
data2 = data2.value_counts()
data2.to_excel('/Users/josephxie/Desktop/text2.xlsx')
print(data2)

共有227個(gè)結(jié)果

第二次提取結(jié)果

6. 將倆次結(jié)果合并

'''
合并倆次結(jié)果dataframe
'''
df1 = pd.read_excel('/Users/josephxie/Desktop/text.xlsx', names = ['單詞', '頻率']) 
df2 = pd.read_excel('/Users/josephxie/Desktop/text2.xlsx', names = ['單詞', '頻率'])
df3 = df1.append(df2)
df4 = df3.groupby(by=('單詞')).sum()
df4.sort_values('頻率', ascending = False).to_excel('/Users/josephxie/Desktop/result.xlsx')
df4

7. 在excel中用字母排序袭蝗,手動(dòng)將類(lèi)似單詞合并

沒(méi)有想到合適的代碼唤殴,只能手動(dòng)修改

先對(duì)A列排序再手動(dòng)合并相同詞根的單詞

合并同詞根單詞

8. 把結(jié)果放入word,排版打印

1578380562131.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末到腥,一起剝皮案震驚了整個(gè)濱河市朵逝,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌乡范,老刑警劉巖配名,帶你破解...
    沈念sama閱讀 211,042評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異晋辆,居然都是意外死亡渠脉,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門(mén)瓶佳,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)芋膘,“玉大人,你說(shuō)我怎么就攤上這事霸饲∥螅” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,674評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵厚脉,是天一觀的道長(zhǎng)习寸。 經(jīng)常有香客問(wèn)我,道長(zhǎng)器仗,這世上最難降的妖魔是什么融涣? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,340評(píng)論 1 283
  • 正文 為了忘掉前任童番,我火速辦了婚禮精钮,結(jié)果婚禮上威鹿,老公的妹妹穿的比我還像新娘。我一直安慰自己轨香,他們只是感情好忽你,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,404評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著臂容,像睡著了一般科雳。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上脓杉,一...
    開(kāi)封第一講書(shū)人閱讀 49,749評(píng)論 1 289
  • 那天糟秘,我揣著相機(jī)與錄音,去河邊找鬼球散。 笑死尿赚,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的蕉堰。 我是一名探鬼主播凌净,決...
    沈念sama閱讀 38,902評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼屋讶!你這毒婦竟也來(lái)了冰寻?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 37,662評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤皿渗,失蹤者是張志新(化名)和其女友劉穎斩芭,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體乐疆,經(jīng)...
    沈念sama閱讀 44,110評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡划乖,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了诀拭。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片迁筛。...
    茶點(diǎn)故事閱讀 38,577評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖耕挨,靈堂內(nèi)的尸體忽然破棺而出细卧,到底是詐尸還是另有隱情,我是刑警寧澤筒占,帶...
    沈念sama閱讀 34,258評(píng)論 4 328
  • 正文 年R本政府宣布贪庙,位于F島的核電站,受9級(jí)特大地震影響翰苫,放射性物質(zhì)發(fā)生泄漏止邮。R本人自食惡果不足惜这橙,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,848評(píng)論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望导披。 院中可真熱鬧屈扎,春花似錦、人聲如沸撩匕。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,726評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)止毕。三九已至模蜡,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間扁凛,已是汗流浹背忍疾。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,952評(píng)論 1 264
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留谨朝,地道東北人卤妒。 一個(gè)月前我還...
    沈念sama閱讀 46,271評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像叠必,于是被迫代替她去往敵國(guó)和親荚孵。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,452評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容