正文之前
好久沒(méi)寫(xiě)了,以后寫(xiě)點(diǎn)日成芊粒總結(jié)吧润脸,感覺(jué)不寫(xiě)下來(lái),會(huì)容易忘掉一些他去。
正文
首先直接把我對(duì)數(shù)據(jù)預(yù)處理的一些收獲貼出來(lái):
- jieba比清華的好用,不過(guò)清華的更注重整體性灾测,比如說(shuō)在一個(gè)《》包含的文件內(nèi)爆价,不會(huì)分割
- 最終還是選擇了簡(jiǎn)單粗暴的只留下漢字,unicode編碼真是簡(jiǎn)單粗暴
- https://www.linuxhub.org/?p=3196 第一個(gè)方法媳搪,極其爽
jieba和thulac都無(wú)法去掉铭段,。秦爆、“”這些符號(hào)序愚,很奇怪,所以我才選擇的第二種方式
當(dāng)然還有另外的方法
import re
r1 = '[a-zA-Z0-9’!"等限,:#$%&\'(())*+,-—./:;爸吮;<=>?@芬膝。?★、…【】《》拗胜?“”‘’蔗候![\\]^_`{|}~]+●「」『』〖〗?????~????〝〞????□'
i = re.sub(r1,"",i)
python操作路徑: https://www.cnblogs.com/wei-li/p/2502735.html
python with的用法:
- 而使用with的話(huà),能夠減少冗長(zhǎng)埂软,還能自動(dòng)處理上下文環(huán)境產(chǎn)生的異常锈遥。如下面代碼:
with open("2.txt") as file:
data = file.read()
上面是對(duì)清華的那個(gè)文本分類(lèi)數(shù)據(jù)集做預(yù)處理的時(shí)候的一些踩的坑,八十多萬(wàn)個(gè)txt文件勘畔,真的搞死我所灸。耗時(shí)最長(zhǎng)的是刪除那些零散的txt。炫七。兩個(gè)小時(shí)爬立,我滴媽。万哪。
下面是我讀取txt文件并且轉(zhuǎn)化為csv文件的踩坑:
- 超大文本寫(xiě)入CSV文件的時(shí)候侠驯,可以擴(kuò)容 _csv.Error: field larger than field limit (131072)
import sys
import csv
csv.field_size_limit(sys.maxsize)
- python open()打開(kāi)文件之后如果用readlines(),那么會(huì)直接到文件底部奕巍,再調(diào)用這個(gè)函數(shù)就得不到任何數(shù)據(jù)了吟策。。這個(gè)坑的止。檩坚。我他么,看下面代碼的精妙之處:
file = open(x, 'r', encoding='utf8')
fileLength = len(file.readlines())
file.close()
file = open(x, 'r', encoding='utf8')
fReader = csv.reader(file)
print("Now the file length is: " + str(fileLength))
for i in fReader:
if fReader.line_num ==1:
continue
if(fReader.line_num<0.6*fileLength):
trResult.append(i)
elif (fReader.line_num >= 0.6*fileLength and fReader.line_num<0.8*fileLength ):
teResult.append(i)
else:
vaResult.append(i)
file.close()
要獲得文本長(zhǎng)度诅福,那么直接開(kāi)關(guān)一次匾委,與后面徹底脫節(jié),這樣就OK了
然后的話(huà)氓润,csv的reader內(nèi)置的line_num貌似會(huì)自動(dòng)迭代赂乐。不過(guò)我沒(méi)去測(cè)試如果在一次循環(huán)體里面沒(méi)有調(diào)用item 是否會(huì)跳轉(zhuǎn)到下一行。畢竟你不用咖气,循環(huán)個(gè)錘子哦沪猴。(隨機(jī)采樣表示不關(guān)我的事,)
至于之前把所有的txt文件寫(xiě)到對(duì)應(yīng)分類(lèi)的csv里面去采章,我看看运嗜,放一部分代碼吧~ 全部的丟上來(lái)就涉及到一些不能說(shuō)的秘密了。
def clearTHU():
nowWorkingDirectory = os.getcwd()
nowWorkingDirectory = 'G:\啟動(dòng)盤(pán)外的文件\THUCNews'
directoryNames = ['彩票','科技','社會(huì)','時(shí)尚','時(shí)政','星座','游戲','娛樂(lè)']
allDataPath = []
#@TODO 后面到了linux的機(jī)器上可以開(kāi)啟并行分詞
filtrate = re.compile(XXX)#非中文
for i in directoryNames:
allDataPath.append(os.path.join(nowWorkingDirectory,i))
for i in range(len(allDataPath)):
#現(xiàn)在是在分類(lèi)的文件夾下悯舟,讀取每個(gè)文件夾下的所有文件丟到一個(gè)csv文件里面去
csvWFile = open(os.path.join(nowWorkingDirectory, directoryNames[i]+ '.csv'), 'w', encoding='utf8', newline='')
csvWFile.truncate()
writer = csv.writer(csvWFile)
index = [XXXX]
writer.writerow(index)
files = os.listdir(allDataPath[i])
result = []
print(allDataPath[i])
resultLength = 0
for file in files:
if(file.find('txt')==-1):
continue
item = []
with open(os.path.join(allDataPath[i],file), 'r', encoding='utf8') as f:
x = "".join([line.strip() for line in f.readlines()])
item.append(allDataPath[i][-2:])
item.append(x)
x = filtrate.sub(r'', x)
ss= ""
for s in XXX:
ss+= (XXX)
item.append(ss.strip())
if len(x)<10:
continue
item.append(str(XXX))
result.append(item)
if len(result) > 1000:
writer.writerows(result)
resultLength += len(result)
print("length of result: " + str(resultLength)+ "/"+str(len(files)))
result = []
# print("================"+os.path.join(allDataPath[i],file)+"=================\n" + " ".join(jieba.cut(x)))
if len(result) > 0:
writer.writerows(result)
csvWFile.close()
if __name__ == '__main__':
clearTHU()
正文之后
覺(jué)得自己的代碼真的寫(xiě)的美極了~