首先為什么會(huì)有這個(gè)需求梳侨?
因?yàn)槲以谟媒Y(jié)巴做分詞的時(shí)候,發(fā)現(xiàn)日丹,用python的readlines()對(duì)每一行進(jìn)行分詞走哺,比用python的read讀取整個(gè)文件然后直接進(jìn)行分詞,速度要慢10倍哲虾。
但是用read讀取丙躏,就相當(dāng)于把整篇文章看成“一句話(huà)”,然后對(duì)分詞的結(jié)果進(jìn)行join的時(shí)候束凑,就會(huì)在每?jī)删渲g多了一個(gè)空格晒旅。
即,在除了首行和尾行之外汪诉,在每一行的行首和行尾废恋,都多了一個(gè)空格。如圖所示:
解決方法很簡(jiǎn)單扒寄,就是去掉行首與行尾的空格嘛鱼鼓。java好久沒(méi)用了,python又太慢该编,linux的awk指令是最理想的選擇迄本,簡(jiǎn)單、高效课竣。
### awk -f strip.awk file1 > result.txt
{
sub(/^[ ]/,"");
sub(/[ ]$/,"");
print $0
}