有些PDF文檔的清晰度非常的低冤寿,使用PDF轉(zhuǎn)Word時(shí)候歹苦,經(jīng)常會(huì)把PDF中的內(nèi)容變成圖片放到Word里,非常無(wú)語(yǔ)督怜,直接復(fù)制出來(lái)的又有一大堆空格和換行殴瘦,排版感人,決定用Python將這些亂七八糟的東西去掉亮蛔,只保留文字痴施,達(dá)到復(fù)制粘貼的效果。
代碼十分的簡(jiǎn)單,如下:
f = open('test.txt', 'rb')
obj = f.read().decode('utf-8')
obj = obj.strip()
obj = obj.replace('\n', '')
obj = obj.replace('\r', '')
f.close()
f2 = open('test2.txt', 'w')
f2.write(obj)
f2.close()