在機(jī)器學(xué)習(xí)第四章樸素貝葉斯中進(jìn)行垃圾郵件分類時(shí)哟沫,原語句:
wordList = textParse(open('email/spam/%d.txt' % i, 'rb').read())
報(bào)錯(cuò):UnicodeDecodeError: 'utf-8' codec can't decode byte 0x92 in position 884: invalid start
改正方法:
第一種齿尽,修改為:wordList = textParse(open('email/spam/%d.txt' % i, 'rb').read().decode('utf8','ignore'))
第二種:在終端用vim分別打開文件栈虚,輸入set,查看那個(gè)不是utf-8的編碼汁掠,然后set fileencoding=utf-8略吨,保存退出(這個(gè)方法沒有試過)