python輸出轉(zhuǎn)中文字符(utf-8)
python2.7在window上的編碼確實是個坑啊
解決如下 :
如果是個字典的話要先將其轉(zhuǎn)成字符串 導(dǎo)入json庫
然后 這么輸出(json.dumps(data).decode("unicode-escape"))
其中data填入你想要輸出的中文變量
一個例子:
# -*- coding: UTF-8 -*-
import jieba.posseg as pseg
import os
import sys
from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
import json
# words = pseg.cut("對這句話進(jìn)行分詞")
#
# for key in words:
# print key.word,key.flag
words =["我 來到 北京 清華大學(xué)",
"他 來到 了 網(wǎng)易 杭研 大廈",
"小明 碩士 畢業(yè) 與 中國 科學(xué)院",
"我 愛 北京 天安門",
"今天 天氣 不錯"]
vectorizer = CountVectorizer()
transformer = TfidfTransformer()
tfidf = transformer.fit_transform(vectorizer.fit_transform(words))
#后面的——將文本轉(zhuǎn)化為詞頻矩陣吱晒,前面的——計算tf-idf
word= vectorizer.get_feature_names()
weight = tfidf.toarray()
print word
print weight
for i in range(len(weight)):#打印每類文本的tf-idf詞語權(quán)重,第一個for遍歷所有文本二拐,第二個for便利某一類文本下的詞語權(quán)重
print u"-------這里輸出第",i,u"類文本的詞語tf-idf權(quán)重------"
for j in range(len(word)):
print word[j],weight[i][j]
print (json.dumps(vectorizer.get_feature_names()).decode("unicode-escape"))
#文檔預(yù)料 空格連接
corpus = []
#讀取預(yù)料 一行預(yù)料為一個文檔
for line in open('01_All_BHSpider_Content_Result.txt', 'r').readlines():
#print line
corpus.append(line.strip())
#print corpus