NLP(三十)利用ALBERT和機(jī)器學(xué)習(xí)來做文本分類

??本文的靈感來自于A Visual Guide to Using BERT for the First Time葱轩,其作者為Jay Alammar箭券,訪問網(wǎng)址為:http://jalammar.github.io/a-visual-guide-to-using-bert-for-the-first-time 肆氓。
??在文本分類中醉鳖,有兩個(gè)大的思路,一個(gè)是機(jī)器學(xué)習(xí)笼恰,主要是利用n-gram等特征將文本轉(zhuǎn)化為特征向量,這種方法便于操作和理解,但是忽略了文本本身的語(yǔ)義信息人乓;另一個(gè)是深度學(xué)習(xí),主要是利用word2vec作為特征提取都毒,加之CNN或RNN等深度學(xué)習(xí)模型來進(jìn)行分類色罚,尤其是BERT等預(yù)訓(xùn)練模型出來了,在小樣本上做fine tune即可取得不錯(cuò)的效果账劲,能在很大程度上提取出文本的語(yǔ)義信息戳护,但這種方法不便于操作和理解。
??一個(gè)簡(jiǎn)單的想法便是瀑焦,我們可以利用預(yù)訓(xùn)練模型對(duì)文本做特征提取腌且,然后在調(diào)用機(jī)器學(xué)習(xí)中的分類模型來進(jìn)行分類,這樣做思路是清晰的蝠猬,操作較為復(fù)雜切蟋,便于理解,同時(shí)又不會(huì)丟失訓(xùn)練模型中的語(yǔ)義信息榆芦。
??本文以ALBERT作為文本的特征提取柄粹,用機(jī)器學(xué)習(xí)中的邏輯回歸(LR)、樸素貝葉斯(NB)匆绣、支持向量機(jī)(SVM)等模型來進(jìn)行文本驻右。注意,本文僅作為文本分類方面的嘗試崎淳,具體在實(shí)際的文本分類任務(wù)中還需要具體分析堪夭。
??本文的數(shù)據(jù)來源可以參考文章:NLP(二十二)利用ALBERT實(shí)現(xiàn)文本二分類, 一共是300條訓(xùn)練數(shù)據(jù)和80條測(cè)試數(shù)據(jù)拣凹,用于區(qū)分文本是否是屬于政治上的出訪類事件森爽。
??在這里我們使用ALBERT已經(jīng)訓(xùn)練好的文件albert_tiny,借鑒BERT的調(diào)用方法嚣镜,我們?cè)谶@里給出albert_zh模塊爬迟,能夠讓ALBERT提取文本的特征,具體代碼不在這里給出菊匿,有興趣的讀者可以訪問該項(xiàng)目的Github地址:https://github.com/percent4/ALBERT_text_classification 付呕。
??注意计福,本文中并沒有給出文本預(yù)處理的代碼,有興趣的讀者可以參考該項(xiàng)目的Github地址徽职。在特征提取過程中象颖,Albert_tiny模型給出的向量維度為312,我們的模型訓(xùn)練代碼(ml_model_train.py)如下:

# -*- coding: utf-8 -*-
# author: Jclian91
# place: Pudong Shanghai
# time: 2020/5/15 3:44 下午

import numpy as np
from sklearn.linear_model import LogisticRegression as LR
from sklearn.metrics import confusion_matrix, accuracy_score, classification_report
from sklearn.externals import joblib
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB

from load_data import train_df, test_df
from albert_zh.extract_feature import BertVector

# 讀取文件并進(jìn)行轉(zhuǎn)換
bert_model = BertVector(pooling_strategy="REDUCE_MEAN", max_seq_len=200)
print('begin encoding')
f = lambda text: bert_model.encode([text])["encodes"][0]
train_df['x'] = train_df['text'].apply(f)
test_df['x'] = test_df['text'].apply(f)
print('end encoding')

x_train = np.array([vec for vec in train_df['x']])
x_test = np.array([vec for vec in test_df['x']])
y_train = np.array([vec for vec in train_df['label']])
y_test = np.array([vec for vec in test_df['label']])
print('x_train: ', x_train.shape)

# Logistic Regression
lr = LR(random_state=123)
lr.fit(x_train, y_train)

y_pred = lr.predict(x_test)
print("Logistic Regression Model")
print("混淆矩陣", confusion_matrix(y_true=y_test, y_pred=y_pred))
print("正確率:", accuracy_score(y_test, y_pred))
print(classification_report(y_true=y_test, y_pred=y_pred, digits=4))

# 保存模型
joblib.dump(lr, "lr.model")

# Naive Bayes Model
gnb = GaussianNB()
gnb.fit(x_train, y_train)
y_pred = gnb.predict(x_test)
print("\nNaive Bayes Model")
print("混淆矩陣", confusion_matrix(y_true=y_test, y_pred=y_pred))
print("正確率:", accuracy_score(y_test, y_pred))
print(classification_report(y_true=y_test, y_pred=y_pred, digits=4))

# SVM model
svc = SVC(kernel="rbf")
svc.fit(x_train, y_train)
y_pred = svc.predict(x_test)
print("\nSVM Model")
print("混淆矩陣", confusion_matrix(y_true=y_test, y_pred=y_pred))
print("正確率:", accuracy_score(y_test, y_pred))
print(classification_report(y_true=y_test, y_pred=y_pred, digits=4))

joblib.dump(svc, "svc.model")

讓我們來簡(jiǎn)單的理一下思路姆钉,我們的訓(xùn)練集合測(cè)試集數(shù)據(jù)集為train_dftest_df说订,包含文本內(nèi)容和標(biāo)簽等,然后用ALBERT提取文本特征育韩,再嘗試用邏輯回歸克蚂、樸素貝葉斯、支持向量機(jī)等機(jī)器學(xué)習(xí)模型來進(jìn)行分類筋讨。分類后的輸出結(jié)果如下:

Logistic Regression Model
混淆矩陣 [[33  5]
 [ 2 40]]
正確率: 0.9125
              precision    recall  f1-score   support

           0     0.9429    0.8684    0.9041        38
           1     0.8889    0.9524    0.9195        42

   micro avg     0.9125    0.9125    0.9125        80
   macro avg     0.9159    0.9104    0.9118        80
weighted avg     0.9145    0.9125    0.9122        80


Naive Bayes Model
混淆矩陣 [[37  1]
 [ 1 41]]
正確率: 0.975
              precision    recall  f1-score   support

           0     0.9737    0.9737    0.9737        38
           1     0.9762    0.9762    0.9762        42

   micro avg     0.9750    0.9750    0.9750        80
   macro avg     0.9749    0.9749    0.9749        80
weighted avg     0.9750    0.9750    0.9750        80

SVM Model
混淆矩陣 [[35  3]
 [ 1 41]]
正確率: 0.95
              precision    recall  f1-score   support

           0     0.9722    0.9211    0.9459        38
           1     0.9318    0.9762    0.9535        42

   micro avg     0.9500    0.9500    0.9500        80
   macro avg     0.9520    0.9486    0.9497        80
weighted avg     0.9510    0.9500    0.9499        80

可以看到埃叭,上述三種模型在這個(gè)文本分類的任務(wù)上都取得了不錯(cuò)的效果,比在之前的文章 NLP(二十二)利用ALBERT實(shí)現(xiàn)文本二分類 中的ALBERT作為特征提取悉罕,DNN作為分類模型的效果要更好些赤屋。
??最后,讓我們用保存的支持向量機(jī)模型對(duì)新文本進(jìn)行預(yù)測(cè)壁袄,代碼如下:

# -*- coding: utf-8 -*-
# author: Jclian91
# place: Pudong Shanghai
# time: 2020/5/15 4:23 下午

import numpy as np
from sklearn.externals import joblib
from albert_zh.extract_feature import BertVector

# 讀取文件并進(jìn)行轉(zhuǎn)換
bert_model = BertVector(pooling_strategy="REDUCE_MEAN", max_seq_len=200)
f = lambda text: bert_model.encode([text])["encodes"][0]

# predict
# 預(yù)測(cè)語(yǔ)句
texts = ['在訪問限制中类早,用戶可以選擇禁用iPhone的功能,包括Siri嗜逻、iTunes購(gòu)買功能涩僻、安裝/刪除應(yīng)用等,甚至還可以讓iPhone變成一臺(tái)功能手機(jī)栈顷。以下是訪問限制具體可以實(shí)現(xiàn)的一些功能',
         'IT之家4月23日消息 近日逆日,谷歌在其官方論壇發(fā)布消息表示,他們?yōu)锳ndroid Auto添加了一項(xiàng)新功能:可以訪問完整聯(lián)系人列表萄凤。用戶現(xiàn)在可以通過在Auto的電話撥號(hào)界面中打開左上角的菜單訪問完整的聯(lián)系人列表室抽。值得注意的是,這一功能僅支持在車輛停止時(shí)使用靡努。',
         '要通過telnet 訪問路由器坪圾,需要先通過console 口對(duì)路由器進(jìn)行基本配置,例如:IP地址惑朦、密碼等兽泄。',
         'IT之家3月26日消息 近日反盜版的國(guó)際咨詢公司MUSO發(fā)布了2017年的年度報(bào)告,其中的數(shù)據(jù)顯示漾月,去年盜版資源網(wǎng)站訪問量達(dá)到了3000億次病梢,比前一年(2016年)提高了1.6%。美國(guó)是訪問盜版站點(diǎn)次數(shù)最多的國(guó)家栅屏,共有279億次訪問飘千;其后分別是俄羅斯、印度和巴西栈雳,中國(guó)位列第18护奈。',
         '應(yīng)葡萄牙議會(huì)邀請(qǐng),全國(guó)人大常委會(huì)副委員長(zhǎng)吉炳軒率團(tuán)于12月14日至16日訪問葡萄牙哥纫,會(huì)見副議長(zhǎng)費(fèi)利佩霉旗、社會(huì)黨副總書記卡內(nèi)羅。',
         '2月26日至3月2日蛀骇,應(yīng)香港特區(qū)政府“內(nèi)地貴賓訪港計(jì)劃”邀請(qǐng)厌秒,省委常委、常務(wù)副省長(zhǎng)陳向群赴港考察訪問擅憔,重點(diǎn)圍繞“香港所長(zhǎng)鸵闪、湖南所需”,與特區(qū)政府相關(guān)部門和機(jī)構(gòu)深入交流暑诸,推動(dòng)湖南與香港交流合作取得新進(jìn)展蚌讼。',
         '目前A站已經(jīng)恢復(fù)了訪問,可以直接登錄个榕,網(wǎng)頁(yè)加載正常篡石,視頻已經(jīng)可以正常播放。',
         '難民署特使安吉麗娜·朱莉6月8日結(jié)束了對(duì)哥倫比亞和委內(nèi)瑞拉邊境地區(qū)的難民營(yíng)地為期兩天的訪問西采,她對(duì)哥倫比亞人民展現(xiàn)的人道主義和勇氣表示贊揚(yáng)凰萨。',
         '據(jù)《南德意志報(bào)》報(bào)道,德國(guó)總理默克爾計(jì)劃明年1月就前往安卡拉械馆,和土耳其總統(tǒng)埃爾多安進(jìn)行會(huì)談胖眷。',
         '自9月14日至18日,由越共中央政治局委員狱杰、中央書記處書記瘦材、中央經(jīng)濟(jì)部部長(zhǎng)阮文平率領(lǐng)工作代表團(tuán)對(duì)希臘進(jìn)行工作訪問。',
         'Win7電腦提示無(wú)線適配器或訪問點(diǎn)有問題怎么辦?很多用戶在使用無(wú)線網(wǎng)連接上網(wǎng)時(shí)仿畸,發(fā)現(xiàn)無(wú)線網(wǎng)顯示已連接食棕,但旁邊卻出現(xiàn)了一個(gè)黃色感嘆號(hào),無(wú)法進(jìn)行網(wǎng)絡(luò)操作错沽,通過診斷提示電腦無(wú)線適配器或訪問點(diǎn)有問題簿晓,且處于未修復(fù)狀態(tài),這該怎么辦呢?下面小編就和大家分享下Win7電腦提示無(wú)線適配器或訪問點(diǎn)有問題的解決方法千埃。',
         '2019年10月13日至14日憔儿,外交部副部長(zhǎng)馬朝旭訪問智利,會(huì)見智利外長(zhǎng)里韋拉放可,同智利總統(tǒng)外事顧問薩拉斯舉行會(huì)談谒臼,就智利舉辦亞太經(jīng)合組織(APEC)第二十七次領(lǐng)導(dǎo)人非正式會(huì)議等深入交換意見朝刊。',
         '未開發(fā)所有安全組之前訪問,F(xiàn)TP可以鏈接上蜈缤,但是打開會(huì)很慢拾氓,需要1-2分鐘才能鏈接上',
         'win7系統(tǒng)電腦的用戶,在連接WIFI網(wǎng)絡(luò)網(wǎng)上時(shí)底哥,有時(shí)候會(huì)遇到突然上不了網(wǎng)咙鞍,查看連接的WIFI出現(xiàn)“有限的訪問權(quán)限”的文字提示。',
         '聯(lián)合國(guó)秘書長(zhǎng)潘基文8日訪問了日本福島縣趾徽,與當(dāng)?shù)貫?zāi)民交流并訪問了一所高中续滋。',
         '國(guó)務(wù)院總理溫家寶當(dāng)?shù)貢r(shí)間23日下午乘專機(jī)抵達(dá)布宜諾斯艾利斯,開始對(duì)阿根廷進(jìn)行正式訪問孵奶。',
         '正在中國(guó)訪問的巴巴多斯總理斯圖爾特15日在陜西西安參觀訪問疲酌。',
         '據(jù)外媒報(bào)道,當(dāng)?shù)貢r(shí)間10日,美國(guó)白宮發(fā)聲明稱,美國(guó)總統(tǒng)特朗普將于2月底訪問印度,與印度總理莫迪進(jìn)行戰(zhàn)略對(duì)話。',
         '2月28日了袁,唐山曹妃甸藍(lán)色海洋科技有限公司董事長(zhǎng)趙力軍等一行5人到黃海水產(chǎn)研究所交流訪問徐勃。黃海水產(chǎn)研究所副所長(zhǎng)辛福言及相關(guān)部門負(fù)責(zé)人、專家等參加了會(huì)議早像。',
         '2018年7月2日僻肖,莫斯科孔子文化促進(jìn)會(huì)會(huì)長(zhǎng)姜彥彬,常務(wù)副會(huì)長(zhǎng)陳國(guó)建卢鹦,在中國(guó)著名留俄油畫大師牟克教授的陪同下臀脏,訪問了莫斯科國(guó)立蘇里科夫美術(shù)學(xué)院,受到第一副校長(zhǎng)伊戈?duì)枴じ隊(duì)柊颓锟讼壬哟?
         '據(jù)外媒報(bào)道冀自,當(dāng)?shù)貢r(shí)間26日晚揉稚,阿爾及利亞總統(tǒng)特本抵達(dá)沙特阿拉伯,進(jìn)行為期三天的訪問熬粗。兩國(guó)領(lǐng)導(dǎo)人預(yù)計(jì)將就國(guó)家間合作和地區(qū)發(fā)展進(jìn)行磋商搀玖。',
         '與標(biāo)準(zhǔn)Mozy一樣,Stash文件夾為用戶提供了對(duì)其備份文件的基于云的訪問驻呐,但是它們還使他們可以隨時(shí)灌诅,跨多個(gè)設(shè)備(包括所有計(jì)算機(jī),智能手機(jī)和平板電腦)訪問它們含末。換句話說猜拾,使用瀏覽器的任何人都可以同時(shí)查看文件(如果需要)。操作系統(tǒng)和設(shè)備品牌無(wú)關(guān)佣盒。',
         '研究表明挎袜,每個(gè)網(wǎng)頁(yè)的平均預(yù)期壽命為44至100天。當(dāng)用戶通過瀏覽器訪問已消失的網(wǎng)頁(yè)時(shí),就會(huì)看到「Page Not Found」的錯(cuò)誤信息盯仪。對(duì)于這種情況紊搪,相信大多數(shù)人也只能不了了之。不過有責(zé)任心的組織——互聯(lián)網(wǎng)檔案館為了提供更可靠的Web服務(wù)全景,它聯(lián)手Brave瀏覽器專門針對(duì)此類網(wǎng)頁(yè)提供了一鍵加載存檔頁(yè)面的功能嗦明。',
         '據(jù)外媒報(bào)道,土耳其總統(tǒng)府于當(dāng)?shù)貢r(shí)間2日表示蚪燕,土耳其總統(tǒng)埃爾多安計(jì)劃于5日對(duì)俄羅斯進(jìn)行為期一天的訪問。',
         '3日奔浅,根據(jù)三星電子的消息馆纳,李在镕副會(huì)長(zhǎng)這天訪問了位于韓國(guó)慶尚北道龜尾市的三星電子工廠。',
         "為深入貫徹落實(shí)習(xí)近平新時(shí)代中國(guó)特色社會(huì)主義外交思想和黨中央決策部署汹桦,全面深化與日韓地方交流合作鲁驶,擴(kuò)大對(duì)外開放,尋求合作新機(jī)遇舞骆。12月1日至8日钥弯,山東省代表團(tuán)將赴韓國(guó)、日本訪問督禽。",
         "通過你本機(jī)ip 和 2375端口訪問測(cè)試是否成功脆霎。",
         "方濟(jì)各弗朗西斯教皇訪問泰國(guó),在泰國(guó)曼谷朱拉隆功大學(xué)舉行會(huì)議狈惫,并與泰國(guó)佛教宗教領(lǐng)袖談話睛蛛。"]

for text in texts:
    vec = np.array([f(text)])
    svc = joblib.load("svc.model")
    y_predict = svc.predict(vec)
    print("句子: %s \n 預(yù)測(cè)類別: %s" % (text, y_predict))

輸出結(jié)果如下:

句子: 在訪問限制中,用戶可以選擇禁用iPhone的功能胧谈,包括Siri忆肾、iTunes購(gòu)買功能、安裝/刪除應(yīng)用等菱肖,甚至還可以讓iPhone變成一臺(tái)功能手機(jī)客冈。以下是訪問限制具體可以實(shí)現(xiàn)的一些功能 
 預(yù)測(cè)類別: ['0']
句子: IT之家4月23日消息 近日,谷歌在其官方論壇發(fā)布消息表示稳强,他們?yōu)锳ndroid Auto添加了一項(xiàng)新功能:可以訪問完整聯(lián)系人列表场仲。用戶現(xiàn)在可以通過在Auto的電話撥號(hào)界面中打開左上角的菜單訪問完整的聯(lián)系人列表。值得注意的是退疫,這一功能僅支持在車輛停止時(shí)使用燎窘。 
 預(yù)測(cè)類別: ['0']
句子: 要通過telnet 訪問路由器,需要先通過console 口對(duì)路由器進(jìn)行基本配置蹄咖,例如:IP地址褐健、密碼等。 
 預(yù)測(cè)類別: ['0']
句子: IT之家3月26日消息 近日反盜版的國(guó)際咨詢公司MUSO發(fā)布了2017年的年度報(bào)告,其中的數(shù)據(jù)顯示蚜迅,去年盜版資源網(wǎng)站訪問量達(dá)到了3000億次舵匾,比前一年(2016年)提高了1.6%。美國(guó)是訪問盜版站點(diǎn)次數(shù)最多的國(guó)家谁不,共有279億次訪問坐梯;其后分別是俄羅斯、印度和巴西刹帕,中國(guó)位列第18吵血。 
 預(yù)測(cè)類別: ['0']
句子: 應(yīng)葡萄牙議會(huì)邀請(qǐng),全國(guó)人大常委會(huì)副委員長(zhǎng)吉炳軒率團(tuán)于12月14日至16日訪問葡萄牙偷溺,會(huì)見副議長(zhǎng)費(fèi)利佩蹋辅、社會(huì)黨副總書記卡內(nèi)羅。 
 預(yù)測(cè)類別: ['1']
句子: 2月26日至3月2日挫掏,應(yīng)香港特區(qū)政府“內(nèi)地貴賓訪港計(jì)劃”邀請(qǐng)侦另,省委常委、常務(wù)副省長(zhǎng)陳向群赴港考察訪問尉共,重點(diǎn)圍繞“香港所長(zhǎng)褒傅、湖南所需”,與特區(qū)政府相關(guān)部門和機(jī)構(gòu)深入交流袄友,推動(dòng)湖南與香港交流合作取得新進(jìn)展殿托。 
 預(yù)測(cè)類別: ['1']
句子: 目前A站已經(jīng)恢復(fù)了訪問,可以直接登錄剧蚣,網(wǎng)頁(yè)加載正常碌尔,視頻已經(jīng)可以正常播放。 
 預(yù)測(cè)類別: ['0']
句子: 難民署特使安吉麗娜·朱莉6月8日結(jié)束了對(duì)哥倫比亞和委內(nèi)瑞拉邊境地區(qū)的難民營(yíng)地為期兩天的訪問券敌,她對(duì)哥倫比亞人民展現(xiàn)的人道主義和勇氣表示贊揚(yáng)唾戚。 
 預(yù)測(cè)類別: ['1']
句子: 據(jù)《南德意志報(bào)》報(bào)道,德國(guó)總理默克爾計(jì)劃明年1月就前往安卡拉待诅,和土耳其總統(tǒng)埃爾多安進(jìn)行會(huì)談叹坦。 
 預(yù)測(cè)類別: ['1']
句子: 自9月14日至18日,由越共中央政治局委員卑雁、中央書記處書記募书、中央經(jīng)濟(jì)部部長(zhǎng)阮文平率領(lǐng)工作代表團(tuán)對(duì)希臘進(jìn)行工作訪問。 
 預(yù)測(cè)類別: ['1']
句子: Win7電腦提示無(wú)線適配器或訪問點(diǎn)有問題怎么辦?很多用戶在使用無(wú)線網(wǎng)連接上網(wǎng)時(shí)测蹲,發(fā)現(xiàn)無(wú)線網(wǎng)顯示已連接莹捡,但旁邊卻出現(xiàn)了一個(gè)黃色感嘆號(hào),無(wú)法進(jìn)行網(wǎng)絡(luò)操作扣甲,通過診斷提示電腦無(wú)線適配器或訪問點(diǎn)有問題篮赢,且處于未修復(fù)狀態(tài)齿椅,這該怎么辦呢?下面小編就和大家分享下Win7電腦提示無(wú)線適配器或訪問點(diǎn)有問題的解決方法。 
 預(yù)測(cè)類別: ['0']
句子: 2019年10月13日至14日启泣,外交部副部長(zhǎng)馬朝旭訪問智利涣脚,會(huì)見智利外長(zhǎng)里韋拉,同智利總統(tǒng)外事顧問薩拉斯舉行會(huì)談寥茫,就智利舉辦亞太經(jīng)合組織(APEC)第二十七次領(lǐng)導(dǎo)人非正式會(huì)議等深入交換意見遣蚀。 
 預(yù)測(cè)類別: ['1']
句子: 未開發(fā)所有安全組之前訪問,F(xiàn)TP可以鏈接上纱耻,但是打開會(huì)很慢芭梯,需要1-2分鐘才能鏈接上 
 預(yù)測(cè)類別: ['0']
句子: win7系統(tǒng)電腦的用戶,在連接WIFI網(wǎng)絡(luò)網(wǎng)上時(shí)弄喘,有時(shí)候會(huì)遇到突然上不了網(wǎng)玖喘,查看連接的WIFI出現(xiàn)“有限的訪問權(quán)限”的文字提示。 
 預(yù)測(cè)類別: ['0']
句子: 聯(lián)合國(guó)秘書長(zhǎng)潘基文8日訪問了日本福島縣限次,與當(dāng)?shù)貫?zāi)民交流并訪問了一所高中。 
 預(yù)測(cè)類別: ['1']
句子: 國(guó)務(wù)院總理溫家寶當(dāng)?shù)貢r(shí)間23日下午乘專機(jī)抵達(dá)布宜諾斯艾利斯柴灯,開始對(duì)阿根廷進(jìn)行正式訪問卖漫。 
 預(yù)測(cè)類別: ['1']
句子: 正在中國(guó)訪問的巴巴多斯總理斯圖爾特15日在陜西西安參觀訪問。 
 預(yù)測(cè)類別: ['1']
句子: 據(jù)外媒報(bào)道,當(dāng)?shù)貢r(shí)間10日,美國(guó)白宮發(fā)聲明稱,美國(guó)總統(tǒng)特朗普將于2月底訪問印度,與印度總理莫迪進(jìn)行戰(zhàn)略對(duì)話赠群。 
 預(yù)測(cè)類別: ['1']
句子: 2月28日羊始,唐山曹妃甸藍(lán)色海洋科技有限公司董事長(zhǎng)趙力軍等一行5人到黃海水產(chǎn)研究所交流訪問。黃海水產(chǎn)研究所副所長(zhǎng)辛福言及相關(guān)部門負(fù)責(zé)人查描、專家等參加了會(huì)議突委。 
 預(yù)測(cè)類別: ['1']
句子: 2018年7月2日,莫斯科孔子文化促進(jìn)會(huì)會(huì)長(zhǎng)姜彥彬冬三,常務(wù)副會(huì)長(zhǎng)陳國(guó)建匀油,在中國(guó)著名留俄油畫大師牟克教授的陪同下,訪問了莫斯科國(guó)立蘇里科夫美術(shù)學(xué)院勾笆,受到第一副校長(zhǎng)伊戈?duì)枴じ隊(duì)柊颓锟讼壬哟醒痢?jù)外媒報(bào)道,當(dāng)?shù)貢r(shí)間26日晚窝爪,阿爾及利亞總統(tǒng)特本抵達(dá)沙特阿拉伯弛车,進(jìn)行為期三天的訪問。兩國(guó)領(lǐng)導(dǎo)人預(yù)計(jì)將就國(guó)家間合作和地區(qū)發(fā)展進(jìn)行磋商蒲每。 
 預(yù)測(cè)類別: ['1']
句子: 與標(biāo)準(zhǔn)Mozy一樣纷跛,Stash文件夾為用戶提供了對(duì)其備份文件的基于云的訪問,但是它們還使他們可以隨時(shí)邀杏,跨多個(gè)設(shè)備(包括所有計(jì)算機(jī)贫奠,智能手機(jī)和平板電腦)訪問它們。換句話說,使用瀏覽器的任何人都可以同時(shí)查看文件(如果需要)叮阅。操作系統(tǒng)和設(shè)備品牌無(wú)關(guān)刁品。 
 預(yù)測(cè)類別: ['0']
句子: 研究表明,每個(gè)網(wǎng)頁(yè)的平均預(yù)期壽命為44至100天浩姥。當(dāng)用戶通過瀏覽器訪問已消失的網(wǎng)頁(yè)時(shí)挑随,就會(huì)看到「Page Not Found」的錯(cuò)誤信息。對(duì)于這種情況勒叠,相信大多數(shù)人也只能不了了之兜挨。不過有責(zé)任心的組織——互聯(lián)網(wǎng)檔案館為了提供更可靠的Web服務(wù),它聯(lián)手Brave瀏覽器專門針對(duì)此類網(wǎng)頁(yè)提供了一鍵加載存檔頁(yè)面的功能眯分。 
 預(yù)測(cè)類別: ['0']
句子: 據(jù)外媒報(bào)道拌汇,土耳其總統(tǒng)府于當(dāng)?shù)貢r(shí)間2日表示,土耳其總統(tǒng)埃爾多安計(jì)劃于5日對(duì)俄羅斯進(jìn)行為期一天的訪問弊决。 
 預(yù)測(cè)類別: ['1']
句子: 3日噪舀,根據(jù)三星電子的消息,李在镕副會(huì)長(zhǎng)這天訪問了位于韓國(guó)慶尚北道龜尾市的三星電子工廠飘诗。 
 預(yù)測(cè)類別: ['1']
句子: 為深入貫徹落實(shí)習(xí)近平新時(shí)代中國(guó)特色社會(huì)主義外交思想和黨中央決策部署与倡,全面深化與日韓地方交流合作,擴(kuò)大對(duì)外開放昆稿,尋求合作新機(jī)遇纺座。12月1日至8日,山東省代表團(tuán)將赴韓國(guó)溉潭、日本訪問净响。 
 預(yù)測(cè)類別: ['1']
句子: 通過你本機(jī)ip 和 2375端口訪問測(cè)試是否成功。 
 預(yù)測(cè)類別: ['0']
句子: 方濟(jì)各弗朗西斯教皇訪問泰國(guó)喳瓣,在泰國(guó)曼谷朱拉隆功大學(xué)舉行會(huì)議馋贤,并與泰國(guó)佛教宗教領(lǐng)袖談話。 
 預(yù)測(cè)類別: ['1']

0表示不是政治意義上的出訪畏陕,1代表是掸掸。所有的新文本(新文本中都含有訪問這個(gè)詞語(yǔ))都分類正確。
??本文作為筆者的一次嘗試蹭秋,因此寫得比較簡(jiǎn)單扰付,有興趣的讀者可以移步本項(xiàng)目的Github地址:https://github.com/percent4/ALBERT_text_classification
??感謝大家的閱讀仁讨,如有問題羽莺,敬請(qǐng)批評(píng)指正~

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市洞豁,隨后出現(xiàn)的幾起案子盐固,更是在濱河造成了極大的恐慌荒给,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,122評(píng)論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件刁卜,死亡現(xiàn)場(chǎng)離奇詭異志电,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)蛔趴,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門挑辆,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人孝情,你說我怎么就攤上這事鱼蝉。” “怎么了箫荡?”我有些...
    開封第一講書人閱讀 164,491評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵魁亦,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我羔挡,道長(zhǎng)洁奈,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,636評(píng)論 1 293
  • 正文 為了忘掉前任绞灼,我火速辦了婚禮利术,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘镀赌。我一直安慰自己氯哮,他們只是感情好际跪,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,676評(píng)論 6 392
  • 文/花漫 我一把揭開白布商佛。 她就那樣靜靜地躺著,像睡著了一般姆打。 火紅的嫁衣襯著肌膚如雪良姆。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,541評(píng)論 1 305
  • 那天幔戏,我揣著相機(jī)與錄音玛追,去河邊找鬼。 笑死闲延,一個(gè)胖子當(dāng)著我的面吹牛痊剖,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播垒玲,決...
    沈念sama閱讀 40,292評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼陆馁,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了合愈?” 一聲冷哼從身側(cè)響起叮贩,我...
    開封第一講書人閱讀 39,211評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤击狮,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后益老,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體彪蓬,經(jīng)...
    沈念sama閱讀 45,655評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,846評(píng)論 3 336
  • 正文 我和宋清朗相戀三年捺萌,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了档冬。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,965評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡互婿,死狀恐怖捣郊,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情慈参,我是刑警寧澤呛牲,帶...
    沈念sama閱讀 35,684評(píng)論 5 347
  • 正文 年R本政府宣布,位于F島的核電站驮配,受9級(jí)特大地震影響娘扩,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜壮锻,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,295評(píng)論 3 329
  • 文/蒙蒙 一琐旁、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧猜绣,春花似錦灰殴、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,894評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至辣之,卻和暖如春掰伸,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背怀估。 一陣腳步聲響...
    開封第一講書人閱讀 33,012評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工狮鸭, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人多搀。 一個(gè)月前我還...
    沈念sama閱讀 48,126評(píng)論 3 370
  • 正文 我出身青樓歧蕉,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親康铭。 傳聞我的和親對(duì)象是個(gè)殘疾皇子惯退,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,914評(píng)論 2 355