大數(shù)據(jù)學(xué)習(xí)

原文地址

主講嘉賓:王昊奮

主持人:中關(guān)村大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟學(xué)術(shù)委員會(huì)主任委員阮彤

承辦:中關(guān)村大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟

嘉賓介紹:

王昊奮:華東理工大學(xué)講師掰担,上海交通大學(xué)計(jì)算機(jī)應(yīng)用專(zhuān)業(yè)博士仪召,對(duì)語(yǔ)義搜索突诬、圖數(shù)據(jù)庫(kù)以及Web挖掘與信息抽取有濃厚的興趣念链。在博士就讀期間發(fā)表了30余篇國(guó)際頂級(jí)會(huì)議和期刊論文掠廓,長(zhǎng)期在WWW婆瓜、ISWC等頂級(jí)會(huì)議擔(dān)任程序委員會(huì)委員啄糙。作為Apex數(shù)據(jù)與知識(shí)管理實(shí)驗(yàn)室語(yǔ)義組負(fù)責(zé)人放刨,他主持并參與了多項(xiàng)相關(guān)項(xiàng)目的研發(fā)嚎卫,長(zhǎng)期與IBM、百度等知名IT企業(yè)進(jìn)行合作宏榕,在知識(shí)圖譜相關(guān)的研究領(lǐng)域積累了豐富的經(jīng)驗(yàn)拓诸。

以下為分享實(shí)景全文:

王昊奮

眾所周知,大數(shù)據(jù)已經(jīng)不簡(jiǎn)簡(jiǎn)單單是數(shù)據(jù)大的事實(shí)了麻昼,而最重要的現(xiàn)實(shí)是對(duì)大數(shù)據(jù)進(jìn)行分析奠支,只有通過(guò)分析才能獲取很多智能的、深入的抚芦、有價(jià)值的信息倍谜。

來(lái)越多的應(yīng)用涉及到大數(shù)據(jù)迈螟,而這些大數(shù)據(jù)的屬性、包括數(shù)量尔崔、速度答毫、多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長(zhǎng)的復(fù)雜性。從而季春,大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要洗搂,可以說(shuō)是決定最終信息是否有價(jià)值的決定性因素。

從最近的大數(shù)據(jù)及其技術(shù)挑戰(zhàn)一文中载弄,提到了從大數(shù)據(jù)創(chuàng)造價(jià)值是一個(gè)多步驟過(guò)程耘拇,包括:數(shù)據(jù)獲取、信息抽取和清理宇攻、數(shù)據(jù)整合惫叛,建模和分析,解釋和部署等逞刷。大數(shù)據(jù)分析的普遍方法理論嘉涌,主要與以下幾個(gè)部分的知識(shí)有著密切關(guān)聯(lián)。下面我就拋磚引玉夸浅,以此介紹這些領(lǐng)域所涉及的知識(shí)洛心,和相關(guān)課程以及一些開(kāi)源工具等。

InformationRetrievalandWebSearch信息檢索與Web搜索题篷,信息檢索是指從大規(guī)模數(shù)據(jù)集合中搜索滿(mǎn)足我們需求的信息(通常是非格式化數(shù)據(jù)词身,如文本);

DataMining數(shù)據(jù)挖掘番枚,大數(shù)據(jù)分析的理論核心就是數(shù)據(jù)挖掘算法法严,指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。正是因?yàn)橛羞@些數(shù)據(jù)挖掘的算法葫笼,我們才能更快速的處理大數(shù)據(jù)深啤;

MachineLearning機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)理論主要是設(shè)計(jì)和分析一些讓計(jì)算機(jī)可以自動(dòng)“學(xué)習(xí)”的算法路星。通過(guò)機(jī)器學(xué)習(xí)算法溯街,計(jì)算機(jī)從數(shù)據(jù)中自動(dòng)分析獲得規(guī)律,并利用規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)洋丐;

NaturalLanguageProcessing自然語(yǔ)言處理呈昔,對(duì)于文本類(lèi)型的數(shù)據(jù),自然語(yǔ)言處理是必不可少的一門(mén)學(xué)科友绝。通俗的講堤尾,自然語(yǔ)言處理是探討如何讓計(jì)算機(jī)“理解”自然語(yǔ)言;

KnowledgeRepresentationandSemanticTechnologies知識(shí)表示和語(yǔ)義技術(shù)迁客,相比前面所提到的智能算法不同郭宝,這里更強(qiáng)調(diào)智能數(shù)據(jù)(smartdata)辞槐,研究數(shù)據(jù)的表示,尤其是語(yǔ)義表示和上層對(duì)應(yīng)的推理粘室、查詢(xún)榄檬、和語(yǔ)義搜索等應(yīng)用涉及到的技術(shù);

除了上面這些和計(jì)算機(jī)相關(guān)的課程衔统,數(shù)學(xué)基礎(chǔ)知識(shí)是其基礎(chǔ)鹿榜。上述的許多課程,都會(huì)涉及到數(shù)學(xué)知識(shí)缰冤,如概率論、代數(shù)喳魏、最優(yōu)化等等棉浸,因此,數(shù)學(xué)的基礎(chǔ)知識(shí)也是必不可少的內(nèi)容刺彩。

當(dāng)然這些課程并沒(méi)有包括大數(shù)據(jù)挖掘的全部迷郑,多媒體挖掘,計(jì)算機(jī)視覺(jué)创倔、數(shù)據(jù)可視化嗡害、并行計(jì)算和分布式存儲(chǔ)等都未涉及。

下面我將具體介紹每一個(gè)領(lǐng)域畦攘,其涉及的和大數(shù)據(jù)挖掘相關(guān)的技術(shù)點(diǎn)霸妹,并將就一些基礎(chǔ)內(nèi)容展開(kāi)作為大數(shù)據(jù)人才培訓(xùn)和各種需要大數(shù)據(jù)相關(guān)人才招聘的參考

一.信息檢索和Web搜索

1.爬蟲(chóng)(crawling)

這個(gè)記得在之前也有相關(guān)專(zhuān)家做過(guò)分享,這是數(shù)據(jù)獲取的基礎(chǔ)知押,經(jīng)過(guò)這么多年的發(fā)展叹螟,除了面對(duì)surfaceweb(即表層Web,由網(wǎng)頁(yè)溝通台盯,網(wǎng)頁(yè)之間通過(guò)超鏈接關(guān)聯(lián))的常用爬蟲(chóng)罢绽,各種面對(duì)垂直領(lǐng)域和特定主題的爬蟲(chóng)(focusedcrawler)成為熱點(diǎn)。他是實(shí)現(xiàn)去哪兒静盅,etao等站點(diǎn)的基礎(chǔ)良价。

另一方面,隨著各種動(dòng)態(tài)頁(yè)面技術(shù)的發(fā)展蒿叠,以及javascript客戶(hù)端類(lèi)庫(kù)的豐富和普及明垢,包括各種動(dòng)態(tài)頁(yè)面的深度網(wǎng)絡(luò)(deepweb)大量出現(xiàn),相比surfaceweb中page由超鏈接關(guān)聯(lián)市咽,這里的交互通過(guò)表單填充和大量HTTP請(qǐng)求(包括Ajax等異步調(diào)用)來(lái)完成頁(yè)面的跳轉(zhuǎn)和關(guān)聯(lián)袖外,因此deepwebcrawler也成為熱點(diǎn)。

此外魂务,隨著社交網(wǎng)站的普及曼验,以及各種傳感器網(wǎng)絡(luò)的建立(物聯(lián)網(wǎng)泌射,車(chē)聯(lián)網(wǎng),智能家居等)鬓照,數(shù)據(jù)更多的呈現(xiàn)動(dòng)態(tài)性(velocity)熔酷,因此,爬蟲(chóng)的范疇也逐步擴(kuò)展到面對(duì)數(shù)據(jù)流的監(jiān)視豺裆,過(guò)濾和在線訂閱等拒秘。

相應(yīng)地和complexeventprocessing(CEP),topicpublishing/subscribing臭猜,基于主題的發(fā)布和訂閱躺酒,有緊密的關(guān)聯(lián),所以能寫(xiě)好crawler不容易蔑歌,特別是考慮到他的應(yīng)用范疇不斷擴(kuò)大羹应,且要充分利用吞吐量,同時(shí)避免被block等各種模擬人的行為等trick深入研究和探索次屠。

所以园匹,這里我第一個(gè)要向大家推薦commoncrawl這個(gè)項(xiàng)目。commoncrawl是EUplanetData項(xiàng)目的產(chǎn)物劫灶,里面還有很多對(duì)webtables或半結(jié)構(gòu)化數(shù)據(jù)解析的結(jié)果裸违,或帶RDFa,microformats等語(yǔ)義標(biāo)注的網(wǎng)頁(yè)的解析和分析,是做實(shí)驗(yàn)和了解web的好途徑本昏。

WWW2014webscience中有用這個(gè)來(lái)做webgraph分析的供汛,和之前的做了比較,對(duì)了解web的變化也有好處涌穆。這里面說(shuō)到的其他一些點(diǎn)將在接下來(lái)的課程說(shuō)明中提到紊馏。

2.評(píng)分(Scoring)&排序(Ranking)

接下來(lái),對(duì)于信息檢索來(lái)說(shuō)蒲犬,最重要的是:scoring&ranking朱监,即評(píng)分和排序。從最早的對(duì)于網(wǎng)頁(yè)的評(píng)分和排序原叮,到后來(lái)的多媒體(如圖片赫编,視頻),對(duì)于論壇的帖子奋隶,一直到目前針對(duì)實(shí)體的評(píng)分和排序擂送,也就是說(shuō)萬(wàn)物皆可排序。

這里的評(píng)分和排序不僅需要刻畫(huà)排序?qū)ο蠛筒樵?xún)(query唯欣,或用戶(hù)需求,informationneed)之間的相關(guān)性嘹吨,還需要刻畫(huà)對(duì)象本身的重要程度以及其他的因素(如對(duì)廣告排序和評(píng)分,還需要考慮廣告主的bidprice境氢,即出價(jià)等)蟀拷,所以評(píng)分和排序可以分成2部分碰纬,查詢(xún)相關(guān)和查詢(xún)無(wú)關(guān)。

我們從最簡(jiǎn)單的文檔排序和評(píng)分出發(fā)问芬,包括基本的BM25和其變種悦析,基于語(yǔ)言模型的概率檢索模型(languagemodelbasedprobabilisticIR),接著近期又出現(xiàn)了各種learningtorank的方法此衅;learningtorank的出現(xiàn)其實(shí)是對(duì)用戶(hù)點(diǎn)擊數(shù)據(jù)的應(yīng)用强戴,同時(shí)去實(shí)現(xiàn)個(gè)性化的一個(gè)有效手段。

當(dāng)然learningtorank需要根據(jù)特定指標(biāo)或目標(biāo)函數(shù)來(lái)優(yōu)化挡鞍,這里也需要了解一下各種評(píng)估指標(biāo)(有一些是通用的骑歹,有些是應(yīng)用相關(guān)的),通用的指標(biāo)包括Precision墨微、Recall道媚、F-Measure、MeanAveragePrecision(MAP)這幾種評(píng)價(jià)準(zhǔn)則欢嘿,以及對(duì)排序(Rank)的評(píng)估方法衰琐,例如NormalizedDiscountedCumulativeGain(NDCG)也糊、Pairwiserelativeratings炼蹦。

當(dāng)然搜索引擎面對(duì)海量的數(shù)據(jù)不僅需要準(zhǔn)確,還需要高效狸剃,所以效率問(wèn)題也是一個(gè)需要關(guān)心的掐隐。這里涉及到索引結(jié)構(gòu)、壓縮(compression)钞馁,以及哈希(hashing)虑省,具體暫時(shí)先不展開(kāi)。

3.展現(xiàn)

在搜索引擎的展現(xiàn)方面僧凰,也有了單一搜索探颈,到元搜索(metasearch,整合多個(gè)搜索引擎)训措,聯(lián)邦搜索(federatedsearch伪节,更多面向企業(yè)搜索),以及aggregatedsearch(目前各種搜索引擎的發(fā)展趨勢(shì)绩鸣,包括mashup,各種媒體或數(shù)據(jù)搜索的一體化展現(xiàn)怀大,以及web服務(wù)的整合,其實(shí)百度的框計(jì)算也可以算是這方面的一種體現(xiàn))呀闻。

4.信息集成

為了完成各種整合或aggregation化借,信息集成是必不可少的。早期的搜索引擎關(guān)心nearduplicationdetection(近重復(fù)檢測(cè)捡多,用來(lái)監(jiān)控網(wǎng)頁(yè)的變化等),目前還包括entityresolution(檢測(cè)相同實(shí)體)蓖康,以及schemamatching(模式匹配铐炫,特別在知識(shí)圖譜環(huán)境下)。目前還包括entityresolution(檢測(cè)相同實(shí)體)钓瞭,以及schemamatching(模式匹配驳遵,特別在知識(shí)圖譜環(huán)境下)。

5.數(shù)據(jù)抽壬轿小(數(shù)據(jù)抽鹊探帷)

為了獲得各種對(duì)象甚至實(shí)體,dataextraction(數(shù)據(jù)抽妊即浴)是必不可少的步驟竞穷,如前面所說(shuō)的webtable和list的抽取(面對(duì)這些半結(jié)構(gòu)化數(shù)據(jù)的抽攘鄹取)是解決deepweb抽锐(無(wú)法直接訪問(wèn)到后臺(tái)數(shù)據(jù)庫(kù)來(lái)獲得信息的一個(gè)有效手段)另外,針對(duì)各種評(píng)論站點(diǎn)熟菲,sentimentanalysis(情感分析看政,正面,負(fù)面等),opinionmining(觀點(diǎn)挖掘)也逐步被重視抄罕。

本節(jié)小結(jié):

不考慮效率允蚣,從效果來(lái)看,數(shù)據(jù)的采集呆贿,結(jié)構(gòu)化或語(yǔ)義數(shù)據(jù)的生成是離線過(guò)程最重要的嚷兔,在線過(guò)程中,語(yǔ)義匹配做入,甚至是支持自然語(yǔ)言查詢(xún)的直接回答是關(guān)鍵冒晰,每一步都可以擴(kuò)展,并有很多難點(diǎn)竟块,這兩個(gè)方面在介紹NLP和語(yǔ)義技術(shù)時(shí)會(huì)稍微有一些展開(kāi)壶运,另外,推薦系統(tǒng)(recommendersystem)也是一個(gè)重要的點(diǎn)浪秘,特別是在知識(shí)卡片展現(xiàn)中蒋情,推薦相關(guān)實(shí)體和概念。

課程鏈接

課程內(nèi)容以及其PPT秫逝、參考資料等資源可以參考斯坦福大學(xué)的課程:CS276/LING286:InformationRetrievalandWebSearch(鏈接:http://web.stanford.edu/class/cs276/)恕出;

大家有興趣可以看看,當(dāng)然如UMASS或Cambridge的課程也都值得一看违帆,這里就不多推薦了浙巫,工具的話,我建議大家從Lucene出發(fā);

Lucene(http://lucene.apache.org/)的畴。是一個(gè)開(kāi)源的全文檢索引擎工具包渊抄,提供了完整的查詢(xún)引擎和索引引擎,部分文本分析引擎丧裁』よ耄可以以方便的在目標(biāo)系統(tǒng)中實(shí)現(xiàn)全文檢索的功能,或者是以此為基礎(chǔ)建立起完整的全文檢索引擎煎娇。

另外二庵,Solr(http://lucene.apache.org/solr/)是一個(gè)高性能,基于Lucene的全文搜索服務(wù)器缓呛。同時(shí)對(duì)其進(jìn)行了擴(kuò)展催享,提供了比Lucene更為豐富的查詢(xún)語(yǔ)言,同時(shí)實(shí)現(xiàn)了可配置哟绊、可擴(kuò)展并對(duì)查詢(xún)性能進(jìn)行了優(yōu)化因妙,并且提供了一個(gè)完善的功能管理界面。

大家如果希望構(gòu)建各種企業(yè)搜索票髓,配有facetedsearch等功能的話攀涵,Solr是一個(gè)不錯(cuò)的選擇。還有洽沟,ElasticSearch(www.elasticsearch.org/),也是一個(gè)基于Lucene構(gòu)建的開(kāi)源以故,分布式的RESTful搜索引擎。他在支持realtimesearch(實(shí)時(shí)搜索)方面做得很好玲躯,而且RestfulAPI可以使得你做到語(yǔ)言無(wú)關(guān)据德,部署也是最簡(jiǎn)單的鳄乏。

信息檢索和Web搜索部分先告一個(gè)段落跷车,接著介紹數(shù)據(jù)挖掘部分,其中會(huì)有部分內(nèi)容和前面的有重合橱野。

二.數(shù)據(jù)挖掘(特別是面對(duì)大數(shù)據(jù)挖掘的話朽缴,我更傾向于說(shuō)web挖掘,總共包括3方面內(nèi)容)

1.內(nèi)容挖掘(contentmining)

1)Datapreprocessing–數(shù)據(jù)預(yù)處理水援。通常密强,我們得到的實(shí)際數(shù)據(jù)是“臟”的,存在種種問(wèn)題蜗元,而數(shù)據(jù)預(yù)處理的目的就是提高數(shù)據(jù)的質(zhì)量或渤。其重點(diǎn)是Datacleaning(數(shù)據(jù)清理,包括處理缺失值奕扣、噪音數(shù)據(jù)薪鹦、奇異值等),Datatransformation(數(shù)據(jù)變換,包括對(duì)數(shù)據(jù)的標(biāo)準(zhǔn)化池磁、歸一化奔害、離散化等)等。

做過(guò)數(shù)據(jù)倉(cāng)庫(kù)的肯定對(duì)ETL等過(guò)程有印象地熄,而ETL也包括在數(shù)據(jù)預(yù)處理范疇內(nèi)华临,這一塊是挖掘成敗的關(guān)鍵,往往占據(jù)80%的精力端考。當(dāng)然對(duì)這塊進(jìn)行細(xì)化雅潭,還包括剛剛介紹的數(shù)據(jù)抽取和信息集成兩方面內(nèi)容,這里主要說(shuō)明結(jié)構(gòu)化數(shù)據(jù)挖掘却特,即從半結(jié)構(gòu)化數(shù)據(jù)如webtable,DOMtree或weblist等有一定結(jié)構(gòu)的數(shù)據(jù)中抽取信息(包括實(shí)體寻馏,屬性,屬性值核偿,概念等)诚欠,核心是wrapperinduction(包裝器歸納)。

從數(shù)據(jù)集自動(dòng)學(xué)習(xí)和歸納對(duì)目標(biāo)信息的抽取規(guī)則漾岳,避免大量的人工操作轰绵,解決數(shù)據(jù)抽取的問(wèn)題,具體就不展開(kāi)了尼荆。

2)InformationIntegration–信息集成左腔。不同來(lái)源(如不同的網(wǎng)站)的數(shù)據(jù)格式不同,因此我們需要將它們采用統(tǒng)一的規(guī)范捅儒,集成到一起液样,以供展示或分析。前面提到的去哪兒或etao的例子是大家最容易理解的信息集成巧还,這個(gè)在后面介紹語(yǔ)義技術(shù)時(shí)還會(huì)說(shuō)鞭莽。

2.結(jié)構(gòu)挖掘(structuremining)

1)linkanalysis(鏈接分析),有兩個(gè)非常重要的算法:PageRank和HITS(HypertextInducedTopicSearch)麸祷。前者是Google專(zhuān)有的算法澎怒,用于衡量特定網(wǎng)頁(yè)相對(duì)于搜索引擎索引中的其他網(wǎng)頁(yè)而言的重要程度;后者則是根據(jù)指向此網(wǎng)頁(yè)的超鏈接和此網(wǎng)頁(yè)指向其它網(wǎng)頁(yè)的情況來(lái)分析網(wǎng)頁(yè)的重要性阶牍。

之前在介紹信息檢索中與查詢(xún)無(wú)關(guān)的評(píng)分和排序中就將用到鏈接分析中的算法喷面,對(duì)這塊的了解需要進(jìn)一步理解隨機(jī)漫步(randomwalk)。

此外走孽,隨著web的不斷演化惧辈,各種變種也生成,包括早期的對(duì)于站點(diǎn)的評(píng)分siterank磕瓷,主題敏感評(píng)分topic-sensitiverank盒齿,個(gè)性化評(píng)分personalizedrank,到后面的對(duì)于新頁(yè)面的評(píng)分newrank,在社交站點(diǎn)使用的socialrank县昂,對(duì)于人的排序peoplerank等等

2)socialnetworkanalysis(社交網(wǎng)絡(luò)分析)

包括各種如中心度(centrality)肮柜,連接度(betweenness),等基礎(chǔ)指標(biāo),也包括連通分量(connectedcomponent)倒彰,團(tuán)集(clique)等审洞。

3)graphmining(圖挖掘)

包括異常檢測(cè)(outlierdetection),社區(qū)發(fā)現(xiàn)和演化(communitydetection&evolution)待讳,鏈接預(yù)測(cè)(linkprediction)等眾多方面芒澜。

4)dynamicgraphanalysis(動(dòng)態(tài)圖分析)

之前說(shuō)的哪些都是針對(duì)靜態(tài)圖的(沒(méi)有重點(diǎn)考慮圖中節(jié)點(diǎn)和邊變化的情況),這里主要考慮圖的變化创淡,包括時(shí)態(tài)分析(temporalanalysis)痴晦、信息擴(kuò)散(informationdiffusion)等,針對(duì)這一塊琳彩,大家可以使用graphlab等工具來(lái)熟悉相關(guān)的算法誊酌。

3.用途挖掘(usagemining)

即使用用戶(hù)數(shù)據(jù)進(jìn)行相應(yīng)的挖掘任務(wù),幾個(gè)應(yīng)用或相關(guān)算法包括:

1)learningtorank(學(xué)習(xí)排序)露乏;

2)collaborativefilteringmatrixfactorization(推薦系統(tǒng)中的協(xié)同過(guò)濾碧浊,使用矩陣分解);

3)ctrprediction(廣告中的點(diǎn)擊率預(yù)測(cè))瘟仿;

4)privacyinformationprediction/De-anonymization(隱私信息如性別年齡等預(yù)測(cè)箱锐,以及信息的去匿名化);

5)associationrulemining(利用用戶(hù)交易數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘劳较,最常用的就是大家熟知的購(gòu)物籃問(wèn)題)驹止;

三.機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)(machinelearning)和數(shù)據(jù)挖掘(datamining)很像,不過(guò)更偏算法观蜗,可以將數(shù)據(jù)挖掘臊恋,自然語(yǔ)言處理等看作他的應(yīng)用。

或者可以認(rèn)為數(shù)據(jù)挖掘更偏實(shí)用(考慮效率嫂便,數(shù)據(jù)清理等各種實(shí)際操作會(huì)遇到的問(wèn)題)捞镰,而NLP算是機(jī)器學(xué)習(xí)在某個(gè)方面的特定應(yīng)用(在基于統(tǒng)計(jì)的計(jì)算語(yǔ)言學(xué)為主流的現(xiàn)在闸与,這句話成立毙替,但不是NLP的全部)

回到機(jī)器學(xué)習(xí),他包括:

1.supervisedlearning-有監(jiān)督的學(xué)習(xí)

這里的學(xué)習(xí)主要是針對(duì)分類(lèi)問(wèn)題践樱,例如厂画,我們要將新聞分到政治、娛樂(lè)拷邢、體育等類(lèi)別當(dāng)中袱院,監(jiān)督學(xué)習(xí)就是通過(guò)已經(jīng)標(biāo)注好類(lèi)別的新聞來(lái)學(xué)習(xí)一個(gè)模型,然后可以用這個(gè)模型來(lái)處理新的新聞。首先要明確分類(lèi)問(wèn)題(監(jiān)督學(xué)習(xí))的輸入忽洛、輸出腻惠,以及對(duì)訓(xùn)練集的要求。然后要清楚其的評(píng)價(jià)方法欲虚,包括ROC和AUC集灌。了解三個(gè)常用的分類(lèi)器:DecisionTree、NaiveBayes和LogisticRegression复哆,以及它們的特點(diǎn)欣喧、區(qū)別等;

2.SupportVectorMachine–支持向量機(jī)

另一個(gè)應(yīng)用十分廣泛的分類(lèi)器梯找。這里除了最為基本的針對(duì)二分類(lèi)問(wèn)題的SVM唆阿,還由一些變種,例如one-classSVM以及SVMRank锈锤;

3.UnsupervisedLearning–無(wú)監(jiān)督學(xué)習(xí)

指聚類(lèi)方法驯鳖,將數(shù)據(jù)根據(jù)它們之間的關(guān)系,分到若干個(gè)類(lèi)別或群體當(dāng)中久免。主要包括K-means聚類(lèi)和層次聚類(lèi)方法臼隔。也包括PrincipalComponentAnalysis–主成分分析,PCA妄壶。它是非常常用的一種特征提取方法摔握,將原特征空間旋轉(zhuǎn)到新的空間中,找到第一主成分丁寄,它表示最多的原始數(shù)據(jù)的信息氨淌,第二主成分則表示次多的信息,并且主成分之間互不相關(guān)伊磺。它通常用來(lái)處理某些模型對(duì)特征的共線性敏感的問(wèn)題盛正,以及對(duì)數(shù)據(jù)進(jìn)行降維;

4.Semi-supervisedLearning–半監(jiān)督學(xué)習(xí)

半監(jiān)督學(xué)習(xí)是監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)相結(jié)合的一種學(xué)習(xí)方法屑埋。它主要考慮如何利用少量的標(biāo)注樣本和大量的未標(biāo)注樣本進(jìn)行訓(xùn)練和分類(lèi)的問(wèn)題豪筝,可以利用未標(biāo)注的樣本所提供的信息,來(lái)提高模型的效果摘能。常用的方法有:EM续崖、Co-training、PU-Learning以及Biased-SVM团搞。

主要還可以擴(kuò)展到多視角學(xué)習(xí)(multiviewleanring)和多任務(wù)學(xué)習(xí)(multitasklearning)严望,除此之外,近期還有一些值得學(xué)習(xí)和關(guān)注的知識(shí)點(diǎn)

(1)transferlearning(遷移學(xué)習(xí))逻恐,最簡(jiǎn)單的思想是:我學(xué)過(guò)中國(guó)象棋像吻,可能很容易上手國(guó)際象棋峻黍;

(2)activelearning(主動(dòng)學(xué)習(xí)),通過(guò)選擇最可能出錯(cuò)或最值得標(biāo)注(往往處在分類(lèi)邊界上的數(shù)據(jù)點(diǎn))讓用戶(hù)標(biāo)注拨匆,往往引申出去到現(xiàn)在很熱的眾包(crowdsourcing)姆涩;

(3)DeepLearning(深度學(xué)習(xí)),這個(gè)大家應(yīng)該都有所耳聞惭每;

(4)EnsembleLearning(集成學(xué)習(xí))阵面,是在對(duì)實(shí)例進(jìn)行分類(lèi)的時(shí)候,把若干個(gè)單個(gè)分類(lèi)器集成起來(lái)洪鸭,通過(guò)對(duì)多個(gè)分類(lèi)器的分類(lèi)結(jié)果進(jìn)行某種組合來(lái)決定最終的分類(lèi)样刷,以取得比單個(gè)分類(lèi)器更好的性能赵誓。主要有以下幾種方法:Bagging温圆、Boosting、RandomForest和GradientBoostingDecisionTree(GBDT)取逾,集成學(xué)習(xí)能很好地避免過(guò)擬合問(wèn)題蜓竹,同時(shí)也和模型選擇相關(guān)

(5)ModelSelection(模型選擇)箕母,常見(jiàn)的模型選擇方法和特征選擇方法,來(lái)為問(wèn)題選擇最為合適的模型俱济。包括K-foldCross-validation(K-折交叉驗(yàn)證)的使用嘶是,和特征選擇的方法,例如前向選擇方法蛛碌,卡方檢驗(yàn)等聂喇,用來(lái)選取與目標(biāo)關(guān)系最為密切的特征和屬性。另外還包括特征選擇希太,以及無(wú)監(jiān)督學(xué)習(xí)中的距離學(xué)習(xí)(學(xué)習(xí)距離函數(shù)等)

課程鏈接

斯坦福大學(xué)的CS229:MachineLearning(http://cs229.stanford.edu/);

另外酝蜒,補(bǔ)一下剛剛數(shù)據(jù)挖掘的課程鏈接:可以參考伊利諾伊大學(xué)芝加哥分校的課程CS583:DataMiningandTextMining

(http://www.cs.uic.edu/~liub/teach/cs583-spring-12/cs583.html)

機(jī)器學(xué)習(xí)的工具很多亡脑,這里主要推薦:

主要使用Java平臺(tái)的Weka((http://www.cs.waikato.ac.nz/ml/weka/))和Python下的Sci-kitlearn(https://github.com/scikit-learn/scikit-learn/)躯护。它們均集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法继准,包括對(duì)數(shù)據(jù)進(jìn)行預(yù)處理移必,分類(lèi),回歸入篮、聚類(lèi)潮售、關(guān)聯(lián)規(guī)則酥诽。Weka還提供了十分方便的可視化界面。

四.自然語(yǔ)言處理

包括:分詞饰抒、詞性標(biāo)注婆誓、句法分析以及相關(guān)工具的使用洋幻。分詞是針對(duì)中文等詞語(yǔ)之間沒(méi)有明顯分割的語(yǔ)言而言的燥翅,因?yàn)橹形臎](méi)有想西方的語(yǔ)言那樣森书,通過(guò)空格來(lái)區(qū)分每一個(gè)詞,所以在對(duì)文本進(jìn)行一些操作之前,常常需要進(jìn)行分詞。詞性標(biāo)注是將句子中的詞標(biāo)注出動(dòng)詞介衔、名詞等詞性寒波。句法分析則是更進(jìn)一步的對(duì)句子進(jìn)行分析绸栅,包括成分樹(shù)分析和依存樹(shù)分析,兩者可以互相轉(zhuǎn)換。

LanguageModel–語(yǔ)言模型竹观,語(yǔ)言模型的目的是建立一個(gè)能夠描述給定詞序列在語(yǔ)言中的出現(xiàn)的概率的分布臭增,根據(jù)語(yǔ)言客觀事實(shí)而進(jìn)行的語(yǔ)言抽象數(shù)學(xué)建模蔓榄。重點(diǎn)是n-gram語(yǔ)言模型并炮,它通過(guò)條件概率來(lái)表示文檔中的詞:一個(gè)詞出現(xiàn)的概率,在某一個(gè)詞A之后甥郑,出現(xiàn)詞B的概率逃魄。對(duì)于languagemodel,各種搜索引擎公司都提供n-gramlibrary澜搅,提交一個(gè)詞(或組合)伍俘,給出其出現(xiàn)的概率等;

TopicModel–主題模型勉躺,重點(diǎn)講LatentDirichletAllocation(LDA)癌瘾。這是一種無(wú)監(jiān)督機(jī)器學(xué)習(xí)技術(shù),可以用來(lái)識(shí)別文檔集或語(yǔ)料庫(kù)中潛藏的主題信息饵溅,將不同的文檔歸類(lèi)到不同的主題當(dāng)中妨退,每一個(gè)主題是用一系列的詞語(yǔ)來(lái)表示。它采用了詞袋(bagofwords)的方法蜕企,將每一篇文檔視為一個(gè)詞頻向量咬荷,從而將文本信息轉(zhuǎn)化為了易于建模的數(shù)字信息。當(dāng)然也包括早期的如LSI(隱語(yǔ)義搜索)轻掩,pLSA(概率隱層語(yǔ)義分析)等幸乒;

GraphicalModeling-圖模型,用圖形模式表達(dá)基于概率相關(guān)關(guān)系的模型的總稱(chēng)唇牧,在信息處理罕扎、自然語(yǔ)言處理領(lǐng)域得到了廣泛應(yīng)用。特別包括MaximumEntropyModels–最大熵模型奋构,HiddenMarkovModels–隱馬爾科夫模型壳影,ConditionalRandomFields–條件隨機(jī)場(chǎng)。三個(gè)統(tǒng)計(jì)模型被廣泛的應(yīng)用于序列標(biāo)注問(wèn)題當(dāng)中弥臼。例如從文本中識(shí)別組織機(jī)構(gòu)名稱(chēng)宴咧,通過(guò)已經(jīng)標(biāo)注的文檔學(xué)習(xí)模型,然后在新的文本中抽取組織機(jī)構(gòu)名稱(chēng)径缅。

相比前面介紹的機(jī)器學(xué)習(xí)掺栅,這里學(xué)習(xí)的輸出不是一個(gè)類(lèi)標(biāo)簽(分類(lèi))或一個(gè)數(shù)值(回歸,regression)烙肺,這里的輸出是一個(gè)序列,對(duì)于句法分析氧卧,甚至是一棵語(yǔ)法樹(shù)桃笙。這些輸出相對(duì)來(lái)說(shuō)具有更豐富的結(jié)構(gòu),所以也稱(chēng)為structurelearning(結(jié)構(gòu)學(xué)習(xí))沙绝。

接著簡(jiǎn)單說(shuō)一下NLP的幾個(gè)重要應(yīng)用:

(1)entitylinking(實(shí)體鏈接)搏明,給定一個(gè)知識(shí)庫(kù)(如維基百科),識(shí)別某個(gè)文本中提到的知識(shí)庫(kù)中的實(shí)體描述闪檬;這和命名實(shí)體識(shí)別(Namedentityrecognition,NER)相關(guān)星著,但是側(cè)重點(diǎn)不同,EL側(cè)重對(duì)已知實(shí)體的鏈接粗悯,他可以將文本中的實(shí)體描述關(guān)聯(lián)到知識(shí)庫(kù)中的某個(gè)實(shí)體的ID虚循,起到標(biāo)準(zhǔn)化和歸一化作用,是語(yǔ)義標(biāo)注的基礎(chǔ)样傍,也是知識(shí)圖譜進(jìn)行各種分析横缔,包括查詢(xún)分析,文檔理解的基礎(chǔ)步驟衫哥;

(2)openinformationextraction(開(kāi)放信息抽染ジ铡),從文本中抽取實(shí)體之間的關(guān)系炕檩,或?qū)嶓w的屬性和屬性值斗蒋。與relationextraction(關(guān)系抽取)或slotfilling(屬性框填充)相比笛质,這里更適應(yīng)于新關(guān)系的識(shí)別泉沾,可部署在大規(guī)模環(huán)境中,這一塊得益于美國(guó)DARPA的machinereading(機(jī)器閱讀)項(xiàng)目妇押,目前得到了很大的發(fā)展跷究,其中當(dāng)時(shí)IBMWatson的發(fā)展也得益與此,還包括一些其他的項(xiàng)目敲霍,下次可以找機(jī)會(huì)和大家詳細(xì)說(shuō)俊马;

(3)machinetranslation(機(jī)器翻譯);

(4)QA(questionanswering)肩杈,不僅包括如Watson這樣的QA系統(tǒng)柴我,也包括自動(dòng)問(wèn)答系統(tǒng),如SIRI,小冰扩然,甚至小i機(jī)器人艘儒,都是這塊的應(yīng)用。

課程參考:

課程鏈接,斯坦福大學(xué)CS224N/Ling284:NaturalLanguageProcessing界睁;

工具:

NLP的常用工具主要有NLPIR(http://ictclas.nlpir.org/)觉增、FNLP(github.com/xpqiu/fnlp/)、StanfordNLP(http://nlp.stanford.edu/)翻斟、OpenNLP(http://opennlp.apache.org/)等逾礁;

前面兩個(gè)是中文的,后面兩個(gè)是多語(yǔ)言支持访惜,當(dāng)然英語(yǔ)支持的比較好嘹履。當(dāng)然對(duì)于每個(gè)任務(wù)都有做得比較好的,這些工具屬于比較全的疾牲。當(dāng)然大家可以試用一下哈工大的LTP植捎,也是功能很全衙解,通用效果也不錯(cuò)的阳柔,對(duì)于特定的任務(wù)這些工具都需要重新適應(yīng)才能發(fā)揮作用,這也是大數(shù)據(jù)人才需要去做的蚓峦。

五.知識(shí)表示和語(yǔ)義技術(shù)

包括:

1.graphmodelvs.ERvsXML(圖模型和傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)ER模型的比較舌剂,和XML基于樹(shù)模型在語(yǔ)法語(yǔ)義上的比較):graphmodel的代表包括RDF(resourcedescriptionframework,W3c的標(biāo)準(zhǔn),也包括前面在commoncrawl中提到的RDFa暑椰,和microformats等霍转,是RDF的變種,作為各種輕量級(jí)知識(shí)表示和交換語(yǔ)言可以嵌入到網(wǎng)頁(yè)中供機(jī)器處理和理解一汽,最典型的例子包括在社交站點(diǎn)主頁(yè)中包含foaf避消,在各種網(wǎng)站中為了搜素引擎優(yōu)化嵌入schema.org分類(lèi);

2.OWLvsprolog(closedwordassumptionvs.openwordassumption):OWL也是W3C標(biāo)準(zhǔn)召夹,代表webontologylanguage岩喷,本體語(yǔ)言;后者是早起人工智能(專(zhuān)家系統(tǒng))用的prolog监憎,這也是開(kāi)放世界假設(shè)和封閉世界假設(shè)的比較纱意。OWL是開(kāi)放的,對(duì)于沒(méi)有定義的內(nèi)容是未知鲸阔,而對(duì)于封閉世界的假設(shè)偷霉,對(duì)于未定義的就是否。目前網(wǎng)上各種領(lǐng)域本體如醫(yī)療方面的snomed-ct褐筛,藥物方面drugbank类少,通用的如dbpediaontology等都很多。

對(duì)于本體的處理包括如下幾個(gè)點(diǎn):

1)本體工程(從早期的編輯渔扎,到后來(lái)的學(xué)習(xí)硫狞,ontologyengineeringtoontologylearning),不僅可以定義或?qū)W習(xí)概念,關(guān)系妓忍,事實(shí)虏两,概念實(shí)例,還可以學(xué)習(xí)概念之間的包含關(guān)系世剖,互斥關(guān)系等公理(axiom)定罢;

2)不同地方定義的本體會(huì)有不同,那么會(huì)有ontologyalignment旁瘫,這是數(shù)據(jù)集成的延續(xù)祖凫,包括模式層的匹配(schemamatching),也包括實(shí)例層的整合(entityresolution)酬凳;

3)有了本體就可以做各種推理惠况,這里需要了解基于邏輯的推理(logic-basedreasoning)和基于統(tǒng)計(jì)的推斷(statisticalbasedinference)的區(qū)別和關(guān)聯(lián):前者是演繹(deduction),后者是歸納(induction)宁仔,兩者是互相關(guān)聯(lián)的稠屠,統(tǒng)計(jì)歸納可以用來(lái)學(xué)習(xí)本體和本體規(guī)則(包括ILPinductivelogicprogramming等);本體也可以嵌入到統(tǒng)計(jì)歸納中翎苫,包括markovlogicnetwork(馬爾科夫邏輯網(wǎng)权埠,在馬爾科夫網(wǎng)中嵌入邏輯,可以看作是一種領(lǐng)域知識(shí)的嵌入)煎谍,以及最近很熱的概率編程(probabilisticprogramming)攘蔽,是兩者的大一統(tǒng);

接著還有2部分需要大家了解

1.從鏈接開(kāi)放數(shù)據(jù)(linkingopendata)到知識(shí)圖譜到語(yǔ)義搜索的一條線呐粘,知識(shí)圖譜的基礎(chǔ)概念在之前的報(bào)告中給大家分享過(guò)满俗;

2.另外一條線是從圖模型到圖數(shù)據(jù)庫(kù),圖數(shù)據(jù)庫(kù)可以看作是一種noSQL或newSQL作岖,包括圖匹配查詢(xún)語(yǔ)言SPARQL(類(lèi)SQL)唆垃,還有面向圖遍歷的Gremlin等,可用于做快速的子圖匹配鳍咱,適合OLTP任務(wù)降盹,也有各種分析任務(wù),OLAP谤辜;

簡(jiǎn)單工具包括:

Sesame(www.openrdf.org/蓄坏,Sesame是早期一個(gè)歐盟項(xiàng)目的產(chǎn)物),針對(duì)RDF數(shù)據(jù)管理提出的一個(gè)通用的系統(tǒng)框架丑念,提供了非常開(kāi)放的API接口涡戳,使得人們可以很方便地集成不同的存儲(chǔ)系統(tǒng),推理引擎以及查詢(xún)引擎等脯倚;

Jena(https://jena.apache.org/)渔彰,Jena是惠普實(shí)驗(yàn)室做的嵌屎;

各種本體推理,alignment,學(xué)習(xí)恍涂,以及圖數(shù)據(jù)的工具在這里就不一一列出了宝惰,有興趣的可以聯(lián)系我,就某個(gè)專(zhuān)門(mén)點(diǎn)細(xì)化再沧。

最后說(shuō)一下:數(shù)學(xué)基礎(chǔ)

數(shù)學(xué)基礎(chǔ)知識(shí)尼夺,涵蓋如下幾個(gè)課程:

1.概率論與數(shù)理統(tǒng)計(jì),包括常見(jiàn)的分布炒瘸,假設(shè)檢驗(yàn)淤堵,參數(shù)估計(jì),方差分析顷扩,抽樣理論等拐邪;

2.高等代數(shù),主要是矩陣分析中的知識(shí)隘截;

3.運(yùn)籌學(xué)扎阶,即最優(yōu)化理論,包括無(wú)約束和有約束的極值問(wèn)題技俐,梯度下降法等乘陪;

4.離散數(shù)據(jù),包括圖論雕擂,數(shù)理邏輯等。

這些都是掌握上述知識(shí)和技術(shù)的基礎(chǔ)贱勃。

備注:

1.文中有關(guān)參考資料類(lèi)井赌、推薦第三方課程或推薦開(kāi)源系統(tǒng)內(nèi)容,以“文字下方標(biāo)注圓點(diǎn)方式”注明(抱歉贵扰,整理文檔使用Pages仇穗,但是不知為何選用多種字體依然無(wú)法令其以斜體方式出現(xiàn),嘗試多次失敗后戚绕,經(jīng)過(guò)多種標(biāo)注方式的視覺(jué)效果篩選纹坐,最后妥協(xié),以該“違背人性”的標(biāo)注方式注明舞丛,各位見(jiàn)諒)耘子;

2.文中部分節(jié)點(diǎn)中的加粗處理(非標(biāo)題)為個(gè)人理解重點(diǎn),可能有失偏頗球切,還望各位專(zhuān)家批評(píng)指正谷誓;但同時(shí)也希望大家重視這幾個(gè)總結(jié)重點(diǎn),在學(xué)術(shù)研究或企業(yè)應(yīng)用中或有指點(diǎn)迷津之用吨凑;

3.該版不包含后續(xù)討論部分捍歪,請(qǐng)各位知悉户辱。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市糙臼,隨后出現(xiàn)的幾起案子庐镐,更是在濱河造成了極大的恐慌,老刑警劉巖变逃,帶你破解...
    沈念sama閱讀 216,496評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件焚鹊,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡韧献,警方通過(guò)查閱死者的電腦和手機(jī)末患,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,407評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)锤窑,“玉大人璧针,你說(shuō)我怎么就攤上這事≡▎” “怎么了探橱?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,632評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)绘证。 經(jīng)常有香客問(wèn)我隧膏,道長(zhǎng),這世上最難降的妖魔是什么嚷那? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,180評(píng)論 1 292
  • 正文 為了忘掉前任胞枕,我火速辦了婚禮,結(jié)果婚禮上魏宽,老公的妹妹穿的比我還像新娘腐泻。我一直安慰自己,他們只是感情好队询,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,198評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布派桩。 她就那樣靜靜地躺著,像睡著了一般蚌斩。 火紅的嫁衣襯著肌膚如雪铆惑。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,165評(píng)論 1 299
  • 那天送膳,我揣著相機(jī)與錄音员魏,去河邊找鬼。 笑死肠缨,一個(gè)胖子當(dāng)著我的面吹牛逆趋,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播晒奕,決...
    沈念sama閱讀 40,052評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼闻书,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼名斟!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起魄眉,我...
    開(kāi)封第一講書(shū)人閱讀 38,910評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤砰盐,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后坑律,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體岩梳,經(jīng)...
    沈念sama閱讀 45,324評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,542評(píng)論 2 332
  • 正文 我和宋清朗相戀三年晃择,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了冀值。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,711評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡宫屠,死狀恐怖列疗,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情浪蹂,我是刑警寧澤抵栈,帶...
    沈念sama閱讀 35,424評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站坤次,受9級(jí)特大地震影響古劲,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜缰猴,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,017評(píng)論 3 326
  • 文/蒙蒙 一产艾、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧洛波,春花似錦胰舆、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,668評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)棘幸。三九已至焰扳,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間误续,已是汗流浹背吨悍。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,823評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蹋嵌,地道東北人育瓜。 一個(gè)月前我還...
    沈念sama閱讀 47,722評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像栽烂,于是被迫代替她去往敵國(guó)和親躏仇。 傳聞我的和親對(duì)象是個(gè)殘疾皇子恋脚,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,611評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容