大數(shù)據(jù)哈希學(xué)習(xí): 現(xiàn)狀與趨勢

原文：http://www.36dsj.com/archives/23799

李武軍①②*, 周志華①②*
① 南京大學(xué)計算機(jī)軟件新技術(shù)國家重點實驗室, 南京210023;
② 軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心, 南京210023
* 聯(lián)系人, E-mail: liwj@lamda.nju.edu.cn; zhouzh@lamda.nju.edu.cn
2014-09-01收稿, 2014-11-03 接受, 2015-01-22 網(wǎng)絡(luò)版發(fā)表
國家自然科學(xué)基金(61321491, 61472182)和國家高技術(shù)研究發(fā)展計劃(2012AA011003)資助

摘要

隨著信息技術(shù)的迅速發(fā)展, 各行各業(yè)積累的數(shù)據(jù)都呈現(xiàn)出爆炸式增長趨勢, 我們已經(jīng)進(jìn)入大數(shù)據(jù)時代. 大數(shù)據(jù)在很多領(lǐng)域都具有廣闊的應(yīng)用前景, 已經(jīng)成為國家重要的戰(zhàn)略資源, 對大數(shù)據(jù)的存儲成榜、管理和分析也已經(jīng)成為學(xué)術(shù)界和工業(yè)界高度關(guān)注的熱點. 收集、存儲右犹、傳輸涯保、處理大數(shù)據(jù)的目的是為了利用大數(shù)據(jù), 而要有效地利用大數(shù)據(jù), 機(jī)器學(xué)習(xí)技術(shù)必不可少. 因此, 大數(shù)據(jù)機(jī)器學(xué)習(xí)(簡稱大數(shù)據(jù)學(xué)習(xí))是大數(shù)據(jù)研究的關(guān)鍵內(nèi)容之一. 哈希學(xué)習(xí)通過將數(shù)據(jù)表示成二進(jìn)制碼的形式, 不僅能顯著減少數(shù)據(jù)的存儲和通信開銷, 還能降低數(shù)據(jù)維度, 從而顯著提高大數(shù)據(jù)學(xué)習(xí)系統(tǒng)的效率. 因此, 哈希學(xué)習(xí)近年來成為大數(shù)據(jù)學(xué)習(xí)中的一個研究熱點. 本文對這方面的工作進(jìn)行介紹.

隨著近年來互聯(lián)網(wǎng)乱顾、云計算萍诱、物聯(lián)網(wǎng)梭纹、社交媒體以及其他信息技術(shù)的迅速發(fā)展, 各行各業(yè)積累的數(shù)據(jù)都呈現(xiàn)出爆炸式增長趨勢. 例如, 歐洲粒子物理研究所(CERN)的大型強(qiáng)子對撞機(jī)每秒產(chǎn)生的數(shù)據(jù)高達(dá)40 TB(1 TB=1024 GB), Facebook每天處理的數(shù)據(jù)超過500 TB, 阿里巴巴擁有的數(shù)據(jù)量超過100 PB (1 PB=1024 TB), 新浪微博用戶數(shù)超過5億, 每天產(chǎn)生的微博數(shù)超過1億條. 中國移動研究院的一份簡報中稱, 2011年人類創(chuàng)造的數(shù)據(jù)達(dá)到180億吉字節(jié)(GB), 而且每年還在以高于60%的速度增長, 預(yù)計到2020年, 全球每年產(chǎn)生的數(shù)據(jù)將達(dá)到350萬億吉字節(jié)(GB). 大數(shù)據(jù)在科學(xué)捺僻、金融恋技、氣象拇舀、醫(yī)療、環(huán)保蜻底、教育骄崩、軍事、交通等領(lǐng)域都具有非常廣闊的應(yīng)用前景[1,2]. 例如, 在科學(xué)領(lǐng)域, 包括天文薄辅、生物要拂、物理、化學(xué)站楚、信息等在內(nèi)的各個領(lǐng)域的科學(xué)發(fā)現(xiàn)已經(jīng)從實驗型科學(xué)發(fā)現(xiàn)脱惰、理論型科學(xué)發(fā)現(xiàn)、計算型科學(xué)發(fā)現(xiàn)發(fā)展到第四范式, 即基于大數(shù)據(jù)的數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)[3,4]. 因此可以說, 大數(shù)據(jù)已經(jīng)成為國家重要的戰(zhàn)略資源, 對大數(shù)據(jù)的存儲窿春、管理和分析也已經(jīng)成為學(xué)術(shù)界和工業(yè)界高度關(guān)注的熱點[1,2].

收集拉一、存儲、傳輸旧乞、管理大數(shù)據(jù)的目的是為了利用大數(shù)據(jù), 而要有效地利用大數(shù)據(jù), 機(jī)器學(xué)習(xí)技術(shù)[5]必不可少. 事實上, 機(jī)器學(xué)習(xí)界一直在嘗試對越來越大的數(shù)據(jù)進(jìn)行學(xué)習(xí)[6], 但今日的大數(shù)據(jù)已不僅僅是數(shù)據(jù)量大, 同時還伴隨著數(shù)據(jù)的多源蔚润、動態(tài)、價值稀疏等特性, 因此為機(jī)器學(xué)習(xí)界提出了一些新的挑戰(zhàn). 近年來, 大數(shù)據(jù)機(jī)器學(xué)習(xí)(或簡稱為大數(shù)據(jù)學(xué)習(xí))受到了廣泛關(guān)注[7], 成為機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點之一, 新成果不斷涌現(xiàn). 例如Kleiner等人[8]基于集成學(xué)習(xí)中Bagging的思想提出了新型數(shù)據(jù)采樣方法BLB, 用來解決Bootstrap在遇到大數(shù)據(jù)時的計算瓶頸問題; Shalev-Shwartz和Zhang[9]基于隨機(jī)(在線)學(xué)習(xí)的思想提出了梯度上升(下降)的改進(jìn)方法, 用來實現(xiàn)大規(guī)模模型的快速學(xué)習(xí); Gonzalez等人[10]提出了基于多機(jī)集群的分布式機(jī)器學(xué)習(xí)框架GraphLab, 用以實現(xiàn)基于圖的大規(guī)模機(jī)器學(xué)習(xí); Gao等人[11]提出了“單遍學(xué)習(xí)”(one-pass learning)的思想, 力圖在學(xué)習(xí)中只掃描一遍數(shù)據(jù)尺栖、且使用常數(shù)級存儲來保存中間計算結(jié)果, 在AUC優(yōu)化這樣的復(fù)雜學(xué)習(xí)任務(wù)上已取得很好的效果. 此外還有很多新進(jìn)展, 本文不再贅述.

哈希學(xué)習(xí)(learning to hash)[12~22]通過機(jī)器學(xué)習(xí)機(jī)制將數(shù)據(jù)映射成二進(jìn)制串的形式, 能顯著減少數(shù)據(jù)的存儲和通信開銷, 從而有效提高學(xué)習(xí)系統(tǒng)的效率. 哈希學(xué)習(xí)的目的是學(xué)到數(shù)據(jù)的二進(jìn)制哈希碼表示, 使得哈希碼盡可能地保持原空間中的近鄰關(guān)系, 即保相似性. 具體來說, 每個數(shù)據(jù)點會被一個緊湊的二進(jìn)制串編碼, 在原空間中相似的2個點應(yīng)當(dāng)被映射到哈希碼空間中相似的2個點. 圖1是哈希學(xué)習(xí)的示意圖, 以圖像數(shù)據(jù)為例, 原始圖像表示是某種經(jīng)過特征抽取后的高維實數(shù)向量, 通過從數(shù)據(jù)中學(xué)習(xí)到的哈希函數(shù)h變換后, 每幅圖像被映射到一個8位(bit)的二進(jìn)制哈希碼, 原空間中相似的兩幅圖像將被映射到相似(即海明距離較小)的2個哈希碼, 而原空間中不相似的兩幅圖像將被映射到不相似(即海明距離較大)的2個哈希碼. 使用哈希碼表示數(shù)據(jù)后, 所需要的存儲空間會被大幅減小. 舉例來說, 如果原空間中每個數(shù)據(jù)樣本都被1個1024 B的向量表示, 1個包含1億個樣本的數(shù)據(jù)集要占用100 GB的存儲空間. 相反, 如果把每個數(shù)據(jù)樣本哈希到1個128位的哈希碼, 一億個樣本的存儲空間只需要1.6 GB. 單臺機(jī)器(包括配置很高的單臺服務(wù)器)處理原始表示時, 需要不斷地進(jìn)行外內(nèi)存交換, 開銷非常大. 但如果用哈希碼表示, 所有計算都可以在內(nèi)存中完成, 單臺普通的個人電腦(PC)也能很快地完成計算. 由于很多學(xué)習(xí)算法, 比如k近鄰(kNN)嫡纠、支持向量機(jī)(SVM)等的本質(zhì)是利用數(shù)據(jù)的相似性, 哈希學(xué)習(xí)的保相似性將在顯著提高學(xué)習(xí)速度的同時, 盡可能地保證精度. 另一方面, 因為通過哈希學(xué)習(xí)得到的哈希碼位數(shù)(維度)一般會比原空間的維度要低, 哈希學(xué)習(xí)也能降低數(shù)據(jù)維度, 從而減輕維度災(zāi)難問題. 因此, 哈希學(xué)習(xí)在大數(shù)據(jù)學(xué)習(xí)中占有重要地位.

需特別指出的是, 數(shù)據(jù)庫研究領(lǐng)域早已使用二進(jìn)制哈希碼來表示數(shù)據(jù)[23~25], 但他們使用的哈希函數(shù)是人工設(shè)計或者隨機(jī)生成的; 與之不同, 哈希學(xué)習(xí)是希望從數(shù)據(jù)中自動地學(xué)習(xí)出哈希函數(shù). 從哈希技術(shù)的角度來看, 前者被稱為數(shù)據(jù)獨立方法, 后者被稱為數(shù)據(jù)依賴方法. 有研究表明[17,18], 與數(shù)據(jù)獨立方法相比, 數(shù)據(jù)依賴方法(即哈希學(xué)習(xí)方法)只需用較短的哈希編碼位數(shù)就能取得理想的精度, 從而進(jìn)一步提高檢索和學(xué)習(xí)效率, 降低存儲和通信開銷.

1 研究進(jìn)展

哈希學(xué)習(xí)由Salakhutdinov和Hinton[12,13]于2007年推介到機(jī)器學(xué)習(xí)領(lǐng)域, 于近幾年迅速發(fā)展成為機(jī)器學(xué)習(xí)領(lǐng)域和大數(shù)據(jù)學(xué)習(xí)領(lǐng)域的一個研究熱點[14~22,26~37], 并廣泛應(yīng)用于信息檢索[38,39]、數(shù)據(jù)挖掘[40,41]延赌、模式識別[42,43]除盏、多媒體信息處理[44,45]、計算機(jī)視覺[46,47]挫以、推薦系統(tǒng)[48]者蠕、以及社交網(wǎng)絡(luò)分析[49,50]等領(lǐng)域. 值得一提的是, 國內(nèi)學(xué)者在這方面也進(jìn)行了有意義的探索[32~37,43,45~47,50,51].

由于從原空間中的特征表示直接學(xué)習(xí)得到二進(jìn)制的哈希編碼是一個NP難問題[14]. 現(xiàn)在很多的哈希學(xué)習(xí)方法[14,17~20]都采用兩步學(xué)習(xí)策略:

第一步, 先對原空間的樣本采用度量學(xué)習(xí)(metric learning)[52]進(jìn)行降維, 得到1個低維空間的實數(shù)向量表示;

第二步, 對得到的實數(shù)向量進(jìn)行量化(即離散化)得到二進(jìn)制哈希碼.

現(xiàn)有的方法對第二步的處理大多很簡單, 即通過某個閾值函數(shù)將實數(shù)轉(zhuǎn)換成二進(jìn)制位. 通常使用的量化方法為1個閾值為0的符號函數(shù), 即如果向量中某個元素大于0, 則該元素被量化為1, 否則如果小于或等于0, 則該元素被量化為0. 例如, 假設(shè)樣本在原空間中的特征表示為1個5維實數(shù)向量(1.1, 2.3,1.5, 4, 3.2), 經(jīng)過某種度量學(xué)習(xí)(通常把降維看成度量學(xué)習(xí)的一種)處理后得到1個三維的實數(shù)向量(1.8, 2.3, 0.6), 然后經(jīng)過符號函數(shù)量化后, 得到的二進(jìn)制哈希碼為(1, 0, 1). 一般來說, 度量學(xué)習(xí)階段首先得構(gòu)建學(xué)習(xí)模型, 然后對模型的參數(shù)進(jìn)行優(yōu)化和學(xué)習(xí). 下面我們將從學(xué)習(xí)模型、參數(shù)優(yōu)化和量化策略3方面來介紹哈希學(xué)習(xí)的最新進(jìn)展.

根據(jù)學(xué)習(xí)模型(一般指度量學(xué)習(xí)階段的模型)是否利用樣本的監(jiān)督信息(例如類別標(biāo)記等), 現(xiàn)有的哈希學(xué)習(xí)模型可以分為非監(jiān)督模型[18~20]屡贺、半監(jiān)督模型[17,36,47]和監(jiān)督模型[26,31,42]. 非監(jiān)督模型又可以進(jìn)一步細(xì)分為基于圖的模型[19]和不基于圖的模型[18,20],

監(jiān)督模型又可以進(jìn)一步細(xì)分為監(jiān)督信息為類別標(biāo)記的模型[26,42]和監(jiān)督信息為三元組或者排序信息的模型[31]. 實際上, 這每一個細(xì)分的類對應(yīng)于機(jī)器學(xué)習(xí)中一個比較大的子方向, 例如基于圖的模型. 由此可以看出, 現(xiàn)有的哈希學(xué)習(xí)模型雖然總數(shù)比較多, 但是在各個子方向上還僅僅只是進(jìn)行了初步的嘗試.

此外, 度量學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點之一, 而度量學(xué)習(xí)方面的工作剛好可以用來實現(xiàn)哈希學(xué)習(xí)的第一步, 因此目前很多哈希學(xué)習(xí)模型(包括非監(jiān)督蠢棱、半監(jiān)督和監(jiān)督)只是直接利用或者簡單改進(jìn)已有度量學(xué)習(xí)模型, 然后采用上述的符號函數(shù)進(jìn)行量化, 得到哈希編碼. 經(jīng)過一些摸索[20,22,29], 我們發(fā)現(xiàn)度量學(xué)習(xí)得到的結(jié)果通常是在模型目標(biāo)函數(shù)的限制下使得信息損失最小, 因此得到的總是最優(yōu)的結(jié)果; 而在將度量學(xué)習(xí)應(yīng)用到哈希學(xué)習(xí)中時, 除了第一步的度量學(xué)習(xí)可能造成信息損失外, 第二步量化過程的信息損失對性能的影響也非常大, 有時候甚至超過第一步造成的信息損失, 因此, 第一步度量學(xué)習(xí)得到的最優(yōu)結(jié)果并不能保證最終量化后的二進(jìn)制編碼為最優(yōu). 目前, 很多哈希學(xué)習(xí)方法沒有將量化過程中的信息損失考慮到模型構(gòu)建中去.

現(xiàn)有的參數(shù)優(yōu)化方法大概可以分為兩類.

第一類是采用與傳統(tǒng)度量學(xué)習(xí)的優(yōu)化方法類似的策略, 對所有位對應(yīng)的(實數(shù))參數(shù)一次性全部優(yōu)化[14,19]. 這種策略帶來的一個不利后果是沒辦法彌補(bǔ)量化過程帶來的信息損失, 有可能導(dǎo)致的結(jié)果是隨著哈希碼長度的增大, 精確度反而下降.

第二類是避免一次性全部優(yōu)化所有位對應(yīng)的(實數(shù))參數(shù), 而采用按位(bitwise)優(yōu)化策略[17,22,36], 讓優(yōu)化過程能夠自動地彌補(bǔ)量化過程中損失的信息. 實驗結(jié)果表明, 即使學(xué)習(xí)模型的目標(biāo)函數(shù)相同, 采用按位優(yōu)化策略能取得比一次性全部優(yōu)化所有參數(shù)的策略更好的性能. 但按位優(yōu)化策略對模型目標(biāo)函數(shù)有一定的要求和限制, 比如目標(biāo)函數(shù)可以寫成殘差的形式[22]. 目前, 大部分哈希學(xué)習(xí)方法還是采取一次性全部優(yōu)化所有參數(shù)的策略.

哈希學(xué)習(xí)跟傳統(tǒng)度量學(xué)習(xí)的一個很本質(zhì)的區(qū)別是需要量化成二進(jìn)制碼. 現(xiàn)有的哈希學(xué)習(xí)方法大多采用很簡單的量化策略, 即通過某個閾值函數(shù)將實數(shù)轉(zhuǎn)換成二進(jìn)制位. 最近出現(xiàn)一些專門研究量化策略的工作[29,39,53], 并且發(fā)現(xiàn)量化策略也會影響哈希學(xué)習(xí)方法的性能, 至少跟第一步的度量學(xué)習(xí)階段同等重要. 我們在文獻(xiàn)[29,39]中, 采用對度量學(xué)習(xí)階段得到的每一個實數(shù)維進(jìn)行多位編碼的量化策略, 取得了比傳統(tǒng)的單位編碼策略更好的效果. 一般來說, 度量學(xué)習(xí)的結(jié)果中, 各維的方差(或信息量)通常各不相等[18,20]. 而現(xiàn)有的很多方法采用“度量學(xué)習(xí)+相同位數(shù)編碼”的策略[14,19], 導(dǎo)致的結(jié)果是隨著哈希碼長度的增大, 精確度反而下降. 一種更合理的量化策略是, 采用更多的位數(shù)編碼信息量更大的維. 目前, 有部分工作在這方面進(jìn)行了嘗試, 取得了不錯的結(jié)果[53].

綜上所述, 目前哈希學(xué)習(xí)的研究現(xiàn)狀是: 已被廣泛關(guān)注并在某些應(yīng)用領(lǐng)域取得了初步成效, 但研究才剛剛開始, 有的學(xué)習(xí)場景和應(yīng)用領(lǐng)域甚至還沒有研究者進(jìn)行哈希學(xué)習(xí)的嘗試; 問題本質(zhì)和模型構(gòu)建有待于進(jìn)一步深入思考; 模型參數(shù)的優(yōu)化方法有待于進(jìn)一步探索; 量化階段的重要性已經(jīng)引起注意, 但量化策略期待進(jìn)一步突破.

2 發(fā)展趨勢

目前大部分哈希學(xué)習(xí)研究的思路為: 針對某個機(jī)器學(xué)習(xí)場景(比如排序?qū)W習(xí)場景[31])或者應(yīng)用場景, 只要以前沒有人嘗試過用哈希學(xué)習(xí)的思想來加速學(xué)習(xí)過程, 就可以考慮把哈希學(xué)習(xí)用進(jìn)去, 然后在一個傳統(tǒng)模型(這個傳統(tǒng)模型不用哈希)解決不了的數(shù)據(jù)或者應(yīng)用規(guī)模上進(jìn)行實驗驗證. 從解決實際問題的角度來講, 這些工作雖然初步, 但還是很有研究價值的, 畢竟為大數(shù)據(jù)中傳統(tǒng)模型不能解決的問題提供了一種可行的解決思路. 但從哈希學(xué)習(xí)本身的研究來講, 目前大部分工作還沒有從哈希學(xué)習(xí)問題的本質(zhì)上進(jìn)行考慮. 我們認(rèn)為以后的工作可以從理論分析锌杀、模型構(gòu)建甩栈、參數(shù)優(yōu)化泻仙、量化策略等幾個方面進(jìn)行進(jìn)一步探索.

目前哈希學(xué)習(xí)理論分析方面的工作還很少. 用哈希碼表示數(shù)據(jù)后, 數(shù)據(jù)相當(dāng)于進(jìn)行了有損壓縮. 在后續(xù)的處理中, 比如檢索或者挖掘過程中, 基于哈希碼表示的數(shù)據(jù)得到的模型能在多大程度上逼近從原始數(shù)據(jù)得到的模型, 即精確度如何, 目前還沒有相關(guān)的理論分析. 另外, 針對一個具體問題或應(yīng)用, 到底需要多少位編碼才能保證結(jié)果達(dá)到一定的精確度, 目前都是根據(jù)在驗證集上的實驗結(jié)果來進(jìn)行選擇, 是否存在一些理論上的指導(dǎo)也非常值得研究.

針對哈希學(xué)習(xí)的量化過程會存在信息損失這一本質(zhì)特征, 更好的策略是在度量學(xué)習(xí)的模型構(gòu)建過程中將量化過程中可能的信息損失考慮進(jìn)去. 但如果把量化過程中可能的信息損失考慮到模型的構(gòu)建過程中, 量化結(jié)果的離散性將使得模型構(gòu)建變得異常復(fù)雜. 因此, 如何構(gòu)建考慮到量化過程信息損失的有效哈希學(xué)習(xí)模型是哈希學(xué)習(xí)研究需要解決的又一重要問題.

在參數(shù)優(yōu)化過程中, 雖然按位優(yōu)化策略能自動地彌補(bǔ)量化過程中損失的信息, 但目前大部分模型的目標(biāo)函數(shù)并不適合于這種優(yōu)化方式. 為其他模型設(shè)計能彌補(bǔ)量化過程信息損失的優(yōu)化策略, 還需要進(jìn)行進(jìn)一步的研究. 另外, 目前的監(jiān)督模型中[26,42], 對監(jiān)督信息的利用大多通過構(gòu)建樣本對之間的關(guān)系來實現(xiàn). 例如, 如果樣本i和j屬于同一類, 則Y(i, j)=1, 否則Y(i, j)=0. 然后再基于Y矩陣來建模. 這種監(jiān)督信息利用方式的一個后果是: 存儲和計算開銷都至少是訓(xùn)練樣本數(shù)的平方級. 哈希學(xué)習(xí)研究近幾年之所以這么熱, 正是因為它能夠被用來處理大數(shù)據(jù). 當(dāng)存在海量的訓(xùn)練數(shù)據(jù), 尤其是海量有監(jiān)督信息的數(shù)據(jù)時, 模型的參數(shù)訓(xùn)練和優(yōu)化過程非常慢或者甚至不可行. 如何保證參數(shù)優(yōu)化算法能快速地完成, 也是有待解決的關(guān)鍵問題之一.

雖然最近出現(xiàn)的量化策略[29,39,53]已經(jīng)取得了比傳統(tǒng)量化策略更好的性能, 但還沒有很好地跟保相似性或者監(jiān)督信息結(jié)合起來. 因此, 研究更優(yōu)的量化策略, 以更好地保持原始空間的相似性或者跟監(jiān)督信息盡可能保持一致, 也是值得進(jìn)一步探索的方向.

3 總結(jié)與展望

本文對大數(shù)據(jù)哈希學(xué)習(xí)的研究進(jìn)展和發(fā)展趨勢進(jìn)行了介紹. 可以看出，哈希學(xué)習(xí)雖然已被廣泛關(guān)注并在某些應(yīng)用領(lǐng)域取得了初步成效, 但研究才剛剛開始量没，大部分學(xué)習(xí)場景和應(yīng)用領(lǐng)域到目前為止還只出現(xiàn)很少的哈希學(xué)習(xí)方法, 有的場景和應(yīng)用甚至還沒有研究者進(jìn)行哈希學(xué)習(xí)的嘗試. 例如, 推薦系統(tǒng)是個很大的應(yīng)用方向, 但到目前為止這方面采用哈希學(xué)習(xí)的工作還不多[48]. 因此玉转，怎樣將哈希學(xué)習(xí)的思想和方法拓展到新的學(xué)習(xí)場景和應(yīng)用領(lǐng)域, 用來解決傳統(tǒng)方法在遇到大數(shù)據(jù)時不能解決的問題, 將是非常有意義的工作. 特別值得一提的是, 大數(shù)據(jù)學(xué)習(xí)中的另一重要研究方向是基于多機(jī)集群的分布式機(jī)器學(xué)習(xí)[10], 而很多分布式機(jī)器學(xué)習(xí)的瓶頸在于節(jié)點間的通信開銷. 因此, 將哈希學(xué)習(xí)引入到分布式機(jī)器學(xué)習(xí)算法, 并驗證哈希學(xué)習(xí)在減小通信開銷方面的有效性, 也是非常有意義的研究方向.

參考文獻(xiàn)

1 Mayer-Sch?nberger V, Cukier K. Big Data: A Revolution That Will Transform How We Live, Work, and Think. Boston: Eamon Do-lan/Houghton Mifflin Harcourt, 2013
2 Tu Z P. The Big Data Revolution (in Chinese). Guilin: Guangxi Normal University Press, 2013 [涂子沛. 大數(shù)據(jù). 桂林: 廣西師范大學(xué)出版社, 2013]
3 Hey T, Tansley S, Tolle K. The Fourth Paradigm: Data-Intensive Scientific Discovery. Redmond: Microsoft Research, 2009
4 Bryant R E. Data-intensive scalable computing for scientific applications. Comput Sci Engin, 2011, 13: 25–33
5 Zhou Z H. Machine learning and data mining (in Chinese). Commun Chin Comput Fed, 2007, 3: 35–44 [周志華. 機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘. 中國計算機(jī)學(xué)會通訊, 2007, 3: 35–44]
6 Zhou Z H, Chawla N V, Jin Y, et al. Big data opportunities and challenges: Discussions from data analytics perspectives. IEEE Comput Intell Mag, 2014, 9: 62–74
7 Jordan M. Message from the president: The era of big data. ISBA Bull, 2011, 18: 1–3
8 Kleiner A, Talwalkar A,Sarkar P, et al. The big data bootstrap. In: Proceedings of the 29th International Conference on Machine Learning (ICML), Edinburgh, 2012, 1759–1766
9 Shalev-Shwartz S, Zhang T. Accelerated proximal stochastic dual coordinate ascent for regularized loss minimization. In: Proceedings of the 31st International Conference on Machine Learning (ICML), Beijing, 2014, 64–72
10 Gonzalez J E, Low Y, Gu H, et al. PowerGraph: Distributed graph-parallel computation on natural graphs. In: Proceedings of the 10th USENIX Symposium on Operating Systems Designand Implementation (OSDI), Hollywood, 2012, 17–30
11 Gao W, Jin R, Zhu S, et al. One-pass AUC optimization. In: Proceedings of the 30th International Conference on Machine Learning(ICML), Atlanta, 2013, 906–914
12 Salakhutdinov R, Hinton G E. Semantic hashing. In: Proceedings of SIGIR Workshop on Information Retrieval and Applications of Graphical Models, Amsterdam, 2007
13 Salakhutdinov R, Hinton G E. Semantic hashing. Int J Approx Reasoning, 2009, 50: 969–978
14 Weiss Y, Torralba A, Fergus R. Spectral hashing. In: Proceedings of the 22nd Annual Conference on Neural Information ProcessingSys-tems (NIPS), Vancouver, 2008, 1753–1760
15 Kulis B, Jain P, Grauman K. Fast similarity search for learned metrics. IEEE Trans Pattern Anal MachIntell, 2009, 31: 2143–2157
16 Weinberger K Q, Dasgupta A, Langford J, etal. Feature hashing for large scale multitask learning. In: Proceedings of the 26th Interna-tional Conference on Machine Learning (ICML), Montreal, 2009, 1113–1120
17 Wang J, Kumar S, Chang S F. Semi-supervised hashing for large-scale search. IEEE Trans Pattern Anal Mach Intell, 2012, 34: 2393–2406
18 Gong Y, Lazebnik S, Gordo A, et al. Iterative quantization: A procrustean approach to learning binary codes for large-scale image re-trieval. IEEE Trans Pattern Anal Mach Intell, 2013, 35: 2916–2929
19 Liu W, Wang J, Kumar S, et al. Hashing with graphs. In: Proceedings of the 28th International Conference on Machine Learning (ICML), Washington, 2011, 1–8
20 Kong W, Li W J. Isotropic hashing. In: Proceedings of the 26th Annual Conference on Neural Information Processing Systems (NIPS), Nevada, 2012, 1655–1663
21 Rastegari M, Choi J, Fakhraei S, et al. Predictable dual-view hashing. In: Proceedings of the 30th International Conference on Machine Learning (ICML), Atlanta, 2013, 1328–1336
22 Zhang D, Li W J. Large-scale supervised multimodal hashing withsemantic correlation maximization. In: Proceedings of the 28th AAAI Conference on Artificial Intelligence (AAAI), Quebec, 2014, 2177–2183
23 Gionis A, Indyk P, Motwani R. Similarity search in high dimensions via hashing. In: Proceedings of the 25th International Conference on Very Large Data Bases (VLDB), Edinburgh, 1999, 518–529
24 Datar M, Immorlica N, Indyk P, et al. Locality-sensitive hashing scheme based on p-stable distributions. In: Proceedings of the20th ACM Symposium on Computational Geometry (SOCG), New York, 2004, 253–262
25 Andoni A, Indyk P. Near-optimal hashing algorithms for approximate nearest neighbor in high dimensions. Commun ACM, 2008, 51: 117–122
26 Norouzi M, Fleet D J. Minimal loss hashing for compact binary codes. In: Proceedings of the 28th International Conference on Machine Learning (ICML), Washington, 2011, 353–360
27 Norouzi M, Fleet D J, Salakhutdinov R. Hamming distance metric learning. In: Proceedings of the 26th Annual Conference on Neural In-formation Processing Systems (NIPS), Nevada, 2012, 1070–1078
28 Zhen Y, Yeung D Y. Co-regularized hashing for multimodal data. In: Proceedings of the 26th Annual Conference on Neural Information Processing Systems (NIPS), Nevada, 2012, 1385–1393
29 Kong W, Li W J. Double-bit quantization for hashing. In: Proceedings of the 26th AAAI Conference on Artificial Intelligence (AAAI), Toronto, 2012, 634–640
30 Strecha C, Bronstein A M, Bronstein M M, et al. LDAhash: Improved matching with smaller descriptors. IEEE Trans Pattern Anal Mach Intell, 2012, 34: 66–78
31 Li X, Lin G, Shen C, et al. Learning hashfunctions using column generation. In: Proceedings of the 30th International Conference on Machine Learning (ICML), Atlanta, 2013, 142–150
32 Xu B, Bu J, Lin Y, et al. Harmonioushashing. In Proceedings of the 23rdInternational Joint Conference on Artificial Intelligence (IJCAI), Beijing, 2013, 1820–1826
33 Huang L K, Yang Q, Zheng W S. Online hashing. In: Proceedings of the 23rdInternational Joint Conference on Artificial Intelligence (IJCAI), Beijing, 2013, 1422–1428
34 Zhai D, Chang H, Zhen Y, et al. Parametric local multimodal hashing for cross-view similarity search. In: Proceedings of the 23rd Inter-national Joint Conference on Artificial Intelligence (IJCAI), Beijing, 2013, 2754–2760
35 Zhang Y M, Huang K, Geng G, et al. Fast kNN graph construction with locality sensitive hashing. In: Proceedings of the EuropeanCon-ference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECML/PKDD), Prague, 2013, 660–674
36 Wu C, Zhu J, Cai D, et al. Semi-supervised nonlinear hashing using bootstrap sequential projection learning. IEEE Trans Knowl Data Eng, 2013, 25: 1380–1393
37 Zhang P, Zhang W, Li W J, et al. Supervised hashing with latentfactor models. In: Proceedings of the 37th ACM Conference on Research
and Development in Information Retrieval (SIGIR), Queensland, 2014, 173–182
38 Zhang D, Wang F, Si L. Composite hashing with multiple information sources. In: Proceedings of the 34th ACM Conference on Research and Development in Information Retrieval (SIGIR), Beijing, 2011, 225–234
39 Kong W, Li W J, Guo M. Manhattan hashing for large-scale image retrieval. In: Proceedings of the 35th ACM Conference on Research and Development in Information Retrieval (SIGIR), Portland, 2012, 45–54
40 He J, Liu W, Chang S F. Scalable similarity search with optimized kernel hashing. In: Proceedings of the 16th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD), Washington, 2010, 1129–1138
41 Zhen Y, Yeung D Y. A probabilistic model for multimodal hash function learning. In: Proceedingsof the 18th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD), Beijing, 2012, 940–948
42 Liu W, Wang J, Ji R, et al. Supervised hashing with kernels. In: Proceedings of the 25th IEEE Conference on Computer Vision andPattern Recognition (CVPR), Providence, 2012, 2074–2081
43 Shen F, Shen C, Shi Q, et al. Inductive hashing on manifolds. In: Proceedings of the 26th IEEE Conference on Computer Vision and Pat-tern Recognition (CVPR), Portland, 2013, 1562–1569
44 Zhu X, Huang Z, Shen H T, et al. Linear cross-modal hashing for efficient multimedia search. In: Proceedings of the 21st ACM Multime-dia (MM), Barcelona, 2013, 143–152
45 Wu F, Yu Z, Yang Y, et al. Sparse multi-modal hashing. IEEE Trans Multimedia, 2014, 16: 427–439
46 Xu H, Wang J, Li Z, et al. Complementary hashing for approximate nearest neighbor search. In: Proceedings of the 13rd IEEE Interna-tional Conference on Computer Vision (ICCV), Barcelona, 2011, 1631–1638
47 Kan M, Xu D, Shan S, et al. Semi-supervised hashing via kernel hyperplane learning for scalable image search. IEEE Trans Circuits Syst Video Technol, 2014, 24: 704–713
48 Zhou K, Zha H. Learning binary codes for collaborative filtering. In: Proceedings of the 18th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD), Beijing, 2012, 498–506
49 Sarkar P, Chakrabarti D, Jordan M. Nonparametric link prediction in dynamic networks. In: Proceedings of the 9th InternationalCon-ference on Machine Learning (ICML), Edinburgh, 2012
50 Ou M, Cui P, Wang F, et al. Comparing apples to oranges: A scalable solution with heterogeneous hashing. In: Proceedings of the19th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD), Chicago, 2013, 230–238
51 Zhang Q, Wu Y, Ding Z, et al. Learning hash codes for efficient content reuse detection. In: Proceedings of the 35th ACM Conference on Research and Development in Information Retrieval (SIGIR), Portland, 2012, 405–414
52 Bellet A, Habrard A, Sebban M. A survey on metric learning for feature vectors and structured data. arXiv:1306.6709, 2013. http://arxiv.org/abs/1306.6709
53 Moran S, Lavrenko V, Osborne M. Variable bit quantization for LSH.In: Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (ACL), Sofia, 2013, 753–758

End.

最后編輯于：2017.12.04 03:01:05

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市殴蹄，隨后出現(xiàn)的幾起案子究抓，更是在濱河造成了極大的恐慌，老刑警劉巖袭灯，帶你破解...
沈念sama閱讀 219,427評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件刺下，死亡現(xiàn)場離奇詭異，居然都是意外死亡稽荧，警方通過查閱死者的電腦和手機(jī)橘茉，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,551評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來姨丈，“玉大人畅卓，你說我怎么就攤上這事◇瘢” “怎么了翁潘？”我有些...
開封第一講書人閱讀 165,747評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長歼争。經(jīng)常有香客問我拜马，道長，這世上最難降的妖魔是什么沐绒？我笑而不...
開封第一講書人閱讀 58,939評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任俩莽，我火速辦了婚禮，結(jié)果婚禮上洒沦，老公的妹妹穿的比我還像新娘豹绪。我一直安慰自己，他們只是感情好申眼，可當(dāng)我...
茶點故事閱讀 67,955評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布瞒津。她就那樣靜靜地躺著，像睡著了一般括尸。火紅的嫁衣襯著肌膚如雪巷蚪。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,737評論 1贊 305
城市分裂傳說
那天濒翻，我揣著相機(jī)與錄音屁柏，去河邊找鬼啦膜。笑死，一個胖子當(dāng)著我的面吹牛淌喻，可吹牛的內(nèi)容都是我干的僧家。我是一名探鬼主播，決...
沈念sama閱讀 40,448評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼裸删，長吁一口氣：“原來是場噩夢啊……” “哼八拱！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起涯塔，我...
開封第一講書人閱讀 39,352評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤肌稻，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后匕荸，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體爹谭，經(jīng)...
沈念sama閱讀 45,834評論 1贊 317
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,992評論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年榛搔，在試婚紗的時候發(fā)現(xiàn)自己被綠了诺凡。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,133評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡药薯，死狀恐怖绑洛，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情童本，我是刑警寧澤真屯，帶...
沈念sama閱讀 35,815評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站穷娱，受9級特大地震影響绑蔫，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜泵额，卻給世界環(huán)境...
茶點故事閱讀 41,477評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一配深、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧嫁盲，春花似錦篓叶、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,022評論 0贊 22
一樁弒父案缸托，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至瘾蛋，卻和暖如春俐镐，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背哺哼。一陣腳步聲響...
開封第一講書人閱讀 33,147評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工佩抹，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留叼风，地道東北人。一個月前我還...
沈念sama閱讀 48,398評論 3贊 373
代替公主和親
正文我出身青樓棍苹，卻偏偏與公主長得像无宿，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子廊勃，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,077評論 2贊 355

大數(shù)據(jù)哈希學(xué)習(xí): 現(xiàn)狀與趨勢

推薦閱讀更多精彩內(nèi)容