文章:阿里達(dá)摩院Proxima 賦能阿里多業(yè)務(wù)場景逾柿,達(dá)摩院自研向量檢索引擎 Proxima 公開 - 達(dá)摩院 (alibaba.com)
摘抄:
人工智能算法可以對物理世界的人/物/場景所產(chǎn)生各種非結(jié)構(gòu)化數(shù)據(jù)(如語音橄杨、圖片片习、視頻,語言文字枪眉、行為等)進(jìn)行抽象捺檬,變成多維的向量。這些向量如同數(shù)學(xué)空間中的坐標(biāo)贸铜,標(biāo)識著各個實體和實體關(guān)系堡纬。我們一般將非結(jié)構(gòu)化數(shù)據(jù)變成向量的過程稱為 Embedding,而非結(jié)構(gòu)化檢索則是對這些生成的向量進(jìn)行檢索蒿秦,從而找到相應(yīng)實體的過程烤镐。
非結(jié)構(gòu)化檢索本質(zhì)是向量檢索技術(shù),其主要的應(yīng)用領(lǐng)域如人臉識別棍鳖、推薦系統(tǒng)炮叶、圖片搜索、視頻指紋渡处、語音處理镜悉、自然語言處理、文件搜索等医瘫。隨著 AI 技術(shù)的廣泛應(yīng)用侣肄,以及數(shù)據(jù)規(guī)模的不斷增長,向量檢索也逐漸成了 AI 技術(shù)鏈路中不可或缺的一環(huán)登下,更是對傳統(tǒng)搜索技術(shù)的補充茫孔,并且具備多模態(tài)搜索的能力叮喳。
如下圖所示被芳,以圖片搜索為例,我們先以離線的方式對所有歷史圖片進(jìn)行機器學(xué)習(xí)分析馍悟,將每一幅圖片(或者圖片里分割出來的人物)抽象成高維向量特征畔濒,然后將所有特征構(gòu)建成高效的向量索引,當(dāng)一個新查詢(圖片)來的時候锣咒,我們用同樣的機器學(xué)習(xí)方法對其進(jìn)行分析并產(chǎn)出一個表征向量侵状,然后用這個向量在之前構(gòu)建的向量索引中查找出最相似的結(jié)果赞弥,這樣就完成了一次以圖片內(nèi)容為基礎(chǔ)的圖像檢索。
隨著 AI 技術(shù)的廣泛應(yīng)用以及數(shù)據(jù)規(guī)模的不斷增長趣兄,向量檢索作為深度學(xué)習(xí)中的主流方法绽左,其具備的泛檢索和多模態(tài)搜索的能力也將進(jìn)一步得到發(fā)揮。物理世界的實體和特征艇潭,通過向量化技術(shù)進(jìn)行表征和組合拼窥,映射到數(shù)字世界,借助計算機進(jìn)行計算和檢索蹋凝,挖掘潛在邏輯和隱式關(guān)系鲁纠,更智能的服務(wù)于人類社會。
文章:螞蟻金服ZSearch螞蟻金服 ZSearch 在向量檢索上的探索 - SegmentFault 思否
milvus
vearch