2020-07-20
如何計算特征距離
歐式距離: 兩點間的真實距離喊崖,值越小饲化,說明距離越近浙巫;
余弦距離:就是兩個向量圍成夾角的 cosine 值金蜀,cosine 值越大,越相似的畴;
漢明距離:一般作用于二值化向量沐飘,二值化的意思是向量的每一列只有 0 或者 1 兩種取值状蜗。
漢明距離的值就兩個向量每列數(shù)值的異或和暇韧,值越小說明越相似巧号,一般用于圖片識別;
杰卡德相似系數(shù):* 把向量作為一個集合煎娇,所以它可以不僅僅是數(shù)字代表二庵,也可以是其他編碼,比如詞缓呛,該值越大說明越相似催享,一般用于相似語句識別;
如何排序
https://www.6aiq.com/article/1587522027341?p=1&m=0
https://blog.csdn.net/u011233351/article/details/85116719
圖
NSW
一個點哟绊,越早插入就越容易形成與之相關(guān)的“高速公路”連接因妙,越晚插入就越難形成與之相關(guān)的“高速公路”連接。所以這個算法設(shè)計的妙處就在于扔掉德勞內(nèi)三角構(gòu)圖法票髓,改用“無腦添加”(NSW樸素插入算法)攀涵,降低了構(gòu)圖算法時間復(fù)雜度的同時還帶來了數(shù)量有限的“高速公路”,加速了查找洽沟。
HNSW
類似skiplist