Jaro distance
給定兩個文本串,
,他們的Joro距離定義為:
其中:
表示兩個字符串中match的字符數(shù)
表示文本串長度
表示換位(transpositoins)數(shù)目()
求match的字符數(shù):
分別來自,
的字符笆包,當他們相同或者距離小于
,則被認為是match的慎皱。
比如:=“DIXON”,
=“DICKSONX”
距離計算出來等于3,則每一次從max(0,i-d)到min(i+d,xLen)的空間內比較(如果從橫軸進行比較蛛砰,xLen表示長度)。最終得到match數(shù)。
中的每一個字符都會與
中距離
內的字符進行比較优床。將所有match的字符串,需要替調換順序才能匹配的總數(shù)除以二就是transpositions的大小
誓焦。這里兩個字符串中匹配的分別是:"DION"胆敞,“DION",所以
。
另外 =4,
=8,
則: