Jaro-Winkler távolság

A Jaro-Winkler távolság megméri a két húr közötti hasonlóságot . Ez egy William E. Winkler által 1999-ben javasolt változat , amely a Jaro-távolságból származik (1989, Matthew A. Jaro ), és amelyet főleg másolatok felderítésére használnak.

Az eredmény úgy normalizálódik, hogy a mértéke 0 és 1 között legyen, tehát a nulla a hasonlóság hiányát jelenti, az 1 pedig az összehasonlított húrok egyenlőségét.

Ez az intézkedés különösen alkalmas rövid karakterláncok, például nevek vagy jelszavak feldolgozására.

Távolság Jarótól

A Jaro közötti távolság láncok és határozza meg:

vagy:

Két azonos karakter és és akkor tekinthető egymásnak megfelelőnek, ha a távolságuk (azaz a különbözõ húrokban elfoglalt pozícióik közötti különbség) nem haladja meg:

.

A száma átültetések összehasonlításával kapott i-edik megfelelő jellege a a i-edik megfelelő jellege a . Az, hogy hányszor különböznek ezek a karakterek, kettővel elosztva, megadja az átültetések számát .

Jaro-Winkler távolság

A Winkler által bevezetett módszer olyan előtag-együtthatót használ, amely előnyben részesíti a ( előtaggal ) kezdődő húrokat . Figyelembe véve a két lánc és azok Jaro-Winkler távolság van:

vagy:

Példák

Vagy két lánc: MARTHA és MARHTA . Felállítjuk a levelezési táblázatukat . Itt a maximális távolság 6/2 - 1 = 2. Az alábbi táblázat sárga négyzeteiben tehát 1-t írunk be, ha a karakterek megegyeznek (van egyezés ), és egyébként 0-t:

M NÁL NÉL R T H NÁL NÉL
M 1 0 0 0 0 0
NÁL NÉL 0 1 0 0 0 0
R 0 0 1 0 0 0
H 0 0 0 0 1 0
T 0 0 0 1 0 0
NÁL NÉL 0 0 0 0 0 1

Jaro távolsága:

A Jaro-Winkler távolság hosszúság előtaggal válik

A Dwayne és DUANE láncok találunk:

Jaro távolsága:

Jaro-Winkleré  :

A DIXON és DICKSONX láncokkal a következőket kapjuk:

D én x O NEM
D 1 0 0 0 0
én 0 1 0 0 0
VS 0 0 0 0 0
K 0 0 0 0 0
S 0 0 0 0 0
O 0 0 0 1 0
NEM 0 0 0 0 1
x 0 0 0 0 0

Kiszámoljuk az egyezési kritérium maximális távolságát

.

Jaro távolsága:

Jaro-Winkler távolság  :

Megjegyzések és hivatkozások

Külső linkek

<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">