TF-IDF

A TF-IDF ( frekvencia-fordított dokumentum-gyakoriság kifejezés ) egy súlyozási módszer, amelyet gyakran használnak az információkutatásban és különösen a szövegbányászatban . Ez a statisztikai mérőszám lehetővé teszi egy dokumentumban szereplő kifejezés jelentőségének értékelését a gyűjteményhez vagy korpuszhoz képest . A súly a dokumentumban előforduló szó előfordulásának számával arányosan növekszik. Ez a szó korpuszban való gyakorisága szerint is változik. Az eredeti képlet változatait gyakran használják a keresőkben a dokumentum relevanciájának felmérésére a felhasználó keresési kritériumai szerint.

Bevezetés

E súlyozási séma utólagos elméleti igazolása a szavak gyakoriságának empirikus megfigyelésén alapszik, amelyet a Zipf-törvény ad meg a szövegben . Ha egy lekérdezés tartalmazza a T kifejezést , akkor egy dokumentum nagyobb valószínűséggel válaszol rá, ha tartalmazza ezt a kifejezést: a kifejezés gyakorisága a dokumentumban (TF) magas. Mindazonáltal, ha a T kifejezés maga nagyon gyakori a korpuszon belül, vagyis sok dokumentumban (például a definiált cikkekben - le, la, les ) szerepel, valójában nem túl diszkriminatív. Ezért javasolja a diagram a kifejezés relevanciájának növelését a korpuszon belüli ritkasága szerint: a kifejezés gyakorisága a korpuszban (IDF) magas. Így egy ritka lekérdezési kifejezés jelenléte a dokumentum tartalmában növeli az utóbbi "pontszámát" .

Formális meghatározás

A kifejezés gyakorisága

A kifejezés "nyers" gyakorisága egyszerűen a szóban forgó dokumentumban előforduló kifejezés előfordulásainak száma (az egyik a "gyakoriságról" a nyelvvel való visszaéléssel beszél). Ezt a nyers frekvenciát választhatjuk a kifejezés frekvenciájának kifejezésére.

Változatokat javasoltak. Egyszerűbb választás, az úgynevezett „bináris”, ha 1-et teszünk, ha a kifejezés megjelenik a dokumentumban, és 0-t különben. Ezzel szemben logaritmikusan normalizálhatjuk a nyers frekvenciát az eltérések csillapítására. A dokumentum hosszának figyelembevételére szolgáló általános normalizálás a nyers dokumentum maximális gyakoriságával történő normalizálás.

TF variánsok

Súlyozási séma	TF képlet
bináris	${\ displaystyle {0,1}}$
nyers frekvencia	${\ displaystyle f_ {t, d}}$
logaritmikus normalizálás	${\ displaystyle \ log (1 + f_ {t, d})}$
"0,5" normalizálás a max	${\ displaystyle 0.5 + 0.5 \ cdot {\ frac {f_ {t, d}} {\ max _ {\ {t '\ in d \}} {f_ {t', d}}}}}$
normalizálás a max	${\ displaystyle K + (1-K) {\ frac {f_ {t, d}} {\ max _ {\ {t '\ in d \}} {f_ {t', d}}}}}$

Fordított dokumentum gyakorisága

Az inverz dokumentum gyakorisága a kifejezés fontosságának mértéke az egész korpuszban. A TF-IDF rendszerben célja, hogy nagyobb súlyt adjon a ritkább, diszkriminatívabbnak tartott kifejezéseknek. Ez abból áll, hogy kiszámoljuk a logaritmust (a 10. vagy a 2. bázisban) a korpuszban lévő dokumentumok arányának inverzének, amely tartalmazza a kifejezést:

${\ mathrm {idf_ {i}}} = \ log {\ frac {| D |} {| \ {d _ {{j}}: t _ {{i}} \ in d _ {{j}} \ } |}}$

vagy:

$| D | ~$ : a korpuszban szereplő dokumentumok teljes száma;
$| \ {d _ {{j}}: t _ {{i}} \ d _ {{j}} \} |$ : azon okmányok száma, ahol a kifejezés szerepel (azaz ). $t _ {{i}}$ $n _ {{i, j}} \ neq 0$

A TF-IDF kiszámítása

Végül a súlyt a két mérés szorzatával kapjuk meg:

${\ mathrm {tfidf _ {{i, j}}}} = {\ mathrm {tf _ {{i, j}}}} \ cdot {\ mathrm {idf _ {{i}}}}$

Példa

Corpus ( Friedrich Gottlieb Klopstock műveiből )

1. dokumentum	2. dokumentum	3. dokumentum
Nevéhez ünnepelte a ligetben , hogy megborzongott, és a patak , hogy zúg a szél uralkodik, míg az égi ív, az ív a kegyelem és vigasztalás, hogy a keze benyúlt a felhők.	Alig tudtunk megkülönböztetni két célt a kőbánya végén: tölgyfák árnyékolták az egyiket, a másik körül pálmafák rajzolódtak ki az este fényében.	Ah! költői műveim jó időjárása! a gyönyörű napokat, amelyeket a közeledben töltöttem! Az első, kimeríthetetlen örömmel, békével és szabadsággal; ez utóbbi melankóliával átitatva, amelynek bája is volt.

A példa az 1. dokumentumra vonatkozik (azaz ), és az elemzett kifejezés a „ki” (azaz = ki). Az írásjeleket és az aposztrófot figyelmen kívül hagyják. $d_1$ $t_1$

A TF kiszámítása

TF (t) = A t kifejezés megjelenéseinek száma a dokumentumban / A dokumentumban szereplő kifejezések teljes száma

{\ mathrm {tf _ {{1,1}}}} = {\ frac {n _ {{1,1}}} {\ sum _ {k} n _ {{k, 1}}}} = { \ frac {2} {38}}

Számítás részleteit: a legtöbb szempontból jelenik meg, ha (21 terms), arc , de , és , le , les , par és amely kétszer jelenik meg (7 értelemben) és l jelenik meg 3-szor (1 kifejezés). A nevező tehát 21 * 1 + 7 * 2 + 1 * 3 = 38. Ez az összeg a dokumentumban szereplő szavak számának felel meg.

Az IDF kiszámítása

A "ki" kifejezés nem szerepel a második dokumentumban. Így :

{\ mathrm {idf_ {1}}} = \ log {\ frac {| D |} {| \ {d _ {{j}}: t _ {{1}} \ in d _ {{j}} \ } |}} = \ log {\ frac {3} {2}}

Végső súly

Azt kapjuk :

{\ mathrm {tfidf _ {{1,1}}}} = {\ frac {2} {38}} \ cdot \ log {{\ frac {3} {2}}} \ kb 0 {{,}} 0092

Egyéb dokumentumok:

{\ mathrm {tfidf _ {{1,2}}}} = 0 \ cdot \ log {{\ frac {3} {2}}} = 0

{\ mathrm {tfidf _ {{1,3}}}} = {\ frac {1} {40}} \ cdot \ log {{\ frac {3} {2}}} \ kb 0 {{,}} 0044

Az első dokumentum tehát „a legrelevánsabbnak” tűnik.

Alkalmazások

Ha információt keres , miután egy sor potenciális dokumentumok már azonosították, hogy képes válaszolni a kérelemre, ez a kérdés a rendelési őket fontossági sorrendben. A tf-idf súlyt ezután gyakran használják a dokumentumok vektormodellben történő leírásának megállapítására , a hasonlóságot koszinusz távolsággal kell elérni a kérelmet képviselő vektor és a potenciális dokumentumok mindegyikét képviselő vektor között. Annak ellenére, hogy a 70-es évek központja található, az Okapi BM25 változatot ( XXI . Század eleje) még mindig a technika egyik legmodernebb módszerének tekintik ezen a területen.

Bibliográfia

(en) Karen Spärck Jones , „ A kifejezésspecifika statisztikai értelmezése és alkalmazása visszakeresés során ” , Journal of Documentation , vol. 28, n o 1,1972, P. 11–21 ( DOI 10.1108 / eb026526 , online olvasás )
en) Gerard Salton és MJ McGill, Bevezetés a modern információszerzésbe ,1983[ a kiadások részlete ]

Megjegyzések és hivatkozások

" Vector models " , a benhur.teluq.ca oldalon (hozzáférés : 2018. november 5. )
Friedrich Gottlieb Klopstocktól a Wikiforrásból vett szövegek ( Csillagképek , a két múzsák és a Schmiedhez, óda veszélyes betegség során írva ).

Lásd is

Kapcsolódó cikkek

Külső linkek

IR modellek tanfolyama a Párizs 13 Egyetem honlapján