A TF-IDF ( frekvencia-fordított dokumentum-gyakoriság kifejezés ) egy súlyozási módszer, amelyet gyakran használnak az információkutatásban és különösen a szövegbányászatban . Ez a statisztikai mérőszám lehetővé teszi egy dokumentumban szereplő kifejezés jelentőségének értékelését a gyűjteményhez vagy korpuszhoz képest . A súly a dokumentumban előforduló szó előfordulásának számával arányosan növekszik. Ez a szó korpuszban való gyakorisága szerint is változik. Az eredeti képlet változatait gyakran használják a keresőkben a dokumentum relevanciájának felmérésére a felhasználó keresési kritériumai szerint.
E súlyozási séma utólagos elméleti igazolása a szavak gyakoriságának empirikus megfigyelésén alapszik, amelyet a Zipf-törvény ad meg a szövegben . Ha egy lekérdezés tartalmazza a T kifejezést , akkor egy dokumentum nagyobb valószínűséggel válaszol rá, ha tartalmazza ezt a kifejezést: a kifejezés gyakorisága a dokumentumban (TF) magas. Mindazonáltal, ha a T kifejezés maga nagyon gyakori a korpuszon belül, vagyis sok dokumentumban (például a definiált cikkekben - le, la, les ) szerepel, valójában nem túl diszkriminatív. Ezért javasolja a diagram a kifejezés relevanciájának növelését a korpuszon belüli ritkasága szerint: a kifejezés gyakorisága a korpuszban (IDF) magas. Így egy ritka lekérdezési kifejezés jelenléte a dokumentum tartalmában növeli az utóbbi "pontszámát" .
A kifejezés "nyers" gyakorisága egyszerűen a szóban forgó dokumentumban előforduló kifejezés előfordulásainak száma (az egyik a "gyakoriságról" a nyelvvel való visszaéléssel beszél). Ezt a nyers frekvenciát választhatjuk a kifejezés frekvenciájának kifejezésére.
Változatokat javasoltak. Egyszerűbb választás, az úgynevezett „bináris”, ha 1-et teszünk, ha a kifejezés megjelenik a dokumentumban, és 0-t különben. Ezzel szemben logaritmikusan normalizálhatjuk a nyers frekvenciát az eltérések csillapítására. A dokumentum hosszának figyelembevételére szolgáló általános normalizálás a nyers dokumentum maximális gyakoriságával történő normalizálás.
Súlyozási séma | TF képlet |
---|---|
bináris | |
nyers frekvencia | |
logaritmikus normalizálás | |
"0,5" normalizálás a max | |
normalizálás a max |
Az inverz dokumentum gyakorisága a kifejezés fontosságának mértéke az egész korpuszban. A TF-IDF rendszerben célja, hogy nagyobb súlyt adjon a ritkább, diszkriminatívabbnak tartott kifejezéseknek. Ez abból áll, hogy kiszámoljuk a logaritmust (a 10. vagy a 2. bázisban) a korpuszban lévő dokumentumok arányának inverzének, amely tartalmazza a kifejezést:
vagy:
Végül a súlyt a két mérés szorzatával kapjuk meg:
1. dokumentum | 2. dokumentum | 3. dokumentum |
---|---|---|
Nevéhez ünnepelte a ligetben , hogy megborzongott, és a patak , hogy zúg a szél uralkodik, míg az égi ív, az ív a kegyelem és vigasztalás, hogy a keze benyúlt a felhők. | Alig tudtunk megkülönböztetni két célt a kőbánya végén: tölgyfák árnyékolták az egyiket, a másik körül pálmafák rajzolódtak ki az este fényében. | Ah! költői műveim jó időjárása! a gyönyörű napokat, amelyeket a közeledben töltöttem! Az első, kimeríthetetlen örömmel, békével és szabadsággal; ez utóbbi melankóliával átitatva, amelynek bája is volt. |
A példa az 1. dokumentumra vonatkozik (azaz ), és az elemzett kifejezés a „ki” (azaz = ki). Az írásjeleket és az aposztrófot figyelmen kívül hagyják.
TF (t) = A t kifejezés megjelenéseinek száma a dokumentumban / A dokumentumban szereplő kifejezések teljes száma
Számítás részleteit: a legtöbb szempontból jelenik meg, ha (21 terms), arc , de , és , le , les , par és amely kétszer jelenik meg (7 értelemben) és l jelenik meg 3-szor (1 kifejezés). A nevező tehát 21 * 1 + 7 * 2 + 1 * 3 = 38. Ez az összeg a dokumentumban szereplő szavak számának felel meg.
A "ki" kifejezés nem szerepel a második dokumentumban. Így :
Azt kapjuk :
Egyéb dokumentumok:
Az első dokumentum tehát „a legrelevánsabbnak” tűnik.
Ha információt keres , miután egy sor potenciális dokumentumok már azonosították, hogy képes válaszolni a kérelemre, ez a kérdés a rendelési őket fontossági sorrendben. A tf-idf súlyt ezután gyakran használják a dokumentumok vektormodellben történő leírásának megállapítására , a hasonlóságot koszinusz távolsággal kell elérni a kérelmet képviselő vektor és a potenciális dokumentumok mindegyikét képviselő vektor között. Annak ellenére, hogy a 70-es évek központja található, az Okapi BM25 változatot ( XXI . Század eleje) még mindig a technika egyik legmodernebb módszerének tekintik ezen a területen.