Kölcsönös tájékoztatás

A valószínűségszámítás és információelmélet , a kölcsönös tájékoztatás , két véletlen változó olyan mennyiség mérésére statisztikai függőség ezeket a változókat. Gyakran bitben mérik .

Pár változó kölcsönös tájékoztatása a valószínűségi értelemben vett függőségük mértékét képviseli. A logikai függőség ezen fogalmát nem szabad összekeverni a fizikai ok-okozati összefüggésekkel, bár a gyakorlatban az egyik gyakran a másikat jelenti. $(X, Y)$

Informálisan azt mondjuk, hogy két változó független, ha az egyik megvalósítása nem nyújt információt a másik megvalósításáról. A korrelációs együttható a függőség speciális esete, amelyben a két változó kapcsolata szigorúan lineáris .

A kölcsönös információ akkor és csak akkor nulla, ha a változók függetlenek, és a függőség növekedésével nőnek.

Meghatározás

Legyen pár véletlen változó az együttes valószínűségi sűrűségből (ebben a cikkben a jelölésekkel való visszaélést használjuk az esemény valószínűségének képviseletére ). Vegye figyelembe a határeloszlásokat és . Ekkor a kölcsönös információ diszkrét esetben történik: $(X, Y)$ $P (x, y)$ $P (x)$ $X = x$ $P (x)$ $P (y)$

{\ displaystyle I (X; Y) = \ sum _ {x, y} P (x, y) \ log {\ frac {P (x, y)} {P (x) \, P (y)}} , \!}

és folyamatos esetben:

{\ displaystyle I (X; Y) = \ int _ {\ mathbb {R}} \ int _ {\ mathbb {R}} p (x, y) \ log {\ frac {p (x, y)} { p (x) \, p (y)}};; dxdy. \!}

ahol , és rendre a sűrűsége jogszabályok , és . $p (x, y)$ $p (x)$ $p (y)$ $(X, Y)$ $x$ $Y$

Gauss-eset

A kölcsönös információkat Gauss-eloszlás esetén a következő formában írják:

{\ displaystyle I (X; Y) = {\ dfrac {1} {2}} \ log {\ dfrac {| K_ {X} || K_ {Y} |} {| K_ {XY} |}}}

azzal a meghatározója a kovariancia mátrix X és Y , a meghatározója a kovariancia mátrix X és a meghatározója a kovariancia mátrix Y . ${\ displaystyle | K_ {XY} |}$ ${\ displaystyle | K_ {X} |}$ ${\ displaystyle | K_ {Y} |}$

Tulajdonságok

${\ displaystyle I (X; Y) = 0}$ csak akkor, ha X és Y független véletlen változó.
A kölcsönös információ pozitív vagy nulla.
A kölcsönös információ szimmetrikus.
Adatfeldolgozási tétel : ha és két mérhető függvény, akkor . Ez azt jelenti, hogy a nyers adatokon végzett semmilyen átalakítás nem tárhat fel információt. $g_ {1}$ $g_2$ ${\ displaystyle I (g_ {1} (X), g_ {2} (Y)) \ leq I (X, Y)}$
Amikor az együttes eloszlás valószínűségi változók , és követi a többdimenziós normális eloszlás azt mutatja, hogy a kölcsönös információ közvetlenül kapcsolódik az együttható összefüggés a két változó között: $\ X$ $\ Y$ ${\ mathcal {N}} (\ mu, \, \ Sigma)$ $\ \ rho$ ${\ displaystyle I (X; Y) = - {\ frac {1} {2}} \ log (1- \ rho ^ {2})}$

Javasolták ennek a mennyiségnek több általánosítását nagyobb számú változóra, de konszenzus még nem alakult ki.

Kapcsolatok az információelmélettel

Entrópia

A kölcsönös információ azt az információmennyiséget méri, amelyet átlagosan az X elérése az Y elérésének valószínűségével realizál . Figyelembe véve, hogy egy valószínűségi eloszlás egy véletlenszerű jelenségről alkotott tudásunkat reprezentálja, az információ hiányát ennek az eloszlásnak az entrópiájával mérjük . E fogalmakkal a kölcsönös információkat a következők fejezik ki:

{\ displaystyle I (X; Y) = H (X) -H (X | Y) = H (Y) -H (Y | X) = H (X) + H (Y) -H (X, Y) .}

ahol H ( X ) és H ( Y ) entrópia , H ( X | Y ) és H ( Y | X ) feltételes entrópia , és H ( Y , X ) az X és Y közötti közös entrópia .

Így látható, hogy a nyomaték egy kiviteli alakjának kódolásához szükséges bitek száma megegyezik az X egyik kiviteli alakjának kódolásához szükséges bitek és az Y egyik kiviteli alakjának kódolásához szükséges bitek számának összegével . ${\ displaystyle I (X; Y) = 0}$

Kullback-Leibler divergencia

A kölcsönös információkat a Kullback-Leibler-divergencia is kifejezheti . Nekünk van

{\ displaystyle I (X; Y) = {\ mathit {KL}} (P (X, Y), P (X) P (Y)) = \ összeg P (X, Y) \ log {\ frac {P (X, Y)} {P (X) P (Y)}}.}

Így egyfajta "távolságot" mér az eloszlások és a között . Mivel definíció szerint két változó független, ha ez a két eloszlás egyenlő, és mint iff , megtaláljuk az ekvivalenciát és a függetlenséget. ${\ displaystyle I (X; Y)}$ $P (X, Y)$ $P (X) * P (Y)$ ${\ mathit {KL}} (p, q) = 0$ $p = q$ $I (X, Y) = 0$

Intuitív módon több információt hordoz, ha a változók függenek, mint amikor nem. Ha a két változó N esetből diszkrét , akkor a legrosszabb esetben együtthatókra van szükségünk, ha csak akkor, ha . $P (X, Y)$ $N ^ {2} -1$ $P (X, Y)$ $2N-1$ $P (X, Y) = P (X) P (Y)$

A divergencia megadja az információ bitjeinek számát, amelyet a tudás hoz, amikor az ember már tudja és . ${\ mathit {KL}}$ $P (X, Y)$ $P (X)$ $P (Y)$

Megjegyzések és hivatkozások

(in) S. Kullback, információ elmélet és statisztika , John Wiley & Sons, NY, 1959