Fejlessze vagy vitassa meg az ellenőrizendő dolgokat . Ha nemrég helyezte el a szalaghirdetést, kérjük, adja meg itt az ellenőrizni kívánt pontokat .
A gépi tanulás elméletében a VC dimenzió (a Vapnik-Chervonenkis dimenzióhoz a francia nyelvben gyakran használt angol átírást követve, illetve a francia átírásnál a Vapnik-Tchervonenkis dimenzióhoz ) egy osztályozási algoritmus statisztikák kapacitásának mérőszáma . A legnagyobb pontkészlet kardinálisaként definiálják, amelyet az algoritmus porítani tud . A Vapnik-Tchervonenkis-elmélet központi fogalma . Azt határozza meg Vladimir Vapnik és Alexei Tchervonenkis .
Informálisan a besorolási modell kapacitása megfelel annak összetettségének. Tekintsük például osztályozási modellnek a magas fokú polinom Heaviside-függvényét : ha egy adott pontban a polinom értéke pozitív, akkor ezt a pontot pozitívnak jelöljük; különben negatívnak jelöljük. A kellően nagy fokú polinom nagyon kanyargós lehet, és jól megfelelhet a képzési pontok mintájának. De e magas szinuszitás miatt azt gondolhatjuk, hogy ez a besorolási modell hamis értékeléseket ad más pontokra. Egy ilyen polinom nagy kapacitással rendelkezik . Ha most ebben a modellben ezt a nagyfokú polinomot lineáris függvénnyel helyettesítjük, akkor a kapott modell nem biztos, hogy megfelel az edzésmintának, mert kapacitása alacsony. A kapacitás ezen fogalmát az alábbiakban szigorúbban írjuk le .
U halmazban helyezkedik el . Van H családi (véges) részhalmaza (kész) a U , és C egy részhalmazát U .
H nyomai az U C részhalmazán :
Azt mondjuk, hogy H spray C , ha a nyoma H feletti C egyenlő a készlet részei C, azaz :
vagy a bíborosok egyenlőségével egyenértékű módon .
A V V dimenzió ekkor a C halmaz kardinalitása, amely a H által permetezhető .
Azt mondjuk, hogy egy osztályozási modellt , figyelembe, mint a paraméter egy olyan vektor θ, porítja adathalmaz ( ), ha bármely címkézési ezen adathalmaz létezik olyan θ, hogy a modell nem tesz hibát az értékelésben ezen adatbázisba.
Ezután egy modell VC dimenzióját nevezzük a legnagyobb által porított halmaz kardinalitásának .
A modell VC méretének figyelembevételével tehát:
Tekintsünk például egy egyeneset osztályozási modellnek . Megvizsgáljuk, hogy a vonal el tudja-e különíteni a pozitív adatokat (+) a negatívaktól (-). Ha 3 nem igazított pontot veszünk fel, akkor a vonal fel tudja őket porítani. A vonal azonban nem tud 4 pontot szórni. Így a vonal VC dimenziója 3. Fontos megjegyezni, hogy kiválaszthatjuk azoknak a pontoknak a helyzetét, amelyeket permetezni fogunk a vonallal, de ezeket a pozíciókat nem módosíthatjuk, amikor felcseréljük a címkézésüket. Az alábbiakban a hárompontos porlasztáshoz a 8 lehetséges címke közül csak 3 látható (1 lehetőség mindhárom pozitív címkézésére, 3 lehetőség 3 pozitívból 2 címkézésére, 3 lehetőség 3 pozitívból 1 jelölésére, 1 pozitív címkézés lehetősége).
3 pontos spray | Ha 4 pont van, a permetezés lehetetlen |
A VC dimenziót a gépi tanulás elméletében használják egy osztályozási modell teszt maximális valószínű hibahatárának kiszámítására. Az osztályozási modell teszteléséhez az edzésmintából kinyert adatokon függetlenül és azonos elosztásban ezt az értéket a következő képlet szerint számítják ki:
Tanulási hiba +
annak valószínűségével , hogy hol van az osztályozási modell VC dimenziója, és a képzési minta méretével. Ez a képlet csak akkor érvényes .