Funkció kibontása a számítógépes látásban

A számítógépes látás , a kitermelési vizuális jellemzői (vagy vizuális jellemzői kitermelése angolul) áll matematikai transzformációk számítva a pixelek egy digitális kép . A vizuális jellemzők általában lehetővé teszik a kép bizonyos vizuális tulajdonságainak jobb figyelembevételét, amelyeket későbbi feldolgozásra használnak az alkalmazások körében, például tárgyak észlelésére vagy képek keresésére a tartalom alapján . A 2010-es évektől kezdve a számítógépes látás területén végzett munka túlnyomó része olyan jellemzőkön alapszik, amelyeket a konvolúciós hálózatok megtanulnak nagy képi adatbázisokban, a mély tanulás elveivel összhangban .

A funkciók helye

Általában megkülönböztetik a teljes képre kiszámított globális jellemzőket és az érdekes pontok körül kiszámított helyi jellemzőket . Fél lokális jellemzőkről akkor is beszélhetünk, amikor ezeket a kép korlátozott területein vonják ki, amelyek a kép régiókban történő szegmentálódásából vagy egyszerűen egy tetszőleges rács szerint származnak .

A globális és a helyi jellemzők megkülönböztetése taxonómiai szempontból érdekes . A helyi jellemzőket az különbözteti meg, hogy megkülönböztethetőek, robusztusak az elzáródásokkal szemben (mivel sok van egy képen vagy régióban), és nem igényelnek szegmentálást. A kép vagy a szegmentálással kapott régió egyes képpontjainál kiszámított, majd hisztogramban felhalmozott helyi leíró tehát a kép vagy a régió átfogó leírása .

Összességében alacsony szintű jellemzők

Szín

Hisztogram és származékai

A képek színének figyelembevétele történelmileg az egyik első jellemző, amelyet a tartalom alapú képkutatás során használtak, és bizonyos alapokon még mindig néha látványos eredményeket hoz. Swain és Ballard 1991-ben javasolta egy színes hisztogram használatát az ilyen jellegű feladatokhoz. A kép színeinek általános eloszlását képviseli. Számítása a választott színtér ( például RGB ) számszerűsítéséből áll, amelyet az így átalakított pixelek hisztogramjának kiszámítása követ. Például, ha egy klasszikus RGB képet veszünk figyelembe, és az egyes színsíkokat 4 tárhelyre kvantáljuk, akkor a kapott hisztogramnak egy dimenziója lesz . Ha a kép eredetileg 24 bitre van kódolva (az egyes síkok értéke az intervallumban van ), akkor a 64 bites szín hisztogramját "kockával" lehet ábrázolni : ${\ displaystyle 4 ^ {3} = 64}$ ${\ displaystyle [0-255]}$ ${\ displaystyle 4-szer 4-szer 4-szer 4}$

		Piros
		0-63				64-127				128-191				192-255
		Zöld				Zöld				Zöld				Zöld
		0-63	64-127	128-191	192-255	0-63	64-127	128-191	192-255	0-63	64-127	128-191	192-255	0-63	64-127	128-191	192-255
Kék	0-63	x	x	x	x	x	x	x	x	x	x	x	x	x	x	x	x
	64-127	x	x	x	x	x	x	x	x	x	x	x	x	x	x	x	x
	128-191	x	x	x	x	x	x	x	x	x	x	x	x	x	x	x	x
	192-255	x	x	x	x	x	x	x	x	x	x	x	x	x	x	x	x

Mindegyik szín a 64 kvantált tároló egyikét képviseli, az x pedig a képnek ennek a tartálynak megfelelő képpontjainak száma. A gyakorlatban ezt a leírót általában egydimenziós 64 dimenziós vektor képviseli.

oktáv kód a hisztogram kiszámításához % I = double ( imread('xxx.jpg')); quant=4; nb_bin=quant^3; Iq = floor(I/nb_bin); Iq = Iq(:,:,1) + quant*Iq(:,:,2) + quant*quant*Iq(:,:,3); [NN, XX] = hist(Iq(:),nb_bin);

A hisztogramábrázolásból sok leíró levezethető, amelyek közül több szerepel az MPEG-7 szabvány kísérleti modelljében . Ide tartoznak különösen:

domináns szín : a kép domináns színét jelenti, a legmagasabb értéket tartalmazó szeméttel számítva. A színtér elméletileg bármi lehet, de a HSV használata érdekes eredményeket ad.
méretezhető szín : ez a szín hisztogram Haar-transzformációja a HSV térben , ami nagyon kompakt kódot eredményez.
színszerkezet : ez egy „helyi” szín hisztogram. Felépítése megegyezik a korábban bemutatott elvvel (globális szín hisztogram), azzal a különbséggel, hogy az egyes pixelekben lévő színek számlálásakor egy csökkentett méretű (8 × 8 képpont) ablak fut végig a képen. Így tükröz bizonyos információkat a színeloszlás térszerkezetéről.
színelrendezés : kiszámítják a hisztogram ábrázolásának diszkrét koszinusz-transzformációját , és az együtthatóknak csak egy része használható az aláíráshoz. Ez lehetőséget ad egy viszonylag durva, de nagyon kompakt leíró vagy egy finomabb leíró megszerzésére, de több helyet foglal el. Egy ilyen leíró érdekes azoknak az alkalmazásoknak, amelyek bizonyos skálázhatóságot igényelnek .

Színes pillanatok

Már 1995-ben azt javasolták, hogy az adott színtérben kiszámított pillanatokat használják a képek jellemzésére. Általában az első két vagy három pillanatra korlátozódunk ( átlag , variancia , aszimmetria vagy akár a kurtosisnak nevezett 4. sorrend ), de ezeket a választott színtér mindhárom síkjában kiszámítják. Az egyik lehetséges finomítás az, ha a képet rács szerint osztjuk fel, és ezeket a pillanatokat kiszámítjuk az egyes cellákban.

Megjegyzendő pixel színe, definiáljuk a halmazt . Ez azt jelenti, hogy az I kép p pixelének színe c . Vegyük figyelembe az a priori rögzített pixelek közötti távolság értékét . A használt távolság jelentése például meghatározott két pixel és a . A korrelogram számára , és ezután határozza meg: ${\ displaystyle p = (x, y) \ I-ben}$ ${\ displaystyle I (p)}$ ${\ displaystyle I_ {c} \ triangleq \ {p | I (p) = c \}}$ ${\ displaystyle p \ in I_ {c}}$ ${\ displaystyle d \ itt: [\! [1 \ dots n] \!]}$ ${\ displaystyle L _ {\ infty}}$ ${\ displaystyle p_ {1} = (x_ {1}, y_ {1})}$ ${\ displaystyle p_ {2} = (x_ {2}, y_ {2})}$ ${\ displaystyle L _ {\ infty} (p_ {1}, p_ {2}) \ triangleq \ max \ {| x_ {1} -x_ {2} |, | y_ {1} -y_ {2} | \ }}$ ${\ displaystyle i, j \ in [\! [1 \ dots m] \!]}$ ${\ displaystyle k \ itt: [\! [1 \ dots d] \!]}$

{\ displaystyle \ gamma _ {c_ {i}, c_ {j}} ^ {k} (I) \ triangleq {\ overset {Pr} {p_ {1} \ in I_ {c_ {i}}, p_ {2 } \ in I_ {c_ {j}}}} [p_ {2} \ in I_ {c_ {j}} | L _ {\ infty} (p_ {1} -p_ {2}) = k]}

Ez annak a valószínűségét tükrözi, hogy a figyelembe vett képponttól k távolságra lévő pixel színes lesz . A méret a korrelogram van . $c_ {j}$ ${\ displaystyle O (m ^ {2} d)}$

Az autokorrelogramot a következők határozzák meg:

{\ displaystyle \ alpha _ {c} ^ {(k)} (I) \ triangleq \ gamma _ {c, c} ^ {k} (I)}

Rendelési helyet igényel . ${\ displaystyle O (md)}$

Forma

Az űrlapok leírása a régiók előzetes azonosítását igényli. Ez lehet a kép szegmentálásának vagy a körvonaluk észlelésének eredménye. Ezután jellemezhetjük a régiókat különböző indexek segítségével, például fő tájolásuk (például első megfelelő tengelyük ), szimmetriájuk vagy Zernike-momentumaik segítségével .

Különösen használt leírási módszer a Mokhtarian által javasolt, Curvature Scale Space. Abban áll, hogy egy régiót leírnak a kontúrjának görbületváltozásainak függvényében. Ortonormális koordinátarendszerben a paraméteres koordinátákban lévő síkgörbe esetében a görbületet a következők fejezik ki: $\ scriptstyle {r (t) = (x (t), y (t))}$

\ gamma (t) = {\ frac {x'y '' - y'x ''} {(x '^ {2} + y' ^ {2}) ^ {{3/2}}}}

Ez a leírás forgatásban és fordításban változatlan. A nagyítást illetően legalább a körvonal hossza szerint kell szabványosítani. Ennél is fontosabb, hogy a leíró általában különböző léptékben kerül kiszámításra, amelyek mindegyike megfelel egy Gauss-kern konvolúciójának.

Struktúra

A textúra meghatározása nem nyilvánvaló, és a méretaránytól függ. A textúra fogalmának meghatározásához három megközelítés létezik. Haralick úttörő munkájának szellemében az első megközelítés a textúrát sztochasztikus folyamat eredményeként veszi figyelembe, és igyekszik azokat leírni az értékek statisztikai tulajdonságai és a pixelek relatív helyzete szempontjából.

A második megközelítés alapvető primitívek létezését feltételezi, amelyek lehetővé teszik a textúrák, például a Julesz által meghatározott Textonok leírását . Ezért egy adott textúrát ezeknek a primitíveknek a komplex kombinációjaként írnak le, például grafikonokkal kifejezve .

Egy újabb megközelítés inkább a vizuális észlelésre támaszkodik, és inkább a textúra kialakulásának folyamatát veszi figyelembe emberi szempontból.

A textúra statisztikailag leírható, figyelembe véve, hogy a kép szürke szintjei hogyan rendeződnek egymáshoz képest. Megfontoljuk, hogy egy p pozíció operátor lehetővé teszi egy olyan mátrix definiálását, amely megszámolja, hogy hányszor van egy i szintű szürke pixel a j szintű pixel p helyzetében . Ha a mátrixot 0 és 1 között normalizáljuk, akkor egy szürke szintű együttes előfordulású mátrixról beszélünk . Két pixel relatív helyzetét egy szög és egy d távolság is meghatározhatja . Például, ha figyelembe vesszük a három lehetséges szürke szintet és az általam meghatározott képet: ${\ displaystyle P_ {ij}}$ $\ theta$

{\ displaystyle I = {\ kezdődik {pmatrix} 0 & 1 & 2 & 2 \\ 0 & 0 & 1 & 2 \\ 0 & 0 & 1 & 2 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 1 és 1 \\\ end {pmatrix}}}

Az operátor pedig jobbra van (szög és pixeltávolság is meghatározza ), akkor a (nem normalizált) együttes előfordulású mátrix: $\ theta = 0$ $d = 1$

{\ displaystyle C = {\ begin {pmatrix} 5 & 5 & 0 \\ 0 & 1 & 3 \\ 0 & 0 & 1 \\\ end {pmatrix}}}

A mátrix 3- a azt jelzi, hogy a 2-es képpont háromszorosát találjuk (tehát a harmadik oszlopban) az 1-es képponttól jobbra (tehát a második sorban). $VS$

Ebből az együttes előfordulási mátrixból számos leíró definiálható, például a táblázatban felsoroltak:

Operátor	Megfogalmazás
Maximális	${\ displaystyle \ max _ {ij} (C_ {ij})}$
A k sorrend különbsége	${\ displaystyle \ sum _ {i} \ sum _ {j} {c_ {ij} \, (ij) ^ {k}}}$
Entrópia	${\ displaystyle \ sum _ {i} \ sum _ {j} {c_ {ij} \, napló (c_ {ij})}}$
Egységesség	${\ displaystyle \ sum _ {i} {\ sum _ {j} {c_ {ij} ^ {2}}}}$

Egy másik széles körben alkalmazott statisztikai megközelítés az MSAR (Multiresolution Sim szimultán autoregresszív modellek) modell, amelyet a textúrafelismerésen túl a természeti jelenetek felismerésére használnak.

Strukturális megközelítés

Ez a megközelítés feltételezi az alapvető primitívek létezését a textúrák leírásához. Az ilyen primitívek egyik első példája a Julesz által javasolt Textons volt . Egy adott textúrát ezeknek a primitíveknek a komplex kombinációjaként írunk le, például grafikonokkal kifejezve . Ezek a grafikonok ezután a textúra leíróiként szolgálhatnak.

Spektrális megközelítés

A periodicitások és más törvényszerűségek kifejezése egy képben vagy egy jelben természetesen a spektrális elemzés keretein belül történik . Így a kép diszkrét Fourier-transzformációja alapul szolgálhat a leírók készítéséhez. Gyakoribb azonban, hogy a Gabor szűrőket több skálán és irányban elrendezve használják. Ez különösen lehetővé teszi a „fő észlelési tulajdonságok” azonosítását. A munka kimutatta, hogy egy ilyen spektrumleíráson alapuló leíró számíthat a természetes jelenet domináns térszerkezetére.

A Fourier-transzformáció alternatívája a diszkrét koszinusz-transzformáció (DCT) kiszámítása . A gyakorlatban a DCT-együtthatókon alapuló leírók lehetővé tették a belső és külső képek, a városi tájak képeinek megkülönböztetését a természeti tájakkal és más leírókkal kombinálva a természeti jelenetek több kategóriáját egyidejűleg.

Helyi jellemzők

A kép jellemzése korlátozott számú pixelben számolható. Ehhez először fel kell deríteni a kép érdeklődési területeit, majd mindegyik területre ki kell számolni egy jellegzetes vektort. Ezek az érdeklődési területek például a kép szélei vagy kiemelkedő pontjai (nagy kontrasztú területek). Lehetnek véletlenszerűen vagy rendszeresen felvett pontok is a képen (úgynevezett sűrű mintavétel ).

A jellemzővektor néha tartalmaz adatokat az észlelésből, például az él orientációját vagy a gradiens nagyságát az érdekelt területen. Általában a pixelben szereplő karakterisztikus vektor ennek a pixelnek a szomszédságára kerül kiszámításra, vagyis egy erre a képpontra központosított képből. Különböző léptékben számolható úgy, hogy megszüntesse a nagyítási tényezőt. A jelenleg kiszámított helyi jellemzők között vannak olyan minták, amelyeket korábban globálisan használtak, például a szín hisztogramjai vagy a szürke szint gradiensének orientációját figyelembe vevő vektorok.

Bizonyos módszerek, mint például a SIFT vagy a SURF, magukban foglalják mind egy érdekes terület detektálását, mind pedig egy jellegzetes vektor kiszámítását ezeken a területeken. Ami a jellegzetes vektort illeti, a SIFT-k nagyjából a gradiens orientációinak hisztogramjai, a SURF-ek pedig a Haar-hullám közelítő számításból állnak . Hasonló módon a helyi bitminták a kép helyi szürke szintjeinek együttes előfordulási számításai, a HOG- ok pedig orientált gradiens hisztogramjai, meglehetősen hasonlóak a SIFT-ekhez, sűrű mintavételezéssel számítva.

Összesítés

A képnek a helyi jellemzőkkel történő leírása általában változó dimenzióval rendelkezik, a kivont érdekes pontok számától függően (valójában ez a szám megduplázza a helyi leíró dimenzióját). Az ilyen ábrázolás ezért nem alkalmas a hagyományosan használt tanulási algoritmusok táplálására ( SVM , boosting stb.). Visszatéréshez egy rögzített méretű vektortér ábrázolásához olyan leírók összesítési technikáit alkalmazza, mint például a szavak zsákja ( a vistermek zsákja ). Egy ilyen felhalmozás eredménye tehát egy kép vagy egy képrész (régió) átfogó jellemzője.

Tanulási jellemzők

2012-ben az ImageNet Large Scale Visual Recognition Challenge nemzetközi értékelési kampányt nyerték meg egy konvolúciós hálózat (CNN) megközelítéssel, amelyet a mély tanulás legújabb fejleményei révén tanultak meg . A teljesítmény javulása különösen markáns a korábbi évekhez képest. Röviddel ezután bebizonyosodik, hogy az ImageNet-en előre megtanult konvolúciós hálózat egy rétege használható a kép ábrázolásának vektoraként, a tanulás átviteli sémája szerint , és így még soha nem érhető el teljesítmény. képek a számítógépes látás területéről. Ettől az időponttól kezdve a területen végzett munka túlnyomó többsége ezért a konvolúciós hálózat segítségével a természetes képeken megtanult jellemzővektorokat használja, és a „kézzel kijelölt” jellemzők nagyon csekélyek lesznek, kivéve a nagyon specifikus alkalmazási területeket.

Alkalmazások

A fent ismertetett módszerekkel kinyert képek jellemzőit a számítógépes látás számos területén alkalmazzák.

Összefüggő jegyzetekkel képeket, ki tudják szolgálni a bemenetet egy felügyelt tanulási algoritmus a besorolás . Ez különösen fel lehet használni a tartalmuk és különösen a képen lévő tárgyak felderítésére . Ugyanebben az értelemben, de specifikusabb területeken, arcok vagy emberek észlelésére használhatók .

Képes aláírásként szolgálni, ezeket a leírásokat a tartalom szerinti képkeresésben is használják .

Általánosságban elmondható, hogy ezek olyan alapvető technológiák, amelyeket számos olyan területen alkalmaznak, ahol a számítógépes látás részt vesz: robotika , videomegfigyelés , gépi látás , optikai karakterfelismerés stb.

Megjegyzések és hivatkozások

Bemutató a modell hibaképeinek leírásáról {{Archive link}} : töltsön be egy " " paramétert , a fóliákat 22-36.|titre=
Mikolajczyk, K.; Schmid, C., "A helyi leírók teljesítményértékelése", Pattern Analysis and Machine Intelligence, IEEE Transactions on, 27. kötet, 10. szám, 1615, 1630, 2005. október (1. szakasz, 4-5. Sor)
MJ Swain, DH Ballard: Színes indexelés, International Journal of Computer Vision , 1991
Y. Liu, DS Zhang, G. Lu és W.-Y Ma. Régióalapú képkeresés perceptuális színekkel. Proc. Pacific-Rim multimédia konferencia, 931-938, 2004. december.
M. Stricker és M. Orengo. A színes képek hasonlósága. In In In SPIE Conference on Storage and Retrieval for Image and Video Databases III, 2420. évfolyam, 381392. Oldal, február. 1995.
Mokhtarian, F. és Mackworth, AK, Síkgörbék és kétdimenziós alakzatok skála szerinti leírása és felismerése, PAMI (8), 1. sz., 1986. január, pp. 34-43.
Th. Gevers és AWM Smeulders, Tartalom-alapú képkeresés: Áttekintés az Emerging Topics in Computer Vision könyvből, G. Medioni és SB Kang (szerk.), Prentice Hall, 2004
John R. Smith és Shih-fu Chang, kép- és videokereső a világháló számára , Proc. SPIE Tárolás és visszakeresés kép- és videó adatbázisokhoz, 1997
Haralick R., Shanmugam K. & Dinstein I. (1973) Texturális jellemzők a képosztályozáshoz . IEEE-tranzakciók a rendszereken, az emberen és a kibernetikán 3 (6): 610–621.
Weszka J, Rosenfeld Dyer C & A (1976) A textúraméretek összehasonlító vizsgálata a földosztályozáshoz. IEEE-tranzakciók a rendszereken, az emberen és a kibernetikán 6: 269–285.
Unser M (1986) Összeg- és eltérési hisztogramok a textúra osztályozásához. PAMI 8 (1): 118–125.
Julesz B (1981) Szövegek, a textúra észlelésének elemei és kölcsönhatásaik. Természet 290: 91–97.
Chellappa R & Manjunath B (2001) A textúrák osztályozása és szegmentálása: megpróbáltatások, diadalok és tisztelgések. In: Davis L (szerk.) A képmegértés alapjai, 219–240. Kluwer.
RM Haralick, Texture funkciót kép besorolás, IEEE Transactions on Systems, Man, és a kibernetika 3 (1973) (1), pp. 610–621
J. Mao és AK Jain, „A textúrák osztályozása és szegmentálása multirezolúciós szimultán autoregresszív modellek segítségével”, Pattern Recognit., Vol. 25, pp. 173–188, febr. 1992.
A. Vailaya, MAT Figeiredo A. Jain és HJ Zhang. Képosztályozás tartalomalapú indexeléshez. IEEE tranzakció képfeldolgozással, 10. évfolyam, N ° 1, 2001
H. Tamura, S. Mori és T. Yamawaki. A vizuális érzékelésnek megfelelő textúra jellemzők. IEEE Tranzakciók Rendszereken, Embereken és Kibernetikán, vol. SMC-8, nem. 6, 460 - 473, 1978
Aude Oliva, Antonio Torralba, A jelenet alakjának modellezése: a tér burkolatának holisztikus ábrázolása. International Journal of Computer Vision , Vol. 42 (3): 145-175, 2001
Szummer M. és RW Picard. Beltéri-kültéri képosztályozás. IEEE nemzetközi workshop a képek és videó adatbázisok tartalomalapú hozzáféréséről. Bombay, India, 1998
A. Vailaya, A. Jain és HJ Zhang. A képosztályozásról: város vs táj. Pattern Recognition, 31. évfolyam, 12. szám, 1921-1935, 1998
J. Sivic és Andrew Zisserman . Google Video: Szövegkeresési megközelítés az objektumok egyezéséhez a videókban. In Proceedings of the International Conference on Computer Vision , 1470–1477, 2003. oldal.