A számítógépes látás , a kitermelési vizuális jellemzői (vagy vizuális jellemzői kitermelése angolul) áll matematikai transzformációk számítva a pixelek egy digitális kép . A vizuális jellemzők általában lehetővé teszik a kép bizonyos vizuális tulajdonságainak jobb figyelembevételét, amelyeket későbbi feldolgozásra használnak az alkalmazások körében, például tárgyak észlelésére vagy képek keresésére a tartalom alapján . A 2010-es évektől kezdve a számítógépes látás területén végzett munka túlnyomó része olyan jellemzőkön alapszik, amelyeket a konvolúciós hálózatok megtanulnak nagy képi adatbázisokban, a mély tanulás elveivel összhangban .
Általában megkülönböztetik a teljes képre kiszámított globális jellemzőket és az érdekes pontok körül kiszámított helyi jellemzőket . Fél lokális jellemzőkről akkor is beszélhetünk, amikor ezeket a kép korlátozott területein vonják ki, amelyek a kép régiókban történő szegmentálódásából vagy egyszerűen egy tetszőleges rács szerint származnak .
A globális és a helyi jellemzők megkülönböztetése taxonómiai szempontból érdekes . A helyi jellemzőket az különbözteti meg, hogy megkülönböztethetőek, robusztusak az elzáródásokkal szemben (mivel sok van egy képen vagy régióban), és nem igényelnek szegmentálást. A kép vagy a szegmentálással kapott régió egyes képpontjainál kiszámított, majd hisztogramban felhalmozott helyi leíró tehát a kép vagy a régió átfogó leírása .
A képek színének figyelembevétele történelmileg az egyik első jellemző, amelyet a tartalom alapú képkutatás során használtak, és bizonyos alapokon még mindig néha látványos eredményeket hoz. Swain és Ballard 1991-ben javasolta egy színes hisztogram használatát az ilyen jellegű feladatokhoz. A kép színeinek általános eloszlását képviseli. Számítása a választott színtér ( például RGB ) számszerűsítéséből áll, amelyet az így átalakított pixelek hisztogramjának kiszámítása követ. Például, ha egy klasszikus RGB képet veszünk figyelembe, és az egyes színsíkokat 4 tárhelyre kvantáljuk, akkor a kapott hisztogramnak egy dimenziója lesz . Ha a kép eredetileg 24 bitre van kódolva (az egyes síkok értéke az intervallumban van ), akkor a 64 bites szín hisztogramját "kockával" lehet ábrázolni :
Piros | |||||||||||||||||
0-63 | 64-127 | 128-191 | 192-255 | ||||||||||||||
Zöld | Zöld | Zöld | Zöld | ||||||||||||||
0-63 | 64-127 | 128-191 | 192-255 | 0-63 | 64-127 | 128-191 | 192-255 | 0-63 | 64-127 | 128-191 | 192-255 | 0-63 | 64-127 | 128-191 | 192-255 | ||
Kék | 0-63 | x | x | x | x | x | x | x | x | x | x | x | x | x | x | x | x |
64-127 | x | x | x | x | x | x | x | x | x | x | x | x | x | x | x | x | |
128-191 | x | x | x | x | x | x | x | x | x | x | x | x | x | x | x | x | |
192-255 | x | x | x | x | x | x | x | x | x | x | x | x | x | x | x | x |
Mindegyik szín a 64 kvantált tároló egyikét képviseli, az x pedig a képnek ennek a tartálynak megfelelő képpontjainak száma. A gyakorlatban ezt a leírót általában egydimenziós 64 dimenziós vektor képviseli.
oktáv kód a hisztogram kiszámításához % I = double ( imread('xxx.jpg')); quant=4; nb_bin=quant^3; Iq = floor(I/nb_bin); Iq = Iq(:,:,1) + quant*Iq(:,:,2) + quant*quant*Iq(:,:,3); [NN, XX] = hist(Iq(:),nb_bin);A hisztogramábrázolásból sok leíró levezethető, amelyek közül több szerepel az MPEG-7 szabvány kísérleti modelljében . Ide tartoznak különösen:
Már 1995-ben azt javasolták, hogy az adott színtérben kiszámított pillanatokat használják a képek jellemzésére. Általában az első két vagy három pillanatra korlátozódunk ( átlag , variancia , aszimmetria vagy akár a kurtosisnak nevezett 4. sorrend ), de ezeket a választott színtér mindhárom síkjában kiszámítják. Az egyik lehetséges finomítás az, ha a képet rács szerint osztjuk fel, és ezeket a pillanatokat kiszámítjuk az egyes cellákban.
Megjegyzendő pixel színe, definiáljuk a halmazt . Ez azt jelenti, hogy az I kép p pixelének színe c . Vegyük figyelembe az a priori rögzített pixelek közötti távolság értékét . A használt távolság jelentése például meghatározott két pixel és a . A korrelogram számára , és ezután határozza meg:
Ez annak a valószínűségét tükrözi, hogy a figyelembe vett képponttól k távolságra lévő pixel színes lesz . A méret a korrelogram van .
Az autokorrelogramot a következők határozzák meg:
Rendelési helyet igényel .
Az űrlapok leírása a régiók előzetes azonosítását igényli. Ez lehet a kép szegmentálásának vagy a körvonaluk észlelésének eredménye. Ezután jellemezhetjük a régiókat különböző indexek segítségével, például fő tájolásuk (például első megfelelő tengelyük ), szimmetriájuk vagy Zernike-momentumaik segítségével .
Különösen használt leírási módszer a Mokhtarian által javasolt, Curvature Scale Space. Abban áll, hogy egy régiót leírnak a kontúrjának görbületváltozásainak függvényében. Ortonormális koordinátarendszerben a paraméteres koordinátákban lévő síkgörbe esetében a görbületet a következők fejezik ki:
.Ez a leírás forgatásban és fordításban változatlan. A nagyítást illetően legalább a körvonal hossza szerint kell szabványosítani. Ennél is fontosabb, hogy a leíró általában különböző léptékben kerül kiszámításra, amelyek mindegyike megfelel egy Gauss-kern konvolúciójának.
A textúra meghatározása nem nyilvánvaló, és a méretaránytól függ. A textúra fogalmának meghatározásához három megközelítés létezik. Haralick úttörő munkájának szellemében az első megközelítés a textúrát sztochasztikus folyamat eredményeként veszi figyelembe, és igyekszik azokat leírni az értékek statisztikai tulajdonságai és a pixelek relatív helyzete szempontjából.
A második megközelítés alapvető primitívek létezését feltételezi, amelyek lehetővé teszik a textúrák, például a Julesz által meghatározott Textonok leírását . Ezért egy adott textúrát ezeknek a primitíveknek a komplex kombinációjaként írnak le, például grafikonokkal kifejezve .
Egy újabb megközelítés inkább a vizuális észlelésre támaszkodik, és inkább a textúra kialakulásának folyamatát veszi figyelembe emberi szempontból.
A textúra statisztikailag leírható, figyelembe véve, hogy a kép szürke szintjei hogyan rendeződnek egymáshoz képest. Megfontoljuk, hogy egy p pozíció operátor lehetővé teszi egy olyan mátrix definiálását, amely megszámolja, hogy hányszor van egy i szintű szürke pixel a j szintű pixel p helyzetében . Ha a mátrixot 0 és 1 között normalizáljuk, akkor egy szürke szintű együttes előfordulású mátrixról beszélünk . Két pixel relatív helyzetét egy szög és egy d távolság is meghatározhatja . Például, ha figyelembe vesszük a három lehetséges szürke szintet és az általam meghatározott képet:
Az operátor pedig jobbra van (szög és pixeltávolság is meghatározza ), akkor a (nem normalizált) együttes előfordulású mátrix:
A mátrix 3- a azt jelzi, hogy a 2-es képpont háromszorosát találjuk (tehát a harmadik oszlopban) az 1-es képponttól jobbra (tehát a második sorban).
Ebből az együttes előfordulási mátrixból számos leíró definiálható, például a táblázatban felsoroltak:
Operátor | Megfogalmazás |
---|---|
Maximális | |
A k sorrend különbsége | |
Entrópia | |
Egységesség |
Egy másik széles körben alkalmazott statisztikai megközelítés az MSAR (Multiresolution Sim szimultán autoregresszív modellek) modell, amelyet a textúrafelismerésen túl a természeti jelenetek felismerésére használnak.
Strukturális megközelítésEz a megközelítés feltételezi az alapvető primitívek létezését a textúrák leírásához. Az ilyen primitívek egyik első példája a Julesz által javasolt Textons volt . Egy adott textúrát ezeknek a primitíveknek a komplex kombinációjaként írunk le, például grafikonokkal kifejezve . Ezek a grafikonok ezután a textúra leíróiként szolgálhatnak.
Spektrális megközelítésA periodicitások és más törvényszerűségek kifejezése egy képben vagy egy jelben természetesen a spektrális elemzés keretein belül történik . Így a kép diszkrét Fourier-transzformációja alapul szolgálhat a leírók készítéséhez. Gyakoribb azonban, hogy a Gabor szűrőket több skálán és irányban elrendezve használják. Ez különösen lehetővé teszi a „fő észlelési tulajdonságok” azonosítását. A munka kimutatta, hogy egy ilyen spektrumleíráson alapuló leíró számíthat a természetes jelenet domináns térszerkezetére.
A Fourier-transzformáció alternatívája a diszkrét koszinusz-transzformáció (DCT) kiszámítása . A gyakorlatban a DCT-együtthatókon alapuló leírók lehetővé tették a belső és külső képek, a városi tájak képeinek megkülönböztetését a természeti tájakkal és más leírókkal kombinálva a természeti jelenetek több kategóriáját egyidejűleg.
A kép jellemzése korlátozott számú pixelben számolható. Ehhez először fel kell deríteni a kép érdeklődési területeit, majd mindegyik területre ki kell számolni egy jellegzetes vektort. Ezek az érdeklődési területek például a kép szélei vagy kiemelkedő pontjai (nagy kontrasztú területek). Lehetnek véletlenszerűen vagy rendszeresen felvett pontok is a képen (úgynevezett sűrű mintavétel ).
A jellemzővektor néha tartalmaz adatokat az észlelésből, például az él orientációját vagy a gradiens nagyságát az érdekelt területen. Általában a pixelben szereplő karakterisztikus vektor ennek a pixelnek a szomszédságára kerül kiszámításra, vagyis egy erre a képpontra központosított képből. Különböző léptékben számolható úgy, hogy megszüntesse a nagyítási tényezőt. A jelenleg kiszámított helyi jellemzők között vannak olyan minták, amelyeket korábban globálisan használtak, például a szín hisztogramjai vagy a szürke szint gradiensének orientációját figyelembe vevő vektorok.
Bizonyos módszerek, mint például a SIFT vagy a SURF, magukban foglalják mind egy érdekes terület detektálását, mind pedig egy jellegzetes vektor kiszámítását ezeken a területeken. Ami a jellegzetes vektort illeti, a SIFT-k nagyjából a gradiens orientációinak hisztogramjai, a SURF-ek pedig a Haar-hullám közelítő számításból állnak . Hasonló módon a helyi bitminták a kép helyi szürke szintjeinek együttes előfordulási számításai, a HOG- ok pedig orientált gradiens hisztogramjai, meglehetősen hasonlóak a SIFT-ekhez, sűrű mintavételezéssel számítva.
A képnek a helyi jellemzőkkel történő leírása általában változó dimenzióval rendelkezik, a kivont érdekes pontok számától függően (valójában ez a szám megduplázza a helyi leíró dimenzióját). Az ilyen ábrázolás ezért nem alkalmas a hagyományosan használt tanulási algoritmusok táplálására ( SVM , boosting stb.). Visszatéréshez egy rögzített méretű vektortér ábrázolásához olyan leírók összesítési technikáit alkalmazza, mint például a szavak zsákja ( a vistermek zsákja ). Egy ilyen felhalmozás eredménye tehát egy kép vagy egy képrész (régió) átfogó jellemzője.
2012-ben az ImageNet Large Scale Visual Recognition Challenge nemzetközi értékelési kampányt nyerték meg egy konvolúciós hálózat (CNN) megközelítéssel, amelyet a mély tanulás legújabb fejleményei révén tanultak meg . A teljesítmény javulása különösen markáns a korábbi évekhez képest. Röviddel ezután bebizonyosodik, hogy az ImageNet-en előre megtanult konvolúciós hálózat egy rétege használható a kép ábrázolásának vektoraként, a tanulás átviteli sémája szerint , és így még soha nem érhető el teljesítmény. képek a számítógépes látás területéről. Ettől az időponttól kezdve a területen végzett munka túlnyomó többsége ezért a konvolúciós hálózat segítségével a természetes képeken megtanult jellemzővektorokat használja, és a „kézzel kijelölt” jellemzők nagyon csekélyek lesznek, kivéve a nagyon specifikus alkalmazási területeket.
A fent ismertetett módszerekkel kinyert képek jellemzőit a számítógépes látás számos területén alkalmazzák.
Összefüggő jegyzetekkel képeket, ki tudják szolgálni a bemenetet egy felügyelt tanulási algoritmus a besorolás . Ez különösen fel lehet használni a tartalmuk és különösen a képen lévő tárgyak felderítésére . Ugyanebben az értelemben, de specifikusabb területeken, arcok vagy emberek észlelésére használhatók .
Képes aláírásként szolgálni, ezeket a leírásokat a tartalom szerinti képkeresésben is használják .
Általánosságban elmondható, hogy ezek olyan alapvető technológiák, amelyeket számos olyan területen alkalmaznak, ahol a számítógépes látás részt vesz: robotika , videomegfigyelés , gépi látás , optikai karakterfelismerés stb.