Az automatikus beszédfelismerés (amelyet gyakran helytelenül hívnak hangfelismerésnek ) egy technikai számítógép, amely elemzi a mikrofon által elfogott emberi hangot, hogy átírja azt a gépek által olvasható szöveg formájában .
Beszédfelismerés, valamint beszéd szintézis , beszélő azonosítás vagy a hangszóró ellenőrzés, néhány a beszéd feldolgozása technikákat . Ezek a technikák lehetővé teszik különösen, hogy az ember-gép interfész (HMI) végzik, ahol a kölcsönhatás zajlik a hang: „ hang interfészek ”.
A sok alkalmazás közül megemlíthetjük a hangdiktációs alkalmazásokat egy számítógépen, ahol a nehézség a szókincs méretében és a mondatok hosszában rejlik, de az interaktív hangszerver típusú telefonos alkalmazásokban is , ahol a nehézség inkább a szükségletben rejlik. - bármilyen hang felismerése változó és gyakran zajos akusztikai körülmények között (mobiltelefonok nyilvános helyeken).
A Beszéd és az ember-gép párbeszédben W. Minker és S. Bennacef kifejtette, hogy az automatikus beszédfelismerés összetett terület, mivel fontos különbség van a hivatalos nyelv , amelyet a gépek megértenek és használnak, valamint a természetes nyelv között , amelyet az emberek használnak . A hivatalos nyelvet szigorú és egyértelmű szintaktikai szabályok strukturálják . Ezzel szemben a természetes nyelvben a szavaknak vagy mondatoknak több jelentése lehet , például a beszélő intonációjától vagy a kontextustól függően .
Beszédfelismerés köthető számos területen a tudomány: az automatikus nyelvi feldolgozás , nyelvészet , az információ -elmélet , jelfeldolgozó , a neurális hálózatok , a mesterséges intelligencia , stb
A beszédfelismerés munkája a XX . Század elejétől . Az első beszédfelismerésnek tekinthető rendszer 1952-ből származik.
Ez a Davis, Biddulph és Balashek által a Bell Labs laboratóriumokban kifejlesztett elektronikus rendszer lényegében relékből állt, és teljesítménye az egyjegyűek felismerésére korlátozódott (lásd a hivatkozást). Kutatási akkor jelentősen növekedett az 1970-es munkájával Jelinek az IBM (1972-1993). A Threshold Technologies vállalat 1972- ben hozta először piacra a 32 szó befogadására alkalmas elismerési rendszert, a VIP100-at . Manapság a beszédfelismerés gyorsan növekvő terület a fedélzeti rendszerek rohamának köszönhetően . Gyors fejlődés:
Rögzített és digitalizált mondatot kap az automatikus beszédfelismerő (RAP) program. A RAP formalizmusban ( angolul ASR ) a funkcionális bontás a következő:
A dokumentumok gyártása egy GDD rendszerben hangfelvételből indul ( digitális diktálás ). Ez a hang rögzítésének és helyreállításának kérdése digitális adathordozón. A felvétel különböző rögzítési csatornákon keresztül történhet: mikrofonokon , diktafonokon , okostelefonokon ...
A titkársági beírás vagy ellenőrzés céljából történő visszaszolgáltatás hangszórókkal vagy fejhallgatóval történik .
Egy ilyen rendszer három fő modellen alapul:
E három modell kombinációja lehetővé teszi bármely megfigyelt beszédjelet adó szekvencia valószínűségének kiszámítását. A beszédfelismerés abból áll, hogy megtalálja a legnagyobb valószínűségű szavak sorozatát. Formálisan a probléma megoldása olyan szavak eredménye, amelyek maximalizálják a következő matematikai kifejezést .
Ezeknek a modelleknek az alkalmazáshoz történő kalibrálásához nagy mennyiségű megjegyzéssel ellátott korpusz szükséges. A korpusznak meg kell felelnie a megcélzott rendszer használatának feltételeinek.
A beszédfelismerő rendszerek több tengely mentén osztályozhatók:
A szókincs mérete és a nyelvi modell összetettsége közvetlenül kapcsolódik a nyelvhez és a feldolgozandó adatok jellegéhez, a hangutasítások néhány tucatjától a néhány százezer szóig olyan nyelvre, mint például francia vagy Német.
A beszédfelismerő motor nyers teljesítményét gyakran a szavak hibaarányában ( szó hibaarány ) mérik . Ezzel szemben értékelhetjük a sikerességi arányt. Ez az arány nagymértékben változik az átírandó adatok jellegétől, a hangszórótól és az akusztikai körülményektől függően. Kevéssé függ a nyelvtől. Itt van a formális meghatározása:
vagy:
Íme néhány átlagos eredmény a hibaarányra vonatkozóan:
A beszédfelismerés kiváltott Az első kör által szovjet disszidens író Alexander Szolzsenyicin , mint eszköz a elnyomás szolgálatában Sztálin .
A beszédfelismerést egy detektívregény is megemlíti:
- Semmi köze a régi jó, odahaza tett jelentéseinkhez, amelyeket hűvös ujjal a számítógépen döfött egy barát, aki sokáig habozott a zsaru és a gazda karrierje között. A jenkikben ön beszél, és nyilvántartásba veszi, tisztán és rendben, törlés, ismétlés vagy a feltételek helytelensége nélkül. Bármilyen gazember, miután megtanult olvasni egy játékgépen, vallomásokkal gyújtja meg Önt, amelyhez képest az évszázad gyermekének vallomása átadja a Romansh-ból lefordított rovarölő por használati utasítását.
Ennek a dolognak a pilotjához nem kellett elhagyni Princetont. A kezelőnek csak az volt a dolga, hogy meglehetősen bozontosán kívül megismételje a rosszul kiejtett szót, és a készülék mégis egy csomó szinonimát javasolt a mondat értelmével összhangban. A gép működését látva arra gondoltam, hogy minden kollégám remeg a fejdísztől, akinek prózáját érthetővé teszi. "
- Frédéric Dard más néven San Antonio , Homok vazelinben
Van említés a beszédfelismerés, mint az egyetlen felület között Ember és gép a trilógia a próféciák a Pierre BORDAGE . Valójában ebben a trilógiában egy szuperszámítógépet , a DNS PC-t mutatnak be .
A modern beszédfelismerő rendszerek olyan nyelvi modelleket használnak, amelyek gigabájt memóriát igényelhetnek , ami gyakorlatilag nem praktikus, főleg mobileszközökön. Emiatt a legtöbb modern beszédfelismerő rendszer valóban távoli szervereken van tárolva, és internetkapcsolatra van szükségük, és hangtartalmat kell továbbítaniuk a hálózaton keresztül.
A Mozilla közösségi projektet, a Common Voice-ot indított el, amelynek célja a hangminták gyűjtése egy ingyenes adatbázisban, a nem saját beszédfelismerő motorok képzése érdekében.