Automatikus nyelvfeldolgozás

Automatikus természetes nyelv feldolgozás
Alosztálya Mesterséges intelligencia , informatika , számítási nyelvészet , ipar , tudományos fegyelem
Tárgyak Lemmatization
Grammatikai címkézés
szintaxis elemzés
mondathatár pontosítás ( en )
gyökeresítés Lexikai
terminológia kinyerési
szemantika ( en )
gépi fordítás
elnevezés entitásfelismerés
automatikus szöveggenerálás
optikai karakterfelismerés
kérdés-válasz rendszerek
szövegbevonás ( en )
kapcsolat kivonatolás ( en )
vélemény Bányászat
szövegszegmentálás ( en) )
lexikai disambiguation
Automatikus szöveg összefoglaló
koreferencia
beszédanalízis
automatikus beszéd felismerés
beszéd szegmentáció ( en )
beszédszintetizátor
Szó beágyazó
decompounding ( d )

A természetes nyelv feldolgozása (Rep. NLP ), vagy a természetes nyelv automatikus feldolgozása , vagy a nyelv feldolgozása (Rep. TAL ) a nyelvet , a számítógépet és a mesterséges intelligenciát magában foglaló multidiszciplináris terület , amelynek célja a különböző alkalmazásokhoz használt természetes nyelvi feldolgozó eszközök létrehozása. Nem szabad összetéveszteni a számítási nyelvtudománnyal , amelynek célja a nyelvek megértése számítógépes eszközök segítségével.

A TALN kutató laboratóriumokból került ki, hogy fokozatosan megvalósítsák azokat a számítógépes alkalmazásokat, amelyek megkövetelik az emberi nyelv integrálását a gépbe. Tehát NLP nevezik nyelvi mérnöki . Franciaországban a Természetes Nyelvi Feldolgozás naplója az Automatikus nyelvfeldolgozás , amelyet az Automatikus Nyelvi Feldolgozás Egyesülete (ATALA) adott ki.

Történelem

1950-től 1960-ig

Az első munka a természetes nyelv feldolgozásában az 1950-es években kezdődött, főleg az Egyesült Államokban, ahol a hidegháborúhoz kapcsolódó politikai összefüggések kedvezőek voltak a gépi fordítás témájának fejlődéséhez .

Az első számítógépes alkalmazások a beszélgetések automatikus feldolgozásához kapcsolódtak. 1950-ben Alan Turing a mesterséges intelligencia alapító cikkében, „  Számítástechnika és intelligencia  ” bemutatott egy értékelési módszert, amelyet később „ Turing-tesztnek  ” vagy „Turing-kritériumnak” neveztek  . Ez a teszt a gép intelligenciájának mértékét méri, egy beszélgetési program azon képességén alapulva, hogy megszemélyesítse az embert: az írott üzenetek cseréje során az embernek meg kell határoznia, hogy beszélgetőpartnere gép-e vagy sem. Az alkalmazott alap azonban törékeny a mesterséges intelligencia értékelésére, mert az egyetlen felhasználó benyomása túl sok tényezőtől függ, amelyek a környezeti környezettel kapcsolatosan általában megállapíthatók.

1954-ben a Georgetown-IBM kísérlet , amelyet a Georgetown Egyetem és az IBM vállalat közösen hajtott végre , magában foglalta a politika, a jog, a matematika és a tudomány területeire vonatkozó, több mint hatvan romanizált orosz mondat angolra fordítását . A szerzők azt állítják, hogy három-öt éven belül a gépi fordítás már nem jelent problémát. Úgy tűnik azonban, hogy az orosz nyelvű szólásokat körültekintően választották, és hogy a tüntetéshez végrehajtott műveletek közül sok alkalmazkodott bizonyos szavakhoz és kifejezésekhez. Ezenkívül nincs relációs vagy szintaktikai elemzés a mondatok szerkezetének azonosítására. Az alkalmazott módszer lényegében lexikográfiai módszer, amely szótárra épül, ahol az adott szó meghatározott szabályokhoz és eljárásokhoz kapcsolódik.

A Turing által bevezetett fogalmak lehetővé tették Joseph Weizenbaum számára, hogy 1964 és 1966 között kifejlessze az első beszélgetési automatát, amely megtéveszti az embert természete szempontjából. A Roger-féle pszichoterapeutát szimulálva az ELIZA nevű automata, bár szinte semmilyen információt nem használ az emberi gondolkodásról vagy érzelmekről, néha sikerül meglepően hasonló interakciót létrehoznia. Tehát, amikor a „beteg” meghaladja a tudásbázis gyenge képességeit, az ELIZA általános választ adhat, például: „Miért mondod, hogy fáj a fejed? »Válaszként« fejfájásom van ».

Az 1960-as évek végén Terry Winograd , az MIT kutatója kifejlesztett egy SHRDLU (ejtsd: "chreudeul") nevű természetes nyelvi programot , amely lehetővé teszi felhasználójának, hogy számítógéppel társalogjon, hogy kezelje a "kockák építésének világát" ( a blokkok világát ). az első képernyők egyikén. Ez az első olyan program, amely képes megérteni és végrehajtani a komplex megrendeléseket természetes nyelven. De az egyetlen művelet, amelyet tehet, hogy kockákat vesz, mozgat, összegyűjti vagy szétszórja. Soha nem fogja tudni megérteni mindazt, amit az emberek fizikai tárgyakkal tehetnek.

A valódi fejlődés ezért kiábrándító. Az ALPAC  (in) 1966-os jelentés megjegyzi, hogy tízéves kutatási célokat nem sikerült elérni. A nyelvek rendkívüli bonyolultságának ez a tudata jelentősen csökkentette a kutatási munka ambícióit.

1970-es és 1980-as évek

Az 1970-es évek folyamán sok programozó elkezdett "fogalmi ontológiákat" írni, amelyek célja az információk számítógép által érthető adatokká történő strukturálása volt. Ez a helyzet MARGIE (Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978), TaleSpin (Meehan, 1976), SCRUPULE (Lehnert, 1977), Politika (Carbonell, 1979), Plot Units ( Lehnert 1981).

1990-2000

2000 óta

Ban ben 2018. január, a Microsoft és az Alibaba által kifejlesztett mesterséges intelligencia modellek egyenként megverték az embereket a Stanford Egyetem olvasási és szövegértési tesztjén . A természetes nyelvfeldolgozás utánozza a szavak és kifejezések emberi megértését, és most lehetővé teszi a gépi tanulási modellek számára, hogy nagy mennyiségű információt dolgozzanak fel, mielőtt pontos válaszokat adnának a feltett kérdésekre.

Ban ben 2018. november, A Google elindítja a BERT nyelvi modellt.

Ban ben 2020 május, OpenAI , a cég által alapított Elon Musk és Sam Altman , bejelenti a dob GPT-3 , a 175 milliárd paraméter nyelvi modell megjelent egy villát egy kereskedelmi API .

Statisztikai NLP

A természetes nyelv feldolgozásának statisztikai felhasználása sztochasztikus , valószínűségi vagy egyszerűen statisztikai módszerekre támaszkodik a fent tárgyalt nehézségek némelyikének megoldására, különösen azokra, amelyek azért merülnek fel, mert a nagyon hosszú mondatok nagyon kétértelműek, ha reális nyelvtanokkal dolgoznak fel, lehetővé téve ezrek vagy millió lehetséges elemzést. A tisztázási módszerek gyakran magukban foglalják a korpuszok és a formalizációs eszközök, például a Markov-modellek alkalmazását . A statisztikai NLP magában foglalja az automatizált nyelvi feldolgozás összes kvantitatív megközelítését, beleértve a modellezést, az információelméletet és a lineáris algebrát . A statisztikai NLP technológiája elsősorban a gépi tanulásból és az adatbányászatból származik , amely magában foglalja a mesterséges intelligenciából származó adatokból való tanulást .

Kutatási területek és alkalmazások

Az automatikus természetes nyelv feldolgozásának területe számos olyan tudományterületet ölel fel, amelyek olyan sokféle képességet tudnak alkalmazni, mint az alkalmazott matematika vagy a jelfeldolgozás.

Szintaxis

Szemantika

Jelfeldolgozás (beszéd és írás)

Információszerzés

Bibliometrikus adatok

A bibliometria a természetes nyelv feldolgozásával foglalkozó tudományos publikációk használata.

Az automatikus természetes nyelv feldolgozásának bibliometriai vizsgálata

Az első nagyobb tanulmányt 2013-ban , a Számítástechnikai Nyelvészeti Szövetség (ACL) évfordulója alkalmából készítették , a műhelytalálkozó 50 év felfedezésének újrafelfedezése a természetes nyelv feldolgozásában . Felfedezések a természetes nyelv feldolgozásában címmel.

Ugyanebben az évben a Natural language processing for natural language processing (NLP4NLP) művelet zajlott le, amelynek középpontjában az automatikus természetes nyelv-feldolgozó eszközök alkalmazása állt az automatikus természetes nyelv-feldolgozás archívumaiban az 1960-as évektől napjainkig. Arról volt szó, hogy automatikusan meghatározzuk, kik voltak a jelenleg használt szakkifejezések kitalálói.

Egy másik tanulmányi terület meghatározza azokat a vágásokat és beillesztéseket, amelyeket a természetes nyelv feldolgozásával foglalkozó kutatók tudományos cikk megírásakor végeznek.

Az NLP4NLP munkájának teljes szintézise 2019-ben jelent meg a Frontiers in Research Metrics és az Analytics folyóirat kettős számaként, annak érdekében, hogy mennyiségi szempontból leírják több szempontot, például a nők arányát (a férfiakhoz képest), a társszerzők számát, a a tantárgyak alakulása  stb. .

Lásd is

Bibliográfia

  • en) Dan Jurafsky, Beszéd és nyelvfeldolgozás , Stanford, Pearson (kiadó) ,2008, 320  p. ( ISBN  9780131873216 )

Kapcsolódó cikkek

Külső linkek

  • ATALA Egyesület az Automatikus Nyelvi Feldolgozásért
  • Technolangue , nyelvtechnikai portál

Hivatkozások

  1. Lásd például: Ludovic Tanguy, "A természetes nyelv és az értelmezés automatikus feldolgozása: Hozzájárulás az értelmező szemantika számítógépes modelljének kialakításához" , Számítástechnika és nyelv , Rennes-i Egyetem, 1997, 1997.
  2. Eugene Charniak, Bevezetés a mesterséges intelligenciába , Addison-Wesley, 1984, p. 2.
  3. A nyelvtechnika meghatározása az evariste.org oldalon (1996): „A nyelvtechnika a számítástechnika és a nyelvészet metszéspontjában álló módszerek és technikák összessége. Célja az összes (gyakran a legfejlettebb) számítógépes technika megvalósítása olyan alkalmazások fejlesztése érdekében, amelyek a természetes nyelv többé-kevésbé széleskörű megértését jelentik. "
  4. Marc-Emmanuel Perrin, A gépek előrehaladtak a természetes nyelv elsajátításában , a francia és amerikai nagykövetség tudományos és technológiai missziója, 2017. szeptember 22.
  5. „Turing-kritérium” rovat, Számítástechnika és az Internet szótára 2001 , Micro Application, 2000, p. 232.
  6. (in) John Hutchins, Az első koncepciótól az első bemutatóig: a gépi fordítás születő évei, 1947-1954. Időrend, a gépi fordításban , 12, pp. 195-252.
  7. (in) Erwin Reifler, A nyelvi problémák MT megoldása lexikográfiával, in Proceedings of the National Symposium on Machine Translation , Machine Translation, 12, 1960. február 2-5., Pp. 195-252.
  8. Marc-Emmanuel Perrin, op. cit. .
  9. Serge Boisse, Etaoin Shrdlu , a Journal d'un terrien folyóiratban , keltezés nélkül.
  10. Villard Masako ( szerk. ), „  Gépi fordítás és kognitív kutatás  ”, Histoire Épistémologie Langage (Nyelvtudományok és kognitív kutatások) , vol.  Volume 11, n o  1. füzet,1989, P.  55–84 ( DOI  10.3406 / hel.1989.2290 , www.persee.fr/doc/hel_0750-8069_1989_num_11_1_2290)
  11. „Az  Alibaba AI Outguns Humans in Reading Testje  ”, Bloomberg.com ,2018. január 15( online olvasás , konzultáció 2018. január 16-án ).
  12. Toutanova, Kristina, „  BERT: A mély kétirányú transzformátorok előképzése a nyelv megértéséhez  ” , az arXiv.org oldalon ,2018. október 11(megtekintés : 2020. július 31. ) .
  13. (in) Will Douglas Heaven "  OpenAI új nyelvet generátor GPT-3 megdöbbentően jó esztelen és teljesen Hívás  " , MIT Technology Review ,2020. július 20( online olvasás ).
  14. Christopher D. Manning, Hinrich Schütze, A statisztikai természetes nyelvfeldolgozás alapjai , MIT Press (1999), ( ISBN  978-0-262-13360-9 ) , p.  xxxi .
  15. (in) Radev Dragomir R Muthukrishnan Pradeep, Qazvinian Vahed, Jbara Abu Amjad, The ACL Anthology Corpus Network, Language Resources and Evaluation , 47, 2013, Springer, pp. 919–944.
  16. (in) Gil Francopoulo Joseph Mariani és Patrick Paroubek, "  A cipész Gyermekek nem megy mezítláb marad  " a D-Lib Magazine ,2015. november (konzultált a 2016. június 12).
  17. (in) Joseph Mariani Patrick Paroubek , Gil Francopoulo és Olivier Hamon , "A  nyelvforrások és az értékelés 15 + 2 éves felfedezésének újrafelfedezése  " , Nyelvi források és értékelés , 1. évf.  50,1 st április 2016, P.  165–220 ( ISSN  1574-020X és 1574-0218 , DOI  10.1007 / s10579-016-9352-9 , online olvasás , hozzáférés : 2016. június 12. ).
  18. (in) Gil Francopoulo Joseph Mariani és Patrick Paroubek, "A tanulmány az újrafelhasználás és plágium LREC papírok" a Nicoletta Calzolari, Khalid Choukri, Thierry Declerck, Marko Grobelnik Bente Maegaard Joseph Mariani, Asuncion Moreno, Jan Odijk és Stelios Piperidis, Proceedings a nyelvi erőforrásokról és az értékelésről szóló tizedik nemzetközi konferencia (LREC 2016) , Portorož (Szlovénia), Európai Nyelvi Források Szövetsége (ELRA),2016( ISBN  978-2-9517408-9-1 , online olvasás ).
  19. (in) Joseph Mariani , Gil Francopoulo és Patrick Paroubek , "  A Corpus NLP4NLP (I): 50 éves együttműködés és közzététele Citation Beszéd és nyelvi feldolgozás  " , Frontiers in Research metrikák és Analytics ,2019( online olvasás )
  20. (in) Joseph Mariani , Gil Francopoulo Patrick Paroubek és Frederic Vernier , "  A Corpus NLP4NLP (II): 50 éves kutatás a beszéd és a nyelv feldolgozásában  " , a kutatási mérőszámok és az elemzések határai ,2019( online olvasás ).