IETF nyelvazonosító címke

Az IETF nyelvazonosító címkék (ahol a betűszó az Internet Engineering Task Force-t jelöli ) egy szabványosított kódból származnak, amely lehetővé teszi a strukturált és hierarchikus címkék hozzárendelését, lehetővé téve a nyelvek vagy családok azonosítását, valamint a nyelvek gyűjteményeinek vagy ezek nyelvi változatainak azonosítását. nyelveket. Nem csak adatok és írott dokumentumok számára vannak fenntartva, hanem hangot, multimédiás tartalmat vagy bármilyen típusú lokalizációs adatot is címkézhetnek a nyelvtől és egyéb nyelvi jellegű paraméterektől függően.

Ezeket az IETF szabványos BCP 47 ajánlása határozza meg , amelyet rendszeresen frissítenek, és mindig hivatkozik a legfrissebb alkalmazandó normatív RFC-kre (és azok lehetséges korrekcióira és hibáira ), amely meghatározza normatív szintaxisukat, definíciójukat, érvényességüket és a szoftverekben való felhasználást (különösen a címkék közötti megfelelés és ekvivalencia megállapítása); ez az ajánlás jelenleg az RFC 5646-ból (az RFC 4646 utódja ) és az RFC 4647-ből áll.

Összetételükhöz felhasználható elemek nyilvántartásával társulnak; ezt a nyilvántartást az IANA tartja karban és üzemelteti (jelenleg az ICANN- nal integrálva ). Egyéb tájékoztató RFC-ket szintén közzétesznek a nyilvántartás jelentősebb frissítései során, de azokat nem frissítik teljes körűen, a nyilvántartás maga biztosítja az IETF nevében a benne lévő adatok fenntartását a házirend és a normatív RFC-kben meghatározott protokollok szerint.

Szintaxis

A teljes nyelvi címkét ( Language-Tag ) alkotja alcímkéi ( Subtag ), amelyek mindegyike 1-8 alfanumerikus karakter 0-9 vagy Z-ig (az ajánlott eset, hacsak másként nem jelezzük, kisbetűs, akkor is, ha nem szignifikáns) és elválasztva egyjelekkel (-). Az ABNF általános (egyszerűsített) szintaxisa a következőknek felel meg:

Language-Tag = Subtag *( "-" Subtag ) Subtag = 1*8alphanum

A teljes címkének azonban pontosabban meg kell felelnie az alább meghatározott formátumok egyikének (teljes lista), amely az első használt alcímke alapján felismerhető. A felépített nyelvek az alcímke segítségével lokálisan is kódolhatók x. Például art-x-panduniafelhasználható pandúniára .

Normál címkeformátum

A szabványos formátumú kódok sorrendben a következő alcímkék:

Alcímkék az alapnyelv jelölésére és megadására

A nyelv alcímke (általában vett az ISO 639 szabvány , de nyilván a IANA registry egy bejegyzést Language:a Type:Subtag)
kötelező, 2 vagy 3 betű (a 4 betűs alcímkéi fenntartva jövőbeli kiterjesztések az ISO szabvány 639), vagy 5 8 betű; ha több alcímke létezik ugyanazon nyelv számára (vagy ha egy alcímke elavulttá válik), akkor általában a rövidebbet használják, a többi szinonim álnév (de nem ajánlott).
- Megjegyzés: a nyelvi kódokat néha eltávolítják az ISO 639-ből. A nyelvi címkék stabilitása érdekében azonban a megfelelő nyelvű alcímkék érvényesek maradnak, de elavultak (a regisztráció megemlít egy bejegyzést Deprecated:); ezek a visszamenőleges kompatibilitás érdekében megőrzött alcímkék ezután opcionálisan egy másik nyelvű alcím szinonimái lehetnek, amelyeket az IANA nyilvántartásban Preferred:megemlítenek egy bejegyzéssel, amely megemlíti a használandó új ajánlott értéket, ha egyedi (különben ezeket az elavult alcímkéket el kell kerülni, értelmezésük kétértelmű).
Legfeljebb három nyelv kiterjesztése alcímkéi (felsorolva az IANA Registry egy bejegyzést Extlang:a Type:Subtag):
opcionális, a 3 betű minden. Ezek a kiterjesztések a nyelv alcímkéjére vonatkoznak (amely csak 2 vagy 3 betű lehet); Az ISO 639-3 szabványosítása óta ezek a nyelvi kiterjesztésű alcímkék már nem ajánlottak, és minden megengedett részcímke-készlet (alapnyelv plusz kiterjesztések) álnévvé vált egy másik szabványosított 639 ISO-nyelvi kóddal.

A használt írási rendszer precíziós alcímke

Legfeljebb egy írási alcímke (rendszerint ISO 15924 , de nyilván a IANA registry egy bejegyzést Script:a Type:Subtag):
választható, 4 betű (az ajánlott esetében betűk kisbetűs, kivéve az első nagybetű). Az összes lehetséges alcímke nem feltétlenül felel meg az írott nyelveknek vagy a megfejtett szkripteknek, és egyes alcímkék ugyanannak az írási rendszernek a szkriptcsaládok vagy grafikus változatai.

Nyelvi változatosság precíziós részcímkék

Legfeljebb egy földrajzi régió alcímke (általában származik ISO 3166-1 de korlátozott országkódok csak vagy az ENSZ M.49 szabványa nemzetközi régiók kivételével országok és a gazdasági régiókat, de nyilván a IANA registry egy bejegyzést Region:a Type:Subtag):
opcionális , 2 betűn (az ajánlott betűk nagybetűvel vannak) vagy 3 számjeggyel; ha egy országhoz vagy régióhoz egynél több alcímke létezik, akkor általában a rövidebbet használják, a többit szinonim álnévként definiálják (de nem ajánlott).
Lehetséges al-tag kódolni nyelvjárási vagy helyesírási változatok (specifikus egy vagy több nyelven, regisztrált a IANA registry egy bejegyzést Variant:származó Type:Subtagés a jelzést a nyelvet, amelyre a változat alkalmazandók Prefix:):
4-8 alfanumerikus legalább egy karakter (de legalább 5 karakter, ha az alcímke nem 0 és 9 közötti számmal kezdődik). Ezen alcímkék egy része, amelyet a nyelv és / vagy a régió alcímkék után használnak, elavultak, és a megfelelő halmazt (nyelv + földrajzi régió + változatok) egy másik szabványos nyelvi kód váltotta fel, a halmaz szinonim címkévé vált (nem ajánlott).

Bővítmény részcímkék

Lehetséges készlet al-címkék szabványosított kiterjesztések :
1 egyetlen betű (kivéve x) az első úgynevezett „egyke” sub-tag kódolására szabványosított kiterjesztés (nyilván a IANA egybeesnek egy bejegyzést Singleton:a Type:Subtag) és 2–8 alfanumerikus karakter az alábbi alcímkékben az értékek kódolásához, amelyeket a szabványosított kiterjesztés típusa szerint kell értelmezni; a szabványos kiterjesztéseket halmazokkal együtt automatikusan átrendezhetjük (lehetőleg a kiterjesztéstípusok növekvő sorrendjében), de csak egyszer kell megjelenniük (ha szükséges, több egymást követő részcímkét kódolnak ugyanabban a kiterjesztésben). A kezdeti szingulett utáni részcímkék betartják az egyes kiterjesztések típusainak szintaxisát és sorrendjét. Megjegyzések:
- Az ISO 639-3 szabványosítása óta a földrajzi részcímkék már nem ajánlottak az emberi nyelvek és a nyelvjárási fajták ábrázolásához (de továbbra is csak a nyelv helyének preferenciáinak kódolására használják);
- Az Unicode konzorcium lefoglalt egy szabványos kiterjesztést az egyetlen nyelvtől eltérő lokalizációs adatok hozzáadása céljából (különösen a CLDR projekt esetében, például válogatási megállapodás vagy dátumformátum vagy számok feltüntetése); az "u" kiterjesztés típusú alcímkét használja (a szabványosítás jelenlegi állapotában ezt a kiterjesztéstípust még nem szabad használni a Wikipédiában);
- A szabványos kiterjesztés másik típusát az Unicode konzorcium is fenntartotta a szövegátalakításra utaló adatok hozzáadása céljából (a CLDR projektnél is használják , például a beviteli mód korlátozása vagy az átírás eredeti írásának megemlítése és az alkalmazott módszer meghatározása); a t kiterjesztés típusú altagot használja.
A magáncélú felhasználás lehetséges kiterjesztése ( magáncélú felhasználás , nincs bejegyezve az IANA nyilvántartásba):
az állandó „x” alcímke, amelyet egy vagy több 1–8 alfanumerikus karakterből álló alcímke követ, és amelynek célja a nyelvjárási változatok és a nem szabványos írásmódok vagy más típusú, nem nyelvi jellegű helyadatok (az ilyen típusú magán kiterjesztéseket nem szabad használni a Wikipédiában).

Régi formátumú címkék az IANA nyilvántartásban

Az IANA nyilvántartásban használt régi formátumot használták olyan nyelvek kódolásához, amelyeket akkor nem említettek az ISO 639-ben. Ez a régi formátum a következő alcímkékből áll:

Az állandó „i” alcímke (az „IANA” nyilvántartáshoz);
Egy vagy több más al-tag mindegyike 1-8 alfanumerikus karakter (meg kell adni az IANA registry egy bejegyzést Language:a Type:Tag), a kódolásra együtt (és az említett sorrendben a registry) adott nyelvet.

Ezek a korábbi címkék továbbra is érvényesek, de a szabványos formátumú címkék szinonimáivá váltak (nem ajánlottak): az IANA nyilvántartásban korábban csak ilyen formátumú címkékkel képviselt nyelvek mostantól a maga a nyilvántartás (ezt a régi formátumot már nem szabad használni a Wikipédiában).

Saját felhasználású címke formátum

A magáncélú formátum ( magáncélú felhasználás , nincs regisztrálva az IANA nyilvántartásban) a következő alcímkékből áll:

Az "x" konstans alcímke (a "private eXtension" esetében);
Egy vagy több más alcímke, egyenként 1–8 alfanumerikus karakterből (amelyek nincsenek regisztrálva az IANA nyilvántartásban) a személyes adatok kódolásához (nem feltétlenül a nyelv azonosításához).

Ne feledje, hogy a szabványos formátum magában foglalja az összes magáncélú alcímkét is, amelyek nyelvek, nyelvcsaládok és gyűjtemények, írási rendszerek, stílusok vagy családok és földrajzi régiók számára vannak meghatározva (az ISO szabványoktól, ahol azonosítóként definiálták őket, mielőtt az IANA nyilvántartásba importálták volna őket) ), valamint kiterjesztésű alcímkék.

Ezt a formátumot a legtöbb internetes oldalon el kell kerülni a nyelvek azonosítása érdekében (ideértve a Wikipedia oldalakat is, eltekintve az olvasó számára láthatatlan és a használt szoftvertől független bizonyos belső felhasználásoktól), mert elismert előzetes megállapodás nélkül nem teszi lehetővé az interoperabilitást. mind az olvasó, mind a tartalom szerzője. Az ilyen címkék használata inkább más meghatározott felhasználásokra van fenntartva (és általában bizonyos belső feldolgozásra lokális), mint a nyelvek egyszerű azonosítása.

Egyéb fenntartott címkeformátumok

Bármely más címkét, amely nem felel meg a fenti formátumok egyikének, nem szabad használni (még akkor sem, ha megfelel az általános ABNF szintaxisnak), mivel ez a jövőbeli szabványok esetleges támogatására és azok frissítésbe történő integrálására van fenntartva. .

használat

Az IETF nyelvazonosító címkék lehetővé teszik az adott nyelv egy adott nyelvére vagy változatára való hivatkozást, az adatok nyelvi kategorizálását vagy speciális feldolgozás alkalmazását rájuk (legyen szó a tartalom osztályozásáról, végső megjelenítéséről vagy különféle átalakításokról).

Legismertebb felhasználása a számítástechnikában az IETF (például HTTP , elektronikus levél és annak MIME kiterjesztései ), a W3C (például HTML , XML , CSS ), az Unicode Konzorcium ( maga az Unicode szabvány ) protokollja és szabványa. - még normatív vagy informatív adatbázisaiban vagy a CLDR projektben is ), valamint e protokollok egyes regisztrátorai (ideértve a domain nevek nemzetközivé tételére szolgáló domain névregisztereket ), valamint az informatikai nyelvi szabványok (nevezetesen az ANSI és az Ecma International ).

Az ISO az IETF-től eltérő célkitűzésektől függetlenül kidolgozta az ISO 639 , az ISO 3166 és az ISO 15924 szabványokat (különösen a kodifikáció stabilitása szempontjából, mert ezeknek a szabványoknak más felhasználási lehetőségeik vannak, mint az Internet, és eredetileg nem frissítették, hogy biztosítsák a kompatibilitást a számítógép számára. alkalmazások); de a két szervezet most már együtt dolgozik az interoperabilitás biztosításán (az IANA regisztrációs bázisán keresztül a nyelvi címkék és a kölcsönös munka nyomon követése, az ISO szabványok regisztrátorai által kiadott hírlevelek, valamint az IETF által közzétett informatív RFC-k, még abban az esetben is normatívak) a BCP ajánlásának jelentős frissítéséről 47). Ezeket a (dátummal ellátott) ISO-szabványokat a nemzeti és nemzetközi állami szabványügyi testületek (például az ITU , az ENSZ különféle ügynökségei , az UPU ) gyakran használják bibliográfiai vagy jogi használatra (a lejárati dátummal együtt. Hivatkozás és a tartalom osztályozása).

Szinonim álnevek és preferált címkék

Ha az írás pontossága nem szükséges egy nyelv számára, mivel alapértelmezés szerint ez az előnyben részesített írási rendszer, az IANA nyilvántartás egy mezőt ad hozzá Suppress-Script:a nyelv alcímke rekordjához, amely megemlíti a szkript Alcímkéjét: ez álneveket hoz létre az összes címkéhez, amelyek mindkettőt jelzik. ezt a nyelvet és szkriptet (és a nyelv bármely regionális változatát vagy változatát) az előnyben részesített címkéhez a szkript részcímke megemlítése nélkül. Bizonyos regionális fajták alól azonban kivételek tehetők, ezeket a nyilvántartásba egy kiegészítő nyilvántartásba veszik Type:Tag, amely a nyelvet és a régiót egyaránt tartalmazó teljes címkével kapcsolatos.

A következő részben példaként említett szinonim álnevek nem teljesek: az egyes nyelvek álneveinek teljes halmaza levezethető az IANA nyilvántartás adataiból, amely megemlít minden elavult (de még mindig érvényes) címkét vagy alcímkét.) És adott esetben társítja őket egy előnyben részesített címkéhez vagy alcímkéhez ( Preferred:a címke rekordjába felvett mezővel vagy álnévként újradefiniált alcímkével).

Példák

fr: francia (modern), a priori latin ábécébe írva , mert ezt az írást alapértelmezés szerint az IANA lajstromban jelölik, annak bármely regionális vagy nemzetközi változatában (az "fr-Latn", "fra" és "álnevek is) fre ”, szinonimaként definiálva nem ajánlott). Megjegyzés: A Cajun francia és a legtöbb francia székhelyű kreol külön azonosítható.
fr-BE: belga francia , a priori latin ábécébe írva . Megjegyzés: A vallon külön azonosítható.
fr-CA: kanadai francia
fr-FR: A francia francia nyelv , a priori latin ábécében írva , bármelyik regionális változatában nincs külön szabványosítva. Megjegyzés: a Picard külön azonosítható.
be-cyrl: cirill ábécébe írt belorusz (vegye figyelembe, hogy a "be" itt "beloruszt" jelent, nem pedig "Belgiumot").
eo: latin ábécébe írt eszperantó (beleértve az ékezetes karaktereket is ).
ht: haiti kreol . Megjegyzés: ez a címke különbözik a "fr-HT" -től, amely a szokásos Haitin beszélt franciát jelöli, és nem a gyakoribb kreolt (gyakran nehéz megérteni egy olyan francia beszélő számára, aki nem Haiti-ban honos).
hy-arevela: Kelet-örmény, feltehetően az örmény ábécében írták .
ja: japán , eleve kanji szinogrammokkal és / vagy kana szótagokkal ( hiragana és / vagy katakana ) írva (szintén a "ja-Jpan" álnév, szinonimaként definiálva, mert ez a hármas írás alapértelmezés szerint az IANA nyilvántartásban szerepel).
ja-Hrkt: japán , kana szótagokkal írva ( kanji sinogramok nélkül ).
ja-Latn: japán , a latin ábécében átírva bármilyen romanizációs rendszerben.
ja-Latn-hepburn: japán , a hagyományos Hepburn-módszerrel átírva a latin ábécébe .
ja-Latn-hepburn-heploc: japán , a módosított Hepburn-módszerrel átírva a latin ábécébe . Az IANA azonban nem javasolja a használatát, és javasolja helyettük a ja-Latn-alalc97 alkalmazását.
ncs: nicaraguai jelnyelv (az "sgn-NI" álnév is, szinonimaként definiálva, elavult és nem ajánlott).
sr: szerb (írható latin ábécébe és / vagy cirill ábécébe , vagy akár más "szkriptekbe" is átírható, beleértve a Braille-cirill ábécét és a jelnyelv írásbeli részhalmazát, vagy szóbeli vagy fonetikus átírás formájában).
sr-Latn: szerb , latin ábécével írva .
sr-Latn-fonapi: szerb , latin ábécében írva , nemzetközi fonetikus átírással.
sr-Cyrl: szerb , cirill betűvel írva .
zh: kínai bármely régió vagy ország, a priori írt egyszerűsített sinograms ( „Hans”), mert ez az írás jelzi alapértelmezés szerint a IANA registry.
yue: kantoni kínai , eleve a hagyományos szinogrammokban írva , mert ezt az írást alapértelmezés szerint az IANA nyilvántartásban jelzik (a "zh-yue" alias is, szinonimaként definiálva nem ajánlott).
cmn: kínai mandarin (a "zh-cmn" és "zh-guoyu" álnevek is, nem szinonimákként definiálva).
zh-Latn: bármely régió vagy ország kínai , latin ábécébe átírva , bármilyen romanizációs rendszerben
zh-Latn-pinyin: kínai bármely régió vagy ország, átíródik a latin ábécé a pinyin betűs rendszer .
zh-Hant: bármely régió vagy ország kínai , hagyományos szinogramokkal írva .
cmn-Hant-TW: Tajvani mandarin kínai , hagyományos szinogrammal írva .

Megjegyzések és hivatkozások

Megjegyzések

Ezért a gyakorlatban gyökér , és a többi alcímke az utótagok helyét veszi át .

Hivatkozások

(a) " azonosítására alkalmas toldalékokat jelentenek nyelvek " Request for Comments n o 5646,2009. szeptember.
(a) " azonosítására alkalmas toldalékokat jelentenek nyelvek " Request for Comments n o 4646,2006. szeptember.
(in) " 2006 szeptemberében ," Request for Comments n o 4647.
(be) az IETF nyelvi címkék IANA komponensei .
(en) https://www.iana.org/assignments/lang-subtags-templates/hepburn .
(en) https://www.iana.org/assignments/lang-subtags-templates/heploc .
(en) https://www.ietf.org/assignments/lang-subtags-templates/heploc-20100209 .
(en) https://www.iana.org/assignments/language-subtag-registry/language-subtag-registry .
(en) http://www.alvestrand.no/pipermail/ietf-languages/2009-December/009822.html .

Lásd is

Kapcsolódó cikkek

Külső linkek

(en) BCP 47 nyelvi címkék
(en) RFC 5646 címkék a nyelvek azonosításához
(en) RFC 4647 A nyelvcímkék egyeztetése
fr) RFC 4646
(fr) RFC 4647
(fr) RFC 5646: Címkék a nyelvek azonosításához
(fr) RFC 4647: A nyelvi címkék egyezése
en) Nyelvcímkék HTML-ben és XML-ben
(en) http://www.langtag.net/
(in) Nyelvcímke-nyilvántartás frissítési munkacsoport