Adatformátum

A számítástechnika , a adatformátum az az út, amelyet egy adott típusú adatot képvisel (kódolt) , egy sor bit . A kényelem kedvéért ezt a bitek sorozatát bináris számként értelmezzük , és rövidítéssel azt mondjuk, hogy az adatok számként vannak ábrázolva. Például a C karaktert általában olyan szekvenciaként kódolják, amelynek 3 bitje van aktiválva, ami 0100 0011 vagy 67 tizedesjegyig van írva .

Az adatformátum tehát egy (esetleg szabványosított ) eljárás, amelyet az adatok - szöveg, oldal, kép , hang , futtatható fájl stb. - ábrázolására használnak . Ez egy sablon, ahol az adatokat bizonyos helyeken helyezik el, így az a formátumot olvasó eszköz ott találja meg az adatokat, ahol várta. Amikor ez az adatok tárolása egy fájlt , úgy nevezik, mint egy fájl formátum . Egy ilyen megállapodás lehetővé teszi az adatok cseréjét különféle számítógépes programok vagy szoftverek között , akár közvetlen kapcsolattal, akár fájl segítségével. Ez cseréjének lehetőségét adatok a különböző szoftver hívják átjárhatóság .

Tipológia

Megkülönböztetünk egy nyílt formátumot , amelynek specifikációja nyilvánosan hozzáférhető, és egy zárt (vagy átlátszatlan) formátumot, amelynek specifikációja titkos. A zárt formátum általában egyetlen szoftvernek felel meg, amely képes annak teljes kihasználására.

Egy másik különbséget tesznek egy szabványosított formátum között, amelyet állami vagy nemzetközi intézmény ( ISO , W3C ) szabványosít , és bármilyen formátumot, amely népszerűsége miatt szabványossá válhat . Ezt a formátumot néha később OpenDocument néven szabványosítják .

A formátum akkor minősül saját tulajdonúnak, ha azt egy cég fejlesztette ki, elsősorban kereskedelmi célokra. A saját formátum megnyitható ( például PDF formátum az Adobe-ba ), ha közzéteszik, vagy bezárható ( például a Microsoft formátumú Doc formátum ). De még akkor is, ha a specifikációkat nyilvánosságra hozzák, a szabadalmi formátumokból származó vállalatok megpróbálják fenntartani az irányítást vagy rendszeresen új, bonyolultabb verziók javaslatával (vezérlés a technológiai fejlődés fenntartásával), vagy olyan eszközökkel, amelyek legálisak, például szabadalmak. Ez a fajta versenyellenes gyakorlat jogi eszközök révén megengedett az Egyesült Államokban. Európában ellentmondásos (lásd: A szoftver szabadalmazhatósága ).

Számformátumok

Egész számok

A természetes egész szám általában egyszerűen bináris formában jelenik meg (a 2. alapban), a klasszikus konverziós szabály szerint. A természetes egészekkel ellentétben a számítógépes egészek végesek. Ezért csak ilyen módon lehet ábrázolni a rendelkezésre álló bitek számával meghatározott intervallumhoz tartozó számokat. Ha relatív egész számot akarunk képviselni , akkor fenntartunk egy kicsit a jel kijelölésére (általában a legkésőbb a bal oldalon található bit); ezt akkor „aláírt egész számnak” nevezzük. Legtöbbször a negatív számokat kódolják a kettő komplementer szabályával .

Például egy bájttal képviselhetjük:

Ne feledje, hogy két ilyen módon kódolt relatív egész szám összehasonlításához elegendő egy exkluzív VAGY végrehajtása a teszt előtt (binárisan 10 000 000).

Más típusokat is használnak egész számok ábrázolására, ez a kiterjesztett formátumú BCD kódolás (egy számjegy egy bájton), vagy tömörítés (egy számjegy 4 biten). Bár ezek a formátumok kevésbé hatékonyak a számításokhoz, mint a fent leírt bináris rendszer, mivel további utasításokra van szükségük az elvégzett aritmetikai műveletek eredményének újraformázásához, mégis sok rendszerben ( központi számítógép , DBMS stb.) Használják és kezelik őket. a processzorokat, mert nem korlátozza őket a processzor által bináris aritmetikához használt bitek száma (8 bit, 16 bit, 32 bit, 64 bit stb.), és megtartják az egység pontosságát, ellentétben a lebegőpontos számokkal .

Törvényszámok

A törtet számlálóval és nevezővel írják, tehát két egész számot. Ez azonban csak formális számításban használható.

Vesszőszámok

A számításhoz előnyben részesítjük a második vagy tízes alapú számítógépes egész számokat , amelyekben vessző lép közbe, változó (deci-mikro-nano-pico) vagy fix (frank-centimes) helyzetben.

Vegyes számok esetében a számozási szokás az, hogy az n bázisban "0, a  " a × 1 / n-t (= a × n -1 ), a "0,0 a  " a × 1 / n 2-t (= a × n - 2 )… Például a 10. bázisban ( n = 10) a „0,005” 5 × 10−3- at jelöl .

Így a 0,001 bináris szám ( n = 2) 1 × 2 −3 = 0,125-et jelöl .

Tehát a számítástechnikában az első megoldás abban áll, hogy bizonyos számú bitet rendel a jobb oldalon a 2 negatív teljesítményéhez.

Egy másik megoldás a BCD kódolás használata, mint egész számoknál, figyelembe véve a tizedespont rögzített helyzetben való elhelyezkedését, például egy 10 jegyű kódolásnál az első nyolc számjegy az egész részt, az utóbbi kettő a tizedes részt tartalmazza. Ez a pozícionálás teljesen önkényes, és a programozónak kezelnie kell a kijelzők vagy számítások érdekében, különösen szorzások esetén, vagy ha két számot nem definiálnak ugyanannyi számjeggyel a tizedespont után. A DBMS-ben általában ezt az adattípust használják a DECIMAL típushoz.

Szöveges formátumok

A szövegeket kialakítva karakter véges számok ( betűk , ékezetek , írásjelek ...), legalábbis az európai ábécét. Ha egyszerű lenne számot rendelni az egyes karakterekhez az összes regionális kontextusban, akkor ezt a {karakter → szám} konverziót egyezmény szerint definiálnánk táblázat vagy kódlap formájában . A gyakorlatban interoperabilitási okokból kifinomultabb kódolási rendszereket alkalmaznak . A legszélesebb körben az angol ASCII regionális kódlap , annak más országokból származó változatai és kiterjesztései, valamint az Unicode .

A szövegek tartalmazzák az elrendezést (a bekezdések igazítását) és a formázását (a betűtípus típusa , mérete stb.) Is . Az általánosan elfogadott megoldás a parancsszavak, utasítások definiálásából áll, amelyeket egy speciális karakter választ el a szövegtől. Tehát a HTML- ben az utasításokat "címkéknek" hívják, és szögletes zárójelbe vannak foglalva <…> ; a LaTeX- ben az utasításokat egy fordított frakciósáv vezeti be \. Ennek eredményeként néhány karakter az utasítások számára van fenntartva, és már nem lehetnek a szöveg részei; akkor vannak "menekülési kódok", vagy speciális utasítások azok képviseletére.

2006- ig a Microsoft Word szoftver megtartotta a formázás tárolásának egy másik módját: az adatokat (szövegeket és képeket) nyersen (formázás nélkül) helyezik a dokumentumba, és a formázást a dokumentum " szakaszszakasz" nevű részében határozzák meg . A szakasz törés, eltekintve az elrendezés változásának jelölésétől (oszlop törés, oldal törés), egy láthatatlan terület, amely mutatókat tartalmaz, amelyek a szakasz egy részéhez formázást rendelnek. Ezt a nyers adattárolási megoldást történelmileg akkor alkalmazták, amikor kevés más megoldás létezett (1980-as évek eleje). Ez egy olyan megközelítés volt, amelyet sok alkalmazásban gyakran alkalmaztak, és amely többek között az alacsony szintű tárolási előírásokhoz kapcsolódott. A tapasztalatok azonban azt mutatják, hogy ez a megközelítés nagyon nehézkes és problémákat okoz (a dokumentumok korrupciója) a körülbelül 100 oldalas és annál több dokumentumok esetében. Ha a Microsoft megpróbálta megtartani modelljét és apránként fejlődni, hogy ne vigyen vissza mindent az alapra, akkor elérte a határait. A Microsoft 2007-es kiadásához új, saját formátumot, az Open XML-t fogadott el.

Képformátumok

A képek ábrázolásának alapja az analitikai geometria .

Pontkártya formátum

Lehetőség van egy kép elemi pontokra vagy „ pixelekre  ” vágására  , és ehhez a pixelhez színt rendelhetünk. A színt egy szám képviseli, a szín → szám-megfeleltetést "paletta" adja.

Hiába adjuk meg a pontok koordinátáit: ha a kép szélességét n pontszámban adjuk meg , akkor az első n pont az első vonalat, az n +1 - 2 n pont a második vonalat jelenti ... Ezután elegendő a szkennelési sorrendet egyezmény szerint rögzíteni, ebben az esetben a nyugati olvasási sorrendet (balról jobbra és felülről lefelé).

Ennek eredményeként egy ponttérkép formátumú képet kapunk, amelyet gyakran bitkép képnek is neveznek . Ezért olyan ponyvákról van szó, amelyek mindegyikéhez színes érték tartozik. A meglévő formátumok közötti nagy különbség a színmélység (1 bit: fekete vagy fehér, 8 bit: 256 szín, 24 bit: 16 millió szín…) és a tömörítés típusa (tömörítés nélkül vagy nyers , minták szerinti tömörítés, romboló tömörítéssel ...)

Vegyünk például egy fekete-fehér térképet (1 az alak színéhez, 0 vagy · a háttér színéhez), amely öt pont szélességű képet határoz meg a következő számsorozattal:

1000101010001000101010001

Ezt a térképet 5 bites csoportokra kell felosztani:

1· ▓░ █· ⟵ Symboles de notation pour l'explication un tramé plein ⟵ Notation du 1 point tramé point ⟵ Notation du 0 · 1···1 ▓░░░▓ █···█ ·1·1· ░▓░▓░ ·█·█· ··1·· ░░▓░░ ··█·· ·1·1· ░▓░▓░ ·█·█· 1···1 ▓░░░▓ █···█

amely "alak színű" "X" rajzot ad nekünk "háttérszín" háttérre. Itt azonban egyetlen bit sem jelzi a színt, így a megjelenítés színe az alkalmazott technológiától és annak konfigurációjától függ.

Az adatok formátum tartalmaznia kell az, amellett, hogy a pontok listája, a szélessége a képet és a leírást a paletta; ez általában a fájl elején történik (a "fejlécről" beszélünk).

Néhány híres raszteres képformátum: Portable Network Graphics , JPG , BitMaP , Portable pixmap .

Vektoros formátum

A vektoros formátumú kép olyan kép, amelyet matematikai koordináták halmaza ír le, nem pedig ponyva. Például :

Ezenkívül szükséges az útvonalra vonatkozó információ: a grafikus attribútumok a vastagság, a stílus (folytonos vagy pontozott), a vonal színe, átlátszósága stb.

A vektorkép tehát olyan koordináták, attribútumok és parancsok összessége, amelyek értelmezéséért a megjelenítő program (képernyőn vagy papíron) felelős.

Könnyen geometriai alakzatokká redukálható képek (tipográfia, kartográfia stb.) Esetében a vektoros formátum rendkívül gazdaságos.

A vektoros formátumok sajátossága, hogy végső megjelenítésük csak a kimeneti eszköz felbontásától függ. Ez a képtípus zavaró hatások nélkül is nagyítható; nincs „raszterizációs” hatás (az átlós vagy ívelt vonalak nem lépcsőként jelennek meg).

Néhány híres vektoros formátum: VML , SVG , Adobe PDF (Acrobat), Adobe Illustrator , beágyazott utóirat EPS , Quark QXD , Silverlight és Macromedia Flash (vektoros animációs formátumok), AutoCAD DXF .

Színábrázolás

Videoformátumok

3D jelenet formátumok

A 3D modellező szoftver által létrehozott virtuális objektumok ábrázolásához speciális adatformátumra van szükség, mert a korábbi formátumok nem megfelelőek. Valójában egy 3D-s objektum megjelenítéséhez legalább egy leírásra van szükség:

A jelenet ábrázolásához meg kell adni az alkalmazott világítást, az objektumok relatív helyzetét, a környezeti hatásokat is, de mindenekelőtt annak hierarchikus felépítését (az elemek közötti kapcsolatokat).

Az első de facto szabványos formátumok a CAD-hez igazított formátumok voltak: az objektumot szempontok vagy analitikai felületek segítségével definiálták. Elég meghatározni eredetét, majd az elemek jellemző koordinátáit a 3-dimenziós térben. Például az Autocad DXF formátumában az objektum elnevezett entitások sorozata, amely az X, Y, Z pontok listájából áll. Indexeléssel háromszögek vagy vonalak jönnek létre, amelyek ezeken a pontokon alapulnak.

Ha ez a formátum elegendő volt a műszaki rajzhoz, akkor teljesen alkalmatlan volt a virtuális valóságra. Az 1990-es években a Silicon Graphics (3D grafikus munkaállomások gyártója) cég közzétette az Inventor formátumot, amely a legtöbb szükséges elemet tartalmazta. Ez a formátum a szabványosított VRML formátumra fejlődött .

Ezen felül a 3D Studio ASCII formátum is megjelent, de a 3D-s piac robbanása számos saját formátumot hozott létre. A felhasználó számára a probléma gyakran az volt, hogy a modellt egyik formátumból a másikba konvertálták anélkül, hogy túl sok információt veszítettek volna. Néhány vállalat még az ilyen típusú átalakításra is szakosodott.

Jelenleg a szakmai világban nincs egyetlen formátum, inkább az alkalmazás típusától függően többé-kevésbé használt formátumok. Például :

A legtöbb 3D-modellező azonban többé-kevésbé képes elolvasni (importálni) és létrehozni (exportálni) több formátumot: ez fontos választási kritérium. A leggyakoribb formátumok közül megemlíthetjük:

A jelenlegi tendencia egy leíró XML típusú formátum előnyben részesítése . A 3D-s adatok méret ezután úgynevezett leíró nyelv, mint X3D (alakulását VRML XML formázása).

Az ingyenes COLLADA formátum lehetővé teszi az adatok cseréjét a különböző szoftverek között. Különösen van a Blender importőre / exportőre .

Hangformátumok

A hangformátumokat három részre bontják:

(Lásd a Klasszikus formátumok fejezetet )

Adattömörítés

Az adattömörítés a technika átalakítja adatok úgy, hogy kevesebb helyet foglal. Mivel adatot kell kitömörítést feldolgozás előtt, ez a rovására megy a sebesség, és a nagyobb kockázatot a adatok elvesztését .

Az alapgondolat az, hogy általában az elemek megismétlődnek a fájlokban. Ezért előnyös azokat az elemeket ábrázolni, amelyek gyakran ismétlődnek kisebb számokkal (vagyis kevesebb bitet vesznek fel).

Kétféle tömörítést különböztethetünk meg:

Klasszikus formátumok

Fájlformátumok
Kategória Formátumok
Képek PNG , MNG , TIFF , JPEG , GIF , TGA , OpenEXR , BMP , FITS
Vektoros rajz VML , SVG , Silverlight , SWF , AI , EPS , DXF
3d XCF , KEVERÉK , SKP, (SKB) , DXF , 3DS Max , C4D , VRML , X3D , IFC , DWG
Övé OGG , FLAC , MP3 , WAV , WMA , AAC
Videó MPEG , OGM ( DVD , DivX , XviD ), AVI , Theora , FLV
Oldal PDF , PostScript , HTML , XHTML , XML , PHP
Szövegszerkesztő dokumentum ODT , TXT , DOC , RTF
Végrehajtható BIN , ELF , EXE , SDC , BAT
Archívumok (általában tömörített fájlok) 7Z , TAR , GZIP , ZIP , LZW , ARJ , RAR , SDC
Képregények archívumai
(az alapjául szolgáló archív formátumokkal megegyező formátumok:
csak a fájlkiterjesztés különbözik)
CB7 (.cb7), 7z alapú
CBA (.cba), ACE alapú
CBR (.cbr), RAR alapú
CBT (.cbt), TAR alapú
CBZ (.cbz), ZIP alapú

Adatformátumok és adatvédelem

Amikor egy fájlt másoknak továbbítanak, egyes fájlformátumok informatikai kockázatot jelenthetnek a fájlkészítő magánéletére nézve . Valóban vannak olyanok, amelyek adatformátumukban olyan személyes információkat tartalmaznak, mint a számítógép és a felhasználó neve.

Ez leggyakrabban irodai szoftverek használatakor történik . Ezen szoftverek esetében nem csak annak a neve mentésre kerül, aki létrehozta a fájlt, hanem annak is, aki utólag módosította.

Ritkábban a HTML fájlok néha személyes adatokat is tartalmaznak, különösen akkor, ha irodai szoftverekből exportálják őket (például: Microsoft Word). Ezt azonban könnyű ellenőrizni a HTML-kód megtekintésével.

Példák "rejtett információkat" tartalmazó adatformátumra

A Microsoft információkat nyújt a fájlokban elrejtett személyes adatok eltávolításához :

Megjegyzések és hivatkozások

  1. Viviane Boulétreau és Benoît Habert , "  Les format  " , a http://www.parcoursnumeriques-pum.ca oldalon ,2014. március 15(megtekintve : 2020. október 21. )
  2. Viviane Boulétreau és Benoît Habert, „A formátumok” , Michaël E. Sinatra és Marcello Vitali-Rosati, A digitális kiadványok gyakorlata , PUM,2014, 219  p. ( ISBN  978-2-7606-3202-8 )
  3. (in) Donna Baker, Mi van még a dokumentum?  ” , AcrobatUsers.com, 2011. július 20.
  4. http://office.microsoft.com/en-us/help/remove-hidden-data-and-personal-information-from-office-documents-HA010037593.aspx .
  5. http://office.microsoft.com/en-us/starter-help/remove-hidden-data-and-personal-information-by-inspecting-workbooks-HA010354331.aspx .
  6. (fr) http://office.microsoft.com/fr-fr/word-help/supprimer-des-donnees-masquees-et-des-informations-personnelles-en-inspectant-des-documents-HA010354329.aspx
  7. (en) http://office.microsoft.com/en-us/word-help/remove-hidden-data-and-personal-information-by-inspecting-documents-HA010354329.aspx .
  8. „  megakadályozzák információk szivárgást és a vállalati követés  ” , a vieprivee.com (elérhető 12 augusztus 2020 ) .
  9. http://www.microsoft.com/en-us/download/details.aspx?id=8446 .

Függelékek

Kapcsolódó cikkek

Külső linkek