Adatformátum

A számítástechnika , a adatformátum az az út, amelyet egy adott típusú adatot képvisel (kódolt) , egy sor bit . A kényelem kedvéért ezt a bitek sorozatát bináris számként értelmezzük , és rövidítéssel azt mondjuk, hogy az adatok számként vannak ábrázolva. Például a C karaktert általában olyan szekvenciaként kódolják, amelynek 3 bitje van aktiválva, ami 0100 0011 vagy 67 tizedesjegyig van írva .

Az adatformátum tehát egy (esetleg szabványosított ) eljárás, amelyet az adatok - szöveg, oldal, kép , hang , futtatható fájl stb. - ábrázolására használnak . Ez egy sablon, ahol az adatokat bizonyos helyeken helyezik el, így az a formátumot olvasó eszköz ott találja meg az adatokat, ahol várta. Amikor ez az adatok tárolása egy fájlt , úgy nevezik, mint egy fájl formátum . Egy ilyen megállapodás lehetővé teszi az adatok cseréjét különféle számítógépes programok vagy szoftverek között , akár közvetlen kapcsolattal, akár fájl segítségével. Ez cseréjének lehetőségét adatok a különböző szoftver hívják átjárhatóság .

Tipológia

Megkülönböztetünk egy nyílt formátumot , amelynek specifikációja nyilvánosan hozzáférhető, és egy zárt (vagy átlátszatlan) formátumot, amelynek specifikációja titkos. A zárt formátum általában egyetlen szoftvernek felel meg, amely képes annak teljes kihasználására.

Egy másik különbséget tesznek egy szabványosított formátum között, amelyet állami vagy nemzetközi intézmény ( ISO , W3C ) szabványosít , és bármilyen formátumot, amely népszerűsége miatt szabványossá válhat . Ezt a formátumot néha később OpenDocument néven szabványosítják .

A formátum akkor minősül saját tulajdonúnak, ha azt egy cég fejlesztette ki, elsősorban kereskedelmi célokra. A saját formátum megnyitható ( például PDF formátum az Adobe-ba ), ha közzéteszik, vagy bezárható ( például a Microsoft formátumú Doc formátum ). De még akkor is, ha a specifikációkat nyilvánosságra hozzák, a szabadalmi formátumokból származó vállalatok megpróbálják fenntartani az irányítást vagy rendszeresen új, bonyolultabb verziók javaslatával (vezérlés a technológiai fejlődés fenntartásával), vagy olyan eszközökkel, amelyek legálisak, például szabadalmak. Ez a fajta versenyellenes gyakorlat jogi eszközök révén megengedett az Egyesült Államokban. Európában ellentmondásos (lásd: A szoftver szabadalmazhatósága ).

Számformátumok

Egész számok

A természetes egész szám általában egyszerűen bináris formában jelenik meg (a 2. alapban), a klasszikus konverziós szabály szerint. A természetes egészekkel ellentétben a számítógépes egészek végesek. Ezért csak ilyen módon lehet ábrázolni a rendelkezésre álló bitek számával meghatározott intervallumhoz tartozó számokat. Ha relatív egész számot akarunk képviselni , akkor fenntartunk egy kicsit a jel kijelölésére (általában a legkésőbb a bal oldalon található bit); ezt akkor „aláírt egész számnak” nevezzük. Legtöbbször a negatív számokat kódolják a kettő komplementer szabályával .

Például egy bájttal képviselhetjük:

természetes számok 0-tól (00000000 binárisan) 255-ig (11111111 binárisan);
a relatív egész számok –128 (bináris bináris 10000000) –1 (binárisan 11111111) és 0 (00000000) és 127 (01111111) között; a −128 és +127 közötti egész számokat tehát egy bájttal kódoljuk.

Ne feledje, hogy két ilyen módon kódolt relatív egész szám összehasonlításához elegendő egy exkluzív VAGY végrehajtása a teszt előtt (binárisan 10 000 000).

Más típusokat is használnak egész számok ábrázolására, ez a kiterjesztett formátumú BCD kódolás (egy számjegy egy bájton), vagy tömörítés (egy számjegy 4 biten). Bár ezek a formátumok kevésbé hatékonyak a számításokhoz, mint a fent leírt bináris rendszer, mivel további utasításokra van szükségük az elvégzett aritmetikai műveletek eredményének újraformázásához, mégis sok rendszerben ( központi számítógép , DBMS stb.) Használják és kezelik őket. a processzorokat, mert nem korlátozza őket a processzor által bináris aritmetikához használt bitek száma (8 bit, 16 bit, 32 bit, 64 bit stb.), és megtartják az egység pontosságát, ellentétben a lebegőpontos számokkal .

Törvényszámok

A törtet számlálóval és nevezővel írják, tehát két egész számot. Ez azonban csak formális számításban használható.

Vesszőszámok

A számításhoz előnyben részesítjük a második vagy tízes alapú számítógépes egész számokat , amelyekben vessző lép közbe, változó (deci-mikro-nano-pico) vagy fix (frank-centimes) helyzetben.

Vegyes számok esetében a számozási szokás az, hogy az n bázisban "0, a " a × 1 / n-t (= a × n -1 ), a "0,0 a " a × 1 / n 2-t (= a × n - 2 )… Például a 10. bázisban ( n = 10) a „0,005” 5 × 10−3- at jelöl .

Így a 0,001 bináris szám ( n = 2) 1 × 2 −3 = 0,125-et jelöl .

Tehát a számítástechnikában az első megoldás abban áll, hogy bizonyos számú bitet rendel a jobb oldalon a 2 negatív teljesítményéhez.

Egy másik megoldás a BCD kódolás használata, mint egész számoknál, figyelembe véve a tizedespont rögzített helyzetben való elhelyezkedését, például egy 10 jegyű kódolásnál az első nyolc számjegy az egész részt, az utóbbi kettő a tizedes részt tartalmazza. Ez a pozícionálás teljesen önkényes, és a programozónak kezelnie kell a kijelzők vagy számítások érdekében, különösen szorzások esetén, vagy ha két számot nem definiálnak ugyanannyi számjeggyel a tizedespont után. A DBMS-ben általában ezt az adattípust használják a DECIMAL típushoz.

Szöveges formátumok

A szövegeket kialakítva karakter véges számok ( betűk , ékezetek , írásjelek ...), legalábbis az európai ábécét. Ha egyszerű lenne számot rendelni az egyes karakterekhez az összes regionális kontextusban, akkor ezt a {karakter → szám} konverziót egyezmény szerint definiálnánk táblázat vagy kódlap formájában . A gyakorlatban interoperabilitási okokból kifinomultabb kódolási rendszereket alkalmaznak . A legszélesebb körben az angol ASCII regionális kódlap , annak más országokból származó változatai és kiterjesztései, valamint az Unicode .

A szövegek tartalmazzák az elrendezést (a bekezdések igazítását) és a formázását (a betűtípus típusa , mérete stb.) Is . Az általánosan elfogadott megoldás a parancsszavak, utasítások definiálásából áll, amelyeket egy speciális karakter választ el a szövegtől. Tehát a HTML- ben az utasításokat "címkéknek" hívják, és szögletes zárójelbe vannak foglalva <…> ; a LaTeX- ben az utasításokat egy fordított frakciósáv vezeti be \. Ennek eredményeként néhány karakter az utasítások számára van fenntartva, és már nem lehetnek a szöveg részei; akkor vannak "menekülési kódok", vagy speciális utasítások azok képviseletére.

2006- ig a Microsoft Word szoftver megtartotta a formázás tárolásának egy másik módját: az adatokat (szövegeket és képeket) nyersen (formázás nélkül) helyezik a dokumentumba, és a formázást a dokumentum " szakaszszakasz" nevű részében határozzák meg . A szakasz törés, eltekintve az elrendezés változásának jelölésétől (oszlop törés, oldal törés), egy láthatatlan terület, amely mutatókat tartalmaz, amelyek a szakasz egy részéhez formázást rendelnek. Ezt a nyers adattárolási megoldást történelmileg akkor alkalmazták, amikor kevés más megoldás létezett (1980-as évek eleje). Ez egy olyan megközelítés volt, amelyet sok alkalmazásban gyakran alkalmaztak, és amely többek között az alacsony szintű tárolási előírásokhoz kapcsolódott. A tapasztalatok azonban azt mutatják, hogy ez a megközelítés nagyon nehézkes és problémákat okoz (a dokumentumok korrupciója) a körülbelül 100 oldalas és annál több dokumentumok esetében. Ha a Microsoft megpróbálta megtartani modelljét és apránként fejlődni, hogy ne vigyen vissza mindent az alapra, akkor elérte a határait. A Microsoft 2007-es kiadásához új, saját formátumot, az Open XML-t fogadott el.

Képformátumok

A képek ábrázolásának alapja az analitikai geometria .

Pontkártya formátum

Lehetőség van egy kép elemi pontokra vagy „ pixelekre ” vágására , és ehhez a pixelhez színt rendelhetünk. A színt egy szám képviseli, a szín → szám-megfeleltetést "paletta" adja.

Hiába adjuk meg a pontok koordinátáit: ha a kép szélességét n pontszámban adjuk meg , akkor az első n pont az első vonalat, az n +1 - 2 n pont a második vonalat jelenti ... Ezután elegendő a szkennelési sorrendet egyezmény szerint rögzíteni, ebben az esetben a nyugati olvasási sorrendet (balról jobbra és felülről lefelé).

Ennek eredményeként egy ponttérkép formátumú képet kapunk, amelyet gyakran bitkép képnek is neveznek . Ezért olyan ponyvákról van szó, amelyek mindegyikéhez színes érték tartozik. A meglévő formátumok közötti nagy különbség a színmélység (1 bit: fekete vagy fehér, 8 bit: 256 szín, 24 bit: 16 millió szín…) és a tömörítés típusa (tömörítés nélkül vagy nyers , minták szerinti tömörítés, romboló tömörítéssel ...)

Vegyünk például egy fekete-fehér térképet (1 az alak színéhez, 0 vagy · a háttér színéhez), amely öt pont szélességű képet határoz meg a következő számsorozattal:

1000101010001000101010001

Ezt a térképet 5 bites csoportokra kell felosztani:

1· ▓░ █· ⟵ Symboles de notation pour l'explication un tramé plein ⟵ Notation du 1 point tramé point ⟵ Notation du 0 · 1···1 ▓░░░▓ █···█ ·1·1· ░▓░▓░ ·█·█· ··1·· ░░▓░░ ··█·· ·1·1· ░▓░▓░ ·█·█· 1···1 ▓░░░▓ █···█

amely "alak színű" "X" rajzot ad nekünk "háttérszín" háttérre. Itt azonban egyetlen bit sem jelzi a színt, így a megjelenítés színe az alkalmazott technológiától és annak konfigurációjától függ.

Az adatok formátum tartalmaznia kell az, amellett, hogy a pontok listája, a szélessége a képet és a leírást a paletta; ez általában a fájl elején történik (a "fejlécről" beszélünk).

Néhány híres raszteres képformátum: Portable Network Graphics , JPG , BitMaP , Portable pixmap .

Vektoros formátum

A vektoros formátumú kép olyan kép, amelyet matematikai koordináták halmaza ír le, nem pedig ponyva. Például :

egy vonal leírására elegendő az indulási és érkezési koordináták ismerete;
egy téglalaphoz (amelynek oldalai igazodnak az aktuális koordinátarendszer tengelyéhez) két pont is elegendő (két ellentétes sarok);
egy körhöz csak egy pontra, valamint egy sugárra van szükség.

Ezenkívül szükséges az útvonalra vonatkozó információ: a grafikus attribútumok a vastagság, a stílus (folytonos vagy pontozott), a vonal színe, átlátszósága stb.

A vektorkép tehát olyan koordináták, attribútumok és parancsok összessége, amelyek értelmezéséért a megjelenítő program (képernyőn vagy papíron) felelős.

Könnyen geometriai alakzatokká redukálható képek (tipográfia, kartográfia stb.) Esetében a vektoros formátum rendkívül gazdaságos.

A vektoros formátumok sajátossága, hogy végső megjelenítésük csak a kimeneti eszköz felbontásától függ. Ez a képtípus zavaró hatások nélkül is nagyítható; nincs „raszterizációs” hatás (az átlós vagy ívelt vonalak nem lépcsőként jelennek meg).

Néhány híres vektoros formátum: VML , SVG , Adobe PDF (Acrobat), Adobe Illustrator , beágyazott utóirat EPS , Quark QXD , Silverlight és Macromedia Flash (vektoros animációs formátumok), AutoCAD DXF .

Színábrázolás

Videoformátumok

3D jelenet formátumok

A 3D modellező szoftver által létrehozott virtuális objektumok ábrázolásához speciális adatformátumra van szükség, mert a korábbi formátumok nem megfelelőek. Valójában egy 3D-s objektum megjelenítéséhez legalább egy leírásra van szükség:

a tárgy topológiája: alakja, mérete és összetettsége;
ábrázolási jellemzők: színek, textúrák (természet és helyzet), felületének fotometriai minősége, átlátszóság;
dinamikus attribútumai közül, ha animált: ütközési képesség más tárgyakkal, ízületekkel és kényszerekkel stb.

A jelenet ábrázolásához meg kell adni az alkalmazott világítást, az objektumok relatív helyzetét, a környezeti hatásokat is, de mindenekelőtt annak hierarchikus felépítését (az elemek közötti kapcsolatokat).

Az első de facto szabványos formátumok a CAD-hez igazított formátumok voltak: az objektumot szempontok vagy analitikai felületek segítségével definiálták. Elég meghatározni eredetét, majd az elemek jellemző koordinátáit a 3-dimenziós térben. Például az Autocad DXF formátumában az objektum elnevezett entitások sorozata, amely az X, Y, Z pontok listájából áll. Indexeléssel háromszögek vagy vonalak jönnek létre, amelyek ezeken a pontokon alapulnak.

Ha ez a formátum elegendő volt a műszaki rajzhoz, akkor teljesen alkalmatlan volt a virtuális valóságra. Az 1990-es években a Silicon Graphics (3D grafikus munkaállomások gyártója) cég közzétette az Inventor formátumot, amely a legtöbb szükséges elemet tartalmazta. Ez a formátum a szabványosított VRML formátumra fejlődött .

Ezen felül a 3D Studio ASCII formátum is megjelent, de a 3D-s piac robbanása számos saját formátumot hozott létre. A felhasználó számára a probléma gyakran az volt, hogy a modellt egyik formátumból a másikba konvertálták anélkül, hogy túl sok információt veszítettek volna. Néhány vállalat még az ilyen típusú átalakításra is szakosodott.

Jelenleg a szakmai világban nincs egyetlen formátum, inkább az alkalmazás típusától függően többé-kevésbé használt formátumok. Például :

Blender formátum multimédia készítéshez;
Pro / Engineer formátum ipari CAD-hez;
OpenFlight formátum repülési és / vagy vezetési szimulációhoz.

A legtöbb 3D-modellező azonban többé-kevésbé képes elolvasni (importálni) és létrehozni (exportálni) több formátumot: ez fontos választási kritérium. A leggyakoribb formátumok közül megemlíthetjük:

BLEND a Blender-től ;
3DS ;
Az AutoCAD DXF- je ;
Az IGES szabványosítva;
X Direct 3D ;
OBJ a Wavefront-tól;
LWO a LightWave 3D-ből ;
VRML verzióival (1, 2 és X3D );
.Cob of TrueSpace (en) .

A jelenlegi tendencia egy leíró XML típusú formátum előnyben részesítése . A 3D-s adatok méret ezután úgynevezett leíró nyelv, mint X3D (alakulását VRML XML formázása).

Az ingyenes COLLADA formátum lehetővé teszi az adatok cseréjét a különböző szoftverek között. Különösen van a Blender importőre / exportőre .

Hangformátumok

A hangformátumokat három részre bontják:

nyers formátumok: a hang nincs tömörítve, az analóg értékek digitálisá alakításából ( mintavételezés ) származó értékeket időrendi sorrendben és csatornánként rögzítjük;
tömörített formátumok: a hangot veszteséggel vagy anélkül tömörítik az emberi fül hangjának érzékeléséhez igazított algoritmus és / vagy egy hagyományos tömörítés szerint;
stream formátumok ( streaming ): lehetővé teszi a hallgatást részben a teljes fájl nélkül.

(Lásd a Klasszikus formátumok fejezetet )

Adattömörítés

Az adattömörítés a technika átalakítja adatok úgy, hogy kevesebb helyet foglal. Mivel adatot kell kitömörítést feldolgozás előtt, ez a rovására megy a sebesség, és a nagyobb kockázatot a adatok elvesztését .

Az alapgondolat az, hogy általában az elemek megismétlődnek a fájlokban. Ezért előnyös azokat az elemeket ábrázolni, amelyek gyakran ismétlődnek kisebb számokkal (vagyis kevesebb bitet vesznek fel).

Kétféle tömörítést különböztethetünk meg:

tömörítések az adatok eleve nélkül : ezek olyan algoritmusok, amelyek csak számokon működnek, függetlenül attól, hogy ez a szám milyen információt tartalmaz; ezért ezek általában nem az adatok konkrét ; megkülönböztethetjük:
- tárolt tábla algoritmusok: az algoritmus elvégzi az első elemzést az ismétlődő elemek azonosítására, és minden ismétlődő elemhez felépít egy rövidített kóddal ellátott levelező táblázatot; a tárolótábla által elfoglalt méret miatt ez a folyamat alkalmasabb nagy fájlokhoz,
- on-the-fly tábla algoritmusok: a levelező táblázatot szisztematikusan állítják össze, a fájl előzetes elemzése nélkül; menet közben újjáépíthető a tömörített fájlból; ez például a Lempel-Ziv-Welch ( LZW ) algoritmus esetében ;
az adatokra jellemző tömörítések : ha ismerjük az adatokat , optimalizálhatjuk az algoritmust; például ha tudjuk, hogy szöveggel van dolgunk, akkor a nyelv szavainak használatának gyakoriságára alapozhatjuk magunkat; két alkategória létezik:
- tömörítés információvesztés nélkül,
- tömörítés és adatvesztés: az első ötlet egy "részmintavétel" elvégzése, vagyis egyszerűen rontani az adatok minőségét
  az érzékszervek és az agy értelmezésének tanulmányozásával, lebonthatunk bizonyos az érzéketlen adatok jellemzői , ezért az adatok általános minőségének túlzott megváltoztatása nélkül ; így, ha az emberi fül nem nagyon érzékeny bizonyos frekvenciatartományokra, lehetséges a spektrum egyes részeinek lebontása (vagy akár megszüntetése), másoké ( MP3 ) nem;
  a kép ( JPEG ) és a film ( MPEG ) tömörítési algoritmusok minőségromlást használnak.

Klasszikus formátumok

Fájlformátumok

Kategória	Formátumok
Képek	PNG , MNG , TIFF , JPEG , GIF , TGA , OpenEXR , BMP , FITS
Vektoros rajz	VML , SVG , Silverlight , SWF , AI , EPS , DXF
3d	XCF , KEVERÉK , SKP, (SKB) , DXF , 3DS Max , C4D , VRML , X3D , IFC , DWG
Övé	OGG , FLAC , MP3 , WAV , WMA , AAC
Videó	MPEG , OGM ( DVD , DivX , XviD ), AVI , Theora , FLV
Oldal	PDF , PostScript , HTML , XHTML , XML , PHP
Szövegszerkesztő dokumentum	ODT , TXT , DOC , RTF
Végrehajtható	BIN , ELF , EXE , SDC , BAT
Archívumok (általában tömörített fájlok)	7Z , TAR , GZIP , ZIP , LZW , ARJ , RAR , SDC
Képregények archívumai (az alapjául szolgáló archív formátumokkal megegyező formátumok: csak a fájlkiterjesztés különbözik)	CB7 (.cb7), 7z alapú CBA (.cba), ACE alapú CBR (.cbr), RAR alapú CBT (.cbt), TAR alapú CBZ (.cbz), ZIP alapú

Adatformátumok és adatvédelem

Amikor egy fájlt másoknak továbbítanak, egyes fájlformátumok informatikai kockázatot jelenthetnek a fájlkészítő magánéletére nézve . Valóban vannak olyanok, amelyek adatformátumukban olyan személyes információkat tartalmaznak, mint a számítógép és a felhasználó neve.

Ez leggyakrabban irodai szoftverek használatakor történik . Ezen szoftverek esetében nem csak annak a neve mentésre kerül, aki létrehozta a fájlt, hanem annak is, aki utólag módosította.

Ritkábban a HTML fájlok néha személyes adatokat is tartalmaznak, különösen akkor, ha irodai szoftverekből exportálják őket (például: Microsoft Word). Ezt azonban könnyű ellenőrizni a HTML-kód megtekintésével.

Példák "rejtett információkat" tartalmazó adatformátumra

PDF fájlok

A Microsoft információkat nyújt a fájlokban elrejtett személyes adatok eltávolításához :

Excel 2007, PowerPoint 2007, Word 2007;
Excel 2010 és 2013;
Word 2010 és 2013;
Office XP (más néven 2002) és az Office 2003 (azaz a Word, az Excel és Powerpoint), melyek a Microsoft 2004-ben megjelent nevű szoftvert RhdTool ( „ R emove H idden D ata eszköz ”).

Megjegyzések és hivatkozások

Viviane Boulétreau és Benoît Habert , " Les format " , a http://www.parcoursnumeriques-pum.ca oldalon ,2014. március 15(megtekintve : 2020. október 21. )
Viviane Boulétreau és Benoît Habert, „A formátumok” , Michaël E. Sinatra és Marcello Vitali-Rosati, A digitális kiadványok gyakorlata , PUM,2014, 219 p. ( ISBN 978-2-7606-3202-8 )
(in) Donna Baker, " Mi van még a dokumentum? ” , AcrobatUsers.com, 2011. július 20.
http://office.microsoft.com/en-us/help/remove-hidden-data-and-personal-information-from-office-documents-HA010037593.aspx .
http://office.microsoft.com/en-us/starter-help/remove-hidden-data-and-personal-information-by-inspecting-workbooks-HA010354331.aspx .
(fr) http://office.microsoft.com/fr-fr/word-help/supprimer-des-donnees-masquees-et-des-informations-personnelles-en-inspectant-des-documents-HA010354329.aspx
(en) http://office.microsoft.com/en-us/word-help/remove-hidden-data-and-personal-information-by-inspecting-documents-HA010354329.aspx .
„ megakadályozzák információk szivárgást és a vállalati követés ” , a vieprivee.com (elérhető 12 augusztus 2020 ) .
http://www.microsoft.com/en-us/download/details.aspx?id=8446 .

Függelékek

Kapcsolódó cikkek

Külső linkek

Wotsit.org - A programozó fájlja és adatforrása
Dotwhat.net - Információk a fájlkiterjesztésről és a formátumról
Mágikus aláírás adatbázis - Standard fájlformátum információk és FFID nyilvántartás
FileTypes.fr - Fájlkiterjesztések és fájltípusok
Háborúk formázása A weboldalak és a nyomtatás fájlformátumai magyarázattal
A fájlokban található fájlaláírások (más néven mágikus számok) a fájltípus megjelölésére
PRONOM műszaki nyilvántartás
A Kongresszusi Könyvtár fájlformátumára vonatkozó információk
Bevezetés az egységes típusazonosítókba
Game File Format Central - A játékkal kapcsolatos fájlformátumok részletes és bővülő listája
BIEW bináris vIEW projekt