A számítástechnika , a adatformátum az az út, amelyet egy adott típusú adatot képvisel (kódolt) , egy sor bit . A kényelem kedvéért ezt a bitek sorozatát bináris számként értelmezzük , és rövidítéssel azt mondjuk, hogy az adatok számként vannak ábrázolva. Például a C karaktert általában olyan szekvenciaként kódolják, amelynek 3 bitje van aktiválva, ami 0100 0011 vagy 67 tizedesjegyig van írva .
Az adatformátum tehát egy (esetleg szabványosított ) eljárás, amelyet az adatok - szöveg, oldal, kép , hang , futtatható fájl stb. - ábrázolására használnak . Ez egy sablon, ahol az adatokat bizonyos helyeken helyezik el, így az a formátumot olvasó eszköz ott találja meg az adatokat, ahol várta. Amikor ez az adatok tárolása egy fájlt , úgy nevezik, mint egy fájl formátum . Egy ilyen megállapodás lehetővé teszi az adatok cseréjét különféle számítógépes programok vagy szoftverek között , akár közvetlen kapcsolattal, akár fájl segítségével. Ez cseréjének lehetőségét adatok a különböző szoftver hívják átjárhatóság .
Megkülönböztetünk egy nyílt formátumot , amelynek specifikációja nyilvánosan hozzáférhető, és egy zárt (vagy átlátszatlan) formátumot, amelynek specifikációja titkos. A zárt formátum általában egyetlen szoftvernek felel meg, amely képes annak teljes kihasználására.
Egy másik különbséget tesznek egy szabványosított formátum között, amelyet állami vagy nemzetközi intézmény ( ISO , W3C ) szabványosít , és bármilyen formátumot, amely népszerűsége miatt szabványossá válhat . Ezt a formátumot néha később OpenDocument néven szabványosítják .
A formátum akkor minősül saját tulajdonúnak, ha azt egy cég fejlesztette ki, elsősorban kereskedelmi célokra. A saját formátum megnyitható ( például PDF formátum az Adobe-ba ), ha közzéteszik, vagy bezárható ( például a Microsoft formátumú Doc formátum ). De még akkor is, ha a specifikációkat nyilvánosságra hozzák, a szabadalmi formátumokból származó vállalatok megpróbálják fenntartani az irányítást vagy rendszeresen új, bonyolultabb verziók javaslatával (vezérlés a technológiai fejlődés fenntartásával), vagy olyan eszközökkel, amelyek legálisak, például szabadalmak. Ez a fajta versenyellenes gyakorlat jogi eszközök révén megengedett az Egyesült Államokban. Európában ellentmondásos (lásd: A szoftver szabadalmazhatósága ).
A természetes egész szám általában egyszerűen bináris formában jelenik meg (a 2. alapban), a klasszikus konverziós szabály szerint. A természetes egészekkel ellentétben a számítógépes egészek végesek. Ezért csak ilyen módon lehet ábrázolni a rendelkezésre álló bitek számával meghatározott intervallumhoz tartozó számokat. Ha relatív egész számot akarunk képviselni , akkor fenntartunk egy kicsit a jel kijelölésére (általában a legkésőbb a bal oldalon található bit); ezt akkor „aláírt egész számnak” nevezzük. Legtöbbször a negatív számokat kódolják a kettő komplementer szabályával .
Például egy bájttal képviselhetjük:
Ne feledje, hogy két ilyen módon kódolt relatív egész szám összehasonlításához elegendő egy exkluzív VAGY végrehajtása a teszt előtt (binárisan 10 000 000).
Más típusokat is használnak egész számok ábrázolására, ez a kiterjesztett formátumú BCD kódolás (egy számjegy egy bájton), vagy tömörítés (egy számjegy 4 biten). Bár ezek a formátumok kevésbé hatékonyak a számításokhoz, mint a fent leírt bináris rendszer, mivel további utasításokra van szükségük az elvégzett aritmetikai műveletek eredményének újraformázásához, mégis sok rendszerben ( központi számítógép , DBMS stb.) Használják és kezelik őket. a processzorokat, mert nem korlátozza őket a processzor által bináris aritmetikához használt bitek száma (8 bit, 16 bit, 32 bit, 64 bit stb.), és megtartják az egység pontosságát, ellentétben a lebegőpontos számokkal .
A törtet számlálóval és nevezővel írják, tehát két egész számot. Ez azonban csak formális számításban használható.
A számításhoz előnyben részesítjük a második vagy tízes alapú számítógépes egész számokat , amelyekben vessző lép közbe, változó (deci-mikro-nano-pico) vagy fix (frank-centimes) helyzetben.
Vegyes számok esetében a számozási szokás az, hogy az n bázisban "0, a " a × 1 / n-t (= a × n -1 ), a "0,0 a " a × 1 / n 2-t (= a × n - 2 )… Például a 10. bázisban ( n = 10) a „0,005” 5 × 10−3- at jelöl .
Így a 0,001 bináris szám ( n = 2) 1 × 2 −3 = 0,125-et jelöl .
Tehát a számítástechnikában az első megoldás abban áll, hogy bizonyos számú bitet rendel a jobb oldalon a 2 negatív teljesítményéhez.
Egy másik megoldás a BCD kódolás használata, mint egész számoknál, figyelembe véve a tizedespont rögzített helyzetben való elhelyezkedését, például egy 10 jegyű kódolásnál az első nyolc számjegy az egész részt, az utóbbi kettő a tizedes részt tartalmazza. Ez a pozícionálás teljesen önkényes, és a programozónak kezelnie kell a kijelzők vagy számítások érdekében, különösen szorzások esetén, vagy ha két számot nem definiálnak ugyanannyi számjeggyel a tizedespont után. A DBMS-ben általában ezt az adattípust használják a DECIMAL típushoz.
A szövegeket kialakítva karakter véges számok ( betűk , ékezetek , írásjelek ...), legalábbis az európai ábécét. Ha egyszerű lenne számot rendelni az egyes karakterekhez az összes regionális kontextusban, akkor ezt a {karakter → szám} konverziót egyezmény szerint definiálnánk táblázat vagy kódlap formájában . A gyakorlatban interoperabilitási okokból kifinomultabb kódolási rendszereket alkalmaznak . A legszélesebb körben az angol ASCII regionális kódlap , annak más országokból származó változatai és kiterjesztései, valamint az Unicode .
A szövegek tartalmazzák az elrendezést (a bekezdések igazítását) és a formázását (a betűtípus típusa , mérete stb.) Is . Az általánosan elfogadott megoldás a parancsszavak, utasítások definiálásából áll, amelyeket egy speciális karakter választ el a szövegtől. Tehát a HTML- ben az utasításokat "címkéknek" hívják, és szögletes zárójelbe vannak foglalva <…> ; a LaTeX- ben az utasításokat egy fordított frakciósáv vezeti be \. Ennek eredményeként néhány karakter az utasítások számára van fenntartva, és már nem lehetnek a szöveg részei; akkor vannak "menekülési kódok", vagy speciális utasítások azok képviseletére.
2006- ig a Microsoft Word szoftver megtartotta a formázás tárolásának egy másik módját: az adatokat (szövegeket és képeket) nyersen (formázás nélkül) helyezik a dokumentumba, és a formázást a dokumentum " szakaszszakasz" nevű részében határozzák meg . A szakasz törés, eltekintve az elrendezés változásának jelölésétől (oszlop törés, oldal törés), egy láthatatlan terület, amely mutatókat tartalmaz, amelyek a szakasz egy részéhez formázást rendelnek. Ezt a nyers adattárolási megoldást történelmileg akkor alkalmazták, amikor kevés más megoldás létezett (1980-as évek eleje). Ez egy olyan megközelítés volt, amelyet sok alkalmazásban gyakran alkalmaztak, és amely többek között az alacsony szintű tárolási előírásokhoz kapcsolódott. A tapasztalatok azonban azt mutatják, hogy ez a megközelítés nagyon nehézkes és problémákat okoz (a dokumentumok korrupciója) a körülbelül 100 oldalas és annál több dokumentumok esetében. Ha a Microsoft megpróbálta megtartani modelljét és apránként fejlődni, hogy ne vigyen vissza mindent az alapra, akkor elérte a határait. A Microsoft 2007-es kiadásához új, saját formátumot, az Open XML-t fogadott el.
A képek ábrázolásának alapja az analitikai geometria .
Lehetőség van egy kép elemi pontokra vagy „ pixelekre ” vágására , és ehhez a pixelhez színt rendelhetünk. A színt egy szám képviseli, a szín → szám-megfeleltetést "paletta" adja.
Hiába adjuk meg a pontok koordinátáit: ha a kép szélességét n pontszámban adjuk meg , akkor az első n pont az első vonalat, az n +1 - 2 n pont a második vonalat jelenti ... Ezután elegendő a szkennelési sorrendet egyezmény szerint rögzíteni, ebben az esetben a nyugati olvasási sorrendet (balról jobbra és felülről lefelé).
Ennek eredményeként egy ponttérkép formátumú képet kapunk, amelyet gyakran bitkép képnek is neveznek . Ezért olyan ponyvákról van szó, amelyek mindegyikéhez színes érték tartozik. A meglévő formátumok közötti nagy különbség a színmélység (1 bit: fekete vagy fehér, 8 bit: 256 szín, 24 bit: 16 millió szín…) és a tömörítés típusa (tömörítés nélkül vagy nyers , minták szerinti tömörítés, romboló tömörítéssel ...)
Vegyünk például egy fekete-fehér térképet (1 az alak színéhez, 0 vagy · a háttér színéhez), amely öt pont szélességű képet határoz meg a következő számsorozattal:
1000101010001000101010001Ezt a térképet 5 bites csoportokra kell felosztani:
1· ▓░ █· ⟵ Symboles de notation pour l'explication un tramé plein ⟵ Notation du 1 point tramé point ⟵ Notation du 0 · 1···1 ▓░░░▓ █···█ ·1·1· ░▓░▓░ ·█·█· ··1·· ░░▓░░ ··█·· ·1·1· ░▓░▓░ ·█·█· 1···1 ▓░░░▓ █···█amely "alak színű" "X" rajzot ad nekünk "háttérszín" háttérre. Itt azonban egyetlen bit sem jelzi a színt, így a megjelenítés színe az alkalmazott technológiától és annak konfigurációjától függ.
Az adatok formátum tartalmaznia kell az, amellett, hogy a pontok listája, a szélessége a képet és a leírást a paletta; ez általában a fájl elején történik (a "fejlécről" beszélünk).
Néhány híres raszteres képformátum: Portable Network Graphics , JPG , BitMaP , Portable pixmap .
A vektoros formátumú kép olyan kép, amelyet matematikai koordináták halmaza ír le, nem pedig ponyva. Például :
Ezenkívül szükséges az útvonalra vonatkozó információ: a grafikus attribútumok a vastagság, a stílus (folytonos vagy pontozott), a vonal színe, átlátszósága stb.
A vektorkép tehát olyan koordináták, attribútumok és parancsok összessége, amelyek értelmezéséért a megjelenítő program (képernyőn vagy papíron) felelős.
Könnyen geometriai alakzatokká redukálható képek (tipográfia, kartográfia stb.) Esetében a vektoros formátum rendkívül gazdaságos.
A vektoros formátumok sajátossága, hogy végső megjelenítésük csak a kimeneti eszköz felbontásától függ. Ez a képtípus zavaró hatások nélkül is nagyítható; nincs „raszterizációs” hatás (az átlós vagy ívelt vonalak nem lépcsőként jelennek meg).
Néhány híres vektoros formátum: VML , SVG , Adobe PDF (Acrobat), Adobe Illustrator , beágyazott utóirat EPS , Quark QXD , Silverlight és Macromedia Flash (vektoros animációs formátumok), AutoCAD DXF .
A 3D modellező szoftver által létrehozott virtuális objektumok ábrázolásához speciális adatformátumra van szükség, mert a korábbi formátumok nem megfelelőek. Valójában egy 3D-s objektum megjelenítéséhez legalább egy leírásra van szükség:
A jelenet ábrázolásához meg kell adni az alkalmazott világítást, az objektumok relatív helyzetét, a környezeti hatásokat is, de mindenekelőtt annak hierarchikus felépítését (az elemek közötti kapcsolatokat).
Az első de facto szabványos formátumok a CAD-hez igazított formátumok voltak: az objektumot szempontok vagy analitikai felületek segítségével definiálták. Elég meghatározni eredetét, majd az elemek jellemző koordinátáit a 3-dimenziós térben. Például az Autocad DXF formátumában az objektum elnevezett entitások sorozata, amely az X, Y, Z pontok listájából áll. Indexeléssel háromszögek vagy vonalak jönnek létre, amelyek ezeken a pontokon alapulnak.
Ha ez a formátum elegendő volt a műszaki rajzhoz, akkor teljesen alkalmatlan volt a virtuális valóságra. Az 1990-es években a Silicon Graphics (3D grafikus munkaállomások gyártója) cég közzétette az Inventor formátumot, amely a legtöbb szükséges elemet tartalmazta. Ez a formátum a szabványosított VRML formátumra fejlődött .
Ezen felül a 3D Studio ASCII formátum is megjelent, de a 3D-s piac robbanása számos saját formátumot hozott létre. A felhasználó számára a probléma gyakran az volt, hogy a modellt egyik formátumból a másikba konvertálták anélkül, hogy túl sok információt veszítettek volna. Néhány vállalat még az ilyen típusú átalakításra is szakosodott.
Jelenleg a szakmai világban nincs egyetlen formátum, inkább az alkalmazás típusától függően többé-kevésbé használt formátumok. Például :
A legtöbb 3D-modellező azonban többé-kevésbé képes elolvasni (importálni) és létrehozni (exportálni) több formátumot: ez fontos választási kritérium. A leggyakoribb formátumok közül megemlíthetjük:
A jelenlegi tendencia egy leíró XML típusú formátum előnyben részesítése . A 3D-s adatok méret ezután úgynevezett leíró nyelv, mint X3D (alakulását VRML XML formázása).
Az ingyenes COLLADA formátum lehetővé teszi az adatok cseréjét a különböző szoftverek között. Különösen van a Blender importőre / exportőre .
A hangformátumokat három részre bontják:
(Lásd a Klasszikus formátumok fejezetet )
Az adattömörítés a technika átalakítja adatok úgy, hogy kevesebb helyet foglal. Mivel adatot kell kitömörítést feldolgozás előtt, ez a rovására megy a sebesség, és a nagyobb kockázatot a adatok elvesztését .
Az alapgondolat az, hogy általában az elemek megismétlődnek a fájlokban. Ezért előnyös azokat az elemeket ábrázolni, amelyek gyakran ismétlődnek kisebb számokkal (vagyis kevesebb bitet vesznek fel).
Kétféle tömörítést különböztethetünk meg:
Kategória | Formátumok |
---|---|
Képek | PNG , MNG , TIFF , JPEG , GIF , TGA , OpenEXR , BMP , FITS |
Vektoros rajz | VML , SVG , Silverlight , SWF , AI , EPS , DXF |
3d | XCF , KEVERÉK , SKP, (SKB) , DXF , 3DS Max , C4D , VRML , X3D , IFC , DWG |
Övé | OGG , FLAC , MP3 , WAV , WMA , AAC |
Videó | MPEG , OGM ( DVD , DivX , XviD ), AVI , Theora , FLV |
Oldal | PDF , PostScript , HTML , XHTML , XML , PHP |
Szövegszerkesztő dokumentum | ODT , TXT , DOC , RTF |
Végrehajtható | BIN , ELF , EXE , SDC , BAT |
Archívumok (általában tömörített fájlok) | 7Z , TAR , GZIP , ZIP , LZW , ARJ , RAR , SDC |
Képregények archívumai (az alapjául szolgáló archív formátumokkal megegyező formátumok: csak a fájlkiterjesztés különbözik) |
CB7 (.cb7), 7z alapú CBA (.cba), ACE alapú CBR (.cbr), RAR alapú CBT (.cbt), TAR alapú CBZ (.cbz), ZIP alapú |
Amikor egy fájlt másoknak továbbítanak, egyes fájlformátumok informatikai kockázatot jelenthetnek a fájlkészítő magánéletére nézve . Valóban vannak olyanok, amelyek adatformátumukban olyan személyes információkat tartalmaznak, mint a számítógép és a felhasználó neve.
Ez leggyakrabban irodai szoftverek használatakor történik . Ezen szoftverek esetében nem csak annak a neve mentésre kerül, aki létrehozta a fájlt, hanem annak is, aki utólag módosította.
Ritkábban a HTML fájlok néha személyes adatokat is tartalmaznak, különösen akkor, ha irodai szoftverekből exportálják őket (például: Microsoft Word). Ezt azonban könnyű ellenőrizni a HTML-kód megtekintésével.
A Microsoft információkat nyújt a fájlokban elrejtett személyes adatok eltávolításához :