Kivonat-transzformáció-terhelés

A kivonat-transzformáció-terhelést az ETL, vagy az extracto-loader rövidítés (vagy néha: adatszivattyúzás) ismeri. Ez egy köztes számítógépes technológia (megértés middleware ), ami lehetővé teszi, hogy végre tömeges szinkronizálásokat származó információk egy adatforrás (leggyakrabban egy adatbázis) a másikba. A kontextustól függően különböző funkciókat kell használnunk, gyakran kombinálva: „kinyerés”, „átalakítás”, „felépítés” vagy „átalakítás”, „betáplálás”.

Csatlakozókon alapul, amelyeket adatok exportálására vagy importálására használnak az alkalmazásokban ( pl. Connector Oracle vagy SAP ...), az adatokat manipuláló processzorok (összesítők, szűrők, konverziók ...) és leképezve ( térképek ). A cél a forrástározóból származó adatok integrálása vagy újrafelhasználása a céltartályba.

Eredetileg az ETL megoldások jelentek meg az adattárházban (vagy adattárházakban ) összesített adatok rendszeres betöltésére , mielőtt más szoftverterületekre diverzifikálódtak volna. Ezeket a megoldásokat széles körben használják a banki és pénzügyi világban, valamint az iparban, tekintettel a számos interfész elterjedésére.

Ezt követően megjelentek a kiegészítő technológiák: vállalati alkalmazásintegráció (EAI), majd ESB ( vállalati szolgáltatási busz ).

Vannak tartalmi ETL megoldások is a strukturálatlan vagy gyengén strukturált adatok, például mappák vagy dokumentumok kezelésére. Ezeket a megoldásokat a dokumentum-migrációs projektekhez használják. Például a dokumentumok egyik EDM- alkalmazásból a másikba történő áttelepítésekor . Alkalmazási körük kiterjedhet az elektronikus archiválási projektekre is .

Ezek ETL eszközök is használhatók kezelésére strukturálatlan vagy gyengén strukturált adatok összefüggésben szövegének bányászat .

Végül egy kivonatterhelés-transzformáció ( ELT ) egy olyan speciális ETL, amely nem egy motort használ az adatátalakításhoz, hanem más, átalakításra képes rendszereket (pl. Forrás- vagy céladatbázisok).

Hogyan működik az ETL folyamat

Kivonás

Az ETL célja tiszta, könnyen hozzáférhető adatok előállítása, amelyeket az elemzés, az üzleti intelligencia és / vagy az üzleti műveletek hatékonyan felhasználhatnak. A nyers adatok különböző forrásokból származhatnak, különösen:

A kinyert adatokat néha olyan helyen tárolják, mint például egy adattó vagy egy adattárház.

átalakítás

Az ETL folyamat átalakítási szakasza a legfontosabb műveleti szakasz. Az átalakítás szakaszában a legfontosabb művelet a belső vállalati szabályok alkalmazása a nyers adatokra a jelentési követelmények teljesítése érdekében: a nyers adatokat megtisztítják és a megfelelő jelentésformátumokra konvertálják (ha az adatokat nem tisztítják, akkor nehezebb alkalmazni belső jelentési szabályok).

Az átalakítás a belül definiált szabályokat alkalmazza. Az adatok minőségét és hozzáférhetőségét biztosító szabványoknak figyelembe kell venniük a következő gyakorlatokat:

Betöltés

A standard ETL folyamat utolsó lépése a kinyert és átalakított adatok új helyre történő betöltése. Az adattárházak általában két módot támogatnak az adatok betöltésére: teljes terhelés és növekményes terhelés.

Az ETL feldolgozás (egyszeri ciklus vagy ciklusprogram) elindítható a parancssorból vagy egy grafikus felületen keresztül. De van néhány dolog, amire figyelni kell. Például a kivételek kezelése nagyon nehézkes lehet. Sok esetben az adatkivonatok létrehozása meghiúsulhat, ha egy vagy több rendszer leáll. Ha egy rendszer hibás adatokat tartalmaz, akkor a helytelen adatok hatással lehetnek egy másik rendszerből kinyert adatokra; más szavakkal, a felügyelet és a hibakezelés elengedhetetlen tevékenység.

Az ETL főbb felhasználási területei

Az üzleti tevékenységek többségében az adatok kritikus szerepet játszanak: értékpotenciáljának kiaknázásához mozgatni és fel kell készíteni a hasznosításra, és ezekhez a műveletekhez ETL folyamatokra van szükség. Példák az ETL eszközök használati eseteire:

Teljesítmény és korlátok

Előnyök

Hátrányok

Az ETL és az EAI közötti különbség

EAI meghatározása

Az EAI, vagyis az Enterprise Application Integration, hosszú évek óta tartó folyamatra utal, a különféle alkalmazások integrálására, hogy szabadon megosszák az információkat és a kezeléseket. Az EAI a szoftvergyártók és az elemzők reflektorfényében van, és végül segít egy olyan probléma megoldásában, amely nagyon nagy vállalatoknak évente 100 milliárd dollárba kerül .

Az angol nyelven használt vállalati alkalmazásintegráció (EAI) francia nyelven alkalmazásközi adatcserének is nevezik. Ez a kifejezés olyan IS architektúrát jelöl, amely lehetővé teszi több szoftver kommunikációját egymással és a különféle cserék kezelését. Beszélünk az alkalmazások közötti áramlásmenedzsmentről is. Röviden, az EAI architektúrák létrehozásához használt köztes szoftver szoftver eszközöket „EAI szoftvereknek” is nevezik.

Az EAI szoftver lehetővé teszi a csatlakozást minden típusú adatforráshoz, az adatok kinyerését azokból, az adatok manipulálását, strukturálását, majd az összes többi adatstruktúrába történő bedobást. Ezen manipulációk végrehajtása és az adatok szinkronizálása bármilyen típusú esemény programozható és kiváltható.

ETL / EAI összehasonlítás

Az ETL olyan adatintegrációs technika, mint az EAI. Az EAI termékei eseményorientáltak és támogatják a tranzakció típusú feldolgozást, amelyet az ETL nem támogat. Másrészt az ETL sokkal összetettebb átalakításokat tesz lehetővé. Néhány EAI és ETL termékgyártó partnerré válik, mi pedig olyan megoldások felé haladunk, ahol az EAI valós időben rögzíti az adatokat és az alkalmazás eseményeit, és betáplálja azokat az ETL eszközbe, amely átalakítja az adatokat és az adatokat.


Általános ETL / EAI összehasonlítás ETL EAI
Fő mód Köteg Adatfolyam (ál-valós idejű)
Irányultság Adat Munka
Volumetria potenciálisan magas (pl. 15 000 000 vonal) viszonylag alacsony (pl. 100 000 sor)
Források / Célok DBMS , ← ODS , ↔ adattárház , → datamart , ← integrált felügyeleti szoftver , ← ügyfélkapcsolat-kezelés Ly tágan definiált inter-alkalmazás

Virtuális ETL

2010-ben az adatok virtualizációja elősegítette az ETL feldolgozását. Az ETL adatvirtualizáció alkalmazása megoldotta az adatmigráció és az alkalmazásintegráció leggyakoribb feladatait több, szétszórt adatforrás számára. A virtuális ETL a különböző relációs, félig strukturált és strukturálatlan adatforrásokból összegyűjtött objektumok vagy entitások absztrakt ábrázolásával dolgozik. Az ETL-eszközök kihasználhatják az objektum-orientált modellezés előnyeit, és az állandóan központi hub-küllős architektúrában tárolt entitások reprezentációival dolgozhatnak. Egy ilyen gyűjteményt, amely az ETL feldolgozásához adatforrásokból gyűjtött entitások vagy objektumok reprezentációit tartalmazza, metaadat-tárolónak nevezzük, és a memóriában maradhat, vagy állandóvá tehető. A perzisztens metaadat-adattár használatával az ETL-eszközök az egyszeri projektektől a tartós köztes programok felé léphetnek át, az adatok harmonizálását és az adatok profilját következetesen, közel valós időben hajtják végre.


Lásd is

Megjegyzések és hivatkozások

  1. „  ETL (Kivonat, Átalakítás, Betöltés) - Általános bemutató  ” , a Talend valós idejű nyílt forráskódú adatintegrációs szoftveren (hozzáférés : 2020. február 19. )
  2. https://cours.etsmtl.ca/mti820/public_docs/acetates/MTI820-Acetates-ETL_1pp.pdf
  3. "  Tudományos és műszaki dokumentáció, tanácsadás és képzés | Techniques de l'Ingénieur  ” , a www.techniques-ingenieur.fr oldalon (hozzáférés : 2020. február 19. )
  4. "  Mi az EAI - vállalati alkalmazásintegráció | Tenor EDI  ” , a Tenor EDI Services, az EDI, EAI és Dematerialization megoldások szolgáltatója ,2019. március 11(elérhető : 2021. május 18. )
  5. "A projekt megvalósításának szakaszai" a Projekt-alapú tanulás során , Presses de l'Université du Québec ( ISBN  978-2-7605-1795-0 , olvasható online ) , p.  91–150