Hadoop

Hadoop

Információ
Teremtő Doug Cutting és Mike Cafarella ( in )
Fejlesztette Apache Software Foundation
Az első verzió 1 st április 2006
Utolsó verzió 3.3.0 (2020. július 14)
Letét git-wip-us.apache.org/repos/asf/hadoop.git , gitbox.apache.org/repos/asf?p=hadoop.git és github.com/apache/hadoop
Beírva Jáva
Operációs rendszer Cross-platform és POSIX
Környezet Java virtuális gép
típus Keretrendszer
Engedély Apache License 2.0 verzió és GNU General Public License
Dokumentáció wiki.apache.org/hadoop/HowToContribute
Weboldal hadoop.apache.org

A Hadoop egy ingyenes és nyílt forráskódú, Java-ban írt keretrendszer , amelynek célja az elosztott (adattárolás és -feldolgozás szempontjából) és skálázható (skálázható) alkalmazások létrehozásának megkönnyítése, amelyek lehetővé teszik az alkalmazások számára, hogy több ezer csomóponton és petabájtnyi adaton dolgozzanak. Ezért minden csomópont szabványos gépekből áll, csoportosítva. Az összes Hadoop modult azzal a gondolattal tervezték, hogy a hardver hibák gyakran fordulnak elő, ezért a keretrendszernek automatikusan kezelnie kell őket.

Hadoopot a MapReduce , a GoogleFS és a Google BigTable publikációja ihlette . A Hadoopot a Doug Cutting hozta létre, és 2009 óta az Apache Software Foundation projektjeinek része.

A Hadoop magja egy tároló részből áll: HDFS ( Hadoop Distributed File System ) és egy MapReduce nevű feldolgozó részből áll. Hadoop nagy fájlokra osztja a fájlokat, és szétosztja a fürt csomópontjain. Az adatok feldolgozásához továbbítja a kódot minden csomópontra, és minden csomópont feldolgozza a rendelkezésére álló adatokat. Ez lehetővé teszi az összes adat gyorsabb és hatékonyabb feldolgozását, mint egy hagyományosabb szuperszámítógépes architektúrában amely párhuzamos fájlrendszerre támaszkodik, ahol a számításokat és az adatokat nagy sebességű hálózatokon osztják szét.

Az alapvető Hadoop keretrendszer a következő modulokból áll:

A Hadoop kifejezés nemcsak a fenti alapmodulokra vonatkozik, hanem az ökoszisztémájára és az összes szoftverre is, amely csatlakozik hozzá, például Apache Pig , Apache Hive , Apache HBase , Apache Phoenix , Apache Spark , Apache ZooKeeper , Apache Impala , Apache Flume , Apache Sqoop , Apache Oozie , Apache Storm .

Történelmi

2004-ben a Google közzétett egy cikket, bemutatva annak algoritmus alapján nagyszabású analitikai műveletek egy nagy szerver cluster , a MapReduce , valamint a fürtözött fájlrendszer, a GoogleFS . Doug Cutting , aki annak idején az Apache Lucene fejlesztésén dolgozott, és hasonló problémákkal találkozott, mint a Mountain View cég, akkor úgy döntött, hogy a cikkben leírt fogalmakat használja az eszközök saját verziójának fejlesztésére nyílt forráskódú verzióban. . , amely a Hadoop projekt lesz.

Ötéves kisfiának puha játéka, egy sárga elefánt ihlette őt az új Java keretrendszer logójához és nevéhez .

2006-ban a Doug Cutting úgy döntött, hogy csatlakozik a Yahoo- hoz a Nutch projekttel és a Google korai munkáján alapuló ötletekkel az elosztott adatfeldolgozás és tárolás terén.

2008-ban a Yahoo nyílt forráskódú projektként ajánlotta fel a Hadoopot.

2011-ben megszületett az 1.0.0 verziójú Hadoop; keltezett2011. december 27.

A 2012. május 23, a nyílt forráskódú közösség elindítja a Hadoop 2.0 szoftvert , amelyet 2012 novemberétől kínáltak a nyilvánosság elé az Apache projekt részeként, az Apache Software Foundation támogatásával . A legnagyobb forradalom a YARN réteg hozzáadása volt a Hadoop szerkezetéhez.

Tól től 2016. szeptember, a 3.0.0-alfa1 verzió megjelenik.

Építészet

Hadoop elosztott fájlrendszer

A HDFS egy elosztott , bővíthető és hordozható fájlrendszer, amelyet Hadoop fejlesztett ki a GoogleFS-től . Java nyelven írták, nagyon nagy mennyiségű adat tárolására tervezték nagyszámú, szabvány merevlemezzel felszerelt gépen. Ez lehetővé teszi a fizikai tárolási architektúra absztrakcióját annak érdekében, hogy az elosztott fájlrendszert úgy kezelje , mintha egyetlen merevlemez lenne.

A HDFS gépek architektúrája (más néven HDFS klaszter ) két fő összetevőn alapszik:

NameNode names csomópont, ez az összetevő kezeli a névteret , a fájlrendszer fát, valamint a fájl és a könyvtár metaadatait . Központosítja a fürtben elosztott adatblokkok helyét . Egyedülálló, de van egy másodlagos példánya, amely kezeli a fájlrendszer módosításainak előzményeit ( biztonsági szerepkör ). Ez a másodlagos NameNode lehetővé teszi a Hadoop- fürt működésének folytonosságát az eredeti NameNode meghibásodása esetén . DataNode adatcsomópont, ez az összetevő tárolja és visszaállítja az adatblokkokat. A fájl olvasása során a NameNode- ot lekérdezik az összes adatblokk megkeresésére. Mindegyik esetében a NameNode adja vissza a legkönnyebben hozzáférhető DataNode címet , vagyis a legnagyobb sávszélességű DataNode címet . A DataNodes rendszeresen kommunikál a NameNode-szal az általuk tárolt adatblokkok listájával. Ha ezek a blokkok némelyike ​​nem replikálódik kellően a fürtben , akkor e blokkok írása kaszkádban történik, másolással másokra.

Minden DataNode adatblokkként szolgál a hálózaton, a HDFS-re specifikus protokoll használatával . A fájlrendszer a TCP / IP réteget használja a kommunikációhoz. Az ügyfelek a Távoli eljáráshívást használják egymással való kommunikációhoz. A HDFS nagy fájlokat tárol több gépen. A megbízhatóságot az adatok több állomáson keresztüli replikálásával éri el, ezért nem igényel RAID- tárolást a gazdagépeken. A replikáció alapértelmezett beállításával az adatokat három csomóponton tárolják: kettőt ugyanazon az adathordozón és egyet különböző adathordozón. A DataNodes kommunikálni tud az adatok egyensúlyának helyreállítása és az adatok magas szintű replikálása érdekében.

A HDFS nem teljes mértékben felel meg a POSIX specifikációknak , mivel a POSIX fájlrendszer követelményei eltérnek a Hadoop alkalmazás célcéljaitól. Az a kompromisszum, hogy nincs teljesen POSIX-kompatibilis fájlrendszer, növeli az adatátviteli teljesítményt.

A HDFS nemrégiben továbbfejlesztette magas rendelkezésre állású képességeit, amely lehetővé teszi, hogy az elsődleges metaadat- kiszolgáló meghibásodás esetén manuálisan meghiúsuljon egy biztonsági mentésre (az automatikus feladatátvitel folyamatban van). Mivel a NameNodes az egyetlen pont a metaadatok tárolására és kezelésére , szűk keresztmetszetet jelenthetnek nagy számú fájl támogatásában, különösen akkor, ha a fájlok kicsiek. Ha több névteret fogad el külön NameNodes , a HDFS enyhíti ezt a problémát.

MapReduce

A Hadoop teljes mértékben megvalósította a MapReduce koncepciót.

HBase

A HBase egy elosztott adatbázis strukturált tárolóval a nagy táblák számára.

A BigTable-hez hasonlóan a HBase is egy oszloporientált adatbázis .

Állatgondozó

A ZooKeeper egy elosztott rendszerek konfigurációkezelő szoftvere, amely a Google által kifejlesztett Chubby szoftverre épül. A ZooKeeper alkalmazást többek között a HBase megvalósításához használják.

Kaptár

A Hive egy adatelemző szoftver, amely lehetővé teszi a Hadoop használatát az SQL-hez hasonló szintaxissal . A kaptárat eredetileg a Facebook fejlesztette ki .

malac

A Pig a Hive-hoz hasonló adatelemző szoftver, amely a Pig latin nyelvet használja . Pig eredetileg a Yahoo! .

Használ

Az informatikában több nagy név is bejelentette a Hadoop használatát, mint például a Facebook , a Yahoo , a Microsoft . A Yahoo üzemelteti a világ legnagyobb Hadoop-klaszterét, több mint 100 000 CPU-t és 40 000 gépet szentelnek ennek a technológiának.

WikiTrends egy ingyenes közönség elemzést biztosít a Wikipedia enciklopédia indult2014. április. Az alkalmazás, különösen a Hadoop segítségével, lehetővé teszi a felhasználók által a Wikipedia enciklopédiában leginkább keresett témák számszerűsítését grafikus megjelenítő felületen keresztül.

Hadoop és a felhő

A Hadoop telepíthető egy hagyományos adatközpontba, de a felhőn keresztül is . A felhő lehetővé teszi a szervezetek számára, hogy speciális hardver vagy szakértelem megszerzése nélkül telepítsék a Hadoopot.

Microsoft Azure

Az Azure HDInsight olyan szolgáltatás, amely Hadoopot telepít a Microsoft Azure-ra. A HDInsight a Hortonworks Data Platformot (HDP) használja. A HDInsight lehetővé teszi a kiterjesztések programozását .NET-ben (a Java mellett). A HDInsight támogatja a Hadoop-fürtök Ubuntu használatával történő létrehozását is.

A HDInsight felhőben történő használatával a vállalkozások annyi csomópontot futtathatnak, amennyit csak akarnak; számlázásuk a számítás és a felhasznált tárhely szerint történik. A HDP-megvalósítások az adatokat a helyszíni adatközpontból a felhőbe is áthelyezhetik biztonsági mentés, fejlesztés, tesztelés és áttörési forgatókönyvek céljából. HDP-fürtök futtatása az Azure virtuális gépeken is lehetséges.

Amazon EC2 / S3 szolgáltatások

A Hadoop futtatható az Amazon Elastic Compute Cloud (EC2) és az Amazon Simple Storage Service (S3) szolgáltatásokon. Például a New York Times 100 Amazon EC2 példányt és egy Hadoop alkalmazást használt fel 4 TB nyers TIFF képek (az Amazon S3-ban tárolt) feldolgozására 11 millió PDF fájlban.

Elosztások

A Hadoopot négy játékos terjeszti, akik képzési szolgáltatásokat és kereskedelmi támogatást, valamint további funkciókat kínálnak:

Megjegyzések és hivatkozások

  1. "  https://archive.apache.org/dist/hadoop/common/  "
  2. "  https://hadoop.apache.org/release/3.3.0.html  "
  3. "  Google Research Publication: MapReduce  " , a research.google.com címen (hozzáférés : 2016. szeptember 12. )
  4. (in) "  Hadoop Doug Cutting Apu azt mondja, van egy elefánt a szobában  " , The Register ,2014. május 8( online olvasás )
  5. "  Cloudera: A Brief History of Hadoop, az alkotó és a Revolution | Szilícium  ”, szilícium ,2012. március 29( online olvasás , konzultáció 2018. július 17 - én )
  6. „  Hadoop - Minden, amit tudnod kell a fő Big Data platformról  ” , a www.lebigdata.fr oldalon (hozzáférés : 2018. július 17. )
  7. "  Apache Hadoop Releases  " , a hadoop.apache.org címen (hozzáférés : 2018. július 17 )
  8. A Hadoop használatát igénylő vállalatok listája
  9. Apache.org, a Hadoop használata az egész világon .
  10. "A  WikiTrends, az első Big Data alkalmazás, amely több mint 21  TB statisztikát szolgáltat valós időben  " [PDF] , www.itrpress.com ,2014. március 3(megtekintés : 2014. november 10. )
  11. Marlène Duretz , "  Még nem is rossz  ", Le Monde ,2014. június 3( online olvasás )
  12. https://azure.microsoft.com/en-us/solutions/hadoop/
  13. https://azure.microsoft.com/en-us/services/hdinsight/
  14. S i Hivatalos Cloudera akkor, bemutatva a képzési szolgáltatás és támogatás
  15. "  Big adatok: Cloudera telepszik Franciaországban  ", Silicon ,2014. október 7( online olvasás , konzultáció 2017. június 22-én )

Lásd is

Kapcsolódó cikkek

Külső linkek