Viktige Hadoop-verktøy for å knuse store data



Hadoop er oppslagsordet i IT-verdenen i dag, og dette innlegget beskriver de essensielle Hadoop-verktøyene som knaser Big Data.

I dag er det mest populære begrepet i IT-verdenen ‘Hadoop’. Innen kort tid Hadoop har vokst massivt og har vist seg å være nyttig for en stor samling av forskjellige prosjekter. Hadoop-samfunnet er i rask utvikling og har en fremtredende rolle i sitt økosystem.





Her er en titt på de essensielle Hadoop-verktøyene som brukes til å håndtere Big Data.

er en mastergrad en doktorgrad

ambari



Ambari er et Apache-prosjekt støttet av Hortonworks. Den tilbyr et nettbasert GUI (grafisk brukergrensesnitt) med veiviserskripter for å sette opp klynger med de fleste standardkomponenter. Ambari sørger for, administrerer og overvåker alle klyngene av Hadoop-jobber.

hdfs-logo

De HDFS , distribuert under Apache-lisens, tilbyr et grunnleggende rammeverk for å dele opp datasamlinger mellom flere noder. I HDFS er de store filene delt inn i blokker, der flere noder holder alle blokkene fra en fil. Filsystemet er designet på en måte å blande feiltoleranse med høy gjennomstrømning. Blokkene for HDFS er lastet for å opprettholde jevn streaming. De blir vanligvis ikke bufret for å minimere ventetid.



hbaselogo

HBase er et kolonneorientert databasestyringssystem som kjører på toppen av HDFS. HBase-applikasjoner er skrevet i Java, omtrent som MapReduce-applikasjonen. Den består av et sett med tabeller, der hver tabell inneholder rader og kolonner som en tradisjonell database. Når dataene faller inn i den store tabellen, vil HBase lagre dataene, søke i dem og dele tabellen automatisk over flere noder, slik at MapReduce-jobber kan kjøre dem lokalt. HBase tilbyr en begrenset garanti for noen lokale endringer. Endringene som skjer i en enkelt rad kan lykkes eller mislykkes samtidig.

hive

Hvis du allerede har flytende SQL, kan du utnytte Hadoop ved hjelp av Hive . Hive ble utviklet av noen på Facebook. Apache Hive regulerer prosessen med å trekke ut biter fra alle filene i HBase. Den støtter analyse av store datasett lagret i Hadoop’s HDFS og kompatible filsystemer. Det gir også et SQL-lignende språk kalt HSQL (HiveSQL) som kommer inn i filene og trekker ut de nødvendige kodene.

sqoop

Apache Sqoop er spesielt designet for å overføre bulkdata effektivt fra de tradisjonelle databasene til Hive eller HBase. Det kan også brukes til å trekke ut data fra Hadoop og eksportere det til eksterne strukturerte datalagre som relasjonsdatabaser og enterprise datalager. Sqoop er et kommandolinjeverktøy som kartlegger mellom tabellene og datalagringslaget, og oversetter tabellene til en konfigurerbar kombinasjon av HDFS, HBase eller Hive.

Pig1

Når dataene som er lagret er synlige for Hadoop, Apache Pig dykker ned i dataene og kjører koden som er skrevet på sitt eget språk, kalt Pig Latin. Griselatin er fylt med abstraksjoner for håndtering av dataene. Gris kommer med standardfunksjoner for vanlige oppgaver som gjennomsnitt av data, arbeid med datoer eller for å finne forskjeller mellom strengene. Gris lar også brukeren skrive språk på egenhånd, kalt UDF (User Defined Function), når standardfunksjonene kommer til kort.

zookeper

Dyrepasser er en sentralisert tjeneste som vedlikeholder, konfigurerer informasjon, gir et navn og gir distribuert synkronisering over en klynge. Det pålegger et filsystemlignende hierarki i klyngen og lagrer alle metadataene for maskinene, slik at vi kan synkronisere arbeidet til de forskjellige maskinene.

NoSQL

Noen Hadoop-klynger integreres med NoSQL datalager som har sine egne mekanismer for lagring av data på tvers av en klynge av noder. Dette lar dem lagre og hente data med alle funksjonene i NoSQL-databasen, hvorpå Hadoop kan brukes til å planlegge dataanalyseringsjobber i samme klynge.

mahoutlogo

Mahout er designet for å implementere et stort antall algoritmer, klassifiseringer og filtrering av dataanalyse til Hadoop-klyngen. Mange av standardalgoritmene som K-betyr, Dirichelet, parallellmønster og Bayesianske klassifiseringer er klare til å kjøres på dataene med et Hadoop-stil kart og redusere.

Lucene, skrevet i Java og enkelt integrert med Hadoop, er en naturlig følgesvenn for Hadoop. Det er et verktøy ment for indeksering av store blokker med ustrukturert tekst. Lucene håndterer indekseringen, mens Hadoop håndterer de distribuerte spørsmålene over klyngen. Lucene-Hadoop-funksjonene utvikler seg raskt etter hvert som nye prosjekter blir utviklet.

Avro

Euro er et serialiseringssystem som samler dataene sammen med et skjema for å forstå det. Hver pakke leveres med en JSON-datastruktur. JSON forklarer hvordan dataene kan analyseres. Overskriften til JSON spesifiserer strukturen for dataene, der behovet for å skrive ekstra koder i dataene for å markere feltene kan unngås. Resultatet er betydelig mer kompakt enn de tradisjonelle formatene som XML.

En jobb kan forenkles ved å dele den i trinn. Ved å bryte prosjektet inn i flere Hadoop-jobber, Oozie begynner å behandle dem i riktig rekkefølge. Den styrer arbeidsflyten som spesifisert av DAG (Directed Acyclic Graph), og det er ikke behov for rettidig overvåking.

GIS-verktøy

Å jobbe med geografiske kart er en stor jobb for klynger som kjører Hadoop. GIS ( Geografisk informasjonssystem ) verktøy for Hadoop-prosjekter har tilpasset de beste Java-baserte verktøyene for å forstå geografisk informasjon som skal kjøres med Hadoop. Databasene kan nå håndtere geografiske spørsmål ved hjelp av koordinater, og kodene kan distribuere GIS-verktøyene.

Å samle alle dataene er lik lagring og analyse. Apache Flume sender 'spesialagenter' for å samle informasjon som vil bli lagret i HDFS. Informasjonen som samles inn kan være loggfiler, Twitter API eller nettstedsrester. Disse dataene kan lenkes og analyseres.

Spark

Gnist er neste generasjon som stort sett fungerer som Hadoop som behandler data lagret i minnet. Målet er å gjøre dataanalyse raskt å kjøre og skrive med en generell utførelsesmodell. Dette kan optimalisere vilkårlige operatørgrafer og støtte databehandling i minnet, noe som gjør det mulig å spørre om data raskere enn diskbaserte motorer som Hadoop.

SQL på Hadoop

Når det kreves å kjøre en rask ad-hoc-forespørsel om alle dataene i klyngen, kan en ny Hadoop-jobb skrives, men dette tar litt tid. Da programmerere begynte å gjøre dette oftere, kom de opp med verktøy skrevet på det enkle språket til SQL. Disse verktøyene gir rask tilgang til resultatene.

Apache Drill

Apache Drill gir ad-hoc-spørringer med lav latens til mange og varierte datakilder, inkludert nestede data. Drill, inspirert av Googles Dremel, er designet for å skalere til 10 000 servere og søke etter petabytes med data på få sekunder.

Dette er de viktigste Hadoop-verktøyene for å knuse Big Data!

Har du spørsmål til oss? Vennligst nevn dem i kommentarfeltet, så kommer vi tilbake til deg.

Relaterte innlegg:

Praktiske grunner til å lære Hadoop 2.0