Cloudera Hadoop: Komme i gang med CDH Distribution



Denne Edureka-bloggen på Cloudera Hadoop Tutorial vil gi deg et komplett innblikk i forskjellige Cloudera-komponenter som Cloudera Manager, pakker, fargetone osv.

Med den økende etterspørselen etter Big Data, og Apache Hadoop errevolusjonens hjerte, det har endret måten vi organiserer og beregner dataene på. Behovet for organisasjoner å tilpasse Hadoop til deres forretningsbehov har drevet fremveksten av kommersielle distribusjoner. Kommersielle Hadoop-distribusjoner er vanligvis pakket med funksjoner, designet for å effektivisere distribusjonen av Hadoop. Cloudera Hadoop Distribution gir en skalerbar, fleksibel, integrert plattform som gjør det enkelt å administrere raskt økende volumer og varianter av data i bedriften din.

I denne bloggen på Cloudera Hadoop Distribution, vil vi dekke følgende emner:





Cloudera Hadoop: Introduksjon til Hadoop

Hadoop er et Apache open source-rammeverk som lagrer og behandler Big Data i et distribuert miljøoverklynge ved hjelp av enkle programmeringsmodeller. Hadoop gir parallell beregning på toppen av distribuert lagring.For å lære mer om Hadoop i detalj fra du kan referere til dette

Etter denne korte introduksjonen til Hadoop, la meg nå forklare de forskjellige typene av Hadoop-distribusjon.



Cloudera Hadoop: Hadoop Distribusjoner

Siden Apache Hadoop er åpen kildekode, har mange selskaper utviklet distribusjoner som går utover den opprinnelige kildekoden. Dette ligner veldig på Linux-distribusjoner som RedHat, Fedora og Ubuntu. Hver av Linux-distribusjonene støtter sine egne funksjoner og funksjoner som brukervennlig GUI i Ubuntu. På samme måte, Rød hatt er populært i bedrifter fordi det tilbyr støtte og også gir ideologi for å gjøre endringer i hvilken som helst del av systemet etter eget ønske. Red Hat lindrer deg fra programvarekompatibilitetsproblemer. Dette er vanligvis et stort problem for brukernesom overgår fra Windows.

På samme måte er det tre hovedtyper av Hadoop-distribusjoner som har sitt eget sett med funksjoner og funksjoner og er bygget under basen HDFS.

Cloudera vs MapR vs Hortonworks

Fig: MapR vs Hortonworks vs Cloudera

Fig: MapR vs Hortonworks vs Cloudera



Cloudera Hadoop Distribusjon

Cloudera er markedstrenden i Hadoop space og er den første som lanserer kommersiell Hadoop-distribusjon. Det tilbyr konsulenttjenester for å bygge bro over gapet mellom 'hva Apache Hadoop tilbyr' og 'hva organisasjoner trenger'.

Cloudera Distribusjon er:

  • Raskt for forretninger : Fra analyse til datavitenskap og alt i mellom, Cloudera leverer ytelsen du trenger for å frigjøre potensialet for ubegrenset data.
  • Gjør Hadoop enkel å administrere : Med Cloudera Manager lar automatiserte veivisere deg raskt distribuere klyngen din, uavhengig av skala eller distribusjonsmiljø.
  • Sikre uten kompromisser: Oppfyller strenge datasikkerhets- og etterlevelsesbehov uten å ofre forretningsfleksibilitet. Cloudera gir en integrert tilnærming til datasikkerhet og styring.

Horton-Works Fordeling

Horton-Works Data Platform (HDP) er helt en åpen kildekodeplattform designet for å manøvrere data fra mange kilder og formater. Plattformen inneholder forskjellige Hadoop-verktøy som Hadoop Distributed File System (HDFS), MapReduce, Zookeeper, HBase, Pig, Hive og flere komponenter.

Den støtter også funksjoner som:

  • HDP gjør Hive raskere gjennom sitt nye Stinger-prosjekt.
  • HDP unngår låsning av leverandør ved å forplikte seg til en gaffelversjon av Hadoop.
  • HDP er fokusert på å forbedre brukervennlighet av Hadoop-plattformen.

MapR Distribusjon

MapR er en plattformfokusert Hadoop-leverandør, akkurat som HortonWorks og Cloudera. MapR integrerer sitt eget databasesystem, kjent som MapR-DB, mens de tilbyr Hadoop-distribusjonstjenester. MapR-DB hevdes å være fire til syv ganger raskere enn aksjedatabasen Hadoop, dvs. HBase, som utføres på andre distribusjoner.

Den har sine spennende funksjoner som:

  • Det er den eneste Hadoop-distribusjonen som inkluderer Pig, Hive og Sqoop uten Java-avhengigheter - siden den er avhengig av MapR-File System.
  • MapR er den mest produksjonsklare Hadoop-distribusjonen med mange forbedringer som gjør den mer brukervennlig, raskere og pålitelig.

La oss nå diskutere Cloudera Hadoop-distribusjonen i dybden.

Abonner på YouTube-kanalen vår for å få nye oppdateringer ...

Cloudera Hadoop: Cloudera Distribution

Cloudera er den mest kjente spilleren i Hadoop-rommet for å gi ut den første kommersielle Hadoop-distribusjonen.

hvordan sortere en matrise c ++

Fig: Cloudera Hadoop Distribusjon

Cloudera Hadoop Distribution støtter følgende sett med funksjoner:

  1. Clouderas CDH består av alle åpen kildekomponenter, er rettet mot distribusjoner i bedriftsklasse, og er en av de mest populære kommersielle Hadoop-distribusjonene.
  2. Cloudera var kjent for sine innovasjoner og var den første som tilbød SQL-for-Hadoop med dens Impala søkemotor.
  3. Administrasjonskonsollen - Cloudera Manager , er enkel å bruke og implementere med det rike brukergrensesnittet som viser all klyngeinformasjonen på en organisert og ren måte.
  4. I CDH kan du legge til tjenester i den oppstartende klyngen uten forstyrrelser.
  5. Andre tillegg av Cloudera inkluderer sikkerhet, brukergrensesnitt og grensesnitt for integrering med tredjepartsapplikasjoner.
  6. CDH gir Node-maler dvs. det tillater opprettelse av en gruppe noder i en Hadoop-klynge med varierende konfigurasjon. Det utrydder bruken av den samme konfigurasjonen i hele Hadoop-klyngen.
  7. Den støtter også:
    • Pålitelighet
      Hadoop-leverandører handler raskt som svar når en feil oppdages. Med den hensikt å gjøre kommersielle løsninger mer stabile, distribueres oppdateringer umiddelbart.
    • Brukerstøtte
      Cloudera Hadoop-leverandører gir teknisk veiledning og assistanse som gjør det enkelt for kunder å ta i bruk Hadoop for oppgaver på virksomhetsnivå og oppdragskritiske applikasjoner.

    • Fullstendighet
      Hadoop-leverandører kobler distribusjonene sine med forskjellige andre tilleggsverktøy som hjelper kundene med å tilpasse Hadoop-applikasjonen for å løse de spesifikke oppgavene.

Cloudera-distribusjoner kommer med 2 forskjellige typer utgaver.

  1. Cloudera Express Edition
  2. Cloudera Enterprise Edition

La oss nå se på forskjellene mellom dem.

Egenskaper Cloudera-Express Cloudera-Enterprise
Klyngestyring
1. Multi-Cluster ManagementJaJa
2. RessursledelseJaJa
Utplassering
1. Støtte for CDH 4 og 5JaJa
2. Rullende oppgradering av CDHNeiJa
Service- og konfigurasjonsadministrasjon
1. Administrer HDFS-, MapReduce-, YARN-, Impala-, HBase-, Hive-, Hue-, Oozie-, Zookeeper-, Solr-, Spark- og Accumulo-tjenesterJaJa
2. Rullende omstart av tjenesterNeiJa
Sikkerhet
1. LDAP-godkjenningNeiJa
2. SAML-godkjenningNeiJa
Overvåking og diagnostikk
1. HelsehistorieJaJa
Alert Management
1. Varsel via e-postJaJa
2. Varsel via SNMPNeiJa
Avanserte administrasjonsfunksjoner
1. Automatisk sikkerhetskopiering og gjenopprettingNeiJa
2. Filsurking og søkingNeiJa
3. Rapporter om MapReduce, Impala, HBase, GarnNeiJa

Cloudera Hadoop: Cloudera Manager

I følge Cloudera er Cloudera Manager den beste måten å installere , konfigurere , få til , og Observere Hadoop-stakken.

Det gir:

  1. Automatisert distribusjon og konfigurasjon
  2. Tilpasses overvåking og rapportering
  3. Uanstrengt robust feilsøking
  4. Null - Vedlikehold av nedetid

Få grundig kunnskap om Cloudera Hadoop og dens forskjellige verktøy

Demonstrasjon av Cloudera Manager

La oss utforske Cloudera Manager.

1. Figuren nedenfor viser antall tjenester som for tiden kjører i Cloudera Manager. Du kan også se diagrammene om klyngeprosessorbruk, Disk IO-bruk osv.

Fig: Hjemmeside til Cloudera Manager

2. Bildet nedenfor viser HBase-klyngen. Det gir deg diagrammer og grafer om helsemessige forhold for den nåværende kjørende HBase REST-serveren.

Figur: Helseforhold for HBase-serveren

3. La oss ta en titt på kategorien Forekomster av HBase-klyngen der du kan kontrollere status og IP-konfigurasjon.

Fig: Status og IP-adresse til vertsserveren til HBase-klyngen

4. Deretter har du konfigurasjonsfanen. Her kan du se alle konfigurasjonsparametrene og endre verdiene.

Fig: Konfigurasjon av HBase-klyngen

La oss nå forstå hva som er pakker i Cloudera.

Cloudera Hadoop: pakker

En pakke er et binært distribusjonsformat som inneholder programfilene, sammen med ytterligere metadata som brukes av Cloudera Manager.

Pakker er selvstendige og installeres i en versjonskatalog, noe som betyr at flere versjoner av en gitt tjeneste kan installeres side om side.

Nedenfor er fordelene ved å bruke Pakke:

  • Det gir distribusjon av CDH som et enkelt objekt, dvs. i stedet for å ha en egen pakke for hver del av CDH, har pakker bare et enkelt objekt å installere.

  • Det gir intern konsistens (ettersom komplett CDH distribueres som en enkelt pakke, samsvarer alle CDH-komponentene og det vil ikke være noen risiko for at forskjellige deler kommer fra forskjellige versjoner av CDH).

  • Du kan installere, oppgradere, nedgradere, distribuere og aktivere pakkene i CDH med noen få klikk.

La oss nå se hvordan du installerer og aktiverer Kafka-tjenesten i CDH ved hjelp av pakker.

  1. Gå til Cloudera manager-hjemmesiden >> Verter >> Pakker som vist nedenfor

    Fig: Velge pakker fra vertene

2. Hvis du ikke ser Kafka i pakkelisten, kan du legge pakken til listen.

  1. Finn pakken til Kafka-versjonen du vil bruke. Hvis du ikke ser det, kan du legge pakkelageret til listen.
  2. Finn pakken for versjonen av Kafka du vil installere - Cloudera Distribution of Apache Kafka Versions .
    Figuren nedenfor viser det samme.

Fig: Forrådsbane for pakken.

3. Kopier lenken som vist i figuren ovenfor og legg den til i det eksterne pakkelageret som vist nedenfor.

Fig: Tillegg av Kafka-stien fra depotet

Fire.Etter å ha lagt til banen, vil Kafka være klar for nedlasting. Du kan bare klikke på nedlastingsknappen og laste ned Kafka.

Fig: Laste ned Kafka

5. Når Kafka er lastet ned, er alt du trenger å gjøre å distribuere og aktivere det.

Fig: Aktivering av Kafka

Når den er aktivert, kan du gå videre og se Kafka i kategorien tjenester i Cloudera manager.

Fig: Kafka-tjeneste

Cloudera Hadoop: Opprette en Oozie-arbeidsflyt

Å lage en arbeidsflyt ved å skrive XML-koden manuelt og deretter utføre den, er komplisert. Du kan henvise til dette Planlegge Oozie-jobben blogg, for å vite om den tradisjonelle tilnærmingen.

Du kan se bildet nedenfor, der vi har skrevet en XML-fil for å lage en enkel Oozie-arbeidsflyt. Fig: Opprette en Oozie-arbeidsflyt ved hjelp av en tradisjonell tilnærming

Som du kan se til og med for å lage en enkel Oozie-planlegger måtte vi skrive enorm XML-kode som er tidkrevende, og feilsøking av hver eneste linje blir tungvint. For å overvinne dette introduserte Cloudera Manager en ny funksjon kalt Fargetone som gir en GUI og enkle dra og slipp-funksjoner for å opprette og utføre Oozie-arbeidsflyter.

La oss nå se hvordan Hue utfører den samme oppgaven på en forenklet måte.

Før vi oppretter en arbeidsflyt, la oss først lage inndatafiler, dvs. clickstream.txt og user.txt.
I filen user.txt har vi bruker-ID, navn, alder, land, kjønn som vist nedenfor. Vi trenger denne brukerfilen for å vite at brukerne teller og klikker på URL-en (nevnt i clickstream-filen) basert på bruker-ID.

Fig: Opprette en tekstfil

For å vite antall klikk av brukeren på hver URL, har vi en clickstream som inneholder bruker-ID og URL.

Fig: Clickstream-fil

La oss skrive spørsmålene i skriptfilen.

Fig: Skriptfil

Etter å ha opprettet brukerfilen, clickstream-filen og skriptfilen neste, kan vi fortsette og opprette Oozie-arbeidsflyten.

1. Du kan ganske enkelt dra og slippe Oozie-arbeidsflyten som vist på bildet.

java-program for å koble til mysql-databasen

Fig: Dra og slipp-funksjonen for å lage Oozie-arbeidsflyten

2. Rett etter at du har droppet handlingen din, må du spesifisere banene til skriptfilen og legge til parametrene som er nevnt i skriptfilen. Her må du legge til OUTPUT-, CLICKSTREAM- og USER-parametere og spesifisere banen til hver av parametrene.

Fig: Legge til en skriptfil og de nødvendige parameterne for å utføre handlingen

3. Når du har spesifisert banene og lagt til parametrene, er det bare å lagre og sende inn arbeidsflyten som vist i bildet nedenfor.

Fig: Lagre og sende inn Oozie-handlingen

4. Når du har sendt inn oppgaven, er jobben fullført. Henrettelse og de andre trinnene blir tatt hånd om av Hue.

Fig: Utførelsesstatus for Oozie-jobben

5.Nå som vi har utført Oozie-jobben, la oss ta en titt på handlingsfanen. Den inneholder bruker-ID og status for arbeidsflyten. Det viser også feilkoder hvis de er noen, start- og sluttidspunktet for handlingselementet.

Fig: Elementer som er tilstede i handlingsfanen i Oozie-arbeidsflyten

6. Ved siden av handlingsfanen er det detaljfanen. I dette kan vi se starttidspunktet og den siste modifiserte tiden for jobben.

Fig: Detaljer om Oozie-arbeidsflyten.

7. Ved siden av kategorien Detaljer har vi konfigurasjonsfanen i arbeidsflyten.

Fig: Konfigurasjonsinnstillinger for Oozie-arbeidsflyten

7. Hvis det er noen feil mens du utfører handlingselementet, blir det oppført i Logg-fanen. Du kan referere til feilmeldingene og feilsøke det deretter.

Fig: Loggfil som inneholder feilkoder og feiluttalelser

8. Her er XML-koden for arbeidsflyten som automatisk genereres av Hue.

Fig: XML-kode for Oozie-arbeidsflyten

9.1. Som du allerede har spesifisert banen for utdatakatalogen i trinn 2, har du utdatakatalogen i HDFS-nettleseren som vist nedenfor.

Fig: Utdatakatalog for HDFS-nettleseren

9.2 Når du klikker på utdatakatalogen, vil du finne en tekstfil kalt output.txt, og den tekstfilen inneholder den faktiske utdata som vist i figuren nedenfor.

Fig: Endelig utgangstekst

Slik gjør Hue vårt arbeid enkelt ved å tilby dra og slipp-alternativene for å lage en Oozie-arbeidsflyt.

Jeg håper denne bloggen var nyttig for å forstå Cloudera-distribusjonen og de forskjellige Cloudera-komponentene.

Vil du delta i Big Data-revolusjonen?

Nå som du har forstått Cloudera Hadoop Distribution, sjekk ut av Edureka, et pålitelig online læringsfirma med et nettverk med mer enn 250 000 fornøyde elever spredt over hele verden. Edureka Big Data Hadoop Certification Training-kurset hjelper elever å bli eksperter i HDFS, Garn, MapReduce, Pig, Hive, HBase, Oozie, Flume og Sqoop ved å bruke sanntidsbruk på Retail, Social Media, Aviation, Tourism, Finance.

Har du spørsmål til oss? Vennligst nevn det i kommentarfeltet, så kommer vi tilbake til deg.