Installer Hadoop: Sette opp en enkelt node Hadoop-klynge

Denne opplæringen er en trinnvis guide for å installere Hadoop-klyngen og konfigurere den på en enkelt node. Alle installasjonstrinnene for Hadoop er for CentOS-maskinen.

Installer Hadoop: Sette opp en enkelt node Hadoop-klynge

Fra våre forrige blogger videre , du må ha fått en teoretisk ide om Hadoop, HDFS og dens arkitektur.Men å få du trenger god praktisk kunnskap.Jeg håper du hadde likt vår forrige blogg på , nå vil jeg ta deg gjennom den praktiske kunnskapen om Hadoop og HDFS. Det første trinnet fremover er å installere Hadoop.

Det er to måter å installere Hadoop på, dvs. Enkelt node og Multi node .



Enkel knutepunktsklynge betyr bare en DataNode som kjører og konfigurerer alle NameNode, DataNode, ResourceManager og NodeManager på en enkelt maskin. Dette brukes til å studere og teste formål. La oss for eksempel vurdere et utvalg datasett i en helsevesen. Så for å teste om Oozie-jobbene har planlagt alle prosessene som å samle inn, samle, lagre og behandle dataene i riktig rekkefølge, bruker vi klyngen med en enkelt node. Det kan enkelt og effektivt teste den sekvensielle arbeidsflyten i et mindre miljø sammenlignet med store miljøer som inneholder terabyte data fordelt på hundrevis av maskiner.

Mens du er i en Klynge med flere noder , det kjører mer enn en DataNode, og hver DataNode kjører på forskjellige maskiner. Multinodeklyngen brukes praktisk talt i organisasjoner for å analysere Big Data. Tatt i betraktning ovenstående eksempel, i sanntid når vi håndterer petabyte med data, må det distribueres over hundrevis av maskiner som skal behandles. Dermed bruker vi klyngen med flere noder.

I denne bloggen vil jeg vise deg hvordan du installerer Hadoop på en enkelt node-klynge.

Forutsetninger

  • VIRTUAL BOKS : den brukes til å installere operativsystemet på den.
  • OPERATIVSYSTEM : Du kan installere Hadoop på Linux-baserte operativsystemer. Ubuntu og CentOS er veldig ofte brukt. I denne opplæringen bruker vi CentOS.
  • JAVA : Du må installere Java 8-pakken på systemet ditt.
  • HADOOP : Du trenger Hadoop 2.7.3-pakke.

Installer Hadoop

Trinn 1: Klikk her for å laste ned Java 8-pakken. Lagre denne filen i hjemmekatalogen.

Steg 2: Pakk ut Java Tar File.

Kommando : tar -xvf jdk-8u101-linux-i586.tar.gz

Smør Java - Installer Hadoop - Edureka

Fig: Installasjon av Hadoop - Utpakking av Java-filer

Trinn 3: Last ned Hadoop 2.7.3-pakken.

Kommando : wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Fig: Installasjon av Hadoop - Nedlasting av Hadoop

Trinn 4: Pakk ut Hadoop-tarfilen.

Kommando : tjære -xvf hadoop-2.7.3.tar.gz

Fig: Installasjon av Hadoop - Utpakking av Hadoop-filer

tabell i en tabell html

Trinn 5: Legg til Hadoop- og Java-stiene i bash-filen (.bashrc).

Åpen . bashrc fil. Legg nå til Hadoop og Java Path som vist nedenfor.

Kommando : vi .bashrc

Fig: Installasjon av Hadoop - Setting Variable Variable

Lagre deretter bash-filen og lukk den.

For å bruke alle disse endringene på gjeldende terminal, utfør kildekommandoen.

Kommando : kilde .bashrc

Fig: Installasjon av Hadoop - Oppfriskende miljøvariabler

For å sikre at Java og Hadoop er riktig installert på systemet ditt og kan nås via terminalen, f.eksxkjør kommandoer for versjon av Java og hadoop.

Kommando : java-versjon

Fig: Installasjon av Hadoop - Kontrollerer Java-versjonen

Kommando : hadoopversjon

Fig: Installasjon av Hadoop - Kontrollerer Hadoop-versjon

Trinn 6 : Rediger .

Kommando: cd hadoop-2.7.3 / etc / hadoop /

Kommando: ls

Alle Hadoop-konfigurasjonsfilene ligger i hadoop-2.7.3 / etc / hadoop katalog som du kan se på stillbildet nedenfor:

Fig: Installasjon av Hadoop - Konfigurasjonsfiler for Hadoop

Trinn 7 : Åpen core-site.xml og rediger egenskapen nevnt nedenfor i konfigurasjonstaggen:

core-site.xml informerer Hadoop-demonen hvor NameNode kjører i klyngen. Den inneholder konfigurasjonsinnstillinger for Hadoop-kjerne, for eksempel I / O-innstillinger som er vanlige for HDFS og MapReduce.

Kommando : vi core-site.xml

Fig: Installasjon av Hadoop - Konfigurering av core-site.xml

fs.default.name hdfs: // localhost: 9000

Trinn 8: Redigere hdfs-site.xml og rediger egenskapen nevnt nedenfor i konfigurasjonstaggen:

hdfs-site.xml inneholder konfigurasjonsinnstillinger for HDFS-demoner (dvs. NameNode, DataNode, Secondary NameNode). Den inkluderer også replikasjonsfaktor og blokkstørrelse på HDFS.

Kommando : vi hdfs-site.xml

Fig: Installasjon av Hadoop - Konfigurering av hdfs-site.xml

dfs.replikasjon 1 dfs.tillatelse usann

Trinn 9 : Rediger mapred-site.xml fil og rediger egenskapen nevnt nedenfor inne i konfigurasjonstaggen:

mapred-site.xml inneholder konfigurasjonsinnstillinger for MapReduce-applikasjon som antall JVM som kan kjøres parallelt, størrelsen på kartleggeren og reduseringsprosessen, CPU-kjerner tilgjengelig for en prosess, etc.

I noen tilfeller er mapred-site.xml-filen ikke tilgjengelig. Så vi må lage mapred-site.xml-filenved hjelp av mapred-site.xml mal.

Kommando : cp mapred-site.xml. mal mapred-site.xml

Kommando : vi mapred-nettstedet.xml.

Fig: Installasjon av Hadoop - Konfigurering av mapred-site.xml

mapreduce.framework.name garn

Trinn 10: Redigere garn-site.xml og rediger egenskapen nevnt nedenfor i konfigurasjonstaggen:

garn-site.xml inneholder konfigurasjonsinnstillinger for ResourceManager og NodeManager som størrelse på applikasjonsminnestyring, operasjonen som trengs på program og algoritme, etc.

Kommando : vi garn-site.xml

Fig: Installasjon av Hadoop - Konfigurering av garn-site.xml

garn.nodemanager.aux-tjenester mapreduce_shuffle garn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler

Trinn 11: Redigere hadoop-env.sh og legg til Java-banen som nevnt nedenfor:

hadoop-env.sh inneholder miljøvariablene som brukes i skriptet for å kjøre Hadoop som Java-hjemmebane, etc.

Kommando : vi hadoop-env.sh

hva brukes nagios til

Fig: Installasjon av Hadoop - Konfigurere hadoop-env.sh

Trinn 12: Gå til Hadoop-hjemmekatalogen og formater NameNode.

Kommando : CD

Kommando : cd hadoop-2.7.3

Kommando : bin / hadoop formål -format

Fig: Installasjon av Hadoop - Formatering av NameNode

Dette formaterer HDFS via NameNode. Denne kommandoen utføres bare for første gang. Formatering av filsystemet betyr å initialisere katalogen som er spesifisert av dfs.name.dir-variabelen.

Aldri formatere, starte og kjøre Hadoop filsystem. Du mister alle dataene dine som er lagret i HDFS.

Trinn 13: Når NameNode er formatert, går du til hadoop-2.7.3 / sbin-katalogen og starter alle demonene.

Kommando: cd hadoop-2.7.3 / sbin

Enten kan du starte alle demoner med en enkelt kommando eller gjøre det hver for seg.

Kommando: ./ start-all.sh

Ovennevnte kommando er en kombinasjon av start-dfs.sh, start-yarn.sh & mr-jobhistory-daemon.sh

Eller du kan kjøre alle tjenestene individuelt som nedenfor:

StartnavnNode:

NameNode er midtpunktet i et HDFS-filsystem. Det holder katalogtreet til alle filene som er lagret i HDFS og sporer all filen som er lagret over klyngen.

Kommando: ./hadoop-daemon.sh startformål

Fig: Installasjon av Hadoop - Starter NameNode

Start DataNode:

Ved oppstart kobles en DataNode til Namenode, og den svarer på forespørslene fra Namenode om forskjellige operasjoner.

Kommando: ./hadoop-daemon.sh start datanode

Fig: Installasjon av Hadoop - Starter DataNode

Start ResourceManager:

ResourceManager er mesteren som arbitrerer alle tilgjengelige klyngeressurser og hjelper dermed med å administrere de distribuerte applikasjonene som kjører på YARN-systemet. Arbeidet er å administrere hver NodeManagers og applikasjonens ApplicationMaster.

Kommando: ./garn-daemon.sh starter ressursleder

Fig: Installasjon av Hadoop - Starter ResourceManager

Start NodeManager:

NodeManager i hvert maskinrammeverk er agenten som er ansvarlig for å administrere containere, overvåke deres ressursbruk og rapportere det samme til ResourceManager.

Kommando: ./garn-daemon.sh start nodemanager

Fig: Installasjon av Hadoop - Starter NodeManager

Start JobHistoryServer:

JobHistoryServer er ansvarlig for å betjene alle jobbhistorikkforespørsler fra klienten.

Kommando : ./mr-jobhistory-daemon.sh start historyserver

Trinn 14: For å kontrollere at alle Hadoop-tjenestene er i gang, kjør kommandoen nedenfor.

Kommando: jps

Fig: Installasjon av Hadoop - Kontroll av demoner

Trinn 15: Åpne nå Mozilla-nettleseren og gå til lokal vert : 50070 / dfshealth.html for å sjekke NameNode-grensesnittet.

Fig: Hadoop-installasjon - Starter WebUI

Gratulerer, du har vellykket installert en enkelt node Hadoop-klynge på en gang.I vår neste blogg av , vil vi dekke hvordan du også kan installere Hadoop på en klynge med flere noder.

Nå som du har forstått hvordan du installerer Hadoop, sjekk ut av Edureka, et pålitelig online læringsfirma med et nettverk med mer enn 250 000 fornøyde elever spredt over hele verden. Edureka Big Data Hadoop Certification Training-kurset hjelper elever å bli eksperter i HDFS, Garn, MapReduce, Pig, Hive, HBase, Oozie, Flume og Sqoop ved å bruke sanntidsbruk på Retail, Social Media, Aviation, Tourism, Finance.

Har du spørsmål til oss? Vennligst nevn det i kommentarfeltet, så kommer vi tilbake til deg.