Hvordan lage Hadoop-klynge med Amazon EMR?



I denne artikkelen vil vi utforske AWS EMR Service, og i prosessen vil vi lære hvordan du lager Hadoop-klynge med Amazon EMR?

I denne artikkelen om hvordan du lager Klynge Med Amazon EMR vil vi se hvordan du enkelt kan kjøre og skalere Hadoop og Big Data-applikasjoner. Følgende tips vil bli dekket i denne artikkelen,

Gå videre med dette Hvordan lage Hadoop-klynge med Amazon EMR?





hvordan du bruker trimmetode i java

Hvordan lage Hadoop-klynge med Amazon EMR?

Når vi søker etter noe i Google eller Yahoo, får vi svaret på en brøkdel av et sekund. Hvordan er det mulig at Google, Yahoo og andre søkemotorer returnerer resultatene så raskt fra det stadig voksende nettet? Søkemotorene kryper gjennom internett, laster ned nettsidene og lager en indeks som vist nedenfor. For spørsmål fra oss bruker de indeksen for å finne ut hva som er alle nettsidene som inneholder teksten vi lette etter. Ved å se på indeksen nedenfor på høyre side, kan vi tydelig vite at Hadoop er det nettsiden 1, 2 og 3.

Bilde - Hvordan lage Hadoop-klynge med Amazon EMR - EdurekaOg så PageRanking-algoritme brukes som er basert på hvordan sidene er koblet sammen for å finne ut hvilken side som skal vises øverst og hvilken nederst. I scenariet nedenfor er W1 det 'mest populære' fordi alle kobler til det og W4 er det 'minst populære' ettersom ingen kobler til det. Så vises W1 øverst og W4 nederst i søkeresultatene.



Med eksplosjonen av nettsidene fant disse søkemotorene utfordringer for å lage indeks og gjøre PageRanking-beregningene. Det er her Hadoop ble født i Yahoo og senere ble FOSS (Free and Open Source Software) under ASF (Apache Software Foundation). En gang under ASF begynte mange selskaper å interessere seg for Hadoop og begynte å bidra til å forbedre det. Hadoop var den som startet Big Data-revolusjonen, men mange andre programvare som Spark, Hive, Pig, Sqoop, Zookeeper, HBase, Cassandra, Flume begynte å utvikle seg for å takle begrensningene og hullene i Hadoop.

Nettsøkemotorer var de første som brukte Hadoop, men senere begynte mange brukstilfeller å utvikle seg etter hvert som mer og mer data ble generert. La oss ta eksemplet med et e-handelsprogram som brukes til å anbefale bøker til brukerne. I henhold til diagrammet nedenfor kjøpte bruker1 bok1, bok2 og bok3, bruker2 kjøpte noen bøker og så videre. Når vi ser nøye på, kan vi observere at bruker1 og bruker2 har samme smak som de har kjøpt book1 og book2. Så book3 kan anbefales til bruker2 og book4 kan anbefales til bruker1. Dette kalles Collaborative Filtering, en type maskinlæringsalgoritme. Vi kan snu diagrammet nedenfor og få lignende bøker.

I det ovennevnte tilfellet har vi opprettet indeks, PageRanked og anbefalt til brukeren, størrelsen på dataene var liten, og så kunne vi visualisere dataene og utlede noen resultater ut av det. Ettersom størrelsen på data blir større hver dag og ut av kontroll, er det her Big Data-verktøy som Hadoop kommer inn i bildet.



Hadoop løser mange problemer, men å installere Hadoop og annen Big Data-programvare hadde aldri vært en enkel oppgave. Det er mange konfigurasjonsparametere å finjustere, som integrasjons-, installasjons- og konfigurasjonsproblemer å jobbe med. Det er her selskaper som Cloudera, og databaser hjelper. De gjør installeringen av Big Data-programvaren enklere og gir kommersiell støtte, for eksempel la oss si at noe skjer i produksjonen. Amazon EMR (Elastic MapReduce) gjør det enklere å bruke Hadoop osv. Navnet Elastic MapReduce er litt feilaktig, da EMR også støtter andre distribuerte datamodeller som Resilient Distribuerte datasett og ikke bare MapReduce.

I denne opplæringen vil vi utforske hvordan du setter opp en EMR-klynge på AWS Cloud, og i den kommende opplæringen vil vi utforske hvordan du kjører Spark, Hive og andre programmer på toppen av den.

Gå videre med dette Hvordan lage Hadoop-klynge med Amazon EMR?

Demo: Opprette en EMR-klynge i AWS

Trinn 1: Gå til EMR Management Console og klikk på 'Create cluster'. I konsollen, metadata for avsluttet klynge lagres også i to måneder gratis. Dette gjør det mulig å klone og opprette den avsluttede klyngen igjen.

Steg 2 : Fra skjermbildet for hurtigvalg klikker du på “Gå til avanserte alternativer” for å spesifisere mye mer informasjon om klyngen.

Trinn 3: I kategorien Avanserte alternativer kan vi velge annen programvare som skal installeres i EMR-klyngen. For et SQL-grensesnitt kan Hive velges. For et dataflytspråkgrensesnitt kan gris velges. For distribuert applikasjonskoordinering kan ZooKeeper velges og så videre. Denne kategorien lar oss også legge til trinn, som er en valgfri oppgave. Trinn er store databehandlingsjobber ved bruk av MapReduce, Pig, Hive osv. De kan legges til i denne kategorien eller senere når klyngen er opprettet. Klikk på 'Neste' for å velge maskinvaren som kreves for EMR-klyngen.

algoritmesortering c ++

Trinn 4: Hadoop følger mesterarbeiderarkitekturen der mesteren utfører all koordinering som å planlegge og tildele arbeidet og kontrollere fremdriften, mens arbeiderne gjør det faktiske arbeidet med å behandle og lagre dataene. En enkelt mester er en SPOF (Single-Point-Of-Failure). Amazon EMR støtter multi-master for høy tilgjengelighet (HA). Det forrige trinnet gjør det mulig å sette opp en multimasterklynge i EMR.

EMR tillater to typer noder, Core og Task. Kjerneknuten brukes til både behandling og lagring av data, oppgaveknutepunktet brukes til bare behandling av dataene. For denne opplæringen kan vi bare velge en kjerne og ingen oppgaveknuter, da det innebærer mindre kostnader for oss. Velg også Spot forekomster over På etterspørsel ettersom Spot-forekomster er billigere. Fangsten med Spot-forekomster er at de kan avsluttes av AWS automatisk med en to minutters varsel . Dette er bra for praksisens skyld og i noen faktiske scenarier også. Spotforekomster avsluttes automatisk ettersom de har lav prioritet fremfor andre forekomsttyper. Klikk på “Neste”.

Trinn 5: Spesifiser klyngenavnet. og klikk på “Neste”. Legg merke til at “Termineringsbeskyttelse” er slått på som standard, dette sørger for at EMR-klyngen ikke slettes ved et uhell ved å innføre noen få trinn mens klyngen avsluttes.

Trinn 6: I kategorien er de forskjellige sikkerhetsalternativene for EMR-klyngen spesifisert. KeyPair må velges for å logge på EC2-forekomsten. EMR oppretter automatisk de aktuelle rollene og sikkerhetsgruppene og fester dem til master- og arbeiderens EC2-noder. Klikk på “Create cluster”.

Opprettelsen av klyngen tar noen minutter ettersom EC2-forekomster må kjøpes opp og de forskjellige Big Data-programvarene må installeres og konfigureres. Opprinnelig ville klyngestatus være i 'Start' -tilstand og gå videre til 'Venter' -tilstand. I tilstanden 'Venter' venter EMR-klyngen ganske enkelt på at vi skal sende inn forskjellige Big Data-behandlingsjobber som MR, Spark, Hive osv.

Legg også merke til EC2 Management Console og merk at master- og arbeiderens EC2-forekomster skal være i gang. Dette er Spot-forekomster som er opprettet som en del av opprettelsen av EMR-klyngen. Den samme EC2 kan også sees fra kategorien Maskinvare i EMR Management Console. Vær oppmerksom på at i kategorien Maskinvare er prisen for Spot EC2-forekomster nevnt som 0,032 $ / time. Prisen på Spot-tilfeller endrer seg med tiden og er mye lavere enn på EC2-priser på forespørsel.

Trinn 7: Nå som EMR-klyngen er lagt til, kan trinn eller Big Data-prosesseringsjobber legges til. Gå til trinn-fanen og klikk på “Legg til trinn” og velg type trinn (MR, bikube, gnist osv.). Vi vil utforske det samme i den kommende opplæringen. For nå klikker du på Avbryt.

Trinn 8: Nå som vi har sett hvordan du starter EMR, kan vi se hvordan vi kan stoppe det samme.

hva er en bufret leser

Trinn 8.1: Klikk på Avslutt.

Trinn 8.2: Som nevnt i de forrige trinnene, er 'Termineringsbeskyttelse' På for EMR-klyngen, og Avslutt-knappen er deaktivert. Klikk på Endre.

Trinn 8.3: Velg alternativknappen “Av” og klikk på haken. Nå skal Avslutt-knappen være aktivert. Dette er det ekstra trinnet EMR har introdusert, bare for å sikre at vi ikke ved et uhell sletter EMR-klyngen.

Legg merke til at EMR-klyngen vil være i Avslutt-status og at EC2-er vil bli avsluttet. Til slutt vil EMR-klyngen flyttes til avsluttet status, herfra stopper fakturering med AWS. Sørg for å avslutte klyngen, for ikke å medføre ekstra AWS-kostnader.

Konklusjon

I denne opplæringen har vi sett hvordan du starter EMR-klyngen i løpet av få minutter fra nettkonsollen (nettleser), det samme kan automatiseres ved hjelp av , AWS SDK eller ved å bruke AWS CloudFormation . Som lagt merke til å sette opp en EMR-klynge, er det noen minutter, og Big Data-behandlingen kan startes umiddelbart, når behandlingen er ferdig kan utdataene lagres i S3 eller DynamoDB og så stenging av klyngen for å stoppe faktureringen. På grunn av denne prismodellen og brukervennligheten, er EMR en stor hit med de som gjør Big Data-behandlingen. Du trenger ikke å kjøpe servere i stort antall, skaffe lisenser for Big Data-programvaren og vedlikeholde dem. ’

Så dette er det gutta, dette bringer oss til slutten av denne artikkelen om How To Create Hadoop Cluster With Amazon EMR?I tilfelle hvis du ønsker å få ekspertise innen dette emnet, har Edureka kommet med en læreplan som dekker nøyaktig hva du trenger for å knekke løsningsarkitekteksamen! Du kan ta en titt på kursdetaljene for opplæring.

Hvis du har spørsmål relatert til denne bloggen, kan du stille spørsmål i kommentarfeltet nedenfor, og vi vil gjerne svare deg tidlig.