Big Data In AWS - Smart løsning for Big Data



Denne artikkelen hjelper deg med å forstå hvordan AWS håndterer Big Data smart. Det viser også hvordan AWS enkelt kan løse Big Data-utfordringer.

Ideen med Big Data er rett og slett ikke ny, den er overalt. Effekten av Big Data er overalt, fra virksomhet til vitenskap, fra regjeringen til kunsten og så videre. Det er ingen bedre følgesvenn enn å behandle og analysere Big Data. I denne artikkelen skal jeg vise hvordan AWS takler utfordringene til Big Data, og tipsene jeg skal dekke er som følger:

Hva er Big Data?

big data egenskaper





forskjellen mellom redskaper og forlengere

Du kan betrakte Big data som store volum-, høyhastighets- og / eller informasjonsmidler med stort utvalg som krever kostnadseffektive, innovative former for informasjonsbehandling som muliggjør bedre innsikt, beslutningstaking og prosessautomatisering.

Big Data består av 5 viktige V-er som definerer egenskapene til Big Data. La oss diskutere disse før vi går til AWS.



Hva er AWS?

består av mange forskjellige cloud computing-produkter og tjenester. Den svært lønnsomme Amazon-divisjonen tilbyr servere, lagring, nettverk, ekstern databehandling, e-post, mobilutvikling sammen med sikkerhet. Dessuten. AWS består av to hovedprodukter: EC2, Amazons virtuelle maskintjeneste, og S3, et lagringssystem fra Amazon. Den er så stor og til stede i databehandlingen at den nå er minst 10 ganger størrelsen på den nærmeste konkurrenten og er vert for populære nettsteder som Netflix og Instagram.

.

AWS er ​​delt inn i 12 globale regioner over hele verden, som hver har flere tilgjengelighetssoner der serverne er lokalisert.Disse betjente regionene er delt for å tillate brukere å sette geografiske grenser for sine tjenester, men også for å gi sikkerhet ved å diversifisere de fysiske stedene der data holdes.



Hvorfor Big Data i AWS?

Forskere, utviklere og andre teknologientusiaster fra mange forskjellige domener benytter seg av AWS for å utføre stordataanalyse og møte de kritiske utfordringene med den økende Vs for digital informasjon. AWS tilbyr deg en portefølje av cloud computing-tjenester som hjelper deg med å administrere store data ved å redusere kostnadene betydelig, skalere for å møte etterspørselen og øke innovasjonshastigheten.

Amazon Web Services tilbyr en fullt integrert portefølje av cloud computing-tjenester. Videre hjelper det deg å bygge, sikre og distribuere store dataprogrammer. Med AWS trenger du heller ikke maskinvare for å anskaffe og infrastruktur for å vedlikeholde og skalere. På grunn av dette kan du fokusere ressursene dine på å avdekke ny innsikt.Siden nye funksjoner blir lagt til kontinuerlig, vil du alltid kunne utnytte de nyeste teknologiene uten å kreve langsiktige investeringsforpliktelser.

Hvordan AWS kan løse Big Data-utfordringer?

AWS-løsninger for Big Data

AWS har mange løsninger for alle utviklings- og distribusjonsformål. Også innen datavitenskap og big data har AWS kommet med nyere utvikling innen forskjellige aspekter av Big Data-håndtering. Før vi hopper til verktøy, la oss forstå forskjellige aspekter av Big Data som AWS kan tilby løsninger for.

  1. Svelging av data
    Å samle rådata - transaksjoner, logger, mobile enheter og mer - er den første utfordringen mange organisasjoner står overfor når de håndterer store data. En god big data-plattform gjør dette trinnet enklere, slik at utviklere kan innta et bredt spekter av data - fra strukturert til ustrukturert - i hvilken som helst hastighet - fra sanntid til batch.

  2. Lagring av data
    Enhver stor dataplattform trenger et sikkert, skalerbart og holdbart lager for å lagre data før eller til og med etter behandlingsoppgaver. Avhengig av dine spesifikke behov, kan det hende du også trenger midlertidige butikker for data under transport.

  3. Databehandling
    Dette er trinnet der datatransformasjon skjer fra den rå tilstanden til et forbruksformat - vanligvis ved hjelp av sortering, aggregering, sammenføyning og til og med utføring av mer avanserte funksjoner og algoritmer. De resulterende datasettene lagres for videre behandling eller gjøres tilgjengelig for forbruk via verktøy for forretningsinformasjon og datavisualisering.

  4. Visualisering

    Big data handler om å få høyverdig, handlingsbar innsikt fra dataene dine. Ideelt sett er data tilgjengelig for interessenter gjennom selvbetjent forretningsinformasjon og smidig datavisualiseringsverktøy som muliggjør rask og enkel utforskning av datasett.

AWS-verktøy for store data

I de forrige avsnittene så vi på feltene i Big Data der AWS kan tilby løsninger. I tillegg har AWS flere verktøy og tjenester i sitt arsenal for å gjøre det mulig for kunder med mulighetene til Big Data.

La oss se på de forskjellige løsningene som tilbys av AWS for å håndtere forskjellige trinn involvert i håndtering av Big Data

Svelging

  1. Kinesis

    Amazon Kinesis Firehose er en fullstendig administrert tjeneste for å levere strømmedata i sanntid direkte til Amazon S3. Kinesis Firehose skalerer seg automatisk for å matche volumet og gjennomstrømningen av streamingdata og krever ingen kontinuerlig administrasjon. Du kan konfigurere Kinesis Firehose til å transformere streamingdata før du lagrer det i Amazon S3.

  2. Snøball
    Du kan bruke AWS snøball for å overføre massedata på en sikker og effektiv måte fra lokale lagringsplattformer og Hadoop-klynger til S3-skuffer. Etter at du har opprettet en jobb i AWS Management Console, får du automatisk et Snowball-apparat. Etter at en Snowball ankommer, kobler du den til ditt lokale nettverk, installerer Snowball-klienten på din lokale datakilde, og deretter bruker du Snowball-klienten til å velge og overføre filkatalogene til Snowball-enheten.

Oppbevaring

  1. Amazon S3

Amazon S3 er en sikker, meget skalerbar, holdbar objektlagring med millisekunders ventetid for datatilgang. S3 kan lagre alle typer data fra hvor som helst - nettsteder og mobilapper, bedriftsapplikasjoner og data fra IoT-sensorer eller enheter. Den kan også lagre og hente ut hvilken som helst datamengde, med uovertruffen tilgjengelighet, og bygget fra bunnen av for å gi 99,999999999% (11 ni) holdbarhet.

2. AWS Lim

Lim er en fullstendig administrert tjeneste som gir en datakatalog for å gjøre data i datasjøen synlige. I tillegg har den muligheten til å utpakke, transformere og laste (ETL) for å forberede data for analyse. Den innebygde datakatalogen er også som en vedvarende metadatalager for alle dataelementer, noe som gjør alle dataene søkbare og søkbare i en enkelt visning.

Behandling

  1. EMR
    For behandling av stordata ved bruk av Spark og Hadoop, Amazon EMR gir en administrert tjeneste som gjør det enkelt, raskt og kostnadseffektivt å behandle store datamengder. Videre støtter EMR 19 forskjellige open source-prosjekter, inkludert Hadoop , Gnist , og Den kommer også med administrerte EMR-notatbøker for datateknikk, datavitenskapelig utvikling og samarbeid.

  2. Rødforskyvning
    For datalagring, Amazon Redshift gir muligheten til å kjøre komplekse, analytiske spørsmål mot petabyte med strukturerte data. Også inkluderer det Redshift Spectrum som kjører SQL-spørringer direkte mot Exabytes av strukturerte eller ustrukturerte data i S3 uten behov for unødvendig dataflytting.

Visualiseringer

  1. Amazon QuickSight

    For dashboards og visualiseringer gir Amazon Quicksight deg rask, skydrevet forretningsanalysetjeneste. Det gjør det enkelt å lage fantastiske visualiseringer og fyldige dashbord. I tillegg kan du få tilgang til dem fra hvilken som helst nettleser eller mobilenhet.

Demo - Analysere data om truede arter av planter og dyr i Australia.

I denne demonstrasjonen vil vi bruke eksempeldata om truede plante- og dyrearter fra delstatene og territoriene i Australia. Her vil vi lage en EMR-klynge og konfigurere den til å kjøre flertrinns Apache Hive-jobber. EMR-klyngen vil ha Apache Hive installert i seg. Denne klyngen vil bruke EMRFS som filsystem, slik at datainngangs- og utgangsstedene blir kartlagt til en S3-bøtte. Klyngen vil også bruke samme S3-bøtte for lagring av loggfiler.

Vi vil nå opprette et antall EMR-trinn i klyngen for å behandle et datasett. Her vil hvert av disse trinnene kjøre et Hive-skript, og den endelige utdata vil bli lagret i S3-skuffen. Disse trinnene vil generere MapReduce-logger, og det er fordi Hive-kommandoer blir oversatt til MapReduce-jobber på kjøretid. Loggfilene for hvert trinn blir samlet fra beholderne det gyter.

Eksempeldata

Eksempeldatasettet for denne brukssaken er offentlig tilgjengelig fra Den australske myndighetens nettsted for åpne data . Dette datasettet handler om truede dyre- og plantearter fra forskjellige stater og territorier i Australia. En beskrivelse av feltene i dette datasettet og CSV-filen kan sees og lastes ned her .

Behandlingstrinn

Det første EMR-jobbstrinnet her innebærer å lage en Hive-tabell som et skjema for den underliggende kildefilen i S3. I det andre jobbtrinnet vil vi nå kjøre en vellykket forespørsel mot dataene. På samme måte kjører vi et tredje og fjerde spørsmål.

Vi vil gjenta disse fire trinnene noen ganger i løpet av en time, og simulere påfølgende kjøringer av en flertrinnssatsjobb. I et virkelighetsscenario kan tidsforskjellen mellom hver batchkjøring normalt være mye høyere. Det lille tidsgapet mellom påfølgende løp er ment å akselerere testingen.

S3 Bøtte og mapper

Før vi opprettet vår EMR-klynge, måtte vi lage en S3-bøtte for å være vert for filene. I vårt eksempel kaller vi denne skuffen 'arvind1-bucket' Mappene under denne skuffen vises nedenfor i AWS-konsollen for S3:

hvordan lage en haug i java

  • Inndatamappen inneholder eksempeldataene

  • Skriptmappen inneholder Hive-skriptfilene for EMR-jobbtrinn

  • Utdatamappen vil åpenbart holde Hive-programutgangen

  • EMR-klyngen bruker loggmappen til å lagre loggfilene.

Hive Scripts for EMR Job Steps

1. Dette jobbtrinnet kjører et Hive-skriptfor å lage et eksternt Hive-bord. Denne tabellen beskriver tabellskjemaet til den underliggende CSV-datafilen. Manus for dette er som følger:

OPPRETT EKSTERN TABELL `truet_art` (` vitenskapelig navn` streng, `vanlig navn` streng,` gjeldende vitenskapelig navn` streng, `truet status` streng,` handling` streng, `nsw` streng,` nt` streng, `qld` streng, `sa` streng,` tas` streng, `vic` streng,` wa` streng, `aci` streng,` cki` streng, `ci` streng,` csi` streng, `jbt` streng,` nfi` streng, `hmi` streng,` aat` streng, `cma` streng,` oppført brisling taxonid` bigint, `nåværende brisling taxonid` bigint,` kingdom` streng, `class` streng,` profil` streng, `dato ekstrahert` streng, `nsl navn` streng,` familie` streng, `slekt` streng,` art` streng, `infraspesifikk rang` streng,` infraspecies` streng, `artsforfatter` streng,` infraspesjonsforfatter` streng) RÅFORMAT AVGRENSET FELT AVSLUTTET AV ',' STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' LOCATION 's3: // arvind1-bucket / script /

2. Dette jobbtrinnet kjører et spørsmål for å beregne de fem største truede artene i staten New South Wales (NSW). Navnet på Hive-spørringsfilen er endangeredSortNSW.q og det er vist nedenfor:

VELG art, ANTALL (nsw) AS-nummer_av_struede_arter FRA truet_art WHERE (nsw = 'Ja' ELLER nsw = 'Truet') OG 'truet status' = 'Truet' GRUPPE PÅ arter HAR ANTALL (nsw)> 1 BESTILLE PÅ antall_av_endangered_species DESC LIMIT 5

3.Dette jobbtrinnet kjører et spørsmål for å beregne det totale antallet truede plantearter for hver plantefamilie i Australia. Navnet på Hive-spørringsfilen erendangeredPlantSpecies.qog er vist nedenfor

VELG familie, ANTALL (art) AS-nummer_av_struede_arter FRA truet_spesier2 WHERE kingdom = 'Plantae' OG 'truet status' = 'Truet' GROUP FOR familie

4. Dette trinnet viser de vitenskapelige navnene på utdøde dyrearter i Australias delstat Queensland. Skriptfilen heter extinctAnimalsQLD.q og er vist nedenfor:

VELG 'vanlig navn', 'vitenskapelig navn' FRA truet_art WHERE kingdom = 'Animalia' OG (qld = 'Ja' ELLER qld = 'Utdødd') OG 'truet status' = 'Utdødd'

Loggaggregering

Her har vi også lastet opp en JSON-fil kalt logAggregation.json i skriptmappen til S3-bøtta. Vi bruker denne filen for å samle YARN-loggfilene. Loggaggregering konfigureres i konfigurasjonsfilen garn-site.xml når klyngen starter. Innholdet i filen logAggregation.json er som følger:

[{“Classification”: “garn-site”, “Properties”: {“yarn.log-aggregation-enable”: “true”, “yarn.log-aggregation.retain-seconds”: “-1”, “garn .nodemanager.remote-app-log-dir ”:“ s3: // arvind1-bucket / logs ”}}]

Når du har opprettet S3-bøtta og kopiert data- og skriptfilene til de respektive mappene, er det nå på tide å sette opp en EMR-klynge. Følgende øyeblikksbilder beskriver prosessen når vi oppretter klyngen med stort sett standardinnstillinger.

EMR Cluster Setup

hvordan du bruker sqlite-nettleseren

I det første bildet, for å konfigurere klyngen i AWS-konsollen, har vi beholdt alle applikasjonene som anbefales av EMR, inkludert Hive. Vi trenger ikke bruke AWS Lim for å lagre Hive-metadata, og vi legger heller ikke til noe jobbstrinn for øyeblikket. Vi må imidlertid legge til en programvareinnstilling for Hive. Her må du nøye observere hvordan vi spesifiserer stien til JSON-fil for loggaggregering i dette feltet.

I neste trinn har vi beholdt alle standardinnstillingene. Av hensyn til testen vår vil klyngen ha en hovednode og to kjerne noder. Hver node her er en m3.xlarge forekomst og har 10 GB rotvolum. Vi navngir klyngen arvind1-klyngen i neste trinn, og spesifiserer den tilpassede s3-plasseringen for loggfilene.

Til slutt spesifiserte vi et EC2-nøkkelpar for å få tilgang til klyngens hovednode. Det er ingen endring i standard IAM-roller for EMR, EC2-forekomstprofil og automatisk skaleringsalternativer. Master- og kjernnodene bruker også som standard tilgjengelige sikkerhetsgrupper. Normalt er dette et standardoppsett for en EMR-klynge. Når alt er klart, er klyngen i en 'ventende' status som vist nedenfor:

Send Hive Job Steps

Etter dette må vi tillate SSH-tilgang.

  1. Åpne Amazon EMR-konsollen kl https://console.aws.amazon.com/elasticmapreduce/ .
  2. Velge Klynger .
  3. Velg Navn av klyngen.
  4. Under Sikkerhet og tilgang Velg Sikkerhetsgrupper for Master lenke.
  5. Velge ElasticMapReduce-master fra listen.
  6. Velge Inngående , Redigere .
  7. Finn regelen med følgende innstillinger og velg x ikon for å slette det:
    • Type SSH
    • Havn 22
    • Kilde Egendefinert 0.0.0.0/0
  8. Bla til bunnen av listen over regler og velg Legg til regel .
  9. Til Type , å velge SSH Dette kommer automatisk inn TCP til Protokoll og 22 til Port Range .
  10. Velg for kilde Min IP Dette legger automatisk til IP-adressen til klientdatamaskinen din som kildeadresse. Alternativt kan du legge til en rekke Tilpasset klarerte IP-adresser for klienter og velger å legg til regelen for å opprette tilleggsregler for andre klienter. I mange nettverksmiljøer tildeler du IP-adresser dynamisk, så du må regelmessig redigere sikkerhetsgrupperegler for å oppdatere IP-adressen til pålitelige klienter.
  11. Velge Lagre .
  12. Valgfritt, velg ElasticMapReduce-slave fra listen og gjenta trinnene ovenfor for å gi SSH-klienten tilgang til kjerne- og oppgaveknutepunkter fra klarerte klienter.

Siden EMR-klyngen er i gang, har vi lagt til fire jobbtrinn. Dette er trinnene EMR vil kjøre etter hverandre. Følgende bilde viser trinnene fra AWS EMR-konsollen:

Når vi har lagt til de fire trinnene, kan vi sjekke statusen til disse trinnene som fullført. Selv om det er noe problem med utførelsen av disse trinnene, kan det i slike tilfeller løses ved hjelp av loggfilene til disse trinnene.

Så dette er det fra min side i denne artikkelen om Big Data i AWS. Jeg håper du har forstått alt jeg har forklart her.

Hvis du fant denne Big Data i AWS relevant, kan du sjekke ut Edurekas live og instruktørledede kurs videre , medskapet av utøvere i bransjen.

Har du spørsmål til oss? Vennligst nevn det i kommentarfeltet i denne Hvordan distribuere Java-webapplikasjonen i AWS, så kommer vi tilbake til deg.