Hadoop 2.0 - Ofte stilte spørsmål



Interessen for Hadoop har økt til mange ganger de siste par årene. Dette innlegget svarer på spørsmålene dine og fjerner mange tvil om Hadoop 2.0 og dets bruk.

Dette er et oppfølgingsinnlegg med svar på vanlige spørsmål under det offentlige webinaret av edureka! på .

Ofte stilte spørsmål om Hadoop

Deepak:





Hva er Hadoop?
Apache Hadoop er et open source-programvarerammeverk for lagring og storskala behandling av datasett på klynger av råvaremaskinvare. Det er et open source Data Management-programvarerammeverk med utskalert lagring og distribuert behandling. Den bygges og brukes av et globalt fellesskap av bidragsytere og brukere.

Les mer på Hadoop-blogginnlegget vårt og .



Søk:

Hva er de store dataene som brukes i reise-, transport- og flyselskapsindustrien?

Solfylt:



Kan du peke oss på noen eksempler på virkeligheten av Hadoop Implementation som vi kan studere?
Vi er liviavi en tid med økende overbelastning i topptid. Transportoperatører søker kontinuerlig å finne kostnadseffektive måter å levere sine tjenester på, samtidig som transportflåten holdes under gode forhold. Big Data Analytics-bruk på dette domenet kan hjelpe organisasjonen med:

  • Ruteoptimalisering
  • Geospatial analytics
  • Trafikkmønstre og overbelastning
  • Eiendomsvedlikehold
  • Inntektsstyring (dvs. flyselskap)
  • Lagerstyring
  • Drivstoffbesparelse
  • Målrettet markedsføring
  • Kundelojalitet
  • Kapasitetsvarsling
  • Nettverksytelse og optimalisering

Få brukssaker fra den virkelige verden er:
til) Bestemme flykostnader
b) Prediction Modelling for Inventory Logistics
c) Orbitz Worldwide - Kundekjøpsmønstre
d) Seks super-skala Hadoop-implementeringer
er) Hadoop - Mer enn legger til
f) Hadoop i Enterprise

Du kan lære mer om Hadoop Real-world implementeringer på:

Hirdesh:

akkurat i tide kompilator java

Handler Hadoop om databehandling og behandling? Hvordan går vi for rapportering og Visual Analytics. Kan Qlikview, Tableau brukes på toppen av Hadoop?
De viktigste Hadoop-komponentene HDFS og MapReduce handler om datalagring og prosessering. HDFS for lagring og MapReduce for behandling. Men Hadoop-kjernekomponenter som Pig og Hive brukes til analyse. For Visual Reports Tableau kan QlikView kobles til Hadoop for Visual Reporting.

Amit:

Hadoop Vs. mongoDB
MongoDB brukes som 'Operational' sanntids datalager mens Hadoop brukes til offline batch databehandling og analyse.
mongoDB er en dokumentorientert, skjemafri datalagring som du kan bruke i et webapplikasjon som en backend i stedet for RDBMS som MySQL, mens Hadoop hovedsakelig brukes som skaleringslagring og distribuert behandling for store mengder data.

Les mer på vår mongoDB og Hadoop blogginnlegg .

Her:

Er Apache Spark en del av Hadoop ?
Apache Spark er en rask og generell motor for databehandling i stor skala. Gnist er raskere og støtter behandling i minnet. Gnistkjøringsmotor utvider typen arbeidsmengder som Hadoop kan håndtere og kan kjøre på Hadoop 2.0 YARN-klynge. Det er et behandlingsrammesystem som gjør det mulig å lagre objekter i minnet (RDD) sammen med muligheten til å behandle disse objektene ved hjelp av Scala-nedleggelser. Den støtter graf, datalager, maskinlæring og strømbehandling.

Hvis du har en Hadoop 2-klynge, kan du kjøre Spark uten installasjon nødvendig. Ellers er Spark lett å kjøre frittstående eller på EC2 eller Mesos. Den kan lese fra HDFS, HBase, Cassandra og hvilken som helst Hadoop-datakilde.

Les mer på Spark her .

Prasad:

Hva er Apache Flume?
Apache Flume er et distribuert, pålitelig og tilgjengelig system for effektiv innsamling, aggregering og flytting av store mengder loggdata fra mange forskjellige kilder til en sentralisert datakilde.

Amit:

SQL vs NO-SQL-databaser
NoSQL-databaser er Next Generation-databaser og adresserer for det meste noen av punktene

  • ikke-relasjonell
  • distribuert
  • åpen kilde
  • horisontal skalerbar

Ofte gjelder flere egenskaper som skjemafri, enkel replikeringsstøtte, enkel API, til slutt konsekvent / BASE (ikke ACID), en enorm mengde data og mer. For eksempel er få av differensiatorene:

  • NoSQL-databaser skalerer seg horisontalt, og legger til flere servere for å håndtere større belastninger. SQL-databaser, derimot, skaleres vanligvis vertikalt, og tilfører flere og flere ressurser til en enkelt server når trafikken øker.
  • SQL-databaser krevde at du definerte skjemaene dine før du la til informasjon og data, men NoSQL-databaser er skjemafrie, krever ikke skjemadefinisjon på forhånd.
  • SQL-databaser er tabellbaserte med rader og kolonner etter RDBMS-prinsipper, mens NoSQL-databaser er dokument-, nøkkelverdipar, graf eller store kolonnelagre.
  • SQL-databaser bruker SQL (strukturert spørrespråk) for å definere og manipulere dataene. I NoSQL-databasen varierer spørsmålene fra en database til en annen.

Populære SQL-databaser: MySQL, Oracle, Postgres og MS-SQL
Populær NoSQL-databaser: MongoDB, BigTable, Redis, RavenDb, Cassandra, HBase, Neo4j og CouchDB

Se gjennom bloggene våre på Hadoop og NoSQL databaser og fordeler med en slik database:

Koteswararao:

Har Hadoop en innebygd klyngeteknologi?
En Hadoop-klynge bruker Master-Slave-arkitektur. Den består av en enkeltmester (NameNode) og en klynge av slaver (DataNodes) for å lagre og behandle data. Hadoop er designet for å kjøre på et stort antall maskiner som ikke deler noe minne eller disker. Disse DataNodene er konfigurert som Cluster ved hjelp av . Hadoop bruker et konsept for replikering for å sikre at minst en kopi av data er tilgjengelig i klyngen hele tiden. Fordi det er flere kopier av data, kan data som er lagret på en server som går offline eller dør, replikeres automatisk fra en kjent god kopi.

Dinesh:

Hva er en jobb i Hadoop? Hva kan alt oppnås via en jobb?
I Hadoop er en jobb et MapReduce-program for å behandle / analysere dataene. Begrepet MapReduce refererer faktisk til to separate og forskjellige oppgaver som Hadoop-programmer utfører. Den første er kartoppgaven, som tar et sett med data og konverterer det til et annet sett med mellomdata, der individuelle elementer er delt inn i nøkkelverdipar. Den andre delen av en MapReduce-jobb, Reduser oppgaven, tar utdataene fra et kart som inndata og kombinerer nøkkelverdiparene i et mindre sett med aggregerte nøkkelverdipar. Som sekvensen av navnet MapReduce antyder, utføres alltid Reduser-oppgaven etter at kartoppgavene er fullført. Les mer på MapReduce Job .

Sukruth:

Hva er spesielt med NameNode ?
NameNode er hjertet i et HDFS-filsystem. Den beholder metadataene, for eksempel katalogtreet til alle filene i filsystemet og sporer hvor fildataene over hele klyngen oppbevares. De faktiske dataene lagres på DataNodes som HDFS-blokker.
Klientapplikasjoner snakker med NameNode når de ønsker å finne en fil, eller når de vil legge til / kopiere / flytte / slette en fil. NameNode svarer på vellykkede forespørsler ved å returnere en liste over relevante DataNodes-servere der dataene lever. Les mer om HDFS Architecture .

Dinesh:

Når ble Hadoop 2.0 introdusert på markedet?
Apache Software foundation (ASF), open source-gruppen som administrerer Hadoop Development, har kunngjort i bloggen 15. oktober 2013 at Hadoop 2.0 nå er generelt tilgjengelig (GA). Denne kunngjøringen betyr at etter lang ventetid er Apache Hadoop 2.0 og YARN nå klare for distribusjon av produksjon. Mer på Blogg.

Dinesh:

Hva er de få eksemplene på ikke-MapReduce Big Data-applikasjon?
MapReduce er flott for mange applikasjoner for å løse Big Data-problemer, men ikke for alt andre programmeringsmodeller tjener bedre krav som grafbehandling (f.eks. Google Pregel / Apache Giraph) og iterativ modellering med Message Passing Interface (MPI).

Marish:

Hvordan ordnes og indekseres dataene i HDFS?
Data er delt inn i blokker på 64 MB (kan konfigureres av en parameter) og lagres i HDFS. NameNode lagrer lagringsinformasjon for disse blokkene som Block ID-er i RAM (NameNode Metadata). MapReduce-jobber kan få tilgang til disse blokkene ved hjelp av metadataene som er lagret i NameNode RAM.

Shashwat:

__init__ python

Kan vi bruke både MapReduce (MRv1) og MRv2 (med YARN) på samme klynge?
Hadoop 2.0 har introdusert et nytt rammeverk GARN for å skrive og utføre forskjellige applikasjoner på Hadoop. Så, YARN og MapReduce er to forskjellige konsepter i Hadoop 2.0 og bør ikke blandes og brukes om hverandre. Det rette spørsmålet er 'Er det mulig å kjøre både MRv1 og MRv2 på en Garn-aktivert Hadoop 2.0-klynge?' Svaret på dette spørsmålet er et 'Nei' som selv om en Hadoop-klynge kan konfigureres til å kjøre både MRv1 og MRv2, men bare kan kjøre ett sett med demoner når som helst. Begge disse rammene bruker til slutt de samme konfigurasjonsfilene ( garn-site.xml og mapred-site.xml ) for å kjøre demonene, derfor kan bare en av de to konfigurasjonene aktiveres på en Hadoop-klynge.

Dukke:

Hva er forskjellen mellom Next Generation MapReduce (MRv2) og GARN?
YARN og Next Generation MapReduce (MRv2) er to forskjellige konsepter og teknologier i Hadoop 2.0. YARN er et programvarerammeverk som kan brukes til å kjøre ikke bare MRv2, men også andre applikasjoner. MRv2 er et applikasjonsrammeverk skrevet med YARN API og det kjører innen YARN.

Bharat:

Gir Hadoop 2.0 bakoverkompatibilitet for Hadoop 1.x-applikasjoner?
Neha:

Krever Hadoop 1.0 til 2.0-migrering tung applikasjonskode migrasjon?
Nei, det meste av applikasjonen som er utviklet ved bruk av 'org.apache.hadoop.mapred' API-er, kan kjøres på YARN uten rekompilering. YARN er binært kompatibelt med MRv1-applikasjoner, og 'bin / hadoop' kan brukes til å sende inn disse søknadene på YARN. Les mer om dette her .

Sherin:

Hva skjer hvis Resource Manager-node mislykkes i Hadoop 2.0?
Fra og med Hadoop versjon 2.4.0 er støtte for høy tilgjengelighet for Resource Manager også tilgjengelig. ResourceManager bruker Apache ZooKeeper for fail-over. Når Ressursbehandling-noden mislykkes, kan en sekundær node raskt gjenopprette via klyngetilstand lagret i ZooKeeper. ResourceManager, ved en fail-over, starter alle køer og applikasjoner som kjører på nytt.

Sabbirali:

Fungerer Apache's Hadoop-rammeverk på Cloudera Hadoop?
Apache Hadoop ble introdusert i 2005 med kjerne MapReduce-behandlingsmotoren for å støtte distribuert behandling av store arbeidsmengder for data lagret i HDFS. Det er et åpen kildekode-prosjekt og har flere distribusjoner (ligner på Linux). Cloudera Hadoop (CDH) er en slik distribusjon fra Cloudera. Andre lignende distribusjoner er HortonWorks, MapR, Microsoft HDInsight, IBM InfoSphere BigInsights etc.

Arulvadivel:

Er det noen enkel måte å installere Hadoop på den bærbare datamaskinen min og prøve å migrere Oracle-databasen til Hadoop?
Du kan start med en HortonWorks Sandbox eller Cloudera Quick VM på den bærbare datamaskinen din (med minst 4 GB RAM og i3 eller høyere prosessor). Bruk SQOOP til å flytte data fra Oracle til Hadoop som forklart her .

Bhabani:

Hva er de beste bøkene som er tilgjengelige for å lære Hadoop?
Starte med Hadoop: The Definitive Guide av Tom White og Hadoop-operasjoner av Eric Sammer.

Mahendra:

Er det noen lesing tilgjengelig for Hadoop 2.0, akkurat som Hadoop den definitive guiden?
Gjennomgå siste ankomst på bokhyller skrevet av få av skaperne av Hadoop 2.0.

Følg med for flere spørsmål i denne serien.