MongoDB med Hadoop og relaterte Big Data-teknologier



MongoDB med Hadoop og relaterte Big Data Technologies er en kraftig kombinasjon for å gi en løsning for en kompleks situasjon innen analyse.

Relasjonsdatabaser i lang tid var nok til å håndtere små eller mellomstore datasett. Men den kolossale hastigheten som data vokser gjør den tradisjonelle tilnærmingen til datalagring og henting umulig. Dette problemet løses av nyere teknologier som kan håndtere Big Data. Hadoop, Hive og Hbase er de populære plattformene for å betjene denne typen store datasett. NoSQL eller ikke bare SQL-databaser som MongoDB gir en mekanisme for å lagre og hente data i taperens konsistensmodell med fordeler som:

  • Horisontal skalering
  • Høyere tilgjengelighet
  • Raskere tilgang

MongoDB engineering teamet har nylig oppdatert MongoDB Connector for Hadoop for å få bedre integrasjon. Dette gjør det lettere for Hadoop-brukere å:





  • Integrer sanntidsdata fra MongoDB med Hadoop for dyp, offline analyse.
  • Connector eksponerer den analytiske kraften til Hadoop's MapReduce til live applikasjonsdata fra MongoDB, og gir verdi fra big data raskere og mer effektivt.
  • Connector presenterer MongoDB som et Hadoop-kompatibelt filsystem som tillater en MapReduce-jobb å lese fra MongoDB direkte uten først å kopiere den til HDFS (Hadoop file System), og fjerner dermed behovet for å flytte Terabyte data over nettverket.
  • MapReduce-jobber kan sende spørsmål som filtre, slik at du unngår behovet for å skanne hele samlinger, og kan også dra nytte av MongoDBs rike indekseringsmuligheter, inkludert geo-romlig, tekstsøk, matrise, sammensatte og sparsomme indekser.
  • Når du leser fra MongoDB, kan resultatene av Hadoop-jobber også skrives ut til MongoDB, for å støtte sanntids operasjonelle prosesser og ad-hoc-spørring.

Hadoop og MongoDB brukstilfeller:

La oss se på en beskrivelse på høyt nivå av hvordan MongoDB og Hadoop kan passe sammen i en typisk Big Data-stabel. Primært har vi:

  • MongoDB brukes som 'Operasjonell' datalagring i sanntid
  • Hadoop for offline batch databehandling og analyse

Les videre for å vite hvorfor og hvordan MongoDB ble brukt av selskaper og organisasjoner som Aadhar, Shutterfly, Metlife og eBay .



typer operatører i javascript

Anvendelse av MongoDB med Hadoop i Batch Aggregation:

I de fleste scenarier er den innebygde aggregeringsfunksjonaliteten fra MongoDB tilstrekkelig til å analysere data. Imidlertid kan det i visse tilfeller være nødvendig med mer komplisert dataggregasjon. Dette er hvor Hadoop kan gi et kraftig rammeverk for kompleks analyse.

I dette scenariet:

hvordan installere hadoop på linux
  • Data hentes fra MongoDB og behandles i Hadoop via en eller flere MapReduce-jobber. Data kan også hentes fra andre steder i disse MapReduce-jobbene for å utvikle en løsning med flere datakilder.
  • Output fra disse MapReduce-jobbene kan deretter skrives tilbake til MongoDB for forespørsel på et senere tidspunkt og for analyse på ad hoc-basis.
  • Programmer bygget på toppen av MongoDB kan derfor bruke informasjonen fra batchanalyse til å presentere til sluttklienten eller for å aktivere andre nedstrømsfunksjoner.

Hadoop Mongo DB Aggregation



Søknad i datalagring:

I et typisk produksjonsoppsett kan applikasjonsdataene ligge i flere datalagre, hver med sitt eget spørrespråk og funksjonalitet. For å redusere kompleksiteten i disse scenariene kan Hadoop brukes som et datalager og fungere som et sentralisert lager for data fra de forskjellige kildene.

I denne typen scenario:

  • Periodisk MapReduce-jobber laster data fra MongoDB inn i Hadoop.
  • Når dataene fra MongoDB og andre kilder er tilgjengelige i Hadoop, kan det større datasettet spørres mot.
  • Dataanalytikere har nå muligheten til å bruke enten MapReduce eller Pig til å lage jobber som spør etter større datasett som inneholder data fra MongoDB.

Teamet som jobber bak MongoDB har sørget for at det med sin rike integrasjon med Big Data-teknologier som Hadoop, er i stand til å integrere seg godt i Big Data Stack og bidra til å løse noen komplekse arkitektoniske problemer når det gjelder datalagring, henting, prosessering, aggregering og lagring. . Følg med for vårt kommende innlegg om karrieremuligheter for de som tar opp Hadoop med MongoDB. Hvis du allerede jobber med Hadoop eller bare henter MongoDB, kan du sjekke ut kursene vi tilbyr for MongoDB