Apache Spark with Hadoop - Why it Matters?



Implementeringen av Apache Spark med Hadoop i stor skala av toppbedrifter indikerer suksess og potensial når det gjelder sanntidsbehandling.

Hadoop, databehandlingsrammeverket som har blitt en plattform for seg selv, blir enda bedre når gode komponenter er koblet til det. Noen mangler ved Hadoop, som MapReduce-komponenten i Hadoop, har et rykte for å være sakte for sanntids dataanalyse.





Skriv inn Apache Spark, en Hadoop-basert databehandlingsmotor designet for både batch- og streaming-arbeidsbelastninger, nå i 1.0-versjonen og utstyrt med funksjoner som eksemplifiserer hva slags arbeid Hadoop blir presset til å inkludere. Spark løper på toppen av eksisterende Hadoop-klynger for å gi forbedret og ekstra funksjonalitet.

La oss se på gnistens viktigste funksjoner og hvordan det fungerer sammen med Hadoop og .



Apache Spark viktige fordeler:

img2-R

Spark’s Awesome Features:

  • Hadoop-integrasjon - Spark kan fungere med filer som er lagret i HDFS.
  • Spark’s Interactive Shell - Spark er skrevet i Scala, og har sin egen versjon av Scala-tolken.
  • Spark’s Analytic Suite - Spark leveres med verktøy for interaktiv spørreanalyse, storskala grafbehandling og analyse og sanntidsanalyse.
  • Motstandsdyktige distribuerte datasett (RDD) - RDD er distribuerte objekter som kan lagres i minnet, over en klynge av beregningsnoder. De er de viktigste dataobjektene som brukes i Spark.
  • Distribuerte operatører - Foruten MapReduce, er det mange andre operatører man kan bruke på RDD-er.

Fordeler med å bruke Apache Spark med Hadoop:

keyerror: 'a'
  • Apache Spark passer inn i Hadoop open source-fellesskapet, bygge på toppen av Hadoop Distributed File System (HDFS). Imidlertid er Spark ikke knyttet til det to-trinns MapReduce-paradigmet, og lover ytelse opptil 100 ganger raskere enn Hadoop MapReduce for visse applikasjoner.



  • Velegnet til maskinlæringsalgoritmer - Spark gir primitiver for in-memory cluster computing som lar brukerprogrammer laste data inn i en klynges minne og spørre dem gjentatte ganger.

  • Løp 100 ganger raskere - Gnist, analyseprogramvare kan også fremskynde jobber som kjører på Hadoop databehandlingsplattform. Apache Spark kalles 'Hadoop Swiss Army kniv', og gir muligheten til å lage dataanalyserjobber som kan kjøre 100 ganger raskere enn de som kjører på standard Apache Hadoop MapReduce. MapReduce har blitt mye kritisert som en flaskehals i Hadoop-klynger fordi den utfører jobber i batch-modus, noe som betyr at sanntidsanalyse av data ikke er mulig.

    forskjellen mellom final endelig og finalisering i java
  • Alternativ til MapReduce - Spark gir et alternativ til MapReduce. Den utfører jobber i korte serier av mikrobatcher som er fem sekunder eller mindre fra hverandre. Det gir også mer stabilitet enn sanntids, stream-orienterte Hadoop-rammer som Twitter Storm. Programvaren kan brukes til en rekke jobber, for eksempel en løpende analyse av live data, og takket være et programvarebibliotek, mer beregningsdyktige jobber som involverer maskinlæring og grafbehandling.

  • Støtte for flere språk - Ved hjelp av Spark kan utviklere skrive dataanalyserjobber i Java, Scala eller Python, ved hjelp av et sett med mer enn 80 operatører på høyt nivå.

  • Bibliotekstøtte - Sparks biblioteker er designet for å utfylle de typer behandlingsjobber som blir utforsket mer aggressivt med de nyeste kommersielt støttede distribusjonene av Hadoop. MLlib implementerer en rekke vanlige maskinlæringsalgoritmer, for eksempel naiv Bayesian-klassifisering eller gruppering av Spark Streaming, muliggjør rask behandling av data som er inntatt fra flere kilder, og GraphX ​​tillater beregninger av grafdata.

  • Stabilt API - Med versjonen 1.0 tilbyr Apache Spark et stabilt API (applikasjonsprogrammeringsgrensesnitt), som utviklere kan bruke til å samhandle med Spark gjennom sine egne applikasjoner. Dette hjelper deg med å bruke Storm lettere i Hadoop-basert distribusjon.

  • SPARK SQL-komponent - Spark SQL-komponent for tilgang til strukturerte data, gjør det mulig å forhøre dataene sammen med ustrukturerte data i analysearbeid. Spark SQL, som bare er i alfa for øyeblikket, lar SQL-lignende spørsmål kjøres mot data som er lagret i Apache Hive. Å hente ut data fra Hadoop via SQL-spørringer er enda en variant av sanntids spørringsfunksjonaliteten som dukker opp rundt Hadoop.

  • Apache Spark-kompatibilitet med Hadoop [HDFS, HBASE og YARN] - Apache Spark er fullt kompatibel med Hadoop’s Distributed File System (HDFS), så vel som med andre Hadoop-komponenter som YARN (Yet Another Resource Negotiator) og den distribuerte HBase-databasen.

Bransjeadoptere:

IT-selskaper som Cloudera, Pivotal, IBM, Intel og MapR har alle brettet Spark inn i sine Hadoop-stabler. Databricks, et selskap grunnlagt av noen av utviklerne av Spark, tilbyr kommersiell støtte for programvaren. Både Yahoo og NASA, blant andre, bruker programvaren til daglig datadrift.

Konklusjon:

Det Spark har å tilby, vil sikkert være et stort trekk for både brukere og kommersielle leverandører av Hadoop. Brukere som ønsker å implementere Hadoop og som allerede har bygget mange av deres analysesystemer rundt Hadoop, tiltrekkes av ideen om å kunne bruke Hadoop som et sanntidsbehandlingssystem.

Spark 1.0 gir dem en annen rekke funksjoner for å støtte eller bygge proprietære gjenstander rundt. Faktisk har en av de tre store Hadoop-leverandørene, Cloudera, allerede gitt kommersiell støtte til Spark via Cloudera Enterprise-tilbudet. Hortonworks har også tilbudt Spark som en del av Hadoop-distribusjonen. Implementeringen av Spark i stor skala av toppbedrifter indikerer suksessen og potensialet når det gjelder sanntidsbehandling.

lengden på en matrise i javascript

Har du spørsmål til oss? Nevn dem i kommentarfeltet, så kommer vi tilbake til deg.

Relaterte innlegg: