4 måter å bruke R og Hadoop sammen

R og Hadoop utfyller hverandre ganske bra når det gjelder visualisering og analyse av big data. Dette blogginnlegget snakker om 4 måter å bruke dem sammen på.

Hadoop er et forstyrrende Java-basert programmeringsrammeverk som støtter behandling av store datasett i et distribuert databehandlingsmiljø, mens R er et programmeringsspråk og programvaremiljø for statistisk databehandling og grafikk. R-språket er mye brukt blant statistikere og databearbeidere for å utvikle statistisk programvare og utføre dataanalyse. Innen områdene interaktiv dataanalyse, generell statistikk og prediktiv modellering har R vunnet enorm popularitet på grunn av klassifiserings-, klyngesystemer og rangering.

KM



Hadoop og R utfyller hverandre ganske bra når det gjelder visualisering og analyse av big data.

Bruker R og Hadoop

Det er fire forskjellige måter å bruke Hadoop og R sammen på:

1. RHadoop

RHadoop er en samling av tre R-pakker: rmr, rhdfs og rhbase. rmr-pakken gir Hadoop MapReduce-funksjonalitet i R, rhdfs gir HDFS-filadministrasjon i R og rhbase gir HBase-databaseadministrasjon innenfra R. Hver av disse primære pakkene kan brukes til å analysere og administrere Hadoop-rammedata bedre.

implementere min bunke i java

2. ORK

ORCH står for Oracle R Connector for Hadoop. Det er en samling av R-pakker som gir relevante grensesnitt for å arbeide med Hive-tabeller, Apache Hadoop-beregningsinfrastruktur, det lokale R-miljøet og Oracle-databasetabeller. I tillegg tilbyr ORCH også prediktive analytiske teknikker som kan brukes på data i HDFS-filer.

3. RIP

RHIPE er en R-pakke som gir et API for å bruke Hadoop. RHIPE står for R og Hadoop Integrated Programming Environment, og er egentlig RHadoop med en annen API.

Fire. Hadoop-streaming

Hadoop Streaming er et verktøy som lar brukerne opprette og kjøre jobber med alle kjørbare filer som kartleggeren og / eller reduksjonsenheten. Ved hjelp av streaming-systemet kan man utvikle fungerende Hadoop-jobber med akkurat nok kunnskap om Java til å skrive to skallskripter som fungerer sammen.

Kombinasjonen av R og Hadoop dukker opp som et must-have verktøysett for folk som jobber med statistikk og store datasett. Imidlertid har visse Hadoop-entusiaster hevet et rødt flagg mens de håndterer ekstremt store Big Data-fragmenter. De hevder at fordelen med R ikke er syntaksen, men det uttømmende biblioteket med primitiver for visualisering og statistikk. Disse bibliotekene er i utgangspunktet ikke distribuerte, noe som gjør datahenting til en tidkrevende affære. Dette er en iboende feil med R, og hvis du velger å overse den, kan R og Hadoop i tandem fortsatt gjøre underverker.

La oss nå se en demo:

windows legger til java i banen

Har du et spørsmål til oss? Vennligst nevn dem i kommentarfeltet, så kommer vi tilbake til deg.

Relaterte innlegg:

hvordan passere referanse i java