APACHE FLINK: NESTE GENERASJONS BIG DATA ANALYTICS FRAMEWORK

Apache Flink er en åpen kildekodeplattform for databehandling av distribuert strøm og batch. Den kan kjøres på Windows, Mac OS og Linux OS. La oss diskutere hvordan du konfigurerer Flink-klyngen lokalt i dette blogginnlegget. Det ligner på mange måter Spark - det har API-er for graf- og maskinlæringsbehandling som Apache Spark - men Apache Flink og Apache Spark er ikke akkurat det samme.

For å sette opp Flink-klyngen, må du ha java 7.x eller høyere installert på systemet ditt. Siden jeg har installert Hadoop-2.2.0 på slutten på CentOS (Linux), har jeg lastet ned Flink-pakken som er kompatibel med Hadoop 2.x. Kjør under kommandoen for å laste ned Flink-pakken.

Kommando: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz

Command-Apache-Flink

Fjern filen for å hente flink-katalogen.

Kommando: tar -xvf Nedlastinger / flink-1.0.0-bin-hadoop2-scala_2.10.tgz

Kommando: ls

Legg til Flink-miljøvariabler i .bashrc-filen.

Kommando: sudo gedit .bashrc

Du må kjøre kommandoen nedenfor slik at endringene i .bashrc-filen aktiveres

Kommando: kilde .bashrc

java system.exit (1)

Gå nå til flink-katalogen og start klyngen lokalt.

Kommando: cd hefty-1.0.0

Kommando: bin / start-local.sh

Når du har startet klyngen, vil du kunne se en ny daemon JobManager som kjører.

Kommando: jps

Åpne nettleseren og gå til http: // localhost: 8081 for å se Apache Flink web UI.

La oss kjøre et enkelt ordantalleksempel ved hjelp av Apache Flink.

Før du kjører eksemplet, installer netcat på systemet ditt (sudo yum install nc).

Kjør kommandoen nedenfor i en ny terminal.

Kommando: nc -lk 9000

Kjør kommandoen nedenfor i flinkterminalen. Denne kommandoen kjører et program som tar de streamede dataene som inndata og utfører ordtelling på de streamede dataene.

Kommando: bin / flink run examples / streaming / SocketTextStreamWordCount.jar –hostname localhost –port 9000

I nettgrensesnittet vil du kunne se en jobb i kjører tilstand.

Kjør under kommandoen i en ny terminal, dette vil skrive ut dataene som streames og behandles.

Kommando: tail -f log / flink - * - jobmanager - *. ut

Gå nå til terminalen der du startet netcat og skriv noe.

I det øyeblikket du trykker på enter-knappen på nøkkelordet ditt etter at du har skrevet inn noen data på netcat-terminalen, blir ordtalloperasjon brukt på disse dataene, og utskriften vil skrives ut her (flink's jobmanager log) innen millisekunder!

Innen veldig kort tid vil data streames, behandles og skrives ut.

Det er mye mer å lære om Apache Flink. Vi kommer til å berøre andre Flink-emner i vår kommende blogg.

Har du et spørsmål til oss? Nevn dem i kommentarseksjonen, så kommer vi tilbake til deg.

Relaterte innlegg:

Apache Falcon: Ny datastyringsplattform for Hadoop-økosystemet

Apache Flink: Neste generasjons Big Data Analytics-rammeverk for databehandling av strøm og batch

Lær alt om Apache Flink og sette opp en Flink-klynge i denne bloggen. Flink støtter sanntids- og batchbehandling og er en må-se Big Data-teknologi for Big Data Analytics.

Kategorier

Popular Articles

Alt du trenger å vite om Angular JS-klokkefunksjon

Fordeler og ulemper ved etisk hacking

Slik installerer du pip i Python: Kom i gang med Python-installasjon

Python-klasser og objekter - objektorientert programmering

Data Science Karrieremuligheter: Din guide til å låse opp topp data Scientist jobber

Hva er formler og funksjoner i Excel, og hvordan bruker du dem?

Alt du trenger å vite om pekere i C

Griseprogrammering: Apache Pig Script med UDF i HDFS-modus

Introduksjon til Spark with Python - PySpark for nybegynnere

Alt du trenger å vite om Quicksort i C ++

Lær hvordan du utfører tvers av nettlesere ved hjelp av selen

Hvordan håndtere låsing i Java?