Apache Flink: Neste generasjons Big Data Analytics-rammeverk for databehandling av strøm og batch



Lær alt om Apache Flink og sette opp en Flink-klynge i denne bloggen. Flink støtter sanntids- og batchbehandling og er en må-se Big Data-teknologi for Big Data Analytics.

Apache Flink er en åpen kildekodeplattform for databehandling av distribuert strøm og batch. Den kan kjøres på Windows, Mac OS og Linux OS. La oss diskutere hvordan du konfigurerer Flink-klyngen lokalt i dette blogginnlegget. Det ligner på mange måter Spark - det har API-er for graf- og maskinlæringsbehandling som Apache Spark - men Apache Flink og Apache Spark er ikke akkurat det samme.





For å sette opp Flink-klyngen, må du ha java 7.x eller høyere installert på systemet ditt. Siden jeg har installert Hadoop-2.2.0 på slutten på CentOS (Linux), har jeg lastet ned Flink-pakken som er kompatibel med Hadoop 2.x. Kjør under kommandoen for å laste ned Flink-pakken.

Kommando: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Command-Apache-Flink

Fjern filen for å hente flink-katalogen.

Kommando: tar -xvf Nedlastinger / flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Kommando: ls

Legg til Flink-miljøvariabler i .bashrc-filen.

Kommando: sudo gedit .bashrc

Du må kjøre kommandoen nedenfor slik at endringene i .bashrc-filen aktiveres

Kommando: kilde .bashrc

java system.exit (1)

Gå nå til flink-katalogen og start klyngen lokalt.

Kommando: cd hefty-1.0.0

Kommando: bin / start-local.sh

Når du har startet klyngen, vil du kunne se en ny daemon JobManager som kjører.

Kommando: jps

Åpne nettleseren og gå til http: // localhost: 8081 for å se Apache Flink web UI.

La oss kjøre et enkelt ordantalleksempel ved hjelp av Apache Flink.

Før du kjører eksemplet, installer netcat på systemet ditt (sudo yum install nc).

Kjør kommandoen nedenfor i en ny terminal.

Kommando: nc -lk 9000

Kjør kommandoen nedenfor i flinkterminalen. Denne kommandoen kjører et program som tar de streamede dataene som inndata og utfører ordtelling på de streamede dataene.

Kommando: bin / flink run examples / streaming / SocketTextStreamWordCount.jar –hostname localhost –port 9000

I nettgrensesnittet vil du kunne se en jobb i kjører tilstand.

Kjør under kommandoen i en ny terminal, dette vil skrive ut dataene som streames og behandles.

Kommando: tail -f log / flink - * - jobmanager - *. ut

Gå nå til terminalen der du startet netcat og skriv noe.

I det øyeblikket du trykker på enter-knappen på nøkkelordet ditt etter at du har skrevet inn noen data på netcat-terminalen, blir ordtalloperasjon brukt på disse dataene, og utskriften vil skrives ut her (flink's jobmanager log) innen millisekunder!

Innen veldig kort tid vil data streames, behandles og skrives ut.

Det er mye mer å lære om Apache Flink. Vi kommer til å berøre andre Flink-emner i vår kommende blogg.

Har du et spørsmål til oss? Nevn dem i kommentarseksjonen, så kommer vi tilbake til deg.

Relaterte innlegg:

Apache Falcon: Ny datastyringsplattform for Hadoop-økosystemet