Drilling Down On Apache Drill, New Age Query Engine



Denne Apache Drill-opplæringen gir deg all informasjonen du trenger for å komme i gang med Apache Drill-søkemotoren, bruk med Hadoop, Big Data & Apache Spark.

Apache Drill er bransjens første skjemafrie SQL Engine. Drill er ikke verdens første søkemotor, men det er den første som finner den fine balansen mellom fleksibilitet og hastighet. Drill er designet for å skalere til flere tusen noder og spørre petabyte med data med interaktive hastigheter som BI / Analytics-miljøer krever.





Den kan integreres med flere datakilder som Hive, HBase, MongoDB, filsystem, RDBMS. Inndataformater som Avro, CSV, TSV, PSV, Parkett, Hadoop Sequence-filer og mange andre kan også brukes i Drill uten problemer.

Hvorfor Apache Drill?

Den største fordelen med Apache Drill er at den kan oppdage skjemaet mens du spør etter data. Videre kan det fungere med BI-verktøyene dine som Tableau, Qlikview, MicroStrategy etc for bedre analyse.



Her er et sitat fra en bransjeanalytiker som oppsummerer verdien av Apache Drill:

“Drill handler ikke bare om SQL-on-Hadoop. Det handler om SQL-på-stort sett hva som helst, umiddelbart og uten formalitet. '

- Andrew Burst, Gigaom Research, januar 2015



Drillbit er Apache Drills daemon som kjører på hver node i klyngen. Den bruker ZooKeeper for all kommunikasjon i klyngen og vedlikeholds klyngemedlemskapet. Det er ansvarlig for å godta forespørsler fra klienten, behandle spørsmålene og returnere resultater til klienten. Drillbit som mottar forespørselen fra klienten kalles 'formann'. Den genererer utførelsesplanen, utførelsesfragmentene blir sendt til andre drillbits som kjører i klyngen.

Drillbits-Apache-Drill

En annen fordel er at installasjonen og oppsettet av bor er ganske enkel. La oss lære hvordan du installerer Apache Drill.

Det første trinnet er å laste ned borepakken.

java hva er en skanner

Kommando: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz

Kommando: tar -xvf apache-drill-1.5.0.tar.gz

Kommando: ls

Deretter setter du miljøvariablene i .bashrc-filen.

Kommando: sudo gedit .bashrc

eksporter DRILL_HOME = / home / edureka / apache-drill-1.5.0

eksporter PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin

Denne kommandoen vil oppdatere endringene:

Kommando: kilde .bashrc

Gå til drill conf-katalogen og rediger drill-override.conf-filen med klynge-ID og dyrehageverten og porten, vi kjører den på en lokal klynge.

Kommando: cd apache-drill-1.5.0

Kommando: sudo gedit conf / drill-override.conf

Som standard vil DRILL_MAX_DIRECT_MEMORY være 8 GB i drill-env.sh, og vi må beholde det i henhold til minnet vi har.

Kommando: sudo gedit conf / drill-env.sh

For å installere drill bare i en enkelt node, kan du bruke innebygd modus, der den vil kjøre lokalt. Det starter automatisk drillbit-tjenesten når du kjører denne kommandoen.

Kommando: ./bin/drill- innebygd

Du kan kjøre et enkelt spørsmål for å sjekke installasjonen.

Kommando: velg * fra sys.options WHERE type = 'SYSTEM' og navn som 'sikkerhet%'

For å sjekke nettkonsollen til Apache Drill, må vi gå til localhost: 8047 i nettleseren.

Du kan også kjøre spørringen fra fanen Spørring.

For å kjøre drill i distribuert modus, må du redigere klynge-ID og legge til ZooKeeper-informasjon i drill-override.conf som nedenfor.

Da må vi starte ZooKeeper-tjenesten på hver node. Etter det må du starte drillbit-tjenesten på hver node med denne kommandoen.

hva er scipy i python

Kommando: ./bin/drillbit.sh start

Kommando: jps

Nå bruker vi kommandoen nedenfor for å starte boreskallet.

Nå kan vi utføre spørsmålene våre i klyngen i distribuert modus.

Dette er det første blogginnlegget i en todelt Apache Drill-bloggserie. Den andre bloggen i serien kommer snart.

Har du spørsmål til oss? Nevn dem i kommentarseksjonen, så kommer vi tilbake til deg.

Relaterte innlegg:

Drilling Down On Apache Drill Part 2

Apache Spark mot Hadoop MapReduce