Topp Hive-kommandoer med eksempler i HQL



Denne bloggen diskuterer Hive Commands med eksempler i HQL. OPPRETT, SLIP, TRUNKER, ALTER, VIS, BESKRIV, BRUK, LAST, INSERT, BLI MED og mange flere Hive-kommandoer

I dette blogginnlegget, la oss diskutere topp Hive-kommandoer med eksempler. Disse Hive-kommandoene er veldig viktige å legge grunnlaget for .

Edureka 2019 Tech Career Guide er ute! De hotteste jobbrollene, presise læringsveiene, utsiktene til industrien og mer i guiden. nedlasting nå.

Hva er Hive?

Apache Hive er et datalagersystem som er bygget for å fungere på Hadoop. Den brukes til å spørre og administrere store datasett som ligger i distribuert lagring. Før hun ble et open source-prosjekt av Apache Hadoop, hadde Hive sin opprinnelse i Facebook. Det gir en mekanisme for å projisere struktur på dataene i Hadoop og spørre om dataene ved hjelp av et SQL-lignende språk kalt HiveQL (HQL).





Hive brukes fordi tabellene i Hive ligner på tabeller i en relasjonsdatabase. Hvis du er kjent med SQL, er det en cakewalk. Mange brukere kan samtidig spørre data ved hjelp av Hive-QL.

Hva er HQL?

Hive definerer et enkelt SQL-lignende spørrespråk for å spørre og administrere store datasett kalt Hive-QL (HQL). Det er enkelt å bruke hvis du er kjent med SQL Language. Hive lar programmerere som er kjent med språket, skrive det tilpassede MapReduce-rammeverket for å utføre mer sofistikerte analyser.



Bruk av Hive:

1. Apache Hive distribuert lagring.

2. Hive gir verktøy for å muliggjøre enkel datautpakke / transformere / laste (ETL)

3. Den gir strukturen på en rekke dataformater.



4. Ved å bruke Hive kan vi få tilgang til filer som er lagret i Hadoop Distributed File System (HDFS brukes til å spørre og administrere store datasett som er bosatt i) eller i andre datalagringssystemer som Apache HBase.

Begrensninger av Hive:

& bull Hive er ikke designet for online transaksjonsbehandling (OLTP), den brukes bare til online analytisk prosessering.

& bull Hive støtter overskriving eller pågripelse av data, men ikke oppdateringer og slettinger.

& bull I Hive støttes ikke spørringer.

Hvorfor Hive brukes til tross for gris?

Følgende er årsakene til at Hive brukes til tross for Pigs tilgjengelighet:

  • Hive-QL er en deklarativ språklinje SQL, PigLatin er et dataflytspråk.
  • Gris: et dataflytspråk og miljø for å utforske veldig store datasett.
  • Hive: et distribuert datalager.

Komponenter i Hive:

Metastore:

Hive lagrer skjemaet til Hive-tabellene i en Hive Metastore. Metastore brukes til å oppbevare all informasjon om bordene og partisjonene som er på lageret. Som standard kjøres metastore i samme prosess som Hive-tjenesten, og standard Metastore er DerBy Database.

SerDe:

Serializer, Deserializer gir instruksjoner om hvordan du skal behandle en post.

Hive-kommandoer:

Datadefinisjonsspråk (DDL)

DDL-setninger brukes til å bygge og endre tabeller og andre objekter i databasen.

DDL-kommando Funksjon
SKAPE Den brukes til å lage en tabell eller database
VISE FRAM Den brukes til å vise database, tabell, egenskaper osv
ALDER Den brukes til å gjøre endringer i den eksisterende tabellen
BESKRIVE Den beskriver tabellkolonnene
TRUNKER Brukes til å avkutte og slette tabellradene permanent
SLETT Sletter tabelldataene, men kan gjenopprettes

Gå til Hive shell ved å gi kommandoen sudo bikube og skriv inn kommandoen 'skape database navn> ’ for å opprette den nye databasen i Hive.

Opprett Hive-database ved hjelp av Hive-kommandoer

For å liste ut databasene i Hive-lageret, skriv inn kommandoen ‘ vise databaser ’.

Databasen oppretter på et standardsted for Hive-lageret. I Cloudera lagrer Hive-databasen i en / bruker / bikube / lager.

Kommandoen for å bruke databasen er BRUK

Kopier inngangsdataene til HDFS fra lokal ved å bruke kopien Fra lokal kommando.

Når vi oppretter en tabell i bikube, oppretter den på standardplasseringen til bikupelageret. - “/ bruker / bikube / lager”, etter at tabellen er opprettet, kan vi flytte dataene fra HDFS til bikuben.

Følgende kommando oppretter en tabell med '/user/hive/warehouse/retail.db'

Merk : retail.db er databasen opprettet i Hive-lageret.

Beskrive gir informasjon om skjemaet i tabellen.

hvordan sette klassesti i java i Windows 10

Data Manipulation Language (DML)

DML-setninger brukes til å hente, lagre, endre, slette, sette inn og oppdatere data i databasen.

Eksempel:

LOAD, INSERT Statements.

Syntaks:

LOAD data inpath into table [tablename]

Lastoperasjonen brukes til å flytte dataene til tilsvarende Hive-tabell. Hvis nøkkelordet lokal er spesifisert, vil lastkommandoen gi den lokale filsystemet banen. Hvis nøkkelordet local ikke er spesifisert, må vi bruke HDFS-banen til filen.

Her er noen eksempler på LOAD data LOCAL-kommandoen

Etter at du har lastet inn dataene i Hive-tabellen, kan vi bruke data Manipulation Statements eller samlede funksjoner hente dataene.

Eksempel for å telle antall poster:

Telle aggregatfunksjon brukes, telle det totale antallet poster i en tabell.

'Opprett ekstern' tabell:

De lage ekstern nøkkelord brukes til å lage en tabell og gir en plassering der tabellen skal opprettes, slik at Hive ikke bruker en standardplassering for denne tabellen. An UTVENDIG tabellen peker på hvilken som helst HDFS-plassering for lagring, i stedet for standardlagring.

Sett inn kommando:

De sett inn kommandoen brukes til å laste data Hive-tabellen. Innsatser kan gjøres til et bord eller en partisjon.

& bull INSERT OVERWRITE brukes til å overskrive eksisterende data i tabellen eller partisjonen.

& bull INSERT INTO brukes til å legge dataene til eksisterende data i en tabell. (Merk: INSERT INTO syntax er arbeid fra versjon 0.8)

Eksempel på kommisjonen 'Partitioned By' og 'Clustered By':

‘Partisjonert av 'Brukes til å dele bordet i partisjonen og kan deles inn i bøtter ved å bruke' Klynget av ‘Kommando.

Når vi setter inn data Hive-kastfeil, er den dynamiske partisjonsmodusen streng og dynamisk partisjon ikke aktivert (av Jeffdresshead nettsted ). Så vi må sette følgende parametere i Hive shell.

sett hive.exec.dynamic.partition = true

For å aktivere dynamiske partisjoner er det som standard falskt

sett hive.exec.dynamic.partition.mode = ikke-streng

Partisjonering gjøres etter kategori og kan deles inn i skuffer ved å bruke kommandoen ‘Clustered By’.

Uttalelsen 'Drop Table' sletter dataene og metadataene for en tabell. Når det gjelder eksterne tabeller, blir bare metadataene slettet.

Uttalelsen 'Drop Table' sletter dataene og metadataene for en tabell. Når det gjelder eksterne tabeller, blir bare metadataene slettet.

Last data lokal inpath ‘aru.txt’ i tabellens navn, og deretter sjekker vi ansatte1-tabellen ved å bruke Velg * fra tabellnavnet kommandoen

Å telle antall poster i tabellen ved å bruke Velg telle(*) fra txnrecords

Aggregasjon:

Velg antall (DISTINCT-kategori) fra tabellnavnet

Denne kommandoen teller den forskjellige kategorien i 'cate' -tabellen. Her er det 3 forskjellige kategorier.

Anta at det er en annen tabellkate der f1 er feltnavnet til kategorien.

Gruppering:

Gruppekommando brukes til å gruppere resultatsettet med en eller flere kolonner.

Velg kategori, sum (beløp) fra txt poster gruppert etter kategori

Den beregner mengden av samme kategori.

hvordan se etter palindrom i java

Resultatet en tabell lagres i en annen tabell.

Opprett tabellnavnnavn som velg * fra gammeltabellnavn

Bli med på kommando:

Her er det laget en tabell til i navnet ‘Mails’

Bli med i operasjonen :

En sammenføyningsoperasjon utføres for å kombinere felt fra to tabeller ved å bruke verdier som er felles for hver.

Venstre ytre skjøt :

Resultatet av en venstre ytre sammenføyning (eller bare venstre sammenføyning) for tabellene A og B inneholder alltid alle postene til 'venstre' tabellen (A), selv om sammenføyningsbetingelsen ikke finner noen samsvarende post i 'høyre' tabellen (B).

Høyre ytre sammenføyning :

En høyre ytre sammenføyning (eller høyre sammenføyning) ligner nær en venstre ytre sammenføyning, bortsett fra når behandlingen av bordene er omvendt. Hver rad fra 'høyre' -tabellen (B) vises i den sammenføyde tabellen minst en gang.

Full Bli med :

Den sammenføyde tabellen vil inneholde alle poster fra begge tabellene, og fylle ut NULLer for manglende kamper på hver side.

Når du er ferdig med bikuben, kan vi bruke avslutte kommando for å gå ut av bikubeskallet.

Avslutter fra Hive

Hive er bare en del av det store puslespillet som heter Big Data og Hadoop. Hadoop er mye mer enn bare Hive. Klikk nedenfor for å se hvilke andre ferdigheter du bør mestre i Hadoop.

Har du spørsmål til oss? Vennligst nevn det i kommentarfeltet, så kommer vi tilbake til deg.

Relaterte innlegg:

7 måter Big Data Training kan endre organisasjonen din

Hive-datamodeller