INTRODUKSJON TIL APACHE HIVE

Apache Hive er en Data Warehousing-pakke bygget på toppen av Hadoop og brukes til dataanalyse. Hive er rettet mot brukere som er komfortable med SQL. Det ligner på SQL og kalles HiveQL, brukt til å administrere og spørre strukturerte data. Apache Hive brukes til å abstrakte kompleksiteten til Hadoop. Dette språket gjør det også mulig for tradisjonelle kart- / reduseringsprogrammerere å koble til sine egendefinerte kartleggere og reduseringsprogrammer. Det populære trekket med Hive er at det ikke er behov for å lære Java.

anvendelse av big data analytics

Hive, en åpen kildekode peta-byte skala datalagerramme basert på Hadoop, ble utviklet av Data Infrastructure Team på Facebook. Hive er også en av teknologiene som brukes til å imøtekomme kravene på Facebook. Hive er veldig populært blant alle brukerne internt på Facebook og brukes til å kjøre tusenvis av jobber på klyngen med hundrevis av brukere, for et bredt spekter av applikasjoner. Hive-Hadoop-klyngen på Facebook lagrer mer enn 2PB rådata og laster regelmessig 15 TB data daglig.

La oss se på noen av funksjonene som gjør den populær og brukervennlig:

Tillater programmerere å koble til tilpassede kartleggere og redusere.
Har datavarehusinfrastruktur.
Tilbyr verktøy for å muliggjøre enkel data ETL.
Definerer SQL-lignende spørrespråk kalt QL.

Apache Hive Use Case - Facebook:

Hive Use Case - Facebook

Før du implementerte Hive, møtte Facebook mange utfordringer da størrelsen på dataene som ble generert økte eller heller eksploderte, noe som gjorde det veldig vanskelig å håndtere dem. Den tradisjonelle RDBMS taklet ikke presset, og som et resultat så Facebook på bedre alternativer. For å løse dette forestående problemet prøvde Facebook i utgangspunktet å bruke Hadoop MapReduce, men med vanskeligheter med programmering og obligatorisk kunnskap i SQL gjorde det til en upraktisk løsning. Hive tillot dem å overvinne utfordringene de sto overfor.

Med Hive kan de nå utføre følgende:

Bordene kan porsjoneres og bøttes
Skjema fleksibilitet og evolusjon
JDBC / ODBC-drivere er tilgjengelige
Hive-tabeller kan defineres direkte i HDFS
Utvidbart - Typer, formater, funksjoner og skript

Hive Use Case i helsevesenet:

Hvor skal du bruke bikube?

Apache Hive kan brukes på følgende steder:

Datautvinning
Loggbehandling
Dokumentindeksering
Kundemøte for Business Intelligence
Forutsigbar modellering
Hypotesetesting

Hive Arkitektur:

Hive består av følgende hovedkomponenter:

Metastore - For å lagre metadataene.
JDBC / ODBC - Query Compiler and Execution Engine for å konvertere SQL-spørsmål til en sekvens av MapReduce.
SerDe og ObjectInspectors - For dataformater og typer.
UDF / UDAF - For brukerdefinerte funksjoner.
Kunder - ligner på MySQL-kommandolinjen og et web-UI.

Komponenter i Hive:

Metastore:

Metastore lagrer informasjonen om tabellene, partisjonene, kolonnene i tabellene. Det er 3 måter å lagre i Metastore: Embedded Metastore, Local Metastore og Remote Metastore. For det meste vil Remote Metastore bli brukt i produksjonsmodus.

Begrensninger av Hive:

Hive har følgende begrensninger og kan ikke brukes under slike omstendigheter:

Ikke designet for online transaksjonsbehandling.
Tilbyr akseptabel ventetid for interaktiv datasurfing.
Tilbyr ikke spørringer i sanntid og oppdateringer på radnivå.
Latens for Hive-spørsmål er generelt veldig høy.

Har du et spørsmål til oss? Nevn dem i kommentarfeltet, så kommer vi tilbake til deg.

Relaterte innlegg:

Hive-kommandoer

Introduksjon til Apache Hive

Apache Hive er en Data Warehousing-pakke bygget på toppen av Hadoop og brukes til dataanalyse. Hive er rettet mot brukere som er komfortable med SQL.

Apache Hive Use Case - Facebook:

Hive Use Case i helsevesenet:

Hvor skal du bruke bikube?

Hive Arkitektur:

Komponenter i Hive:

Begrensninger av Hive:

Kategorier

Popular Articles

Topp 10 grunner til at du bør lære Java

Hvordan implementere adapterklasse i Java

Lær hvordan du håndterer unntak i PL / SQL

Alt du trenger å vite om opasitet i CSS

Hva er Socket Programming i Python og hvordan mestrer du det?

Ethereum Tutorial - Et dypere blikk i Ethereum!

Funksjon Overbelastning i C ++: Alt du trenger å vite

Hva er ResultSet-grensesnitt i Java?

Sving i Java: Vet hvordan du lager GUI med eksempler

Jenkins opplæring | Kontinuerlig integrering ved bruk av Jenkins | Edureka

Hvordan bli en sertifisert Scrum Master?

TypeScript-veiledning: Kjenn til grunnleggende informasjon om TypeScript