Apache Hive er en Data Warehousing-pakke bygget på toppen av Hadoop og brukes til dataanalyse. Hive er rettet mot brukere som er komfortable med SQL. Det ligner på SQL og kalles HiveQL, brukt til å administrere og spørre strukturerte data. Apache Hive brukes til å abstrakte kompleksiteten til Hadoop. Dette språket gjør det også mulig for tradisjonelle kart- / reduseringsprogrammerere å koble til sine egendefinerte kartleggere og reduseringsprogrammer. Det populære trekket med Hive er at det ikke er behov for å lære Java.
anvendelse av big data analytics
Hive, en åpen kildekode peta-byte skala datalagerramme basert på Hadoop, ble utviklet av Data Infrastructure Team på Facebook. Hive er også en av teknologiene som brukes til å imøtekomme kravene på Facebook. Hive er veldig populært blant alle brukerne internt på Facebook og brukes til å kjøre tusenvis av jobber på klyngen med hundrevis av brukere, for et bredt spekter av applikasjoner. Hive-Hadoop-klyngen på Facebook lagrer mer enn 2PB rådata og laster regelmessig 15 TB data daglig.
La oss se på noen av funksjonene som gjør den populær og brukervennlig:
- Tillater programmerere å koble til tilpassede kartleggere og redusere.
- Har datavarehusinfrastruktur.
- Tilbyr verktøy for å muliggjøre enkel data ETL.
- Definerer SQL-lignende spørrespråk kalt QL.
Apache Hive Use Case - Facebook:
Før du implementerte Hive, møtte Facebook mange utfordringer da størrelsen på dataene som ble generert økte eller heller eksploderte, noe som gjorde det veldig vanskelig å håndtere dem. Den tradisjonelle RDBMS taklet ikke presset, og som et resultat så Facebook på bedre alternativer. For å løse dette forestående problemet prøvde Facebook i utgangspunktet å bruke Hadoop MapReduce, men med vanskeligheter med programmering og obligatorisk kunnskap i SQL gjorde det til en upraktisk løsning. Hive tillot dem å overvinne utfordringene de sto overfor.
Med Hive kan de nå utføre følgende:
- Bordene kan porsjoneres og bøttes
- Skjema fleksibilitet og evolusjon
- JDBC / ODBC-drivere er tilgjengelige
- Hive-tabeller kan defineres direkte i HDFS
- Utvidbart - Typer, formater, funksjoner og skript
Hive Use Case i helsevesenet:
Hvor skal du bruke bikube?
Apache Hive kan brukes på følgende steder:
- Datautvinning
- Loggbehandling
- Dokumentindeksering
- Kundemøte for Business Intelligence
- Forutsigbar modellering
- Hypotesetesting
Hive Arkitektur:
Hive består av følgende hovedkomponenter:
- Metastore - For å lagre metadataene.
- JDBC / ODBC - Query Compiler and Execution Engine for å konvertere SQL-spørsmål til en sekvens av MapReduce.
- SerDe og ObjectInspectors - For dataformater og typer.
- UDF / UDAF - For brukerdefinerte funksjoner.
- Kunder - ligner på MySQL-kommandolinjen og et web-UI.
Komponenter i Hive:
Metastore:
Metastore lagrer informasjonen om tabellene, partisjonene, kolonnene i tabellene. Det er 3 måter å lagre i Metastore: Embedded Metastore, Local Metastore og Remote Metastore. For det meste vil Remote Metastore bli brukt i produksjonsmodus.
Begrensninger av Hive:
Hive har følgende begrensninger og kan ikke brukes under slike omstendigheter:
- Ikke designet for online transaksjonsbehandling.
- Tilbyr akseptabel ventetid for interaktiv datasurfing.
- Tilbyr ikke spørringer i sanntid og oppdateringer på radnivå.
- Latens for Hive-spørsmål er generelt veldig høy.
Har du et spørsmål til oss? Nevn dem i kommentarfeltet, så kommer vi tilbake til deg.
Relaterte innlegg: