Introduksjon til Apache Hive



Apache Hive er en Data Warehousing-pakke bygget på toppen av Hadoop og brukes til dataanalyse. Hive er rettet mot brukere som er komfortable med SQL.

Apache Hive er en Data Warehousing-pakke bygget på toppen av Hadoop og brukes til dataanalyse. Hive er rettet mot brukere som er komfortable med SQL. Det ligner på SQL og kalles HiveQL, brukt til å administrere og spørre strukturerte data. Apache Hive brukes til å abstrakte kompleksiteten til Hadoop. Dette språket gjør det også mulig for tradisjonelle kart- / reduseringsprogrammerere å koble til sine egendefinerte kartleggere og reduseringsprogrammer. Det populære trekket med Hive er at det ikke er behov for å lære Java.





anvendelse av big data analytics

Hive, en åpen kildekode peta-byte skala datalagerramme basert på Hadoop, ble utviklet av Data Infrastructure Team på Facebook. Hive er også en av teknologiene som brukes til å imøtekomme kravene på Facebook. Hive er veldig populært blant alle brukerne internt på Facebook og brukes til å kjøre tusenvis av jobber på klyngen med hundrevis av brukere, for et bredt spekter av applikasjoner. Hive-Hadoop-klyngen på Facebook lagrer mer enn 2PB rådata og laster regelmessig 15 TB data daglig.

La oss se på noen av funksjonene som gjør den populær og brukervennlig:



  • Tillater programmerere å koble til tilpassede kartleggere og redusere.
  • Har datavarehusinfrastruktur.
  • Tilbyr verktøy for å muliggjøre enkel data ETL.
  • Definerer SQL-lignende spørrespråk kalt QL.

Apache Hive Use Case - Facebook:

Hive Use Case - Facebook

Før du implementerte Hive, møtte Facebook mange utfordringer da størrelsen på dataene som ble generert økte eller heller eksploderte, noe som gjorde det veldig vanskelig å håndtere dem. Den tradisjonelle RDBMS taklet ikke presset, og som et resultat så Facebook på bedre alternativer. For å løse dette forestående problemet prøvde Facebook i utgangspunktet å bruke Hadoop MapReduce, men med vanskeligheter med programmering og obligatorisk kunnskap i SQL gjorde det til en upraktisk løsning. Hive tillot dem å overvinne utfordringene de sto overfor.

Med Hive kan de nå utføre følgende:



  • Bordene kan porsjoneres og bøttes
  • Skjema fleksibilitet og evolusjon
  • JDBC / ODBC-drivere er tilgjengelige
  • Hive-tabeller kan defineres direkte i HDFS
  • Utvidbart - Typer, formater, funksjoner og skript

Hive Use Case i helsevesenet:

Hvor skal du bruke bikube?

Apache Hive kan brukes på følgende steder:

  • Datautvinning
  • Loggbehandling
  • Dokumentindeksering
  • Kundemøte for Business Intelligence
  • Forutsigbar modellering
  • Hypotesetesting

Hive Arkitektur:

Hive består av følgende hovedkomponenter:

  • Metastore - For å lagre metadataene.
  • JDBC / ODBC - Query Compiler and Execution Engine for å konvertere SQL-spørsmål til en sekvens av MapReduce.
  • SerDe og ObjectInspectors - For dataformater og typer.
  • UDF / UDAF - For brukerdefinerte funksjoner.
  • Kunder - ligner på MySQL-kommandolinjen og et web-UI.

Komponenter i Hive:

Metastore:

Metastore lagrer informasjonen om tabellene, partisjonene, kolonnene i tabellene. Det er 3 måter å lagre i Metastore: Embedded Metastore, Local Metastore og Remote Metastore. For det meste vil Remote Metastore bli brukt i produksjonsmodus.

Begrensninger av Hive:

Hive har følgende begrensninger og kan ikke brukes under slike omstendigheter:

  • Ikke designet for online transaksjonsbehandling.
  • Tilbyr akseptabel ventetid for interaktiv datasurfing.
  • Tilbyr ikke spørringer i sanntid og oppdateringer på radnivå.
  • Latens for Hive-spørsmål er generelt veldig høy.

Har du et spørsmål til oss? Nevn dem i kommentarfeltet, så kommer vi tilbake til deg.

Relaterte innlegg:

Hive-kommandoer