Griseprogrammering: Lag ditt første Apache-griseskript



Les dette blogginnlegget for å lage ditt første Apache Pig-skript. Apache Pig-skript brukes til å utføre et sett med Apache Pig-kommandoer samlet.

Griseprogrammering: Lag ditt første Apache-griseskript

I vår , vil vi nå lære å lage et Apache Pig-skript. Apache Pig-skript brukes til å utføre et sett med Apache Pig-kommandoer samlet. Dette hjelper til med å redusere tid og krefter som er investert i å skrive og utføre hver kommando manuelt mens du gjør dette i griseprogrammering.Det er også en integrert del av .Denne bloggen er en trinnvis guide som hjelper deg med å lage ditt første Apache Pig-skript.

Apache Pig-skriptutførelsesmodus

Lokal modus : I ‘lokal modus’ kan du utføre griseskriptet i det lokale filsystemet. I dette tilfellet trenger du ikke å lagre dataene i Hadoop HDFS-filsystem, i stedet kan du jobbe med dataene som er lagret i det lokale filsystemet.





MapReduce Mode : I ‘MapReduce-modus’, må dataene lagres i HDFS-filsystem, og du kan behandle dataene ved hjelp av griseskript.

Apache Pig Script i MapReduce-modus

La oss si at vår oppgave er å lese data fra en datafil og å vise det nødvendige innholdet på terminalen som utdata.



Eksempeldatafilen inneholder følgende data:

Informasjon txt-fil - Apache Pig Script - Edureka

Lagre tekstfilen med navnet ‘information.txt’



Eksempeldatafilen inneholder fem kolonner Fornavn , Etternavn , Mobilnr , By , og Yrke atskilt med tabulatortasten . Vår oppgave er å lese innholdet i denne filen fra HDFS og vise alle kolonnene i disse postene.

For å behandle disse dataene ved hjelp av Pig, bør denne filen være til stede i Apache Hadoop HDFS.

Kommando : hadoop fs –copyFromLocal /home/edureka/information.txt / edureka

Trinn 1: Skrive et griseskript

Opprett og åpne en Apache Pig-skriptfil i en redaktør (f.eks. Gedit).

Kommando : sudo gedit /home/edureka/output.pig

forskjell mellom overstyring og overbelastning i java

Denne kommandoen oppretter en ‘output.pig’-fil i hjemmekatalogen til edureka-brukeren.

La oss skrive noen PIG-kommandoer i output.pig-filen.

A = LOAD '/edureka/information.txt' ved bruk av PigStorage ('') som (FName: chararray, LName: chararray, MobileNo: chararray, City: chararray, Yrke: chararray) B = FOREACH A generer FName, MobileNo, Yrke DUMP B

Lagre og lukk filen.

  • Den første kommandoen laster filen ‘information.txt’ inn i variabel A med indirekte skjema (FName, LName, MobileNo, City, Profession).
  • Den andre kommandoen laster de nødvendige dataene fra variabel A til variabel B.
  • Den tredje linjen viser innholdet av variabel B på terminalen / konsollen.

Steg 2: Utfør Apache Pig Script

For å utføre griseskriptet i HDFS-modus, kjør følgende kommando:

Kommando : gris /home/edureka/output.pig

Når gjennomføringen er ferdig, kan du se gjennom resultatet. Disse bildene nedenfor viser resultatene og deres mellomliggende kart og reduserer funksjoner.

Bildet nedenfor viser at skriptet ble utført.

koblet listekode i c

Bildet nedenfor viser resultatet av skriptet vårt.

Gratulerer med utførelsen av ditt første Apache Pig-skript!

Nå vet du hvordan du oppretter og kjører Apache Pig-skript. Derfor vår neste blogg i vil dekke hvordan lag UDF (brukerdefinerte funksjoner) i Apache Pig og kjør den i MapReduce / HDFS-modus.

Nå som du har opprettet og kjørt Apache Pig Script, sjekk ut av Edureka, et pålitelig online læringsfirma med et nettverk med mer enn 250 000 fornøyde elever spredt over hele verden. Edureka Big Data Hadoop-sertifiseringstreningskurs hjelper lærere å bli eksperter på HDFS, Garn, MapReduce, Pig, Hive, HBase, Oozie, Flume og Sqoop ved å bruke sanntidsbruk på Retail, Social Media, Aviation, Tourism, Finance.

Har du spørsmål til oss? Vennligst nevn det i kommentarfeltet, så kommer vi tilbake til deg.