HDFS Tutorial: Introduksjon til HDFS og dets funksjoner



Denne HDFS opplæringsbloggen vil hjelpe deg med å forstå HDFS eller Hadoop Distribuert filsystem og dets funksjoner. Du vil også utforske kjernekomponentene i korte trekk.

HDFS veiledning

Før jeg går videre i denne HDFS-opplæringsbloggen, la meg ta deg gjennom noen av de vanvittige statistikkene knyttet til HDFS:

  • I 2010, Facebook hevdet å ha en av de største lagringene av HDFS-klynger 21 petabyte av data.
  • I 2012, Facebook erklærte at de har den største enkelt HDFS-klyngen med mer enn 100 PB av data .
  • Og Yahoo ! har mer enn 100.000 CPU i over 40.000 servere kjører Hadoop, med den største Hadoop-klyngen som kjører 4500 noder . Alt sagt, Yahoo! butikker 455 petabyte av data i HDFS.
  • Faktisk, innen 2013 begynte de fleste av de store navnene i Fortune 50 å bruke Hadoop.

For vanskelig å fordøye? Ikke sant. Som diskutert i , Hadoop har to grunnleggende enheter - S moment og Behandling . Når jeg sier lagringsdel av Hadoop, refererer jeg til HDFS som står for Hadoop distribuert filsystem . Så i denne bloggen vil jeg introdusere deg for HDFS .





Her vil jeg snakke om:

  • Hva er HDFS?
  • Fordeler med HDFS
  • Funksjoner av HDFS

Før jeg snakker om HDFS, la meg fortelle deg, hva er et distribuert filsystem?



DFS eller distribuert filsystem:

Distribuert filsystem snakker om administrere data , dvs. filer eller mapper på flere datamaskiner eller servere. Med andre ord er DFS et filsystem som lar oss lagre data over flere noder eller maskiner i en klynge og lar flere brukere få tilgang til data. Så i utgangspunktet tjener det samme formål som filsystemet som er tilgjengelig på maskinen din, som for Windows du har NTFS (New Technology File System) eller for Mac har du HFS (Hierarchical File System). Den eneste forskjellen er at i tilfelle Distribuert Filsystem lagrer du data på flere maskiner i stedet for én maskin. Selv om filene er lagret på tvers av nettverket, organiserer DFS og viser data på en slik måte at en bruker som sitter på en maskin vil føle at alle dataene er lagret i den maskinen.

Hva er HDFS?

Hadoop Distribuert filsystem eller HDFS er et Java-basert distribuert filsystem som lar deg lagre store data på tvers av flere noder i en Hadoop-klynge. Så hvis du installerer Hadoop, får du HDFS som et underliggende lagringssystem for lagring av dataene i det distribuerte miljøet.

La oss ta et eksempel for å forstå det. Tenk deg at du har ti maskiner eller ti datamaskiner med en harddisk på 1 TB på hver maskin. Nå sier HDFS at hvis du installerer Hadoop som en plattform på toppen av disse ti maskinene, vil du få HDFS som lagringstjeneste. Hadoop Distribuert Filsystem er distribuert på en slik måte at hver maskin bidrar med sin individuelle lagring for lagring av alle slags data.



HDFS Tutorial: Fordeler med HDFS

1. Distribuert lagring:

Distribuert lagring - HDFS veiledning - Edureka

Når du får tilgang til Hadoop Distribuert filsystem fra en av de ti maskinene i Hadoop-klyngen, vil du føle at du har logget på en enkelt stor maskin som har en lagringskapasitet på 10 TB (total lagring over ti maskiner). Hva betyr det? Det betyr at du kan lagre en enkelt stor fil på 10 TB som vil distribueres over de ti maskinene (1 TB hver).Sånn er det ikke begrenset til de fysiske grensene av hver enkelt maskin.

2. Distribuert og parallell beregning:

Fordi dataene er delt på maskinene, lar det oss dra nytte av Distribuert og parallell beregning . La oss forstå dette konseptet ved eksemplet ovenfor. Anta at det tar 43 minutter å behandle 1 TB-fil på en enkelt maskin. Så fortell meg nå, hvor lang tid vil det ta å behandle den samme 1 TB-filen når du har 10 maskiner i en Hadoop-klynge med lignende konfigurasjon - 43 minutter eller 4,3 minutter? 4,3 minutter, ikke sant! Hva skjedde her? Hver av nodene jobber parallelt med en del av 1 TB-filen. Derfor ble arbeidet som tok 43 minutter før ferdig på bare 4,3 minutter nå da arbeidet ble fordelt på ti maskiner.

3. Horisontal skalerbarhet:

Sist men ikke minst, la oss snakke om horisontal skalering eller skalering ut i Hadoop. Det er to typer skalering: vertikal og horisontal . Ved vertikal skalering (skalere opp) øker du maskinvarekapasiteten til systemet ditt. Med andre ord anskaffer du mer RAM eller CPU og legger det til ditt eksisterende system for å gjøre det mer robust og kraftig. Men det er utfordringer knyttet til vertikal skalering eller skalering:

  • Det er alltid en grense du kan øke maskinvarekapasiteten til. Så du kan ikke fortsette å øke RAM eller CPU på maskinen.
  • Ved vertikal skalering stopper du maskinen først. Deretter øker du RAM eller CPU for å gjøre det til en mer robust maskinvarestabel. Etter at du har økt maskinvarekapasiteten, starter du maskinen på nytt. Denne nedetiden når du stopper systemet ditt blir en utfordring.

I tilfelle horisontal skalering (skaler ut) , legger du til flere noder i eksisterende klynge i stedet for å øke maskinvarekapasiteten til individuelle maskiner. Og viktigst av alt, det kan du legg til flere maskiner mens du er på farten dvs. uten å stoppe systemet . Derfor, mens vi skalerer ut, har vi ingen nedetid eller grønn sone, ingenting av slikt slag. På slutten av dagen vil du ha flere maskiner som jobber parallelt for å oppfylle dine krav.

standardverdien for røye i java

HDFS opplæringsvideo:

Du kan sjekke ut videoen nedenfor hvor alle konseptene knyttet til HDFS har blitt diskutert i detalj:

HDFS opplæring: Funksjoner av HDFS

Vi vil forstå disse funksjonene i detalj når vi skal utforske HDFS Architecture i vår neste HDFS tutorial blogg. Men for nå, la oss ha en oversikt over funksjonene i HDFS:

  • Koste: HDFS er generelt distribuert på en råvaremaskinvare som din stasjonære / bærbare datamaskin som du bruker hver dag. Så det er veldig økonomisk når det gjelder kostnadene ved eierskap til prosjektet. Siden vi bruker billig maskinvare, trenger du ikke bruke store mengder penger på å skalere ut Hadoop-klyngen. Det er med andre ord kostnadseffektivt å legge til flere noder i HDFS.
  • Variasjon og datamengde: Når vi snakker om HDFS, snakker vi om lagring av enorme data, dvs. Terabyte og petabyte med data og forskjellige typer data. Så du kan lagre alle typer data i HDFS, det være seg strukturert, ustrukturert eller semi-strukturert.
  • Pålitelighet og feiltoleranse: Når du lagrer data på HDFS, deler den gitte data internt i datablokker og lagrer den på en distribuert måte over Hadoop-klyngen din. Informasjonen om hvilken datablokk som ligger på hvilken av datanodene som er registrert i metadataene. NameNode administrerer metadataene og DataNodes er ansvarlig for lagring av dataene.
    Navnekoden replikerer også dataene, dvs. opprettholder flere kopier av dataene. Denne replikeringen av dataene gjør HDFS veldig pålitelig og feiltolerant. Så selv om noen av nodene mislykkes, kan vi hente dataene fra replikaene som ligger på andre datanoder. Replikasjonsfaktoren er som standard 3. Hvis du lagrer 1 GB fil i HDFS, vil den til slutt oppta 3 GB plass. Navneknuten oppdaterer periodisk metadataene og holder replikasjonsfaktoren konsistent.
  • Dataintegritet: Dataintegritet snakker om hvorvidt dataene som er lagret i HDFS er riktige eller ikke. HDFS kontrollerer kontinuerlig integriteten til data som er lagret mot kontrollsummen. Hvis den finner feil, rapporterer den til navnetoden om den. Deretter oppretter navnetoden ytterligere nye replikaer og sletter derfor de ødelagte kopiene.
  • Høy gjennomstrømming: Gjennomstrømning er mengden arbeid som er utført i en enhetstid. Den snakker om hvor raskt du får tilgang til dataene fra filsystemet. I utgangspunktet gir det deg et innblikk i systemytelsen. Som du har sett i eksemplet ovenfor, hvor vi brukte ti maskiner samlet for å forbedre beregningen. Der klarte vi å redusere behandlingstiden fra 43 minutter til en ren 4,3 minutter ettersom alle maskinene arbeidet parallelt. Derfor reduserte vi behandlingstiden enormt ved å behandle data parallelt og oppnådde dermed høy gjennomstrømning.
  • Datalokalitet: Datalokalitet snakker om å flytte behandlingsenhet til data i stedet for data til behandlingsenhet. I vårt tradisjonelle system brukte vi dataene til applikasjonslaget og deretter behandlet det. Men nå, på grunn av arkitekturen og det enorme volumet av dataene, vil bringe dataene til applikasjonslagetredusere nettverksytelsen i merkbar grad.Så i HDFS bringer vi beregningsdelen til datanodene der dataene ligger. Derfor flytter du ikke dataene, du tar med deg programmet eller prosessendel av dataene.

Så nå har du en kort ide om HDFS og funksjonene. Men stol på meg, dette er bare toppen av isfjellet. I min neste , Vil jeg dykke dykk ned i HDFS-arkitektur og jeg vil avdekke hemmelighetene bak suksessen med HDFS. Sammen vil vi svare på alle de spørsmålene som grubler i hodet ditt, for eksempel:

  • Hva skjer bak kulissene når du leser eller skriver data i Hadoop Distributed File System?
  • Hva er algoritmene som rackbevissthet som gjør HDFS så feiltolerant?
  • Hvordan administrerer Hadoop Distributed File System og lager replika?
  • Hva er blokkoperasjoner?

Nå som du har forstått HDFS og funksjonene, sjekk ut av Edureka, et pålitelig online læringsfirma med et nettverk av mer enn 250 000 fornøyde elever spredt over hele verden. Edureka Big Data Hadoop Certification Training-kurset hjelper elever å bli eksperter på HDFS, Garn, MapReduce, Pig, Hive, HBase, Oozie, Flume og Sqoop ved å bruke sanntidsbruk på Retail, Social Media, Aviation, Tourism, Finance.

Har du et spørsmål til oss? Vennligst nevn det i kommentarfeltet, så kommer vi tilbake til deg.