Big Data Tutorial: Alt du trenger å vite om Big Data!



Denne bloggen på Big Data Tutorial gir deg en fullstendig oversikt over Big Data, dens egenskaper, applikasjoner samt utfordringer med Big Data.

Big Data Tutorial

Big Data, har du ikke hørt dette begrepet før? Jeg er sikker på at du har gjort det. I løpet av de siste 4 til 5 årene snakker alle om Big Data. Men vet du virkelig hva akkurat dette er Big Data, hvordan påvirker det livene våre og hvorfor organisasjoner jakter på fagfolk med ? I denne Big Data Tutorial vil jeg gi deg et fullstendig innblikk i Big Data.

Nedenfor er emnene jeg vil dekke i denne Big Data Tutorial:





  • Historien om store data
  • Big Data drivende faktorer
  • Hva er Big Data?
  • Big Data-egenskaper
  • Typer Big Data
  • Eksempler på Big Data
  • Anvendelser av Big Data
  • Utfordringer med Big Data

Big Data Tutorial - Edureka

La meg starte denne Big Data Tutorial med en novelle.



Historien om store data

I eldgamle dager pleide folk å reise fra en landsby til en annen landsby på en hestedrevet vogn, men etter hvert som tiden gikk, ble landsbyer byer og folk spredte seg. Avstanden til å reise fra den ene byen til den andre byen økte også. Så det ble et problem å reise mellom byene, sammen med bagasjen. Ut av det blå, foreslo en smart fyr, at vi skulle stelle og mate en hest mer for å løse dette problemet. Når jeg ser på denne løsningen, er den ikke så ille, men tror du en hest kan bli en elefant? Jeg tror ikke det. En annen smart fyr sa, i stedet for at en hest trekker vognen, la oss ha 4 hester til å trekke den samme vognen. Hva synes dere om denne løsningen? Jeg synes det er en fantastisk løsning. Nå kan folk reise store avstander på kortere tid og til og med bære mer bagasje.

Det samme konseptet gjelder på Big Data. Big Data sier, til i dag var det greit med å lagre dataene på serverne våre, fordi datamengden var ganske begrenset, og hvor lang tid det var å behandle disse dataene, var også ok. Men nå i denne nåværende teknologiske verden vokser dataene for fort, og folk stoler på dataene mange ganger. Også hastigheten som dataene vokser, blir det umulig å lagre dataene på noen server.

Gjennom denne bloggen på Big Data Tutorial, la oss utforske kildene til Big Data, som de tradisjonelle systemene ikke lagrer og behandler.



Big Data drivende faktorer

Mengden data på planeten jorden vokser eksponentielt av mange grunner. Ulike kilder og våre daglige aktiviteter genererer mye data. Med oppfinnelsen av nettet har hele verden gått online, hver eneste ting vi gjør setter et digitalt spor. Med de smarte objektene som går online, har dataveksten økt raskt. De viktigste kildene til Big Data er sosiale medier, sensornettverk, digitale bilder / videoer, mobiltelefoner, transaksjonsregistreringer, nettlogger, medisinske poster, arkiver, militær overvåking, e-handel, kompleks vitenskapelig forskning og så videre. All denne informasjonen utgjør rundt noen Quintillion byte med data. Innen 2020 vil datavolumene være rundt 40 Zettabyte, noe som tilsvarer å legge til hvert eneste sandkorn på planeten multiplisert med syttifem.

Hva er Big Data?

Big Data er et begrep som brukes for en samling datasett som er store og komplekse, noe som er vanskelig å lagre og behandle ved hjelp av tilgjengelige databaseadministrasjonsverktøy eller tradisjonelle databehandlingsapplikasjoner. Utfordringen inkluderer å fange, kurere, lagre, søke, dele, overføre, analysere og visualisere disse dataene.

Big Data-egenskaper

De fem egenskapene som definerer Big Data er: Volum, Hastighet, Variasjon, Sannhet og Verdi.

  1. VOLUM

    Volum refererer til 'datamengden', som vokser dag for dag i et veldig raskt tempo. Størrelsen på data generert av mennesker, maskiner og deres interaksjoner på sosiale medier i seg selv er enorm. Forskere har spådd at 40 Zettabyte (40.000 Exabyte) vil bli generert innen 2020, noe som er en økning på 300 ganger fra 2005.

  2. HASTIGHET

    Hastighet er definert som tempoet som ulike kilder genererer data hver dag. Denne datastrømmen er massiv og kontinuerlig. Det er 1.03 milliarder Daily Active Users (Facebook DAU) på Mobile per nå, noe som er en økning på 22% fra året før. Dette viser hvor raskt antallet brukere vokser på sosiale medier og hvor raskt dataene blir generert daglig. Hvis du er i stand til å håndtere hastigheten, vil du kunne generere innsikt og ta beslutninger basert på sanntidsdata.

  3. VARIASJON

    Siden det er mange kilder som bidrar til Big Data, er typen data de genererer annerledes. Det kan være strukturert, semi-strukturert eller ustrukturert. Derfor er det en rekke data som blir generert hver dag. Tidligere brukte vi data fra Excel og databaser, nå kommer dataene i form av bilder, lyd, videoer, sensordata etc. som vist i bildet nedenfor. Derfor skaper denne variasjonen av ustrukturerte data problemer med å fange, lagre, utvinne og analysere dataene.

  4. VERACITY

    Sannhet refererer til dataene som er i tvil eller usikkerhet om tilgjengelige data på grunn av datainkonsistens og ufullstendighet. På bildet nedenfor kan du se at få verdier mangler i tabellen. Det er også vanskelig å akseptere noen få verdier, for eksempel - 15000 minimumsverdi i 3. rad, det er ikke mulig. Denne inkonsekvensen og ufullstendigheten er sannhet.
    Data tilgjengelig kan noen ganger bli rotete og kanskje vanskelig å stole på. Med mange former for stordata er kvalitet og nøyaktighet vanskelig å kontrollere som Twitter-innlegg med hashtags, forkortelser, skrivefeil og daglig tale. Volumet er ofte årsaken til mangelen på kvalitet og nøyaktighet i dataene.

    • På grunn av usikkerhet om data stoler ikke 1 av 3 bedriftsledere på informasjonen de bruker til å ta beslutninger.
    • Det ble funnet i en undersøkelse at 27% av respondentene var usikre på hvor mye av dataene deres var unøyaktige.
    • Dårlig datakvalitet koster den amerikanske økonomien rundt 3,1 billioner dollar i året.
  5. VERDI

    Etter å ha diskutert Volume, Velocity, Variety and Veracity, er det en annen V som bør tas i betraktning når du ser på Big Data, dvs. Verdi. Det er vel og bra å ha tilgang til stortdatamenmed mindre vi kan gjøre det til verdi, er det ubrukelig. Ved å gjøre det til verdi, mener jeg, bidrar det til fordelene til organisasjonene som analyserer big data? Jobber organisasjonen med Big Data med høy ROI (Return On Investment)? Med mindre det legger til fortjeneste ved å jobbe med Big Data, er det ubrukelig.

Gå gjennom Big Data-videoen nedenfor for å vite mer om Big Data:

Big Data Tutorial for nybegynnere | Hva er store data | Edureka

Som diskutert i Variety, det er forskjellige typer data som blir generert hver dag. Så la oss nå forstå hvilke typer data:

konvertere dobbelt til int java

Typer Big Data

Big Data kan være av tre typer:

  • Strukturert
  • Halvstrukturert
  • Ustrukturert

  1. Strukturert

    Dataene som kan lagres og behandles i et fast format kalles Structured Data. Data lagret i et relasjonsdatabasehåndteringssystem (RDBMS) er et eksempel på ‘strukturerte’ data. Det er enkelt å behandle strukturerte data da det har et fast skjema. Structured Query Language (SQL) brukes ofte til å administrere en slik type data.

  2. Halvstrukturert

    Semistrukturerte data er en type data som ikke har en formell struktur for en datamodell, dvs. en tabelldefinisjon i en relasjonell DBMS, men likevel har den noen organisatoriske egenskaper som koder og andre markører for å skille semantiske elementer som gjør det lettere å analysere. XML-filer eller JSON-dokumenter er eksempler på semistrukturerte data.

  3. Ustrukturert

    Dataene som har ukjent form og ikke kan lagres i RDBMS og ikke kan analyseres med mindre de blir transformert til et strukturert format, kalles ustrukturerte data. Tekstfiler og multimediainnhold som bilder, lydbånd, videoer er eksempler på ustrukturerte data. De ustrukturerte dataene vokser raskere enn andre, eksperter sier at 80 prosent av dataene i en organisasjon er ustrukturerte.

Til nå har jeg nettopp dekket introduksjonen av Big Data. Videre snakker denne Big Data-opplæringen om eksempler, applikasjoner og utfordringer i Big Data.

Eksempler på Big Data

Daglig laster vi opp millioner av byte med data. 90% av verdens data er opprettet de siste to årene.

  • Walmart håndterer mer enn 1 million kundetransaksjoner hver time.
  • Facebook lagrer, får tilgang til og analyserer 30+ petabyte av brukergenererte data.
  • 230+ millioner av tweets blir opprettet hver dag.
  • Mer enn 5 milliarder kroner folk ringer, sms, twitter og surfer på mobiltelefoner over hele verden.
  • YouTube-brukere laster opp 48 timer av ny video hvert minutt av dagen.
  • Amazon-håndtak 15 millioner kundeklikkestrøm brukerdata per dag for å anbefale produkter.
  • 294 milliarder kroner e-post sendes hver dag. Tjenester analyserer disse dataene for å finne spammene.
  • Moderne biler har nær 100 sensorer som overvåker drivstoffnivå, dekktrykk osv., genererer hvert kjøretøy mange sensordata.

Anvendelser av Big Data

Vi kan ikke snakke om data uten å snakke om folket, folk som får fordel av Big Data-applikasjoner. Nesten alle bransjene i dag utnytter Big Data-applikasjoner på en eller annen måte.

  • Smartere helsevesen : Ved å benytte petabytes av pasientens data, kan organisasjonen trekke ut meningsfull informasjon og deretter bygge applikasjoner som på forhånd kan forutsi pasientens forverrede tilstand.
  • Telekom : Telekomsektorer samler inn informasjon, analyserer den og gir løsninger på forskjellige problemer. Ved å bruke Big Data-applikasjoner har teleselskaper klart å redusere tap av datapakker, som oppstår når nettverk er overbelastet, og dermed gi en sømløs forbindelse til kundene.
  • Detaljhandel : Detaljhandel har noen av de strengeste marginene, og er en av de største mottakerne av big data. Det fine med å bruke big data i detaljhandel er å forstå forbrukeratferd. Amazons anbefalingsmotor gir forslag basert på forbrukerens nettleserlogg.
  • Trafikkkontroll : Trafikkbelastning er en stor utfordring for mange byer globalt. Effektiv bruk av data og sensorer vil være nøkkelen til å håndtere trafikken bedre ettersom byene blir stadig tettere.
  • Produksjon : Analysering av store data i produksjonsindustrien kan redusere komponentfeil, forbedre produktkvaliteten, øke effektiviteten og spare tid og penger.
  • Søkekvalitet : Hver gang vi henter ut informasjon fra google, genererer vi samtidig data for den. Google lagrer disse dataene og bruker dem til å forbedre søkekvaliteten.

Noen har med rette sagt: “Ikke alt i hagen er rosenrødt!” . Inntil nå i denne Big Data-opplæringen har jeg nettopp vist deg det rosenrøde bildet av Big Data. Men hvis det var så enkelt å utnytte Big data, tror du ikke alle organisasjonene ville investere i det? La meg fortelle deg på forhånd, det er ikke tilfelle. Det er flere utfordringer som kommer når du jobber med Big Data.

Nå som du er kjent med Big Data og dens forskjellige funksjoner, vil den neste delen av denne bloggen på Big Data Tutorial belyse noen av de store utfordringene Big Data står overfor.

Utfordringer med Big Data

La meg fortelle deg noen få utfordringer som følger med Big Data:

  1. Datakvalitet - Problemet her er 4thV dvs. sannhet. Dataene her er veldig rotete, inkonsekvente og ufullstendige. Skitne data koster 600 milliarder dollar til selskapene hvert år i USA.
  1. Oppdagelse - Å finne innsikt i Big Data er som å finne en nål i en høystak. Det er veldig vanskelig å analysere petabytes med data ved hjelp av ekstremt kraftige algoritmer for å finne mønstre og innsikt.
  1. Oppbevaring - Jo mer data en organisasjon har, jo mer kompliserte kan problemene med å administrere den bli. Spørsmålet som dukker opp her er 'Hvor skal du lagre det?'. Vi trenger et lagringssystem som lett kan skaleres opp eller ned etter behov.
  1. Analytics - Når det gjelder Big Data, er vi mest uvitende om hva slags data vi har å gjøre med, så det er enda vanskeligere å analysere disse dataene.
  1. Sikkerhet - Siden dataene er enorme i størrelse, er det en annen utfordring å holde dem sikre. Det inkluderer brukerautentisering, begrensning av tilgang basert på en bruker, registrering av datatilgangshistorier, riktig bruk av datakryptering etc.
  1. Mangel på talent - Det er mange Big Data-prosjekter i store organisasjoner, men et sofistikert team av utviklere, dataforskere og analytikere som også har tilstrekkelig mengde domenekunnskap er fortsatt en utfordring.

Hadoop til unnsetning

Vi har en frelser til å takle Big Data-utfordringer - dens Hadoop . Hadoop er et Java-basert programmeringsrammeverk med åpen kildekode som støtter lagring og behandling av ekstremt store datasett i et distribuert datamiljø. Det er en del av Apache-prosjektet sponset av Apache Software Foundation.

Hadoop med sin distribuerte behandling håndterer store mengder strukturerte og ustrukturerte data mer effektivt enn det tradisjonelle enterprise datalageret. Hadoop gjør det mulig å kjøre applikasjoner på systemer med tusenvis av maskinvarenoder og håndtere tusenvis av terabyte data. Organisasjoner vedtar Hadoop fordi det er en programvare med åpen kildekode og kan kjøre på råvaremaskinvare (din personlige datamaskin).De opprinnelige kostnadsbesparelsene er dramatiske ettersom råvaremaskinvare er veldig billig. Når organisasjonsdataene øker, må du legge til mer og mer råvaremaskinvare på farten for å lagre den, og dermed viser Hadoop seg å være økonomisk.I tillegg har Hadoop et robust Apache-samfunn bak seg som fortsetter å bidra til å fremme det.

Som lovet tidligere, gjennom denne bloggen på Big Data Tutorial, har jeg gitt deg maksimal innsikt i Big Data. Dette er slutten på Big Data Tutorial. Nå er neste skritt fremover å kjenne og lære Hadoop. Vi har en serie av Hadoop tutorial blogger som vil gi detaljert kunnskap om hele Hadoop-økosystemet.

All hilsen, Happy Hadooping!

Nå som du har forstått hva som er Big Data, sjekk ut av Edureka, et pålitelig online læringsfirma med et nettverk av mer enn 250 000 fornøyde elever spredt over hele verden. Edureka Big Data Hadoop Certification Training-kurset hjelper elever å bli eksperter på HDFS, Garn, MapReduce, Pig, Hive, HBase, Oozie, Flume og Sqoop ved å bruke sanntidsbruk på Retail, Social Media, Aviation, Tourism, Finance.

Har du et spørsmål til oss? Vennligst nevn det i kommentarfeltet, så kommer vi tilbake til deg.

Relaterte innlegg:

er-et forhold java