Hva er datavitenskap? En nybegynnerveiledning for datavitenskap



Datavitenskap er fremtiden for kunstig intelligens. Lær hva Data Science er, hvordan kan det tilføre verdi til virksomheten din og dens forskjellige livssyklusfaser.

Da verden gikk inn i tiden med store data, vokste også behovet for lagring. Det var hovedutfordringen og bekymringen for bedriftsnæringene frem til 2010. Hovedfokuset var å bygge et rammeverk og løsninger for å lagre data. Nå når Hadoop og andre rammer har løst problemet med lagring, har fokus flyttet til behandlingen av disse dataene. Data Science er den hemmelige sausen her. Alle ideene du ser i Hollywood sci-fi-filmer kan faktisk bli virkelighet av Data Science. Datavitenskap er fremtiden for kunstig intelligens. Derfor er det veldig viktig å forstå hva som er datavitenskap, og hvordan kan det tilføre verdi til virksomheten din.

Edureka 2019 Tech Career Guide er ute! De hotteste jobbrollene, presise læringsveiene, utsiktene til industrien og mer i guiden. nedlasting nå.

I denne bloggen vil jeg dekke følgende temaer.





Ved slutten av denne bloggen vil du kunne forstå hva som er Data Science og dens rolle i å hente ut meningsfull innsikt fra de komplekse og store datasettene rundt oss.For å få inngående kunnskap om datavitenskap, kan du registrere deg for live av Edureka med 24/7 support og levetidstilgang.

Hva er datavitenskap?

Datavitenskap er en blanding av ulike verktøy, algoritmer og maskinlæringsprinsipper med målet å oppdage skjulte mønstre fra rådataene. Men hvordan er dette forskjellig fra hva statistikere har gjort i årevis?



Svaret ligger i forskjellen mellom å forklare og forutsi.

Data Analyst v / s Data Science - Edureka

Som du kan se fra bildet ovenfor, en dataanalytikerforklarer vanligvis hva som skjer ved å behandle datahistorikken. På den annen side gjør Data Scientist ikke bare den undersøkende analysen for å oppdage innsikt fra den, men bruker også forskjellige avanserte algoritmer for maskinlæring for å identifisere forekomsten av en bestemt hendelse i fremtiden. En dataforsker vil se på dataene fra mange vinkler, noen ganger vinkler som ikke var kjent tidligere.



Så, Data Science brukes primært til å ta avgjørelser og spådommer ved bruk av prediktiv kausalanalyse, reseptiv analyse (prediktiv pluss beslutningsvitenskap) og maskinlæring.

  • Prediktiv kausal analyse - Hvis du vil ha en modell som kan forutsi mulighetene for en bestemt hendelse i fremtiden, må du bruke prediktiv kausal analyse. Si at hvis du gir penger på kreditt, er det sannsynlig at kunder som foretar fremtidige kredittbetalinger i tide, er bekymringsfullt for deg. Her kan du bygge en modell som kan utføre prediktiv analyse på kundens betalingshistorikk for å forutsi om fremtidige betalinger vil være i tide eller ikke.
  • Reseptbelagte analyser: Hvis du vil ha en modell som har intelligensen til å ta egne beslutninger og evnen til å modifisere den med dynamiske parametere, trenger du absolutt forskriftsmessig analyse for det. Dette relativt nye feltet handler om å gi råd. Med andre ord, det forutsier ikke bare, men antyder en rekke foreskrevne handlinger og tilhørende resultater.
    Det beste eksemplet på dette er Googles selvkjørende bil som jeg også hadde diskutert tidligere. Dataene som samles inn av kjøretøyer kan brukes til å trene selvkjørende biler. Du kan kjøre algoritmer på disse dataene for å bringe intelligens til det. Dette vil gjøre at bilen din kan ta avgjørelser som når du skal svinge, hvilken vei du skal ta,når du skal bremse eller øke hastigheten.
  • Maskinlæring for å komme med spådommer - Hvis du har transaksjonsdata fra et finansselskap og trenger å bygge en modell for å bestemme den fremtidige trenden, er maskinlæringsalgoritmer det beste alternativet. Dette faller under paradigmet for veiledet læring. Det kalles overvåket fordi du allerede har dataene du kan trene maskinene på. For eksempel kan en oppdagelsesmodell for svindel trenes ved hjelp av en historisk oversikt over falske kjøp.
  • Maskinlæring for oppdagelse av mønstre - Hvis du ikke har parametrene som du kan forutsi, må du finne ut de skjulte mønstrene i datasettet for å kunne komme med meningsfulle spådommer. Dette er ingenting annet enn den uten tilsyn, siden du ikke har noen forhåndsdefinerte etiketter for gruppering. Den vanligste algoritmen som brukes til oppdagelse av mønstre er Clustering.
    La oss si at du jobber i et telefonselskap og at du må etablere et nettverk ved å plassere tårn i en region. Deretter kan du bruke klyngeteknikken for å finne de tårnplasseringene som vil sikre at alle brukerne får optimal signalstyrke.

La oss se hvordan andelen av ovennevnte tilnærminger er forskjellige for dataanalyse så vel som datavitenskap. Som du kan se på bildet nedenfor, Dataanalyseinkluderer beskrivende analyse og prediksjon til en viss grad. På den annen side handler datavitenskap mer om prediktiv kausalanalyse og maskinlæring.

Data Science Analytics - Edureka

Nå som du vet hva Data Science er, la oss finne ut årsaken til at det var nødvendig i utgangspunktet.

Hvorfor datavitenskap?

  • Tradisjonelt var dataene vi hadde, stort sett strukturerte og små i størrelse, som kunne analyseres ved hjelp av enkle BI-verktøy.I motsetning til data itradisjonelle systemer som stort sett var strukturert, i dag er det meste av data ustrukturert eller semi-strukturert. La oss ta en titt på datatrendene i bildet nedenfor som viser at mer enn 80% av dataene vil være ustrukturerte innen 2020.
    Flyt av ustrukturerte data - Edureka
    Disse dataene genereres fra forskjellige kilder som økonomiske logger, tekstfiler, multimedieformer, sensorer og instrumenter. Enkle BI-verktøy er ikke i stand til å behandle dette enorme volumet og mangfoldet av data. Dette er grunnen til at vi trenger mer komplekse og avanserte analytiske verktøy og algoritmer for å behandle, analysere og trekke meningsfull innsikt ut av det.

Dette er ikke den eneste grunnen til at Data Science har blitt så populær. La oss grave dypere og se hvordan Data Science blir brukt på forskjellige domener.

  • Hva med om du kunne forstå de nøyaktige kravene til kundene dine fra eksisterende data som kundens tidligere nettleserlogg, kjøpshistorikk, alder og inntekt. Du hadde uten tvil alle disse dataene tidligere også, men nå med den enorme mengden og mangfoldet av data, kan du trene modeller mer effektivt og anbefale produktet til kundene dine med mer presisjon. Ville det ikke være utrolig ettersom det vil gi mer virksomhet til organisasjonen din?
  • La oss ta et annet scenario for å forstå datavitenskapens rolle i beslutningstaking.Hva med om bilen din hadde intelligens til å kjøre deg hjem? De selvkjørende bilene samler live data fra sensorer, inkludert radarer, kameraer og lasere for å lage et kart over omgivelsene. Basert på disse dataene tar det beslutninger som når du skal øke hastigheten, når du skal øke hastigheten, når du skal overhale, hvor du skal ta en sving - ved hjelp av avanserte algoritmer for maskinlæring.
  • La oss se hvordan Data Science kan brukes i prediktiv analyse. La oss ta værvarsling som et eksempel. Data fra skip, fly, radarer, satellitter kan samles og analyseres for å bygge modeller. Disse modellene vil ikke bare forutsi været, men også bidra til å forutsi forekomsten av naturlige ulykker. Det vil hjelpe deg å ta passende tiltak på forhånd og redde mange dyrebare liv.

La oss ta en titt på infografikken nedenfor for å se alle domenene der Data Science skaper sitt inntrykk.

Data Science Use Cases - Edureka

Hvem er en dataforsker?

Det er flere definisjoner tilgjengelig på Data Scientists. Med enkle ord er en datavitenskapsmann en som praktiserer datavitenskapskunsten.Begrepet 'Data Scientist' har værtmyntet etter å ha vurdert det faktum at en dataforsker henter mye informasjon fra de vitenskapelige felt og applikasjoner, enten det er statistikk eller matematikk.

Hva gjør en dataforsker?

Dataforskere er de som knekker komplekse dataproblemer med sin sterke ekspertise innen visse vitenskapelige disipliner. De jobber med flere elementer relatert til matematikk, statistikk, informatikk osv. (Selv om de kanskje ikke er eksperter på alle disse områdene).De bruker mye av den nyeste teknologien for å finne løsninger og komme til konklusjoner som er avgjørende for en organisasjons vekst og utvikling. Dataforskere presenterer dataene i en mye mer nyttig form sammenlignet med rådataene som er tilgjengelige for dem fra strukturerte så vel som ustrukturerte former.

For å vite mer om en datavitenskapsmann, kan du referere til denne artikkelen på

La oss nå gå videre, la oss nå diskutere BI. Jeg er sikker på at du kanskje også har hørt om Business Intelligence (BI). Ofte forveksles Data Science med BI. Jeg vil si noe kort og tydeligkontraster mellom de to som vil hjelpe deg med å få en bedre forståelse. La oss se.

Business Intelligence (BI) vs Data Science

  • Business Intelligence (BI) analyserer i utgangspunktet de tidligere dataene for å finne ettertanke og innsikt for å beskrive forretningstrender. Her lar BI deg ta data fra eksterne og interne kilder, forberede dem, kjøre spørsmål på det og lage dashbord for å svare på spørsmål somkvartalsvis inntektsanalyseeller forretningsproblemer. BI kan evaluere virkningen av visse hendelser i nær fremtid.
  • Datavitenskap er en mer fremtidsrettet tilnærming, en utforskende måte med fokus på å analysere tidligere eller nåværende data og forutsi fremtidige resultater med sikte på å ta informerte beslutninger. Den svarer på de åpne spørsmålene om 'hva' og 'hvordan' hendelser skjer.

La oss ta en titt på noen kontrasterende funksjoner.

Egenskaper Business Intelligence (BI) Datavitenskap
DatakilderStrukturert
(Vanligvis SQL, ofte Data Warehouse)
Både strukturert og ustrukturert

(logger, skydata, SQL, NoSQL, tekst)

Nærme segStatistikk og visualiseringStatistikk, maskinlæring, grafanalyse, nevrolingvistisk programmering (NLP)
FokusFortid og nåtidNåværende og fremtid
VerktøyPentaho, Microsoft BI,QlikView, RRapidMiner, BigML, Weka, R

Dette handlet om hva som er Data Science. La oss nå forstå livssyklusen til Data Science.

En vanlig feil som er gjort i Data Science-prosjekter, løper inn i datainnsamling og analyse, uten å forstå kravene eller til og med innramme forretningsproblemet riktig. Derfor er det veldig viktig for deg å følge alle fasene gjennom hele livssyklusen for datavitenskap for å sikre at prosjektet fungerer som det skal.

Livssyklus for datavitenskap

Her er en kort oversikt over hovedfasene i Data Science Lifecycle:

Lifecycle of Data Science - Edureka


Discovery of Data Science - EdurekaFase 1 — Oppdagelse:
Før du begynner på prosjektet, er det viktig å forstå de forskjellige spesifikasjonene, kravene, prioriteringene og det nødvendige budsjettet. Du må ha muligheten til å stille de riktige spørsmålene.Her vurderer du om du har de nødvendige ressursene til stede når det gjelder mennesker, teknologi, tid og data for å støtte prosjektet.I denne fasen må du også ramme inn forretningsproblemet og formulere innledende hypoteser (IH) for å teste.

Datavitenskap data forberedelse - Edureka

Fase 2 — Dataforberedelse: I denne fasen trenger du analytisk sandkasse der du kan utføre analyser for hele prosjektets varighet. Du må utforske, forbehandle og tilstandsdata før modellering. Videre vil du utføre ETLT (trekke ut, transformere, laste og transformere) for å få data inn i sandkassen. La oss ta en titt på flyten for statistisk analyse nedenfor.

Livssyklus for datavitenskap
Du kan bruke R for datarengjøring, transformasjon og visualisering. Dette vil hjelpe deg med å få øye på outliers og etablere et forhold mellom variablene.Når du har renset og klargjort dataene, er det på tide å utforskeanalysepå den. La oss se hvordan du kan oppnå det.

Fase 3 — Modellplanlegging: Datavitenskap modellplanlegging - Edureka Her vil du bestemme metodene og teknikkene for å tegne forholdet mellom variabler.Disse forholdene vil legge grunnlaget for algoritmene som du vil implementere i neste fase.Du vil bruke Exploratory Data Analytics (EDA) ved hjelp av ulike statistiske formler og visualiseringsverktøy.

La oss ta en titt på ulike modellplanleggingsverktøy.

Modellplanleggingsverktøy i datavitenskap - Edureka

  1. R har et komplett sett med modelleringsmuligheter og gir et godt miljø for å bygge fortolkende modeller.
  2. SQL-analysetjenester kan utføre analyse i databaser ved å bruke vanlige funksjoner for datautvinning og grunnleggende prediktive modeller.
  3. SAS / TILGANG kan brukes til å få tilgang til data fra Hadoop og brukes til å lage repeterbare og gjenbrukbare modellflytskjemaer.

Selv om mange verktøy er til stede i markedet, men R er det mest brukte verktøyet.

Nå som du har fått innsikt i naturen til dataene dine og har bestemt at algoritmene skal brukes. I neste trinn vil dusøke omalgoritmen og bygge opp en modell.

Data Science modellbygging - EdurekaFase 4 — Modellbygging: I denne fasen vil du utvikle datasett for opplærings- og testformål. Her yDu må vurdere om eksisterende verktøy vil være tilstrekkelig for å kjøre modellene, eller om det vil trenge et mer robust miljø (som rask og parallell behandling). Du vil analysere ulike læringsteknikker som klassifisering, assosiasjon og gruppering for å bygge modellen.

Du kan oppnå modellbygging gjennom følgende verktøy.

Modellbyggingsverktøy i datavitenskap

Fase 5 — Operasjonaliser: Datavitenskap operasjonaliserer - Edureka I denne fasen leverer du sluttrapporter, orienteringer, kode og tekniske dokumenter.I tillegg implementeres noen ganger også et pilotprosjekt i sanntids produksjonsmiljø. Dette vil gi deg et klart bilde av ytelsen og andre relaterte begrensninger i liten skala før full distribusjon.


Kommunikasjon i datavitenskap - EdurekaFase 6 — Kommuniser resultater:
Nå er det viktig å evaluere om du har klart å nå målet du hadde planlagt i første fase. Så, i den siste fasen, identifiserer du alle de viktigste funnene, kommuniserer til interessentene og avgjør om resultateneav prosjektet er en suksess eller en fiasko basert på kriteriene utviklet i fase 1.

Nå skal jeg ta en casestudie for å forklare deg de forskjellige fasene som er beskrevet ovenfor.

Case Study: Diabetes Prevention

Hva om vi kunne forutsi forekomsten av diabetes og treffe passende tiltak på forhånd for å forhindre det?
I dette brukstilfellet vil vi forutsi forekomsten av diabetes ved å bruke hele livssyklusen som vi diskuterte tidligere. La oss gå gjennom de forskjellige trinnene.

Trinn 1:

  • Først,vi vil samle inn data basert på medisinsk historieav pasienten som diskutert i fase 1. Du kan se på eksempeldataene nedenfor.

Data Science eksempler på data - Edureka

  • Som du kan se, har vi de forskjellige attributtene som nevnt nedenfor.

Attributter:

  1. npreg - Antall ganger gravid
  2. glukose - Plasmaglukosekonsentrasjon
  3. bp - Blodtrykk
  4. hud - Triceps hudfoldtykkelse
  5. bmi - Kroppsmasseindeks
  6. ped - Stamtavle for diabetes
  7. alder - Alder
  8. inntekt - Inntekt

Steg 2:

  • Når vi først har dataene, må vi rense og forberede dataene for dataanalyse.
  • Disse dataene har mange uoverensstemmelser som manglende verdier, tomme kolonner, brå verdier og feil dataformat som må rengjøres.
  • Her har vi organisert dataene i en enkelt tabell under forskjellige attributter - slik at de ser mer strukturerte ut.
  • La oss ta en titt på eksempeldataene nedenfor.

Datavitenskap inkonsekvente data - Edureka

Disse dataene har mange uoverensstemmelser.

  1. I kolonnen npreg , 'En' er skrevet iord,mens det skal være i numerisk form som 1.
  2. I kolonne bp en av verdiene er 6600 som er umulig (i det minste for mennesker) som bp ikke kan gå opp til så stor verdi.
  3. Som du kan se Inntekt kolonnen er blank og gir heller ingen mening i å forutsi diabetes. Derfor er det overflødig å ha det her og bør fjernes fra bordet.
  • Så vi vil rense og forbehandle disse dataene ved å fjerne outliers, fylle ut nullverdiene og normalisere datatypen. Hvis du husker, er dette vår andre fase som er forhåndsbehandling av data.
  • Til slutt får vi rene data som vist nedenfor, som kan brukes til analyse.

Datavitenskap konsistente data - Edureka

Trinn 3:

La oss nå gjøre noen analyser som diskutert tidligere i fase 3.

  • Først vil vi laste inn dataene i den analytiske sandkassen og bruke forskjellige statistiske funksjoner på den. For eksempel har R funksjoner som beskriver som gir oss antall manglende verdier og unike verdier. Vi kan også bruke sammendragsfunksjonen som gir oss statistisk informasjon som middel-, median-, rekkevidde-, min- og maksverdier.
  • Deretter bruker vi visualiseringsteknikker som histogrammer, linjediagrammer, boksplott for å få en god ide om distribusjonen av data.

Data Science visualisering - Edureka

Trinn 4:

Nå, basert på innsikt hentet fra forrige trinn, passer beslutningstreet best for denne typen problemer. La oss se hvordan?

  • Siden har vi allerede de viktigste attributtene for analyse som npreg, bmi , etc., så vi vil brukeveiledet læringsteknikk for å bygge enmodell her.
  • Videre har vi spesielt brukt beslutningstreet fordi det tar hensyn til alle attributter på en gang, som de som har enlineært forhold så vel som de som har et ikke-lineært forhold. I vårt tilfelle har vi et lineært forhold mellom npreg og alder, mens det ikke-lineære forholdet mellom npreg og ped .
  • Beslutningstremodeller er også veldig robuste, ettersom vi kan bruke den forskjellige kombinasjonen av attributter til å lage forskjellige trær og deretter til slutt implementere den med maksimal effektivitet.

La oss ta en titt på beslutningstreet vårt.

Design tresett

Her er den viktigste parameteren nivået av glukose, så det er vår rotnode. Nå bestemmer den nåværende noden og dens verdi den neste viktige parameteren som skal tas. Det fortsetter til vi får resultatet mht pos eller neg . Pos betyr at tendensen til å ha diabetes er positiv og neg betyr at tendensen til å ha diabetes er negativ.

Hvis du vil lære mer om implementeringen av beslutningstreet, kan du se denne bloggen

Trinn 5:

finn det største tallet i en array-java

I denne fasen vil vi kjøre et lite pilotprosjekt for å sjekke om resultatene våre er passende. Vi vil også se etter ytelsesbegrensninger hvis noen. Hvis resultatene ikke er nøyaktige, må vi planlegge og bygge om modellen på nytt.

Trinn 6:

Når vi har fullført prosjektet, vil vi dele utdataene for full distribusjon.

Å være dataforsker er lettere sagt enn gjort. Så, la oss se hva alt du trenger for å være dataforsker.En dataforsker krever ferdigheter i utgangspunktetfra tre hovedområder som vist nedenfor.

Data Science ferdigheter - Edureka

Som du kan se i bildet ovenfor, må du tilegne deg forskjellige harde ferdigheter og myke ferdigheter. Du må være god på statistikk og matematikk å analysere og visualisere data. Unødvendig å si, Maskinlæring danner hjertet i datavitenskap og krever at du er god på det. Du må også ha en solid forståelse av domene du jobber med å forstå forretningsproblemene tydelig. Oppgaven din slutter ikke her. Du bør være i stand til å implementere forskjellige algoritmer som krever gode koding ferdigheter. Til slutt, når du har tatt visse viktige beslutninger, er det viktig for deg å levere dem til interessentene. Så bra kommunikasjon vil definitivt legge til brownie poeng til dine ferdigheter.

Jeg oppfordrer deg til å se denne opplæringen om datavitenskap som forklarer hva som er datavitenskap og alt vi har diskutert i bloggen. Gå videre, nyt videoen og fortell meg hva du synes.

Hva er datavitenskap? Data Science Course - Data Science Tutorial For Beginners | Edureka

Denne Edureka Data Science kursvideoen tar deg gjennom behovet for datavitenskap, hva er datavitenskap, bruk av datavitenskap for virksomhet, BI vs datavitenskap, dataanalyseringsverktøy, datavitenskapssyklus sammen med en demo.

Til slutt vil det ikke være galt å si at fremtiden tilhører dataforskerne. Det er spådd at innen utgangen av året 2018 vil det være behov for rundt en million dataforskere. Flere og flere data vil gi muligheter til å drive viktige forretningsbeslutninger. Det kommer snart til å endre måten vi ser på verden oversvømmet med data rundt oss. Derfor bør en dataforsker være dyktig og motivert for å løse de mest komplekse problemene.

Jeg håper du likte å lese bloggen min og forsto hva som er Data Science.Sjekk ut vår her, som kommer med instruktørledet live trening og reell prosjektopplevelse.