Statistikk for maskinlæring: En nybegynnerveiledning



Denne artikkelen om statistikk for maskinlæring er en omfattende guide om de ulike konseptene os statistikk med eksempler.

Å forstå data og å kunne skape verdier ut fra det er tiårets dyktighet. Maskinlæring er en slik sentral ferdighet som hjelper selskaper å oppfylle den. For å komme i gang må du imidlertid bygge grunnlagene dine riktig. Så i denne artikkelen vil jeg dekke noen grunnleggende konsepter og gi deg retningslinjer for å starte reisen din innen maskinlæring. Så, i denne artikkelen om statistikk for maskinlæring, vil følgende emner bli diskutert:

  1. Sannsynlighet
  2. Statistikk
  3. Lineær algebra

Sannsynlighet og statistikk for maskinlæring:





Hva er sannsynlighet?

Sannsynlighet kvantifiserer sannsynligheten for at en hendelse inntreffer. For eksempel, hvis du ruller en rettferdig, upartisk terning, så sannsynligheten for en å slå opp er 1/6 . Nå, hvis du lurer på why? Da er svaret ganske enkelt!

Dette er fordi det er seks muligheter, og alle er like sannsynlige (fair die). Derfor kan vi legge til 1 + 1 + 1 + 1 + 1 + 1 = 6. Men siden vi er interessert i hendelse der 1 dukker opp . Det er bare en måte hendelsen kan skje. Derfor,



Sannsynligheten for at 1 kommer opp = 1/6

Lignende er tilfellet med alle andre tall da alle hendelsene er like sannsynlige. Enkelt, ikke sant?

hvordan du avslutter programmet java

En frekvent definisjon av sannsynlighet for dette eksemplet vil høres ut som - sannsynligheten for at 1 dukker opp er forholdet mellom antall ganger 1 dukket opp og totalt antall ganger matrisen ble rullet hvis matrisen ble rullet et uendelig antall ganger.Hvordan gir dette mening?



La oss gjøre det mer interessant. Tenk på de to sakene - du rullet en rettferdig die 5 ganger. I ett tilfelle er rekkefølgen av tall som dukker opp - [1,4,2,6,4,3]. I det andre tilfellet får vi - [2,2,2,2,2,2]. Hvilken tror du er mer sannsynlig?

Begge er like sannsynlige. Virker rart, ikke sant?

Vurder nå et annet tilfelle der alle de 5 rullene i hvert tilfelle er uavhengig . Det betyr at den ene rullen ikke påvirker den andre. I det første tilfellet, da 6 dukket opp, hadde det ingen anelse om at 2 møtte opp før den. Derfor er alle 5 rullene like sannsynlige.

På samme måte kan de rette 2s i det andre tilfellet forstås som en sekvens av uavhengige hendelser. Og alle disse hendelsene er like sannsynlige. Samlet sett, siden vi har de samme terningene, sannsynligheten for at et bestemt tall dukker opp i tilfelle ett er det samme som tilfelle to. I denne artikkelen om statistikk for maskinlæring, la oss forstå begrepet Selvstendighet.

Selvstendighet

To arrangementer A og B sies å være uavhengige hvis forekomsten av A ikke påvirker hendelse B . For eksempel, hvis du kaster en mynt og ruller en dyse, har utfallet av terningen ingen innvirkning på om mynten viser hoder eller haler. Også for to uavhengige hendelser A og B , den sannsynlighet for at A og B kan forekomme sammen . Så hvis du for eksempel vil ha sannsynligheten for at mynten viser hoder og dør viser 3.

P (A og B) = P (A) * P (B)

Derfor er P = & frac12 (sannsynligheten for at hodene dukker opp) * ⅙ (sannsynligheten for at 3 kommer opp) = 1/12

I det forrige eksemplet, for begge tilfeller, er P = ⅙ * ⅙ * ⅙ * ⅙ * ⅙ * ⅙.

La oss nå snakke om hendelser som ikke er uavhengige. Tenk på følgende tabell:

Overvektige Ikke overvektig
HjerteproblemerFire femfemten
Ingen hjerteproblemer1030

Det ble tatt en undersøkelse på 100 personer. 60 hadde hjerteproblemer og 40 ikke. Av de 60 som hadde hjerteproblemer, var 45 overvektige. Av de 40 som ikke hadde hjerteproblemer, var 10 overvektige. Hvis noen spør deg -

  1. Hva er sannsynligheten for hjerteproblemer?
  2. Hva er sannsynligheten for å ha hjerteproblemer og ikke bli overvektig?

Svaret på de første spørsmålene er enkelt - 60/100. For den andre ville den være 15/100. Vurder nå det tredje spørsmålet - En person ble plukket ut tilfeldig. Han ble funnet å ha hjertesykdom. Hva er sannsynligheten for at han er overvektig?

Tenk nå på informasjonen du har fått - Det er kjent at han har hjertesykdom. Derfor kan han ikke være fra de 40 som ikke har hjertesykdom. Det er bare 60 mulige alternativer (øverste rad i tabellen). Nå, blant disse reduserte mulighetene, er sannsynligheten for at han er overvektig 45/60. Nå som du har kjent, hva som er uavhengige hendelser, neste i denne artikkelen om statistikk for maskinlæring, la oss forstå Betingede sannsynligheter.

Betingede sannsynligheter

For å forstå betingede sannsynligheter, la oss fortsette diskusjonen med eksemplet ovenfor. Status for å være overvektig og status for å ha hatt hjerteproblemer er ikke uavhengig. Hvis det å være overvektig ikke påvirket hjerteproblemer, ville antallet overvektige og ikke-overvektige tilfeller for personer med hjerteproblemer ha vært det samme.

Vi fikk også at personen har hjerteproblemer, og vi måtte finne ut sannsynligheten for at han er overvektig. Så, sannsynligheten, i dette tilfellet, sies å være betinget av at han har et hjerteproblem. Hvis sannsynligheten for at hendelse A inntreffer er betinget av hendelse B, representerer vi den som

P (A | B)

Nå er det en teorem som hjelper oss med å beregne denne betingede sannsynligheten. Det kalles Bayes-regel .

P (A | B) = P (A og B) / P (B)

Du kan sjekke denne teoremet ved å koble til eksemplet vi nettopp diskuterte. Hvis du har forstått så langt, kan du komme i gang med følgende - Naive Bayes . Den bruker betingede sannsynligheter for å klassifisere om e-post er spam eller ikke. Det kan utføre mange andre klassifiseringsoppgaver. Men i hovedsak er betinget sannsynlighet kjernen i .

Statistikk:

Statistikk er brukes til å oppsummere og gjøre slutninger om et stort antall datapunkter. I datavitenskap og maskinlæring vil du ofte komme over følgende terminologi

system.exit (0) kan brukes til å avslutte programmet.
  • Sentralitetstiltak
  • Distribusjoner (spesielt normal)

Sentralitetstiltak og mål for spredning

Mener:

Mener er bare en gjennomsnitt av tall . For å finne ut gjennomsnittet, må du summere tallene og dele det med antall tall. For eksempel er gjennomsnittet av [1,2,3,4,5] 15/5 = 3.

mean-statistics-for-machine-learning

Median:

Median er midtre element i et sett med tall når de er ordnet i stigende rekkefølge. For eksempel er tall [1,2,4,3,5] ordnet i stigende rekkefølge [1,2,3,4,5]. Den midterste av disse er 3. Derfor er medianen 3. Men hva om antall tall er jevnt og derfor ikke har noe mellomtall? I så fall tar du gjennomsnittet av de to midt flest tallene. For en sekvens på 2n tall i stigende rekkefølge, gjennomsnitt nth og (n + 1)thnummer for å få medianen. Eksempel - [1,2,3,4,5,6] har medianen (3 + 4) / 2 = 3,5

Modus:

Mode er ganske enkelt hyppigste tallet i et sett med tall . For eksempel er modus på [1,2,3,3,4,5,5,5] 5.

Forskjell:

Variasjon er ikke et sentralitetstiltak. Det måler hvordan dataene dine blir spredt rundt gjennomsnittet . Det blir kvantifisert som

xer gjennomsnittet av N-tall. Du tar et poeng, trekker gjennomsnittet, tar kvadratet av denne forskjellen. Gjør dette for alle N-tallene og gjennomsnitt dem. Kvadratroten til variansen kalles standardavvik. I denne artikkelen om statistikk for maskinlæring, la oss forstå normalfordeling.

Normal distribusjon

Distribusjon hjelper oss forstå hvordan dataene våre blir spredt . I et utvalg av aldre kan vi for eksempel ha unge mennesker mer enn eldre voksne, og dermed mindre aldersverdier mer enn større verdier. Men hvordan definerer vi en fordeling? Tenk på eksemplet nedenfor

Y-aksen representerer tettheten. Modusen for denne fordelingen er 30 siden den er toppen og dermed hyppigst. Vi kan også finne medianen. Median ligger på punktet på x-aksen der halvparten av arealet under kurven er dekket. Området under normalfordeling er 1 fordi summen av sannsynligheten for alle hendelser er 1. For eksempel

Median i ovennevnte tilfelle er rundt 4. Dette betyr at arealet under kurven før 4 er det samme som etter 4. Tenk på et annet eksempel

Vi ser tre normale fordelinger. De blå og røde har samme gjennomsnitt. Den røde har større varians. Derfor er den mer spredt enn den blå. Men siden området må være 1, er toppen av den røde kurven kortere enn den blå kurven, for å holde området konstant.

Håper du forsto grunnleggende statistikk og normale distribusjoner. Nå, neste i denne artikkelen om statistikk for maskinlæring, la oss lære om Lineær algebra.

Lineær algebra

Moderne AI ville ikke være mulig uten Lineær algebra. Det danner kjernen i Dyp læring og har blitt brukt selv i enkle algoritmer som . La oss komme i gang uten ytterligere forsinkelse.

Du må være kjent med vektorer. De er en slags geometriske fremstillinger i rommet. For eksempel har en vektor [3,4] 3 enheter langs x-aksen og 4 enheter langs y-aksen. Tenk på følgende bilde -

Vektor d1 har 0,707 enheter langs x-aksen og 0,707 enheter langs y-aksen. En vektor har 1 dimensjon. Den har nødvendigvis en størrelse og en retning. For eksempel,

Ovenstående bilde har en vektor (4,3). Størrelsen er 5 og den gjør 36,9 grader med x-aksen.

Nå, hva er en matrise? Matrise er et flerdimensjonalt utvalg av tall. Hva brukes den til? Vi får se fremover. Men først, la oss se på hvordan den brukes.

Matrise

En matrise kan ha mange dimensjoner. La oss vurdere en todimensjonal matrise. Den har rader (m) og kolonner (n). Derfor har den m * n-elementer.

For eksempel,

Denne matrisen har 5 rader og 5 kolonner. La oss kalle det A. Derfor er A (2,3) oppføringen i andre rad og tredje kolonne som er 8.

hvordan du sjekker palindrom i java

Nå som du vet hva som er en matrise, kan vi se på de forskjellige operasjonene til matrisen.

Matriseoperasjoner

Tilsetning av matriser

To matriser av samme dimensjoner kan legges til. Tillegget skjer elementmessig.

Scalar Multiplikasjon

En matrise kan multipliseres med en skalar mengde. En slik multiplikasjon fører til at hver oppføring i matrisen multipliseres med skalaren. En skalar er bare et tall

Matrise Transponere

Matrise transponere er enkelt. For en matrise A (m, n), la A ’være dens transponering. Deretter

A '(i, j) = A (j, i)

For eksempel,

Matriksmultiplikasjon

Dette er sannsynligvis litt vanskelig enn andre operasjoner. Før vi dykker inn i det, la oss definere punktprodukt mellom to vektorer.

Tenk på vektor X = [1,4,6,0] og vektor Y = [2,3,4,5]. Da defineres punktprodukt mellom X og Y som

X.Y = 1 * 2 + 4 * 3 + 6 * 4 + 0 * 5 = 38

Så det er elementvis multiplikasjon og tillegg. Nå,la oss se på to matriser A (m, n) og B (n, k), der m, n, k er dimensjoner og dermed heltal. Vi definerer matriksmultiplikasjon som

I eksemplet ovenfor oppnås det første elementet i produktet (44) av punktproduktet fra den første raden i venstre matrise med den første kolonnen i høyre matrise. Tilsvarende er 72 oppnådd ved punktproduktet fra den første raden i venstre matrise med den andre kolonnen i høyre matrise.

Merk at for den venstre matrisen, bør antall kolonner være lik antall rader i høyre kolonne. I vårt tilfelle eksisterer produktet AB, men ikke BA, siden m ikke er lik k. For to matriser A (m, n) og B (n, k) er produktet AB definert og dimensjonen til produktet er (m, k) (de ytre største dimensjonene av (m, n), (n, k )). Men BA er ikke definert med mindre m = k.

Med dette kommer vi til en slutt på denne artikkelen om Statistics for Machine Learning. Jeg håper du har forstått noe av Machine Learning Jargon. Det slutter ikke her skjønt. For å være sikker på at du er bransjeklar, kan du sjekke ut Edurekas kurs om datavitenskap og AI. De kan bli funnet