SQL For datavitenskap: One stop-løsning for nybegynnere



Dette blogginnlegget på SQL for Data Science vil hjelpe deg å forstå hvordan SQL kan brukes til å lagre, få tilgang til og hente data for å utføre dataanalyse.

Siden datavitenskap har blitt rangert som nummer 1 for å være den mest lovende jobben i tiden, prøver vi alle å bli med i løpet av . Dette blogginnlegget på SQL for Data Science vil hjelpe deg å forstå hvordan SQL kan brukes til å lagre, få tilgang til og hente data for å utføre dataanalyse.

Her er en liste over emner som blir dekket i denne bloggen:





    1. Hvorfor trengs SQL for datavitenskap?
    2. Hva er SQL?
    3. Grunnleggende om SQL
    4. Installere MySQL
    5. Praktisk

Hvorfor trengs SQL for datavitenskap?

Visste du at vi genererer mer enn 2,5 milliarder byte data hver dag? Dette tempoet i datagenereringen er årsaken til populariteten til avanserte teknologier som Datavitenskap , , og så videre.

Å hente nyttig innsikt fra data er det som kalles Data Science. Datavitenskap innebærer å trekke ut, behandle og analysere tonnevis av data. For tiden er det vi trenger som kan brukes til å lagre og administrere denne enorme mengden data.



Hva er datavitenskap - Edureka

Dette er hvor SQL kommer inn.

SQL kan brukes til å lagre, få tilgang til og trekke ut store mengder data for å utføre hele Data Science-prosessen jevnere.



Hva er SQL?

SQL som står for Structured Query Language er et spørrespråk som er rettet mot å administrere relasjonsdatabaser.

Men hva er egentlig en relasjonsdatabase?

En relasjonsdatabase er en gruppe veldefinerte tabeller der data kan nås, redigeres, oppdateres og så videre uten å måtte endre databasetabellene. SQL er standarden (API) for relasjonsdatabaser.

hvordan du tester en database

Når vi kommer tilbake til SQL, kan SQL-programmering brukes til å utføre flere handlinger på data som spørring, innsetting, oppdatering, sletting av databaseregistreringer. Eksempler på relasjonsdatabaser som bruker SQL inkluderer MySQL Database, Oracle, etc.

Hvis du vil lære mer om SQL, kan du gå gjennom følgende blogger:

  1. Forstå SQL-datatyper - Alt du trenger å vite om SQL-datatyper
  2. LAG TABELL i SQL - Alt du trenger å vite om å lage tabeller i SQL

Før vi begynner med en demo om SQL, la oss bli kjent med de grunnleggende SQL-kommandoene.

Grunnleggende om SQL

SQL gir et sett med enkle kommandoer for å endre datatabeller, la oss gå gjennom noen av de grunnleggende SQL-kommandoene:

  • OPPRETT DATABASE - oppretter en ny database
  • LAG TABELL - lager et nytt bord
  • INSERT I - setter inn nye data i en database
  • Å VELGE - trekker ut data fra en database
  • OPPDATER - oppdaterer data i en database
  • SLETT - sletter data fra en database
  • ALTER DATABASE - endrer en database
  • ALTER TABELL - endrer et bord
  • DROPTABELL - sletter et bord
  • OPPRETT INDEKS - oppretter en indeks for å søke i et element
  • DROP INDEKS - sletter en indeks

For å bedre forstå SQL, la oss installere MySQL og se hvordan du kan spille med data.

Installere MySQL

Installere MySQL er en enkel oppgave. Her er en trinnvis guide som vil hjelpe deg med å installere MySQL på systemet ditt.

Når du er ferdig med å installere MySQL, følg avsnittet nedenfor for en enkel demo som viser deg hvordan du kan sette inn, manipulere og endre data.

SQL For Data Science - MySQL Demo

I denne demonstrasjonen vil vi se hvordan du lager databaser og behandler dem. Dette er en demonstrasjon på nybegynnernivå for å komme i gang med dataanalyse på SQL.

Så la oss komme i gang!

Trinn 1: Opprett en SQL-database

En SQL-database er et lagerlager der data kan lagres i et strukturert format. La oss nå lage en database ved hjelp av MySQL :

OPPRETT DATABASE edureka BRUK edureka

I koden ovenfor er det to SQL-kommandoer:

Merk : SQL-kommandoer er definert med store bokstaver, og en semikolon brukes til å avslutte en SQL-kommando.

  1. OPPRETT DATABASE: Denne kommandoen oppretter en database kalt ‘edureka’

  2. BRUK: Denne kommandoen brukes til å aktivere databasen. Her aktiverer vi databasen ‘edureka’.

Trinn 2: Lag en tabell med de nødvendige datafunksjonene

Å lage en tabell er like enkelt som å lage en database. Du må bare definere variablene eller funksjonene i tabellen med deres respektive datatyper. La oss se hvordan dette kan gjøres:

OPPRETT BORDLeker (TID INTEGER IKKE NULL PRIMÆR NØKKEL AUTO_INCREMENT, Varenavn TEKST, Pris INTEGER, Mengde INTEGER)

I kodebiten ovenfor forekommer følgende ting:

  1. Bruk 'CREATE TABLE' -kommandoen til å lage et bord som heter leker.
  2. Leketabellen inneholder 4 funksjoner, nemlig TID (Transaction ID), Item_name, Price and Quantity.
  3. Hver variabel er definert med deres respektive datatyper.
  4. TID-variabelen er erklært som en primærnøkkel. En primærnøkkel betegner i utgangspunktet en variabel som kan lagre en unik verdi.

Du kan sjekke detaljene i den definerte tabellen ved å bruke følgende kommando:

BESKRIV leker

Trinn 3: Sette inn data i tabellen

Nå som vi har laget en tabell, la oss fylle den opp med noen verdier. Tidligere i denne bloggen nevnte jeg hvordan du kan legge til data i en tabell ved å bare bruke en enkelt kommando, dvs. INSERT INTO.

La oss se hvordan dette gjøres:

INSERT I leketøyVERDIER (NULL, 'Train', 550, 88) INSERT INTO toys VALUES (NULL, 'Hotwheels_car', 350, 80) INSERT INTO toys VALUES (NULL, 'Magic_Pencil', 70, 100) INSERT IN TO toys VALUES (NULL, 'Magic_Pencil', 70, 100) NULL, 'Dog_house', 120, 54) INSERT IN LEKOVERDIER (NULL, 'Skateboard', 700, 42) INSERT IN LEKOVERDIER (NULL, 'GI Joe', 300, 120)

I kodebiten ovenfor, satte vi bare inn 6 observasjoner i 'leker' -tabellen vår ved å bruke INSERT INTO-kommandoen. For hver observasjon, innen parentes, har jeg spesifisert verdien på hver variabel eller funksjon som ble definert mens du opprettet tabellen.

TID-variabelen er satt til NULL siden den automatisk øker fra 1.

La oss nå vise alle dataene i tabellen vår. Dette kan gjøres ved å bruke kommandoen nedenfor:

VELG * FRA leker


Trinn 4: Endre dataoppføringene

La oss si at du bestemte deg for å øke prisen på G.I. Joe siden det gir deg mange kunder. Hvordan vil du oppdatere prisen på variabelen i en database?

Det er enkelt, bare bruk kommandoen nedenfor:

OPPDATERING LEKER SET Pris = 350 WHERE TID = 6

UPDATE-kommandoen lar deg endre verdier / variabler som er lagret i tabellen. SET-parameteren lar deg velge en bestemt funksjon, og WHERE-parameteren brukes til å identifisere variabelen / verdien du vil endre. I kommandoen ovenfor har jeg oppdatert prisen på dataoppføringen hvis TID er 6 (G.I. Joe).

La oss nå se den oppdaterte tabellen:

VELG * FRA leker

Du kan også endre det du vil skal vises ved å bare referere til kolonnene du vil se. For eksempel viser kommandoen nedenfor bare navnet på leketøyet og dets respektive pris:

VELG Varenavn, pris FRA leker

Trinn 5: Henter data

Så etter å ha satt inn dataene og endret dem, er det endelig tid for å trekke ut og hente dataene i henhold til forretningskravene. Det er her data kan hentes for videre dataanalyse og datamodellering.

Merk at det er et enkelt eksempel for å komme i gang med SQL, men i virkelige scenarier er dataene mye mer kompliserte og store i størrelse. Til tross for dette forblir SQL-kommandoene de samme, og det er det som gjør SQL så enkelt og forståelig. Den kan behandle komplekse datasett med et sett med enkle SQL-kommandoer.

La oss nå hente data med et par modifikasjoner. Se koden nedenfor og prøv å forstå hva den gjør uten å se på utdataene:

VELG * FRA leker LIMIT 2

Du gjettet det! Den viser de to første observasjonene i tabellen min.

La oss prøve noe mer interessant.

VELG * FRA leker BESTILL AV Pris ASC

Som vist i figuren er verdiene ordnet med hensyn til stigende rekkefølge på prisvariabelen. Hvis du vil se etter de tre mest kjøpte artiklene, hva ville du gjort?

Det er ganske enkelt egentlig!

VELG * FRA leketøy BESTIL EFTER ANTALL BESKRIVNINGSGRENS 3

La oss prøve en til.

VELG * FRA leker HVOR Pris> 400 BESTILL AV PRIS ASC


Dette spørsmålet trekker ut detaljene til lekene med en pris på mer enn 400 og ordner produksjonen i stigende rekkefølge av prisen.

Så det er slik du kan behandle data ved hjelp av SQL. Nå som du vet det grunnleggende om SQL for datavitenskap, er jeg sikker på at du er nysgjerrig på å lære mer. Her er et par blogger for å komme i gang:

  1. Hva er datavitenskap? En nybegynnerveiledning for datavitenskap
  2. MySQL Tutorial - A Beginner's Guide to Learn MySQL

Hvis du ønsker å melde deg på et komplett kurs om kunstig intelligens og maskinlæring, har Edureka en spesiell kurat som vil gjøre deg dyktig i teknikker som Supervised Learning, Unsupervised Learning, and Natural Language Processing. Det inkluderer opplæring i de siste fremskrittene og tekniske tilnærmingene innen kunstig intelligens og maskinlæring som dyp læring, grafiske modeller og forsterkningslæring.