Python Pandas Tutorial: Lær Pandas for dataanalyse



I denne Python Pandas-opplæringen lærer du de forskjellige operasjonene til Pandas. Det inkluderer også en brukstilfelle, der du kan analysere dataene ved hjelp av Pandas.

I denne bloggen vil vi diskutere dataanalyse ved bruk av Pandas i Python.I dag, er en varm ferdighet i bransjen som overgikk PHP i 2017 og C # i 2018 når det gjelder total popularitet og bruk.Før man snakker om Pandaer, må man forstå begrepet Numpy arrays. Hvorfor? Fordi Pandas er et programvare med åpen kildekode som er bygget oppå . I denne Python Pandas-veiledningen vil jeg ta deg gjennom følgende emner, som vil tjene som grunnleggende for de kommende bloggene:

La oss komme i gang. :-)





Hva er Python Pandas?

Pandaer brukes til manipulering, analyse og rengjøring av data. Python-pandaer er godt egnet for forskjellige typer data, for eksempel:

  • Tabelldata med heterogent typede kolonner
  • Bestilte og uordnede tidsseriedata
  • Vilkårlige matriksdata med rad- og kolonnetiketter
  • Umerkede data
  • Enhver annen form for observasjons- eller statistiske datasett

Hvordan installere Pandas?

For å installere Python Pandas, gå til kommandolinjen / terminalen og skriv 'pip install pandas', ellers, hvis du har anaconda installert i systemet ditt, skriver du bare inn 'conda install pandas'. Når installasjonen er fullført, går du til IDE (Jupyter, PyCharm osv.) Og bare importerer den ved å skrive: 'importer pandaer som pd'



hvordan du kan forhindre lås i Java

Fortsett i Python pandas tutorial, la oss ta en titt på noen av operasjonene:

Python Pandas-operasjoner

Ved å bruke Python-pandaer kan du utføre mange operasjoner med serier, datarammer, manglende data, gruppere etter osv. Noen av de vanligste operasjonene for datamanipulering er oppført nedenfor:



PandasOperations - Python Pandas Tutorial - Edureka

La oss nå forstå alle disse operasjonene en etter en.

Skjæring av datarammen

For å utføre kutting av data, trenger du en dataramme. Ikke bekymre deg, datarammen er en todimensjonal datastruktur og et vanligste pandaobjekt. Så først, la oss lage en dataramme.

Se koden nedenfor for implementering i PyCharm:

importer pandaer som pd XYZ_web = {'Dag': [1,2,3,4,5,6], 'Besøkende': [1000, 700,6000,1000,400,350], 'Bounce_Rate': [20,20, 23,15,10,34]} df = pd.DataFrame (XYZ_web) print (df)

Produksjon :

Bounce_Rate Dagsbesøkende 0 20 1 1000 1 20 2700 2 23 3 6000 3 15 4 1000 4 10 5400 5 34 6350

Koden ovenfor vil konvertere en ordbok til en pandadataramme sammen med indeksen til venstre. La oss nå kutte en bestemt kolonne fra denne datarammen. Se bildet nedenfor:

skrive ut (df.hode (2))

Produksjon:

Bounce_Rate Day besøkende 0 20 1 1000 1 20 2700

På samme måte, hvis du vil ha de to siste radene med dataene, skriver du inn kommandoen nedenfor:

trykk (df. hale (2))

Produksjon:

Bounce_Rate Day besøkende 4 10 5400 5 34 6350

Neste i Python Pandas-opplæringen, la oss utføre sammenslåing og sammenføyning.

Fusjon og sammenføyning

Ved sammenslåing kan du slå sammen to datarammer for å danne en enkelt dataramme. Du kan også bestemme hvilke kolonner du vil gjøre felles. La meg implementere det praktisk talt, først skal jeg lage tre datarammer, som har noen nøkkelverdipar og deretter slå sammen datarammene sammen. Se koden nedenfor:

HPI IND_GDP Int_Rate 0 80 50 2 1 90 45 1 2 70 45 2 3 60 67 3

Produksjon:

importer pandaer som pd df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45, 67]}, indeks = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3] , 'IND_GDP': [50,45,45,67]}, indeks = [2005, 2006,2007,2008]) slått sammen = pd.merge (df1, df2) utskrift (slått sammen)

Som du kan se ovenfor, har de to datarammene slått sammen til en enkelt dataramme. Nå kan du også spesifisere kolonnen du vil gjøre felles. For eksempel vil jeg at 'HPI' -kolonnen skal være vanlig, og for alt annet vil jeg ha separate kolonner. Så la meg implementere det praktisk:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, indeks = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, indeks = [2005, 2006,2007,2008]) slått sammen = pd.merge (df1, df2, on = 'HPI') utskrift (slått sammen)

Produksjon:

IND_GDP Int_Rate Low_Tier_HPI Arbeidsledighet 2001 50 2 50,0 1,0 2002 45 1 NaN NaN 2003 45 2 45,0 3,0 2004 67 3 67,0 5,0 2004 67 3 34,0 6,0

La oss nå forstå bli med i python pandas tutorial. Det er enda en praktisk metode å kombinere to forskjellige indekserte datarammer til et enkelt resultatdataramme. Dette er ganske likt 'flette' -operasjonen, bortsett fra at sammenføyningsoperasjonen vil være på 'indeksen' i stedet for 'kolonnene'. La oss implementere det praktisk.

df1 = pd.DataFrame ({'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'Low_Tier_HPI': [50,45,67,34], 'Unemployment': [1,3,5,6]}, index = [2001, 2003,2004,2004]) joined = df1. bli med (df2) skrive ut (bli med)

Produksjon:

IND_GDP Int_Rate Low_Tier_HPI Arbeidsledighet 2001 50 2 50,0 1,0 2002 45 1 NaN NaN 2003 45 2 45,0 3,0 2004 67 3 67,0 5,0 2004 67 3 34,0 6,0

Som du kan merke i ovennevnte produksjon, i år 2002 (indeks), er det ingen verdi knyttet til kolonnene 'low_tier_HPI' og 'ledighet', derfor har den skrevet ut NaN (ikke et tall). Senere i 2004 er begge verdiene tilgjengelige, derfor har de skrevet ut de respektive verdiene.

Du kan gå gjennom dette opptaket av Python Pandas-opplæringen der instruktøren vår har forklart emnene på en detaljert måte med eksempler som vil hjelpe deg å forstå dette konseptet bedre.

Python for dataanalyse | Python Pandas opplæring | Python Training | Edureka


Fortsett i Python pandas tutorial, la oss forstå hvordan vi kan sammenkoble to datarammer.

Sammenkobling

Sammenkobling limer i utgangspunktet datarammene sammen. Du kan velge dimensjonen du vil sammenkoble. For det er det bare å bruke “pd.concat” og sende inn listen over datarammer for å sammenkoble. Tenk på eksemplet nedenfor.

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, indeks = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, indeks = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2]) utskrift (concat)

Produksjon:

HPI IND_GDP Int_Rate 2001 80 50 2 2002 90 45 1 2003 70 45 2 2004 60 67 3 2005 80 50 2 2006 90 45 1 2007 70 45 2 2008 60 67 3

Som du kan se ovenfor, limes de to datarammene sammen i en enkelt dataramme, hvor indeksen starter fra 2001 helt frem til 2008. Deretter kan du også spesifisere akse = 1 for å bli med, slå sammen eller kansellere langs kolonnene. Se koden nedenfor:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, indeks = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, indeks = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2], akse = 1) utskrift (concat)

Produksjon:

HPI IND_GDP Int_Rate HPI IND_GDP Int_Rate 2001 80,0 50,0 2,0 NaN NaN NaN 2002 90,0 45,0 1,0 NaN NaN NaN 2003 70,0 45,0 2,0 NaN NaN NaN 2004 60,0 67,0 3,0 NaN NaN NaN 2005 NaN NaN NaN 80,0 50,0 2,0 2006 NaN NaN NaN 90,0 45,0 1,0 2007 NaN NaN NaN 70,0 45,0 2,0 2008 NaN NaN NaN 60,0 67,0 3,0

Som du kan ovenfor, er det mange manglende verdier. Dette skjer fordi datarammene ikke hadde verdier for alle indeksene du vil sammenkoble på. Derfor bør du sørge for at du har all informasjonen riktig når du blir med eller sammenkoblet på aksen.

Endre indeksen

Neste i python-pandaopplæringen, vil vi forstå hvordan du endrer indeksverdiene i en dataramme. La oss for eksempel lage en dataramme med noen nøkkelverdipar i en ordbok og endre indeksverdiene. Tenk på eksemplet nedenfor:

La oss se hvordan det faktisk skjer:

importer pandaer som pd df = pd.DataFrame ({'Dag': [1,2,3,4], 'Besøkende': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df.set_index ('Day', inplace = True) utskrift (df)

Produksjon:

Bounce_Rate Besøksdag 1 20 200 2 45 100 3 60 230 4 10 300

Som du kan legge merke til i utdataene ovenfor, er indeksverdien endret i forhold til 'Dag' -kolonnen.

Endre kolonneoverskriftene

La oss nå endre topptekstene til kolonnen i denne python-pandaopplæringen. La oss ta det samme eksemplet, der jeg vil endre kolonneoverskriften fra 'Besøkende' til 'Brukere'. Så la meg implementere det praktisk.

importer pandaer som pd df = pd.DataFrame ({'Dag': [1,2,3,4], 'Besøkende': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df = df.rename (column = {'Besøkende': 'Brukere'}) print (df)

Produksjon:

Bounce_Rate-dagbrukere 0 20 1200 1 45 2100 2 60 3230 3 10 4300

kjør bikupespørring fra kommandolinjen

Som du ser ovenfor, er kolonneoverskriften 'Besøkende' endret til 'Brukere'. Neste i python pandas tutorial, la oss utføre data munging.

Data Munging

I Data munging kan du konvertere en bestemt data til et annet format. Hvis du for eksempel har en .csv-fil, kan du også konvertere den til .html eller et hvilket som helst annet dataformat. Så, la meg implementere dette praktisk.

importere pandaer som pd land = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-youth-ledighetAPI_ILO_country_YU.csv', index_col = 0) country.to_html ('edu.html')

Når du har kjørt denne koden, opprettes en HTML-fil med navnet “edu.html”. Du kan kopiere banen til filen direkte og lime den inn i nettleseren din, som viser dataene i HTML-format. Se skjermbildet nedenfor:


Neste i veiledningen om pythonpandas, la oss ta en titt på en brukssak som snakker om den globale ungdomsarbeidsløsheten.

Python Pandas-opplæring: Bruk sak til å analysere ungdoms arbeidsledighetsdata

Problemstilling :Du får et datasett som består av prosentandelen arbeidsledige ungdommer globalt fra 2010 til 2014. Du må bruke dette datasettet og finne endringen i prosentandelen ungdom for hvert land fra 2010-2011.

La oss først forstå datasettet som inneholder kolonnene som landnavn, landskode og året fra 2010 til 2014. Nå bruker vi pandaer, og vi bruker “pd.read_csv” til å lese .csv-filformatfilen.
Se skjermbildet nedenfor:

La oss gå videre og utføre dataanalyse der vi skal finne ut den prosentvise endringen i arbeidsledige ungdommer mellom 2010 og 2011. Da vil vi visualisere det samme ved å bruke bibliotek, som er et kraftig bibliotek for visualisering i Python. Den kan brukes i Python-skript, shell, webapplikasjonsservere og andre GUI-verktøysett. Du kan lese mer her:

La oss nå implementere koden i PyCharm:

importere pandaer som pd importere matplotlib.pyplot som plt fra matplotlib import style style.use ('fivethirtyeight') country = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-youth-אַרבעטsløsningAPI_ILO_country_YU.csv', index_col = 0) df. hode (5) df = df.set_index (['Landskode']) sd = sd.reindex (kolonner = ['2010', '2011']) db = sd.diff (akse = 1) db.plot (type = 'bar') plt.show ()

Som du kan se ovenfor, har jeg utført analysen på de fem øverste radene i landets dataramme. Deretter har jeg definert en indeksverdi til å være 'Landskode' og deretter indeksere kolonnen til 2010 og 2011. Deretter har vi en dataframe db til, som skriver ut forskjellen mellom de to kolonnene eller prosentvis endring av arbeidsledige ungdommer. fra 2010 til 2011. Til slutt har jeg plottet en barplot ved hjelp av Matplotlib-biblioteket i Python.


Nå hvis du la merke til det ovennevnte plottet, i Afghanistan (AFG) mellom 2010 og 2011, har det vært en økning i arbeidsledige ungdommer på ca. 0,25%. Så i Angola (AGO) er det en negativ trend som betyr at prosentandelen arbeidsledige ungdommer er redusert. På samme måte kan du utføre analyser på forskjellige datasett.

Jeg håper bloggen min på 'Python Pandas Tutorial' var relevant for deg. For å få inngående kunnskap om python sammen med de forskjellige applikasjonene, kan du registrere deg for live av Edureka med 24/7 support og levetidstilgang.

Har du et spørsmål til oss? Vennligst nevn det i kommentarfeltet i denne 'Python Pandas tutorial' -bloggen, så kommer vi tilbake til deg så snart som mulig.