Informatica ETL: En nybegynnerveiledning for å forstå ETL ved bruk av Informatica PowerCenter



Å forstå begrepene Informatica ETL og de ulike stadiene i ETL-prosessen og øve en brukssak som involverer ansattes database.

Formålet med Informatica ETL er å gi brukerne, ikke bare en prosess for å hente ut data fra kildesystemer og bringe dem inn i datalageret, men også gi brukerne en felles plattform for å integrere dataene sine fra forskjellige plattformer og applikasjoner.Dette har ført til en økning i etterspørselen etter .Før vi snakker om Informatica ETL, la oss først forstå hvorfor vi trenger ETL.

Hvorfor trenger vi ETL?

Hvert selskapdisse dager må behandle store datasett fra forskjellige kilder. Disse dataene må behandles for å gi innsiktsfull informasjon for å ta forretningsbeslutninger. Men ofte har slike data følgende utfordringer:





  • Store selskaper genererer mye data, og en slik stor del av data kan være i hvilket som helst format. De vil være tilgjengelige i flere databaser og mange ustrukturerte filer.
  • Disse dataene må samles, kombineres, sammenlignes og få dem til å fungere som en sømløs helhet. Men de forskjellige databasene kommuniserer ikke bra!
  • Mange organisasjoner har implementert grensesnitt mellom disse databasene, men de møtte følgende utfordringer:
    • Hvert par databaser krever et unikt grensesnitt.
    • Hvis du endrer en database, kan det hende at mange grensesnitt må oppgraderes.

Nedenfor kan du se de ulike databasene til en organisasjon og deres interaksjoner:

Ulike datasett for en organisasjon - Informatica - ETL - Edureka

Ulike databaser som brukes av forskjellige avdelinger i en organisasjon



Ulike interaksjoner mellom databasene i en organisasjon

Som sett ovenfor, kan en organisasjon ha forskjellige databaser i sine forskjellige avdelinger, og samspillet mellom dem blir vanskelig å implementere ettersom ulike interaksjonsgrensesnitt må opprettes for dem. For å overvinne disse utfordringene er den best mulige løsningen ved å bruke begrepene Dataintegrasjon som tillater data fra forskjellige databaser og formater å kommunisere med hverandre. Figuren nedenfor hjelper oss å forstå hvordan dataintegreringsverktøyet blir et vanlig grensesnitt for kommunikasjon mellom de forskjellige databasene.

Ulike databaser koblet via dataintegrasjon



Men det er forskjellige prosesser tilgjengelig for å utføre dataintegrering. Blant disse prosessene er ETL den mest optimale, effektive og pålitelige prosessen. Gjennom ETL kan brukeren ikke bare hente inn dataene fra forskjellige kilder, men de kan utføre de forskjellige operasjonene på dataene før de lagrer disse dataene til sluttmålet.

Blant de forskjellige tilgjengelige ETL-verktøyene som er tilgjengelige i markedet, er Informatica PowerCenter markedets ledende plattform for dataintegrering. Etter å ha testet på nesten 500 000 kombinasjoner av plattformer og applikasjoner, fungerer Informatica PowerCenter inter med et bredest mulig utvalg av forskjellige standarder, systemer og applikasjoner. La oss nå forstå trinnene som er involvert i Informatica ETL-prosessen.

Informatikk ETL | Informatica Architecture | Informatica PowerCenter opplæring | Edureka

Denne Edureka Informatica-opplæringen hjelper deg med å forstå det grunnleggende ved ETL ved å bruke Informatica Powercenter i detalj.

Trinn i Informatica ETL-prosessen:

Før vi går til de forskjellige trinnene involvert i Informatica ETL, La oss ha en oversikt over ETL. I ETL er ekstraksjon der data blir hentet fra homogene eller heterogene datakilder, transformasjon der dataene blir transformert for lagring i riktig format eller struktur for spørring og analyse og lasting der dataene er lastet inn i den endelige måldatabasen, operativ datalager, datamarked eller datalager. Bildet nedenfor hjelper deg med å forstå hvordan Informatica ETL-prosessen foregår.

ETL-prosessoversikt

Som sett ovenfor kan Informatica PowerCenter laste inn data fra forskjellige kilder og lagre dem i et enkelt datalager. La oss nå se på trinnene som er involvert i Informatica ETL-prosessen.

Det er hovedsakelig fire trinn i Informatica ETL-prosessen, la oss nå forstå dem i dybden:

  1. Pakk ut eller fangst
  2. Skrubb eller rengjør
  3. Forvandle
  4. Last og indekser

1. Pakke ut eller fange: Som vist på bildet nedenfor, er Capture or Extract det første trinnet i Informatica ETL-prosessen.Det er prosessen med å skaffe et øyeblikksbilde av det valgte datasettet fra kilden, som må lastes inn i datalageret. Et øyeblikksbilde er en skrivebeskyttet statisk visning av dataene i databasen. Ekstraktprosessen kan være av to typer:

  • Fullt utdrag: Dataene hentes fullstendig fra kildesystemet, og det er ikke nødvendig å holde rede på endringer i datakilden siden den siste vellykkede utvinningen.
  • Inkrementelt ekstrakt: Dette vil bare fange opp endringer som har skjedd siden forrige fullstendige utdrag.

Fase 1: Pakk ut eller fangst

2. Skrubb eller rengjør: Dette er prosessen med å rense dataene som kommer fra kilden ved å bruke forskjellige mønstergjenkjenning og AI-teknikker for å oppgradere kvaliteten på dataene som tas frem. Vanligvis er feil som feilstavinger, feil dato, feil feltbruk, adresser som ikke samsvarer, manglende data, dupliserte data, inkonsekvenseruthevet og deretter rettet eller fjerneti dette trinnet. Også operasjoner som dekoding, omformatering, tidsstempling, konvertering, nøkkelgenerering, sammenslåing, feilregistrering / logging, lokalisering av manglende data gjøres i dette trinnet. Som vist på bildet nedenfor, er dette det andre trinnet i Informatica ETL-prosessen.

Fase 2: Skrubbing eller rengjøring av data

3. Transform: Som vist på bildet nedenfor, er dette det tredje og mest essensielle trinnet i Informatica ETL-prosessen. Transformasjoner er operasjonen for å konvertere data fra kildesystemets format til skjelettet til Data Warehouse. En transformasjon brukes i utgangspunktet til å representere et sett med regler som definerer dataflyten og hvordan dataene lastes inn i målene. For å vite mer om transformasjon, sjekk ut Transformasjoner i Informatica Blogg.

Fase 3: Transformasjon

4. Last og indekser: Dette er det siste trinnet i Informatica ETL-prosessen som vist i bildet nedenfor. I dette stadiet plasserer vi transformerte data i lageret og lager indekser for dataene. Det er to hovedtyper av datainnlasting tilgjengelig basert på lasteprosessen .:

  • Full- eller bulkbelastning :Datalastingsprosessen når vi gjør det aller første gang. Jobben trekker ut hele datamengden fra en kildetabell og lastes inn i måldatalageret etter å ha brukt de nødvendige transformasjonene. Det vil være en engangs jobb som kjøres etter at endringene alene blir tatt som en del av et inkrementelt ekstrakt.
  • Inkrementell belastning eller Oppdater belastning : De modifiserte dataene alene vil bli oppdatert i mål etterfulgt av full belastning. Endringene fanges opp ved å sammenligne opprettet eller endret dato med den siste kjøringsdatoen for jobben.De modifiserte dataene alene hentet fra kilden og vil bli oppdatert i målet uten å påvirke eksisterende data.

Fase 4: Last og indeks

Hvis du har forstått Informatica ETL-prosessen, er vi nå i en bedre posisjon til å forstå hvorfor Informatica er den beste løsningen i slike tilfeller.

Funksjoner av Informatica ETL:

Informatica har gitt oss alle dataintegrasjons- og ETL-operasjonene Informatica PowerCenter . La oss nå se noen viktige funksjoner i Informatica ETL:

  • Gir mulighet til å spesifisere et stort antall transformasjonsregler med en GUI.
  • Generer programmer for å transformere data.
  • Håndter flere datakilder.
  • Støtter datautvinning, rensing, aggregering, omorganisering, transformasjon og lastoperasjoner.
  • Genererer automatisk programmer for datautvinning.
  • Høyhastighets lasting av måldatalager.

Nedenfor er noen av de typiske scenariene der Informatica PowerCenter brukes:

  1. Datamigrering:

Et selskap har kjøpt en ny applikasjon for leverandørgjeld til kontoavdelingen. PowerCenter kan flytte eksisterende kontodata til det nye programmet. Figuren nedenfor hjelper deg å forstå hvordan du kan bruke Informatica PowerCenter til datamigrering. Informatica PowerCenter kan enkelt bevare datalinjen for skatt, regnskap og andre lovpålagte formål under datamigreringsprosessen.

Datamigrering fra en eldre regnskapsapplikasjon til en ny applikasjon

  1. Søknadsintegrasjon:

La oss si selskap-A kjøper selskap-B. For å oppnå fordelene med konsolidering, må Company-Bs faktureringssystem integreres i Company-As faktureringssystem, som enkelt kan gjøres ved hjelp av Informatica PowerCenter. Figuren nedenfor vil hjelpe deg med å forstå hvordan du kan bruke Informatica PowerCenter til integrering av applikasjoner mellom selskapene.

Integrering av applikasjon mellom selskaper

  1. Datavarehus

Typiske handlinger som kreves i datalager er:

  • Kombinere informasjon fra mange kilder sammen for analyse.
  • Flytter data fra mange databaser til datalageret.

Alle de ovennevnte typiske tilfellene kan enkelt utføres ved hjelp av Informatica PowerCenter. Nedenfor kan du se Informatica PowerCenter brukes til å kombinere data fra forskjellige typer databaser som Oracle, SalesForce, etc. og bringe dem til et felles datalager opprettet av Informatica PowerCenter.

Data Fra forskjellige databaser integrert i et felles datalager

  1. Middleware

La oss si at en detaljhandelsorganisasjon bruker SAP R3 for sine detaljhandelapplikasjoner og SAP BW som sitt datalager. En direkte kommunikasjon mellom disse to applikasjonene er ikke mulig på grunn av mangel på et kommunikasjonsgrensesnitt. Informatica PowerCenter kan imidlertid brukes som mellomvare mellom disse to applikasjonene. På bildet nedenfor kan du se arkitekturen for hvordan Informatica PowerCenter brukes som mellomvare mellom SAP R / 3 og SAP BW. Applikasjonene fra SAP R / 3 overfører dataene sine til ABAP-rammeverket som deretter overfører dem tilSAP salgssted (POS) og SAPBills of Services (BOS). Informatica PowerCenter hjelper overføring av data fra disse tjenestene til SAP Business Warehouse (BW).

Informatica PowerCenter som Middleware i SAP Retail Architecture

Mens du har sett noen viktige funksjoner og typiske scenarier for Informatica ETL, håper jeg du forstår hvorfor Informatica PowerCenter er det beste verktøyet for ETL-prosessen. La oss nå se en brukstilfelle av Informatica ETL.

Brukstilfelle: Sammenføyning av to tabeller for å få en enkel detaljert tabell

La oss si at du ønsker å tilby avdelingsmessig transport til dine ansatte, ettersom avdelingene er lokalisert på forskjellige steder. For å gjøre dette må du først vite hvilken avdeling hver ansatt tilhører og avdelingens beliggenhet. Imidlertid er detaljene til ansatte lagret i forskjellige tabeller, og du må koble detaljene til avdelingen til en eksisterende database med detaljene til alle ansatte. For å gjøre dette, vil vi først laste begge tabellene inn i Informatica PowerCenter, utføre Source Qualifier Transformation på dataene og til slutt laste detaljene til Target Database.La oss starte:

Trinn 1 : Åpne PowerCenter Designer.

Nedenfor er hjemmesiden til Informatica PowerCenter Designer.

La oss nå koble til depotet. Hvis du ikke har konfigurert repositoriene dine eller står overfor noen problemer, kan du sjekke vårt Blogg.

Steg 2: Høyreklikk på depotet ditt og velg tilkoblingsalternativ.

Når du klikker på tilkoblingsalternativet, blir du bedt om det med skjermbildet nedenfor og ber om brukernavnet og passordet til depotet.

Når du har koblet til depotet ditt, må du åpne arbeidsmappen din som vist nedenfor:

Du blir bedt om å spørre navnet på kartleggingen din. Spesifiser navnet på kartleggingen din og klikk på OK (jeg har kalt den som m-ANSATT ).

Trinn 3: La oss nå laste tabellene fra databasen. Start med å koble til databasen. For å gjøre dette, velg kategorien Kilder og alternativet Importer fra database som vist nedenfor:

Når du klikker på Importer fra database, vil du bli bedt om skjermen som nedenfor og spørre detaljene i databasen din og brukernavn og passord for tilkobling (jeg bruker Oracle-databasen og HR-brukeren).

Klikk på Koble til for å koble til databasen.

Trinn 4: Som jeg ønsker å bli med i MEDARBEIDERE og AVDELING tabeller, vil jeg velge dem og klikke på OK.
Kildene vil være synlige på arbeidsområdet for kartleggingsdesigner som vist nedenfor.

hva er jit i java

Trinn 5: Tilsvarende laster måltabellen til kartleggingen.

Trinn 6: La oss nå koble kildekvalifiseringen og måltabellen. Høyreklikk på et tomt sted i arbeidsområdet og velg Autolink som vist nedenfor:

Nedenfor er kartleggingen lenket av Autolink.

Trinn 7: Da vi trenger å koble begge tabellene til Source Qualifier, velger du kolonnene i tabellen Department og slipper den i Source Qualifier som vist nedenfor:

Slipp kolonneverdiene i Source Qualifier SQ_EMPLOYEES .

Nedenfor er oppdatert Source Qualifier.

Trinn 8: Dobbeltklikk på Source Qualifier for å redigere transformasjonen.

Du får Rediger transformasjon-pop-up som vist nedenfor. Klikk på Egenskaper-fanen.

Trinn 9: Under Egenskaper-fanen klikker du på Verdifelt i UserDefined Join-raden.

Du får følgende SQL Editor:

Trinn 10: Tast inn EMPLOYEES.DEPARTMENT_ID = DEPARTMENT.DEPARTMENT_ID som betingelse for å bli med i begge tabellene i SQL-feltet og klikke på OK.

Trinn 11: Klikk nå på SQL Query-raden for å generere SQL for å bli med som vist nedenfor:

Du får følgende SQL Editor, klikk på Generer SQL-alternativet.

Følgende SQL genereres for tilstanden vi hadde spesifisert i forrige trinn. Klikk på OK.

Trinn 12: Klikk på Bruk og OK.

Nedenfor er fullført kartlegging.

Vi har fullført utformingen av hvordan dataene skal overføres fra kilden til målet. Den faktiske overføringen av data er imidlertid fortsatt ikke til å skje, og for det må vi bruke PowerCenter Workflow Design. Utførelsen av arbeidsflyten vil føre til overføring av data fra kilden til målet. For å vite mer om arbeidsflyt, sjekk vår Informatica Tutorial: Workflow Blogg

Trinn 13: Let us lanserer nå Workflow Manager ved å klikke på W-ikonet som vist nedenfor:

Nedenfor er hjemmesiden for arbeidsflytdesigner.

Trinn 14: La oss nå lage en ny arbeidsflyt for kartleggingen vår. Klikk på Arbeidsflyt-fanen og velg Opprett alternativ.

Du får popup-vinduet nedenfor. Spesifiser navnet på arbeidsflyten din, og klikk på OK.

Trinn 15 : Når en arbeidsflyt er opprettet, får vi Start-ikonet i Arbeidsflytbehandling-arbeidsområdet.

La oss nå legge til en ny økt i arbeidsområdet som vist nedenfor ved å klikke på øktikonet og klikke på arbeidsområdet:

Klikk på arbeidsområdet for å plassere øktikonet.

Trinn 16: Når du legger til økten, må du velge kartleggingen du hadde opprettet og lagret i trinnene ovenfor. (Jeg hadde lagret det som m-MEDARBEIDER).

Nedenfor er arbeidsområdet etter at øktikonet er lagt til.

Trinn 17 : Nå som du har opprettet en ny økt, må vi koble den til startoppgaven. Vi kan gjøre det ved å klikke på ikonet for lenkeoppgave som vist nedenfor:

Klikk på Start-ikonet først og deretter på Session-ikonet for å opprette en lenke.

Nedenfor er en tilkoblet arbeidsflyt.

Trinn 18: Nå som vi har fullført designet, la oss starte arbeidsflyten. Klikk på Workflow-fanen og velg Start Workflow-alternativet.

Workflow manager starter Workflow Monitor.

Trinn 19 : Når vi har startet arbeidsflyten, starter Workflow Manager automatiskoglar deg overvåke gjennomføringen av arbeidsflyten. Nedenfor kan du se Workflow Monitor viser statusen til arbeidsflyten din.

Trinn 20: For å sjekke statusen for arbeidsflyten, høyreklikk på arbeidsflyten og velg Get Run Properties som vist nedenfor:

Velg kategorien Kilde / målstatistikk.

Nedenfor kan du se antall rader som er overført mellom kilden og målet etter transformasjon.

Du kan også bekrefte resultatet ved å sjekke måltabellen som vist nedenfor.

Jeg håper denne Informatica ETL-bloggen var nyttig for å bygge din forståelse av begrepene ETL ved hjelp av Informatica og har skapt nok interesse til at du kan lære mer om Informatica.

Hvis du syntes denne bloggen var nyttig, kan du også sjekke ut vår bloggserie Informatica Tutorial , Informatica Tutorial: Forstå Informatica ‘Inside Out’ og Informatica Transformations: The Heart and Soul of Informatica PowerCenter . I tilfelle hvis du leter etter detaljer om Informatica-sertifisering, kan du sjekke bloggen vår Informatica-sertifisering: Alt det er å vite .

Hvis du allerede har bestemt deg for å ta Informatica som en karriere, vil jeg anbefale deg å ta en titt på vår kurs side. Informatica-sertifiseringsopplæringen ved Edureka vil gjøre deg til en ekspert på Informatica gjennom live instruktørledede økter og praktisk trening ved bruk av virkelige brukssaker.