'
Den raske utvidelsen av digitale data gjennom datamaskiner, mobil, video, sosiale medier, digitale sensorer, etc. kombinert med store gjennombrudd innen billigere prosessorkraft, open source databaseapplikasjoner og bredere båndbredde har utløst enorm interesse over hele næringslivet i fremvoksende felt innen Big Data-vitenskap og analyse.
Big data i store ustrukturerte volumer er for enorme til å kunne administreres og analyseres ved hjelp av tradisjonelle metoder. Den store mengden og hastigheten til dagens data gjør det å fange, filtrere, lagre og analysere til en reell utfordring. Nye produkter utvikles regelmessig for å håndtere dette, noe som krever nye ferdighetssett og ekspertise. Det er et økende behov for enkeltpersoner som kan integrere ny infrastruktur, plattformer og prosesser i organisasjonen, så vel som de som kan bygge ny analyse og algoritmer som er i stand til å skape enorm intelligens med stor forretningsverdi. For mer informasjon, les blogginnlegget vårt på
Relevansen av datavitenskap i forskjellige bransjer:
Data Science & Analytics har anvendelse i alle bransjer:
- e-handel - Tilpasnings- og anbefalingsmotorer som øker salg.
- Reklame - Svært målrettet, sanntids annonselevering til forbrukere.
- Media og underholdning - Tilpasset innholdsutvikling som maksimerer brukerengasjement.
- Sosiale medier - Økt 'klistrethet' på nettstedet, brukervekst, evne til å spore hurtige trender basert på forbrukernes følelser.
- Finansielle tjenester –Optimalisert utlånspraksis som minimerer risiko og svindel.
- Farmasi / bioinformatikk - Bedre funn av legemidler, mer effektive behandlinger av truende sykdommer, forbedringer av genteknologi.
- Helsevesen - Bedre score for medisinske pasienter for helserisiko samt forventning og tidlig forebygging av sykdommer.
- Kraft / energi - Smart grid intelligence, brukseffektivitet, energibesparelser og reduksjon av nedetid.
- Informasjonssikkerhet - Sterkt forbedret tyverioppdagelse og overvåking av verdifull informasjon om selskapet og eiendeler.
Nøkkelferdigheter for fagfolk innen datavitenskap:
Data Science Domain krever fagpersoner som:
- Forstår dataanalyse og beslutningsvitenskap
- Er godt kjent med IT
- Ha sterk forretningsinnsikt
- Ha muligheten til å kommunisere effektivt med beslutningstakere
Les mer: Kjernekompetanse som kreves for å være dataforsker.
Vanlige teknologier assosiert med datavitenskap:
- Databaser
Oracle, SQL Server, Teradata
Cassandra, Hadoop, MapReduce, HBase
Aster, Greenplum, Netezza
- Språk
Ajax, C ++, CSS, HTML5, Java, JavaScript, Perl, Python, Scala
maks heap implementering i java
Hive, Pig, Lucene, Mahout, Solr
- Statistikk og prognoser
Angoss, MATLAB, R, SAS, SPSS
ARCH, GARCH, SVAR, VAR, VEC, GAUSS
- Datavisualisering
QlikView, Spotfire, Tableau, yWorks, R
- BI & Rapportering
BusinessObjects, Cognos, MicroStrategy
Hva er Cassandra?
- Apache Cassandra er et open source distribuert databasestyringssystem designet for å håndtere store mengder data på mange vareservere.
- Cassandra gir høy tilgjengelighet uten et eneste feilpunkt.
- Cassandra tilbyr robust støtte for klynger som strekker seg over flere datasentre, med asynkron masterfri replikering som gir lav latensoperasjon for alle klienter.
For mer informasjon, les blogginnlegget vårt på .
Hvordan bruker Data Science Cassandra?
Cassandra er & sjenert og sjenert en distribuert database for tjenester med lav latens, høy gjennomstrømning som håndterer sanntids arbeidsbelastninger som består av hundrevis av oppdateringer per sekund og titusenvis av lesinger per sekund.
Cassandra Bruk sak - PROS:
PROS er et Big Data-programvareselskap med forskriftsmessig analyse i programvaren som gjør det mulig for kundene å analysere dataene sine og få innsikt og veiledning for å optimalisere prising, salg og inntektsadministrasjon.
Fibonacci c ++ rekursiv
De har en sanntidstjeneste som beregner flytilgjengeligheten, dynamisk med tanke på inntektskontrolldata og lagernivåer som kan endres mange hundre ganger per sekund.
Denne tjenesten blir spurt flere tusen ganger i sekundet, noe som kan oversettes til titusenvis av dataoppslag. Deres baklagerlag for denne tjenesten er Cassandra.
For deres sanntidsløsning innså PROS et behov for:
- En distribuert cache som er svært tilgjengelig.
- Lett skalerbar.
- Med en mesterfri arkitektur.
- Med nær sanntids datareplikering, selv på tvers av datasentre.
- Det kan takle lesing og skriving i sanntid.
PROS evaluerte Cassandra mot Oracle Berkeley DB, Oracle Coherence, Terracotta, Voldemort og Redis. Apache Cassandra toppet ganske enkelt listen.
PROS og Cassandra
- PROS bruker Cassandra som en distribuert database for tjenester med lav ventetid og høy gjennomstrømning som håndterer sanntids arbeidsbelastninger som består av hundrevis av oppdateringer per sekund og titusenvis av lesinger per sekund.
- For eksempel har de en sanntidstjeneste som beregner flyselskapets tilgjengelighet dynamisk med tanke på inntektskontrolldata og lagernivåer som kan endres mange hundre ganger per sekund. Denne tjenesten blir spurt flere tusen ganger i sekundet, noe som oversettes til titusenvis av dataoppslag. Deres baklagerlag for denne tjenesten er Cassandra. Noen av deres SaaS-tilbud bruker Cassandra som backend-butikk for å håndtere en kombinasjon av sanntids- og Hadoop-baserte batch-arbeidsbelastninger.
- Når vi snakker om Hadoop og Cassandra, tar de dataene ut av Cassandra og legger dem i Hadoop og kjører batch og analyse på det, og så går det tilbake til Cassandra. Dette oppnås gjennom Cassandra’s Hadoop-integrasjon.
- Hadoop-jobbene trekker data ut av Cassandra, bruker jobbspesifikke transformasjoner eller analyser og skyver data tilbake i Cassandra. De bruker ikke Datastax (offisiell Cassandra Maintainer) Enterprise-utgave for denne integrasjonen, bare Hadoop-installasjonen med åpen kildekode med Cassandra.
Datamodellering med Cassandra:
Når vi ønsker å erstatte en nøkkelverdilager med noe mer i stand til sanntidsreplikasjon og datadistribusjon, viser forskning på Dynamo, CAP-teorem og eventuell konsistensmodell at Cassandra passer ganske godt til denne modellen. Når man lærer mer om datamodelleringsfunksjoner, beveger vi oss gradvis mot nedbryting av data.
Hvis man kommer fra en relasjonell databasebakgrunn med sterk ACID-semantikk, må man ta seg tid til å forstå den endelige konsistensmodellen.
Forstå Cassandras arkitektur veldig godt og hva den gjør under panseret. Med Cassandra 2.0 får du lette transaksjoner og utløsere, men de er ikke det samme som de tradisjonelle databasetransaksjoner man kanskje er kjent med. For eksempel er det ingen utenlandske nøkkelbegrensninger tilgjengelig - det må håndteres av egen applikasjon. Det er et must å forstå brukssaker og datatilgangsmønstre før man modellerer data med Cassandra og lese all tilgjengelig dokumentasjon.
Konklusjon:
Apache Cassandra utvikler seg raskt, og vi lærer og forstår dens evner - spesielt på datamodelleringssiden. Vi ser det som en distribuert NoSQL-database som er valgt for våre Big Data-tjenester og løsninger.
Edureka gir et omfattende for de som ønsker å bli datavitenskapsmann. Kurset dekker en rekke Hadoop-, R- og maskinlæringsteknikker som omfatter hele datavitenskapstudien. Edureka gir også som hjelper deg med å mestre NoSQL-databaser. Dette kurset er designet for å gi kunnskap og ferdigheter for å bli en vellykket Cassandra-ekspert.