Fuzzy K-Means Clustering i Mahout



Denne bloggen gir en introduksjon til Fuzzy K-Means-gruppering i Apache Mahout.

Fuzzy K-Means er nøyaktig den samme algoritmen som K-betyr, som er en populær enkel grupperingsteknikk. Den eneste forskjellen er, i stedet for å tilordne et punkt utelukkende til bare en klynge, kan det ha en slags uklarhet eller overlapping mellom to eller flere klynger. Følgende er de viktigste punktene som beskriver Fuzzy K-Means:





  • I motsetning til K-Means, som søker hard klynge, hvor hvert av punktene tilhører en klynge, søker Fuzzy K-Means de mykere klyngene for overlapping.
  • Et enkelt punkt i en myk klynge kan tilhøre mer enn en klynge med en viss tilknytningsverdi mot hvert av punktene.
  • Affiniteten er i proporsjon med avstanden til det punktet fra klyngen centroid.
  • I likhet med K-Means fungerer Fuzzy K-Means på objektene som har avstandsmålet definert og kan vises i n- dimensjonalt vektorrom.

Fuzzy K-Means MapReduce Flow

Det er ikke mye forskjell mellom MapReduce-strømmen av K-Means og Fuzzy K-Means. Implementeringen av begge i Mahout er lik.

hva er en virtuell metode

Følgende er viktige parametere for implementering av Fuzzy K-Means:



  • Du trenger et Vector-datasett for inndata.
  • Det må være RandomSeedGenerator for å så de første k-klyngene.
  • For avstandsmåling er SquaredEuclideanDistanceMeasure nødvendig.
  • En stor verdi av konvergensgrense, for eksempel –cd 1.0, hvis den kvadratiske verdien av avstandsmålet er brukt
  • En verdi for maxIterations er standardverdien -x 10.
  • Normaliseringskoeffisienten eller uklarhetsfaktoren, med en verdi større enn -m 1,0

Har du et spørsmål til oss? Nevn dem i kommentarfeltet, så kommer vi tilbake til deg.

utvalg sorteringsprogram i java

Relaterte innlegg



c ++ lagringsklasse

Veiledet læring i Apache Mahout