Skip to main content

Hva er korrelasjonsklynging?

Korrelasjonsklynging utføres på databaser og andre store datakilder for å gruppere lignende datasett sammen, samtidig som de også varsler brukeren om forskjellige datasett.Dette kan gjøres perfekt i noen grafer, mens andre vil oppleve feil fordi det vil være vanskelig å skille lignende fra forskjellige data.Når det gjelder sistnevnte, vil korrelasjonsklynging bidra til å redusere feil automatisk.Dette brukes ofte til data mining, eller for å søke på uhåndterlige data etter likheter.Uledelige data blir ofte slettet, eller plassert i en egen klynge.

Når en korrelasjonsklyngefunksjon brukes, søker den etter data basert på brukerens instruksjoner.Brukeren vil fortelle programmet hva han skal søke etter, og når det blir funnet, hvor de skal plassere dataene.Dette brukes normalt på veldig store datakilder når det ville være umulig mdash;eller ta for mange timer og mdash;å søke gjennom dataene manuelt.Det kan enten være perfekt gruppering eller ufullkommen klynging.

Perfekt klynging er det ideelle scenariet.Dette betyr at det bare er to typer data, og den ene er det brukeren leter etter mens den andre er unødvendig.Alle de positive, eller nødvendige dataene blir plassert i den ene klyngen, mens de andre dataene blir slettet eller flyttet.For eksempel har en graf tre variabler: x, y og z. x, y er lik, x, z er lik, men y, z er ulik.De tre variable klyngene er imidlertid så like at det er umulig å ha perfekt korrelasjonsklynging.Programmet vil fungere for å maksimere antall positive korrelasjoner, men dette vil fortsatt kreve noen manuell søk fra brukeren.

I data mining, spesielt når du arbeider med store datasett, brukes korrelasjonsklynging til å gruppere lignende data med lignende data.For eksempel, hvis en virksomhets utvinnet data for et stort nettsted eller en database og bare ønsker å vite om et spesifikt aspekt, vil det ta evig tid å søke gjennom alle dataene etter det aspektet.Ved å bruke en klyngeformel, vil dataene bli satt av til riktig analyse.

Uledelig informasjon blir behandlet utelukkende basert på brukerinstruksjoner.Brukeren kan velge å sende forskjellige data til forskjellige klynger, fordi informasjonen kan være nyttig for andre prosjekter.Hvis dataene er unødvendige og bare kaster bort minne, blir den forskjellige informasjonen kastet ut.I ufullkommen klynging er det mulig at noe ulik informasjon ikke blir kastet ut, fordi den er så lik dataene som brukeren ser på.