K-hogy és KD-fa források

Posted on

Letölthető, egyszerűen a fájl megfelelő az ön számára a k hogy letöltés rész.

Bevezetés a K-hogy

Itt van egy adatkészlet 2 méretek 8000 pontot. Futunk 5-ös azt jelenti, hogy a (K-hogy jelenti, a K=5). Amellett, hogy a pontokat látjuk, K-eszköz van kijelölve 5 véletlenszerű pontot osztály központok. Ez a kövér, kék, zöld, piros, fekete, lila pontokat. Vegyük észre, hogy, mint esély van, nem felelnek meg a mögöttes Gauss (ami azt illeti, nem kellett kényszeríteni a programot bemutatni azokat a “rossz” kezdeti pontot – ez elég jó, hogy a kezdeti pontot, hogy “igaz”).

Most, a program megy át adatok, tömörítő mindegyik az osztály középső legközelebb. A pontokat lát, színes szerint a középső vannak társítva. Figyeljük meg a kék-zöld határ a jobb felső sarokban. Ez a (elméleti) vonal a pontokat, amelyek egyenlő távolságra vannak a zöld, majd kék központok határozza meg, hogy melyik pont tartozik, ahol.

A következő lépésben az algoritmus, hogy újra helyzetbe az osztály központok. A zöld center kerül a tömegközéppontja minden zöld pontok, stb. Mint kiderült, a zöld center tolódik jobbra, majd felfelé. A fekete vonal megy ki a zöld center mutatja. Értesítés a fekete-piros központok minden részvény körülbelül a fele a Gauss, a bal oldalon (kb. fél a Gauss vannak), így mindkét “verseny”, hogy a bal. A lila központ mozgalom nagyon kicsi.

Kattints a képre hogy lásd nagyobb méretben. Megnyitja egy új böngésző ablak, így továbbra is olvassa a szöveget.


A program költözött a központok, majd újra színes minden olyan pontot, amely szerint a központ a legközelebb áll minden. Mivel a zöld center költözött, a kék-zöld határon halad, hogy “kívül”, a Gauss-on a jobb felső sarokban. Pedig valószínűleg valahol a lakatlan terület között, kék, zöld. Azt akarjuk, hogy ez a fajta dolog.

A mozgás vektorok, látod a fekete-piros folytatódik a verseny a bal, majd a lila most dominál egy jó része a környezete. Közlemény az “árva” Gauss között, lila, zöld. Ez azért történt, mert fekete-piros abban az azonos Gauss, tehát vagyunk “rövid” egy elrejtve középen.


A zöld-lila határ műszakban felfelé; úgy néz ki, mint a zöld, hogy csak az “a” pont-lila lesz saját két Gaussians. A bal alsó sarokban, úgy néz ki, mint a vörös elvesztette a versenyt, fekete (fekete több, balra).


Még egy iterációs…


Most a kék-zöld, zöld-lila határok elég sokat meg (hogy mit kell lenniük). Vegyük észre, hogy a vörös eltolódás, kissé jobbra.


Piros elment jobbra. Így szerzett több, lila pontokat. Mivel a lila pontokkal a jó, ez a hatás fokozódik. Következésképpen, lila veszít pontot, a piros, mozdulatokat (s fel).


Még egy iterációs…


Aztán még egyet…


Aztán még egyet…


A vörös befejezte az út, egyre felett egy Gauss korábban tulajdonában lévő lila. Fekete kap, hogy a saját, az egész Gauss, a bal oldalon. K-azt jelenti, hogy megtalálta a “helyes” partíció. Mivel ez egy stabil konfiguráció, a következő ismétléseket, nem mozdul a központok túl sokat.


Bevezetés a KD-fa

Megint, mi adatbázis 8000 véletlenszerűen generált pontok, egy 5-Gauss eloszlás. Látnod kell az alapul szolgáló Gauss. A kék keret jelöli a “root” kd-csomópont. Ez magában foglalja az összes pontot.


Most látom, hogy a gyerekek a gyökér csomópont. Minden egy téglalap, azzal a megosztási párhuzamos egyenes az Y tengelyt, körülbelül a felénél.


Most már láthatja a grand-gyermekek a gyökér. Mindegyik split, a szülő, az X-tengely mentén.


Ezért a megosztási a váltakozó méretek…








Itt vannak az első hét réteg KD-fa, minden egy képet.


Csinálni gyorsan, K-hogy jelenti, hogy a KD-fa

A magyarázat a K-means demo fenti igaz is a hagyományos K-means. A “hagyományos” azt jelenti, hogy ha kimegy, majd dönt, melynek központjában áll a legközelebb, hogy minden egyes pont (ie, színek meghatározása), a naiv módon: az egyes értelme, számítsa ki a távolságokat, hogy a központok megtalálni a minimum. A program sokkal okosabb, akkor azt. Először épít kd-fa a pontokat (a korábban látott). Most feltételezzük, hogy néhány kd-csomópont teljesen tulajdonában lévő néhány center. Ez azt jelenti, hogy a következő center mozgását befolyásolja a tömegközéppontja a pontot, hogy a kd-csomópont (ez a szám). Tehát a pre-számítástechnika a tömegközéppontja minden kd-csomópont, tárolása a csomópont, meg tudjuk menteni egy csomó munka. [mutatja, hogy egy csomópont teljesen tulajdonosa egy center is elvégezhető hatékonyan — lásd a gyors K-hogy papír] gombot.

Ez a fajta gyors számítás óta folyik a színfalak mögött az egész demo. Amikor egy csomópont bizonyult teljes mértékben tulajdonában van egy központ, a program drew, hogy csomópont téglalap. A megjelenítés céljából is felhívta a pontokat benne, de egy “igazi” program nem szükséges. Ez csak használ egy nagyon kis állandó szám számtani műveletek, hogy kiszámolja a hatás egy bizonyos kd-csomópont lesz. Ezzel szemben összefoglalva a koordináták minden pont be, hogy téglalap, ez olyan költség, amely a lineáris, a pontok száma a téglalap.

Figyeljük meg, hogy könnyű volt, hogy kiszámolja a fekete-kék központok-a-tömeg. A fekete volt, csak két csomópont, körülbelül 50 előfordulhat, hogy az egyes pontokat. A kék tartott 5 csomópontok, plusz 10 pontot. Hasonlítsa össze ezt a durván 8000/5 = 1600 pontok mindegyike (meg 5 távolság minden!).

Egy másik érdekes dolog, hogy észre, hogy ezek a téglalapok, a kisebb ahogy közeledünk az elméleti határ, amiről beszéltünk korábban. Vigyázz a piros-lila határ. Ahogy közeledünk, egyre nehezebb a nagy, kövér csomópontok, hogy tulajdonosa teljes egészében a piros vagy lila. Ha belegondolsz, nem lehet a tulajdonában lévő teljes egészében vagy a központ, ha ez a határ metszi őket. Szóval, minél közelebb vagyunk a határ, a kisebb téglalapok. Ez nagyjából az egyes pont nagyon közel van a határ.

Által fenntartott Dan Pelleg.

Eredetileg egy http://www.cs.cmu.edu/~dpelleg/kmeans.html. Készítette http://hunsci.com