Adatintenzív módszerek tudományos adatok kezelésére kozmológiai, térinformatikai és biológiai alkalmazásokkal
data-intensive methods
point cloud database
multi-dimensional histogram partitioning
load balancing
k nearest neighbors
box query
performance measures
Generalized Search Tree (GiST)
genome data
hierarchical Bayesian models
Markov chain Monte Carlo
general-purpose computing on graphics processing units (GPGPU)
Informatika D. I./Információs rendszerek
adatintenzív módszerek
pontfelhő-adatbázisok
többdimenziós hisztogram-partícionálás
terheléseloszlás
k legközelebbi szomszéd
doboz lekérdezés
teljesítménymértékek
általánosított keresőfa (GiST)
genom adatok
hierarchikus bayes-i modell
Markov-lánc Monte-Carlo
grafikai processzorok általános célú felhasználása (GPGPU)
Abstract:
A doktori értekezésben az adatintenzív módszereket tárgyaltam alapvetően a tudományos adatok világára összpontosítva. Bár ezek részben vagy egészen vélhetően más olyan területeken is alkalmazhatók, ahol nagy mennyiségű adathalmazokkal kell dolgozni. A dolgozat nagyobb hányadában az adatok tárolásával és kezelésével foglalkoztam. Ezek mellett fontos összetevője volt a munkámnak egy összetettebb adatelemzési feladat is.
Az (időben) statikus pontszerű adatok betöltése előtt elkészített hisztogram felhasználásával helyezik el az adatokat a megosztott tárhely nélküli szerverek rendszerére azok a módszerek, amelyeket az második fejezetben bemutattam. Ezek különböző technikákra épülnek úgy, mint lineáris programozás, spektrális klaszterezés és hierarchikus csempézés. A megközelítések más-más lekérdezéstípus feldolgozásának idejét gyorsítják meg, különféle szempontok szerint előnyösebbek. A hisztogramalapú adatelhelyezési stratégiáknak a teljesítmény szerinti összehasonlítására objektív mértékeket vezettem be. A teljesítménymértékekhez kapcsolódó néhány matematikai tulajdonságot is megvizsgáltam.
Égető kérdés a bioinformatikában, hogy mit kezdjünk a legújabb szekvenálási technikák által létrehozott kolosszális mennyiségű adattal. A harmadik fejezet a DNS szekvenciák tárolásával, illetve indexelésével foglalkozott. A javasolt módszerem egy keresőfa, az ND-GiST, amelynek a PostgreSQL relációs adatbázis-kezelő rendszerre vonatkozó implementáció részleteire is kitérek. Továbbá azt is megvizsgáltam, hogy ha statikus adatokat kell tárolni az ND-GiST-ben, akkor hogyan kell úgy csoportosítani a rekordokat és felépíteni fölé a keresőfát, hogy bizonyos lekérdezéstípust minél gyorsabban szolgáljon ki. A futtatási eredmények megmutatták, hogy a teljes tábla vizsgálathoz és a tradicionális B-fához képest miben erősebb, miben gyengébb az ND-GiST.
A negyedik fejezetben bemutattam egy hierarchikus bayes-i modellt, továbbá a CUDAHM-et, amely a CUDA-ra, azaz az NVIDIA GPU-khoz tartozó párhuzamos számítási platformra épülő hierarchikus modellezési keretrendszer. Ezt felhasználtam a luminozitásfüggvény paramétereinek becslésére, és összehasonlítottam a maximum likelihood módszer eredményével. A fejezet végén még teljesítménytesztek is találhatók, amelyek mutatják a futásidő objektumszámmal való lineáris skálázódását.