Methods for Estimating 3D Human Pose and Location
deep learning
human pose estimation
localization
absolute pose
Informatika D. I./Információs rendszerek
mélytanulás
humán pózbecslés
lokalizáció
abszolút póz
Abstract:
Absztrakt
3D humán pózbecslő és lokalizációs módszerek
A 3D humán pózbecslés célja, hogy egy kép vagy videó alapján megbecsüljük egy személy fontosabb kulcspontjainak térbeli koordinátáit. A koordinátákat egy erre alkalmas kamera-központú rendszerben adhatjuk meg. A problémának számos potenciális alkalmazása van, többek közt mozgásrögzítés, viselkedés- és sportanalitika.
A neurális hálók újbóli elterjedése után gyors fejlődésen ment keresztül a terület, a hibaráták folyamatosan csökkentek. Ez azonban főleg a stúdióban felvett videókra korlátozódott, a természetes körülmények közötti felvételeken akár kétszer akkora is lehetett a hiba.
Ennek oka, hogy pontos mérésekkel rendelkező 3D póz adatbázisok készítése igen nehéz, speciális felszerelés szükséges, ami csak beltérben működik. Emiatt viszonylag kevés kültéri felvétel van, és ezek korlátozottak a háttér, kameraszögek és ábrázolt mozgások tekintetében. Figyelembe véve, hogy milyen sok adat kell egy tipikus mélyháló betanításához, további architekturális fejlesztések szükségesek, amelyek csökkentik a tanítóadatok iránti igényt.
Egy másik probléma a feladat egyszerűsítéséből fakad: a legtöbb algoritmus csak a derékhoz relatíven becsli meg a koordinátákat, eltekintve a személynek a térben vett helyzetétől. Egy embert tartalmazó felvétel esetén lehet, hogy ez az információ nem szükséges, azonban több szereplő esetén az egymáshoz való elhelyezkedés is számít.
Ebben a disszertációban négy olyan módszert mutatok be, amelyek ezen problémákra próbálnak választ nyújtani. Az első algoritmus a tanítóadatokban levő kevés kamerával foglalkozik, amely túltanuláshoz vezethet. Egy sziámi architektúrájú hálót vezetek be, ami ekvivariáns beágyazást tanul meg. Az ekvivariancia segítségével új kameraszögekre pontosabb eredményeket kapunk, augmentáció hiányában is.
A második eljárás az irodalomban korábban elérhető naiv helybecslő algoritmusokon javít. Ezek PnP (Perspective-n-Point) alapú megközelítést használnak, amihez szükséges egy pontos 2D és 3D becslés. Ha bármelyik pontatlan, akkor az eredményben többszöröződhet a hiba. A póz helyének közvetlen becslésével stabilabb eredményeket kaphatunk.
A következő módszer célja \RGBD (mélységfelvételt is tartalmazó) videók használata gyenge felügyeleti jelként. A kiegészítő adatbázis jelentősen javít az eredményeken, különösen a lokalizáció esetén.
Végül, a videókon előforduló rövid idejű okklúziókkal foglalkozom. A videó alapú módszerek még rövid kitakarás esetén is rossz eredményeket adnak, akkor is, ha az a szomszédos képkockákból kikövetkeztethető volna. A javasolt módszer egy tetszőleges pózbecslő után elhelyezhető, mint egy extra pontosságjavító lépés.
Az eljárások erejét részletes kvantitatív kísérletekkel igazolom.