Természetesnyelv-feldolgozás a korrupciókutatásban: új adatforrások, új módszerek, új tartalmi kérdések
Társadalomtudományok/Média- és kommunikációs tudományok
Társadalomtudományok/Politikatudományok
natural language processing
text analysis
word processing
NLP methods
corruption research
media
press
public procurement corruption
Szociológia D. I./Interdiszciplináris Társadalomkutatások
természetesnyelv-feldolgozás
szövegelemzés
szövegfeldolgozás
korrupciókutatás
média
sajtó
közbeszerzési korrupció
Abstract:
Disszertációmban először bemutatom a természetesnyelv-feldolgozás hátterét, szemléltetem, hogy hogyan lesz a szövegből numerikus adatbázis. Ezt követően az elmúlt 20 évben, a korrupciókutatás kapcsán megjelent tanulmányokat vizsgáló scoping review eredményeit ismertetem. A review bemutatja, hogy a korrupciókutatásban hogyan alkalmaznak különböző megközelítéseket (kvalitatív, kvantitatív és automatizált szövegelemzést) az elemzők. Felvillantja, hogy a különböző módszerek mennyiben eltérő kutatási kérdésekre tudnak választ adni, valamint hogy milyen fehér foltok azonosíthatók az automatizált szöveganalitika felhasználása terén.
A disszertáció második felében két empirikus kutatáson keresztül egy-egy példát hozok a természetesnyelv-feldolgozás két típusának (nem felügyelt és felügyelt módszerek) alkalmazására. Az első tanulmány a korrupció hazai online médiareprezentációjának tematikus elemzését mutatja be, dinamikus topikmodellezést alkalmazva. A korpuszt a K-Monitor cikkgyűjteménye adja, ami korrupciógyanús ügyeket feldolgozó, online cikkeket tartalmaz. Az esettanulmány egyfelől exploratív jellegű: a 2007–2018 közötti időszakra vonatkozóan azonosítja a cikkek főbb témáit és a tematikus változás dinamikáját. Másfelől magyarázó jellegű: megmutatja, hogy a sajtóban közölt hírek függenek a tulajdonosi szerkezettől és a politikai érdekektől. Az elemzésből kiderül, hogy a különböző ideológiai hátterű médiumok különböző módon keretezik a korrupciót.
A második esettanulmány a korrupciót a közforrásokhoz való korlátozott hozzáférésként értelmezi, ami a közbeszerzési pályázatok esetében a verseny korlátozásaként jelenik meg. A kutatás célja a versenykorlátozás előrejelzése a közbeszerzési pályázatok szöveges részeinek felhasználásával. Kb. 120000 magyar közbeszerzési szerződést elemzünk a 2011 és 2020 közötti időszakból. Az elemzés korábbi kutatások eredményeire épít, és azt a gépi tanulás módszereivel bővít ki. A korábbi (replikált) modellek és az új, logisztikus regresszió és Random Forest modellek előrejelzései alapján megállapítható, hogy az új modellek felülmúlják az alapmodelleket. A modell jóságának ellenőrzésénél nem áll meg az elemzés: vizsgálja azt is, hogy a különböző szótöbbeseknek milyen hatása van a korrupciós kockázatra.
Abban bízom, hogy disszertációm új kaput nyit a korrupciókutatás módszertanában, és példát mutat a szöveg, mint adat korrupciókutatásban való felhasználására.