Consultant dc.contributor.advisor | Németh, Renáta | |
Consultant dc.contributor.advisor | Fazekas, Mihály | |
Author dc.contributor.author | Katona, Eszter Rita | |
Availability Date dc.date.accessioned | 2023-06-20T10:58:08Z | |
Availability Date dc.date.available | 2023-06-20T10:58:08Z | |
Release dc.date.issued | 2022 | |
uri dc.identifier.uri | http://hdl.handle.net/10831/86348 | |
Abstract dc.description.abstract | Disszertációmban először bemutatom a természetesnyelv-feldolgozás hátterét, szemléltetem, hogy hogyan lesz a szövegből numerikus adatbázis. Ezt követően az elmúlt 20 évben, a korrupciókutatás kapcsán megjelent tanulmányokat vizsgáló scoping review eredményeit ismertetem. A review bemutatja, hogy a korrupciókutatásban hogyan alkalmaznak különböző megközelítéseket (kvalitatív, kvantitatív és automatizált szövegelemzést) az elemzők. Felvillantja, hogy a különböző módszerek mennyiben eltérő kutatási kérdésekre tudnak választ adni, valamint hogy milyen fehér foltok azonosíthatók az automatizált szöveganalitika felhasználása terén. A disszertáció második felében két empirikus kutatáson keresztül egy-egy példát hozok a természetesnyelv-feldolgozás két típusának (nem felügyelt és felügyelt módszerek) alkalmazására. Az első tanulmány a korrupció hazai online médiareprezentációjának tematikus elemzését mutatja be, dinamikus topikmodellezést alkalmazva. A korpuszt a K-Monitor cikkgyűjteménye adja, ami korrupciógyanús ügyeket feldolgozó, online cikkeket tartalmaz. Az esettanulmány egyfelől exploratív jellegű: a 2007–2018 közötti időszakra vonatkozóan azonosítja a cikkek főbb témáit és a tematikus változás dinamikáját. Másfelől magyarázó jellegű: megmutatja, hogy a sajtóban közölt hírek függenek a tulajdonosi szerkezettől és a politikai érdekektől. Az elemzésből kiderül, hogy a különböző ideológiai hátterű médiumok különböző módon keretezik a korrupciót. A második esettanulmány a korrupciót a közforrásokhoz való korlátozott hozzáférésként értelmezi, ami a közbeszerzési pályázatok esetében a verseny korlátozásaként jelenik meg. A kutatás célja a versenykorlátozás előrejelzése a közbeszerzési pályázatok szöveges részeinek felhasználásával. Kb. 120000 magyar közbeszerzési szerződést elemzünk a 2011 és 2020 közötti időszakból. Az elemzés korábbi kutatások eredményeire épít, és azt a gépi tanulás módszereivel bővít ki. A korábbi (replikált) modellek és az új, logisztikus regresszió és Random Forest modellek előrejelzései alapján megállapítható, hogy az új modellek felülmúlják az alapmodelleket. A modell jóságának ellenőrzésénél nem áll meg az elemzés: vizsgálja azt is, hogy a különböző szótöbbeseknek milyen hatása van a korrupciós kockázatra. Abban bízom, hogy disszertációm új kaput nyit a korrupciókutatás módszertanában, és példát mutat a szöveg, mint adat korrupciókutatásban való felhasználására. | hu_HU |
Language dc.language | magyar | hu_HU |
Title dc.title | Természetesnyelv-feldolgozás a korrupciókutatásban: új adatforrások, új módszerek, új tartalmi kérdések | hu_HU |
Type dc.type | doktori dolgozat | hu_HU |
Language dc.language.rfc3066 | hun | |
Language dc.language.rfc3066 | eng | |
Language dc.language.rfc3066 | hun | |
Rights dc.rights.holder | A doktori disszertációk szerzői jogvédelem alatt állnak, csak a szerzői jogok maradéktalan tiszteletben tartásával használhatók. | hu_HU |
Abstract in English dc.description.abstracteng | I first present the background of natural language processing in my dissertation, illustrating how text becomes a numerical database. Then I present the results of a scoping review on studies published in the last twenty years on corruption research. The review shows how different approaches (qualitative, quantitative, and automated text analysis) are used in corruption research. It highlights the extent to which the different methods answer different research questions and identifies grey areas in the use of automated text analytics. In the second half of the dissertation, I provide examples of two types of natural language processing, unsupervised and supervised methods, through two empirical studies. The first study presents a thematic analysis of Hungarian domestic online media coverage of corruption using dynamic topic modelling. The corpus is an article collection provided by K-Monitor, which contains online articles on suspected corruption cases. On the one hand the case study is exploratory as it identifies the main topics of the articles and the dynamics of thematic change over the period from 2007 to 2018. On the other hand, it is explanatory since it shows that the news reported in the press depends on the ownership structure and connected political interests. The analysis reveals that media with different ideological backgrounds frame corruption in different ways. The second case study interprets corruption as limited access to public resources. In the case of public procurement, it is a restriction of competition. The aim of the research is to predict competition restriction using the textual parts of public procurement tenders. We analyze approximately 120,000 Hungarian public procurement contracts from 2011 to 2020. The analysis builds on the results of previous research and extends it with machine learning methods. Based on the predictions of the previous (replicated) models, the new logistic regression and Random Forest models, it is concluded that the new models outperform the baseline models. The analysis does not stop at checking the goodness of fit of the model: it also examines the impact of different word n-grams on corruption risk. I hope that my dissertation opens a new door in the methodology of corruption research and provides an example for the use of text as data in corruption research. | hu_HU |
Scope dc.format.page | 141 | hu_HU |
Doi ID dc.identifier.doi | 10.15476/ELTE.2022.263 | |
MTMT ID dc.identifier.mtmt | 34025651 | |
Opac ID dc.identifier.opac | https://opac.elte.hu/Record/opac-EUL01-1109157 | |
Language dc.language.other | angol | hu_HU |
Language dc.language.other | magyar | hu_HU |
Discipline Discipline + dc.subject.discipline | Társadalomtudományok/Közgazdaságtudományok | hu_HU |
Discipline Discipline + dc.subject.discipline | Társadalomtudományok/Média- és kommunikációs tudományok | hu_HU |
Discipline Discipline + dc.subject.discipline | Társadalomtudományok/Politikatudományok | hu_HU |
Keyword English dc.subject.en | natural language processing | hu_HU |
Keyword English dc.subject.en | text analysis | hu_HU |
Keyword English dc.subject.en | word processing | hu_HU |
Keyword English dc.subject.en | NLP methods | hu_HU |
Keyword English dc.subject.en | corruption research | hu_HU |
Keyword English dc.subject.en | media | hu_HU |
Keyword English dc.subject.en | press | hu_HU |
Keyword English dc.subject.en | public procurement corruption | hu_HU |
Graduate schools / programs dc.subject.prog | Szociológia D. I./Interdiszciplináris Társadalomkutatások | hu_HU |
Title in other languages dc.title.translated | Natural language processing in corruption research: new data sources, new methods, new questions | hu_HU |
Class dc.type.genre | phd | hu_HU |
Type dc.type.resrep | Tudományos | hu_HU |
Author dc.contributor.inst | ELTE TÁTK PHD/Szociológia D. I. | hu_HU |
Goalkeeping Day dc.date.defended | 2023-03-22 | |
Keywords dc.subject.hu | természetesnyelv-feldolgozás | hu_HU |
Keywords dc.subject.hu | szövegelemzés | hu_HU |
Keywords dc.subject.hu | szövegfeldolgozás | hu_HU |
Keywords dc.subject.hu | korrupciókutatás | hu_HU |
Keywords dc.subject.hu | média | hu_HU |
Keywords dc.subject.hu | sajtó | hu_HU |
Keywords dc.subject.hu | közbeszerzési korrupció | hu_HU |
Type dc.type.type | doktori dolgozat | hu_HU |
Resolution dated dc.date.decreedate | 2023-05-26 | |
date of submission dc.date.presented | 2022 |