Show simple item record

Consultant
dc.contributor.advisor
Németh, Renáta
Consultant
dc.contributor.advisor
Fazekas, Mihály
Author
dc.contributor.author
Katona, Eszter Rita 
Availability Date
dc.date.accessioned
2023-06-20T10:58:08Z
Availability Date
dc.date.available
2023-06-20T10:58:08Z
Release
dc.date.issued
2022
uri
dc.identifier.uri
http://hdl.handle.net/10831/86348
Abstract
dc.description.abstract
Disszertációmban először bemutatom a természetesnyelv-feldolgozás hátterét, szemléltetem, hogy hogyan lesz a szövegből numerikus adatbázis. Ezt követően az elmúlt 20 évben, a korrupciókutatás kapcsán megjelent tanulmányokat vizsgáló scoping review eredményeit ismertetem. A review bemutatja, hogy a korrupciókutatásban hogyan alkalmaznak különböző megközelítéseket (kvalitatív, kvantitatív és automatizált szövegelemzést) az elemzők. Felvillantja, hogy a különböző módszerek mennyiben eltérő kutatási kérdésekre tudnak választ adni, valamint hogy milyen fehér foltok azonosíthatók az automatizált szöveganalitika felhasználása terén. A disszertáció második felében két empirikus kutatáson keresztül egy-egy példát hozok a természetesnyelv-feldolgozás két típusának (nem felügyelt és felügyelt módszerek) alkalmazására. Az első tanulmány a korrupció hazai online médiareprezentációjának tematikus elemzését mutatja be, dinamikus topikmodellezést alkalmazva. A korpuszt a K-Monitor cikkgyűjteménye adja, ami korrupciógyanús ügyeket feldolgozó, online cikkeket tartalmaz. Az esettanulmány egyfelől exploratív jellegű: a 2007–2018 közötti időszakra vonatkozóan azonosítja a cikkek főbb témáit és a tematikus változás dinamikáját. Másfelől magyarázó jellegű: megmutatja, hogy a sajtóban közölt hírek függenek a tulajdonosi szerkezettől és a politikai érdekektől. Az elemzésből kiderül, hogy a különböző ideológiai hátterű médiumok különböző módon keretezik a korrupciót. A második esettanulmány a korrupciót a közforrásokhoz való korlátozott hozzáférésként értelmezi, ami a közbeszerzési pályázatok esetében a verseny korlátozásaként jelenik meg. A kutatás célja a versenykorlátozás előrejelzése a közbeszerzési pályázatok szöveges részeinek felhasználásával. Kb. 120000 magyar közbeszerzési szerződést elemzünk a 2011 és 2020 közötti időszakból. Az elemzés korábbi kutatások eredményeire épít, és azt a gépi tanulás módszereivel bővít ki. A korábbi (replikált) modellek és az új, logisztikus regresszió és Random Forest modellek előrejelzései alapján megállapítható, hogy az új modellek felülmúlják az alapmodelleket. A modell jóságának ellenőrzésénél nem áll meg az elemzés: vizsgálja azt is, hogy a különböző szótöbbeseknek milyen hatása van a korrupciós kockázatra. Abban bízom, hogy disszertációm új kaput nyit a korrupciókutatás módszertanában, és példát mutat a szöveg, mint adat korrupciókutatásban való felhasználására.hu_HU
Language
dc.language
magyarhu_HU
Title
dc.title
Természetesnyelv-feldolgozás a korrupciókutatásban: új adatforrások, új módszerek, új tartalmi kérdésekhu_HU
Type
dc.type
doktori dolgozathu_HU
Language
dc.language.rfc3066
hun
Language
dc.language.rfc3066
eng
Language
dc.language.rfc3066
hun
Rights
dc.rights.holder
A doktori disszertációk szerzői jogvédelem alatt állnak, csak a szerzői jogok maradéktalan tiszteletben tartásával használhatók.hu_HU
Abstract in English
dc.description.abstracteng
I first present the background of natural language processing in my dissertation, illustrating how text becomes a numerical database. Then I present the results of a scoping review on studies published in the last twenty years on corruption research. The review shows how different approaches (qualitative, quantitative, and automated text analysis) are used in corruption research. It highlights the extent to which the different methods answer different research questions and identifies grey areas in the use of automated text analytics. In the second half of the dissertation, I provide examples of two types of natural language processing, unsupervised and supervised methods, through two empirical studies. The first study presents a thematic analysis of Hungarian domestic online media coverage of corruption using dynamic topic modelling. The corpus is an article collection provided by K-Monitor, which contains online articles on suspected corruption cases. On the one hand the case study is exploratory as it identifies the main topics of the articles and the dynamics of thematic change over the period from 2007 to 2018. On the other hand, it is explanatory since it shows that the news reported in the press depends on the ownership structure and connected political interests. The analysis reveals that media with different ideological backgrounds frame corruption in different ways. The second case study interprets corruption as limited access to public resources. In the case of public procurement, it is a restriction of competition. The aim of the research is to predict competition restriction using the textual parts of public procurement tenders. We analyze approximately 120,000 Hungarian public procurement contracts from 2011 to 2020. The analysis builds on the results of previous research and extends it with machine learning methods. Based on the predictions of the previous (replicated) models, the new logistic regression and Random Forest models, it is concluded that the new models outperform the baseline models. The analysis does not stop at checking the goodness of fit of the model: it also examines the impact of different word n-grams on corruption risk. I hope that my dissertation opens a new door in the methodology of corruption research and provides an example for the use of text as data in corruption research.hu_HU
Scope
dc.format.page
141hu_HU
Doi ID
dc.identifier.doi
10.15476/ELTE.2022.263
MTMT ID
dc.identifier.mtmt
34025651
Opac ID
dc.identifier.opac
https://opac.elte.hu/Record/opac-EUL01-1109157
Language
dc.language.other
angolhu_HU
Language
dc.language.other
magyarhu_HU
Discipline Discipline +
dc.subject.discipline
Társadalomtudományok/Közgazdaságtudományokhu_HU
Discipline Discipline +
dc.subject.discipline
Társadalomtudományok/Média- és kommunikációs tudományokhu_HU
Discipline Discipline +
dc.subject.discipline
Társadalomtudományok/Politikatudományokhu_HU
Keyword English
dc.subject.en
natural language processinghu_HU
Keyword English
dc.subject.en
text analysishu_HU
Keyword English
dc.subject.en
word processinghu_HU
Keyword English
dc.subject.en
NLP methodshu_HU
Keyword English
dc.subject.en
corruption researchhu_HU
Keyword English
dc.subject.en
mediahu_HU
Keyword English
dc.subject.en
presshu_HU
Keyword English
dc.subject.en
public procurement corruptionhu_HU
Graduate schools / programs
dc.subject.prog
Szociológia D. I./Interdiszciplináris Társadalomkutatásokhu_HU
Title in other languages ​​
dc.title.translated
Natural language processing in corruption research: new data sources, new methods, new questionshu_HU
Class
dc.type.genre
phdhu_HU
Type
dc.type.resrep
Tudományoshu_HU
Author
dc.contributor.inst
ELTE TÁTK PHD/Szociológia D. I.hu_HU
Goalkeeping Day
dc.date.defended
2023-03-22
Keywords
dc.subject.hu
természetesnyelv-feldolgozáshu_HU
Keywords
dc.subject.hu
szövegelemzéshu_HU
Keywords
dc.subject.hu
szövegfeldolgozáshu_HU
Keywords
dc.subject.hu
korrupciókutatáshu_HU
Keywords
dc.subject.hu
médiahu_HU
Keywords
dc.subject.hu
sajtóhu_HU
Keywords
dc.subject.hu
közbeszerzési korrupcióhu_HU
Type
dc.type.type
doktori dolgozathu_HU
Resolution dated
dc.date.decreedate
2023-05-26
date of submission
dc.date.presented
2022


Files in this item

Természetesnyelv-feldolgozás a korrupciókutatásban: új adatforrások, új módszerek, új tartalmi kérdések
Természetesnyelv-feldolgozás a korrupciókutatásban: új adatforrások, új módszerek, új tartalmi kérdések
Természetesnyelv-feldolgozás a korrupciókutatásban: új adatforrások, új módszerek, új tartalmi kérdések
Természetesnyelv-feldolgozás a korrupciókutatásban: új adatforrások, új módszerek, új tartalmi kérdések
 

This item appears in the following Collection(s)

Show simple item record