Második kutatási kérdés

Hogyan kapcsolódnak egymáshoz a topikok, vannak egymáshoz tartalmilag közelebb, egymástól távolabb levők?

A grafikon létrehozására a Python pyLDAvis függvényét használtam (Sievert–Shirley, 2014). Többek között ezt a vizualizációt használtam arra, hogy megfigyeljem a topikok változásának dinamikáját, valamint, hogy interpretáljam a topikok jelentését.

A vizualizáción bal oldalon a topikokat körökkel ábrázoljuk, ahol a körök területe a hozzájuk tartozó tokenek számával arányos, a körök középpontjának távolsága pedig a topikok tartalmi távolságának feleltethető meg. A kétdimenziós topik-elhelyezkedés (és ezzel a tartalmi távolság) meghatározása többdimenziós skálázás segítségével történt, ahol a skálázás input különbözőségi-mátrixában a topikok páronkénti különbözősége a Jensen-Shannon divergencia alapján lett meghatározva. Ez a divergencia-mutató két eloszlás távolságát méri, segítségével itt két topik távolságát a szóeloszlásuk távolságával tudjuk számszerűsíteni. Azonban a kétdimenziós reprezentáció leegyszerűsíti a képet, nem feltétlenül ad hű képet az eredeti többdimenziós térbeli struktúráról. A látszólag egymásra csúszó topikok vélhetően nem fednek át úgy, hogy összevonhatók lennének, különben alacsonyabb optimális topikszám mellett dönthettem volna a korábbi elemzéseink kapcsán. A következő két évre tervezett feladataim közé tartozik, hogy különböző távolság-metrikákkal vizsgáljam a topikok szókészletének hasonlóságát, ezzel validálva, vagy cáfolva a fenti ábra interpretálhatóságát.



Azt figyelhetjük meg, hogy a 3-as (pártokhoz/politikusokhoz köthető ügyek) és a 5-ös (igazságszolgáltatás) topik jól elkülönül a többitől, és ez az elkülönülés stabilan, a vizsgált időszak egészében megmarad. Az elemzett cikkek alapján ez indokolható is: mindkét topik általánosságban hasonló ügyeket dolgoz fel, melyek a többi topikban kevésbé jelennek meg, ám egymástól nagyon eltérő nézőponttal közelítenek ugyanazokhoz az ügyekhez. Két másik csoportot alkot – a fenti, tartalmi elemzés alapján szintén jól indokolhatóan – a 2-es és 4-es (nemzetközi ügyek és kormányzati és nem kormányzati szervek kapcsolatát vizsgáló topik) illetve az 1-es (közbeszerzések), 6-os (önkormányzati szintű ügyek) és 7-es (vállalkozások, vállalatok) topik csoportja, de az évek során e két csoport elkülönülése megszűnik, illetve a korábban ugyanazon csoporthoz tartozó topikok (pl. közbeszerzések, és a vállalkozások vállalatok) eltávolodnak egymástól.

Az lent linkelt ábrák jobb oldalán az adott évre illesztett topikmodell globális jellemzése látható, ami azt mutatja meg, hogy a teljes korpuszon a topikok közötti szóeloszlás-különbséget tekintve mely kifejezések a leginkább informatívak. Az itt használt indikátor nem egyszerűen a szógyakoriság, hanem a szavak informativitása (saliency), azaz, hogy egy adott kifejezés mennyire jellemzi az adott topikot egy bármilyen véletlenszerűen kiválasztott szóhoz képest (Chuang et al. 2012). A jobb oldalon megjelenített szavak fölé téve a kurzort megjelenik a szó informativitása a bal oldali topikokon (a topikok felett megjelenő új pöttyökkel, ahol az informativitás a területtel arányos).