Intézmények:Pannon Egyetem (Veszprém), Veszprém Megyei Csolnoky Ferenc Kórház Nonprofit ZRt. Pannon Egyetem Egészségügyi Kutató- Fejlesztô Központ, IME Szerkesztőség, Pannon Egyetem Műszaki Informatikai Kar Veszprém
Évfolyam: XV. évfolyam
Lapszám:2016. / 1
Hónap:január-február
Oldal:46-50
Terjedelem:5
Rovat:INFOKOMMUNIKÁCIÓ
Alrovat:ADATBIZTONSÁG
Absztrakt:
Az egészségügyi adatelemzések során a rendelkezésre álló adatok gyakran tartalmaznak információt a páciensek lakhelyére vonatkozóan. Ezen adat és a rendelkezésre álló egyéb adatok ismeretében felmerül a betegek beazonosíthatóságának lehetősége, s ezáltal sé rül a személyek anonimitásának biztosítása. Jelen cikkben olyan területalapú aggregációs módszert mutatunk be, amely az irányítószámok összevonásával nagyobb lakosságszámú településcsoportokat hoz létre, s ezáltal biztosítja a kistelepüléseken élő páciensek anonimitását.
Angol absztrakt:
Geographic analysis of medical data often relies on information referring to permanent addresses of patients. However, with the inclusion of the full zip codes and other personal data in the analysis, the risk of explicit patient identification arises. In this article an area-based aggregation method is presented which iteratively merges zip codes to achieve larger popula tion groups, and thus ensures the anonymity of patients living in small villages.
Intézmény: Pannon Egyetem Műszaki Informatikai Kar Veszprém
[1] Király F, Nemes A, Vassányi I, Kósa I: A szívkatéteres laboratóriumoktól mért földrajzi távolság hatása az iszkémiás szívbetegség gyanújával ellátásra került betegek ellátási útjára, IME – Az egészségügyi vezetők szaklapja, XIII. évfolyam, 3. szám, 2014. április, 15-18. o.
[2] Zhang Y, Baik SH, Fendrick AM, Baicker K: Comparing Local and Regional Variation in Health Care Spending, New England Journal of Medicine, 2012; 367 (18): 1724
[3] Kósa I, Nemes A, Belicza E, Király F, Vassányi I: Regional differences in the utilisation of coronary angiography as initial investigation for the evaluation of patients with suspected coronary artery disease, International Journal of Cardiology, 2013, 168:(5) pp. 5012-5015.
[4] Alexin Z: Kockázatokat rejt az egészségügyi adatok anonimizálása, IME – Az egészségügyi vezetők szaklapja XIII. évfolyam, 2. szám, 2014. március, 68-72. o.
[5] 2011. évi CXII. törvény az információs önrendelkezési jogról és az információszabadságról (http://www.naih.hu/jogszabalyok.html – utoljára megtekintve: 2015.09.15.)
[6] www.ksh.hu (utoljára megtekintve: 2015.09.15.)
[7] Golle P: Revisiting the uniqueness of simple demograp- hics in the US population, in Proceedings of the 5th ACM workshop on Privacy in electronic society, pp. 77-80. ACM, 2006.
A cikket sikeresen a könyvepolcára helyeztük!
Tisztelt Felhasználónk!
A cikket a könyvespolcára helyeztük. A későbbiekben
bármikor elérheti a cikket a könyvespolcán található listáról.
A cikk megtekintéséhez onine regisztráció szükséges!
Tisztelt Látogató!
Az Ön által megtekinteni kívánt cikk az IMEONLINE cikkadatbázisához tartozik, melynek olvasása online regisztrációhoz kötött.
A regisztrálást követően fogja tudni megtekinteni a cikk tartalmát!
A megadott cikk nem elérhető!
Tisztelt Felhasználónk!
Az Ön által megtekinteni kívánt cikk nem elérhető a rendszerben!
A megadott cikk nem elérhető!
Tisztelt Felhasználónk!
Az Ön által megtekinteni kívánt cikk nem elérhető a rendszerben!
Sikeresen szavazott a cikkre!
Tisztelt Felhasználónk!
Köszönjük a szavazatát!
A szavazás nem sikerült!
Tisztelt Felhasználónk!
Ön már szavazott az adott cikkre!
Cikk megtekintése
Tisztelt Felhasználónk!
A cikk több nyelven is elérhető! Kérjük, adja meg, hogy melyik nyelven kívánja megtekinteni az adott cikket!
Cikk megtekintésének megerősítése!
Tisztelt Felhasználónk!
Az Ön által megtekintetni kívánt cikk tartalma fizetős szolgáltatás.
A megtekinteni kívánt cikket automatikusan hozzáadjuk a könyvespolcához!
A cikket bármikor elérheti a könyvespolcok menüpontról is!
INFOKOMMUNIKÁCIÓ ADATBIZTONSÁG A betegek anonimitásának biztosítása a földrajzi elhelyezkedésre kiterjedő egészségügyi adatelemzések során Fogarassyné Vathy Ágnes1, Machalik Károly1, Vassányi István1, Kósa István1,2 1 Pannon Egyetem, Műszaki Informatikai Kar, Veszprém 2 MH Honvédkórház, Balatonfüredi Kardiológiai Rehabilitációs Intézet, Balatonfüred Az egészségügyi adatelemzések során a rendelkezésre álló adatok gyakran tartalmaznak információt a páciensek lakhelyére vonatkozóan. Ezen adat és a rendelkezésre álló egyéb adatok ismeretében felmerül a betegek beazonosíthatóságának lehetősége, s ezáltal sérül a személyek anonimitásának biztosítása. Jelen cikkben olyan területalapú aggregációs módszert mutatunk be, amely az irányítószámok összevonásával nagyobb lakosságszámú településcsoportokat hoz létre, s ezáltal biztosítja a kistelepüléseken élő páciensek anonimitását. Geographic analysis of medical data often relies on information referring to permanent addresses of patients. However, with the inclusion of the full zip codes and other personal data in the analysis, the risk of explicit patient identification arises. In this article an area-based aggregation method is presented which iteratively merges zip codes to achieve larger population groups, and thus ensures the anonymity of patients living in small villages. BEVEZETÉS Számos analitikai jellegű egészségügyi informatikai kutatás foglal magában olyan adatelemző tevékenységet, amely a páciensek földrajzi elhelyezkedését is figyelembe veszi [1,2,3]. Ezen elemzések többnyire a betegek állandó lakcímének irányítószámán alapulnak, amely adat szinte minden egészségügyi információs rendszerben és adatbázisban elérhető (pl. kórházi informatikai rendszerek, finanszírozási adatbázisok, célirányos regiszterek, klinikai vizsgálatok). Nem szabad azonban elfeledkeznünk azon tényről, hogy a magyarországi irányítószámokhoz rendelhető lakosság számossága nagy varianciát mutat, illetve az irányítószámok kiosztása számos anomáliát is magában hordoz (pl. egy irányítószám akár több településhez tartozhat). Az adatelemzések során az irányítószámok nyers módon történő felhasználása nem csupán torzításokhoz vezethet, hanem a kistelepülésen élők esetében beazonosíthatósági problémákat is felvet [4,5]. Itt elsősorban azon betegek személyiségi jogainak védelmére kell gondolnunk, akik olyan irányítószámú településen laknak, amely irányítószám által lefedett település/települések összlakossága kis populációt foglal magában. Amennyiben az elemzéshez rendelkezésre álló adatok tartalmazzák a betegek állandó lakhelyének irányítószámát és például a betegek születési évét, akkor felmerül az egyértelmű beazonosíthatóság kérdése. Különösen igaz ez azon irányítószámok által azonosított települések, vagy tele- 46 IME – INTERDISZCIPLINÁRIS MAGYAR EGÉSZSÉGÜGY püléscsoportok esetében, ahol a lélekszám extrém alacsony. Csupán egyetlen példával szemléltetve a probléma valós jellegét: Magyarországon a 7188-as irányítószám egyetlen települést jelöl (Szárász), amely 2013-ban csupán 38 lakost számlált. A fent említett két adat ismeretében az itt élő páciensek nagy valószínűséggel egyértelműen beazonosíthatóvá vállnak, ezzel az ellátottak személyi jogai sérülhetnek. Az előzőekben vázolt probléma azonban nem csupán néhány települést, illetve irányítószámot érint. Magyarországon a statisztikai adatok alapján [6] az elmúlt éveket tekintve több mint 3150 önálló településről beszélhetünk, melyekhez jelenleg 3061 irányítószám tartozik. Ezen irányítószámok közül 1187 esetben az irányítószám által lefedett lakosságszám nem éri el az 1000 főt és ezen 1187 irányítószám mintegy 660 000 fő állandó lakhelyének azonosítója. Mindemellett természetesen látni kell azt is, hogy a lakosság nagy része, közel 6 millió lakos azon a 166 településen lakik, amelyek 10 000 főnél több lakost számlálnak. Esetükben az anonimitás kérdése ilyen adatok ismerete esetén biztosan nem sérül. A fenti probléma a kis lélekszámú irányítószámok irányítószám csoportokba történő összevonásával orvosolható. Az irányítószámok csoportosításával olyan aggregált irányítószám csoportok jönnek létre, amelyek nagyobb területi egységeket, több lakost foglalnak magukban, s ezáltal csökken a személyek visszakereshetőségének kockázata. A csoportosítás végrehajtásakor egyensúlyt kell teremteni a személyek beazonosíthatóságának elfedése és a kutatási célok megvalósíthatósága között oly módon, hogy a személyek azonosításának kockázata alacsony legyen, viszont a kutatási célok még reálisan megvalósulhassanak. Ennek megfelelően az összevonás módszertanának kialakítása során különös figyelmet kell fordítani az aggregáció granularitási szintjének meghatározására, amelyhez a beazonosíthatóság kockázatának csökkentése mellett a következő két szempontot kell figyelembe venni. Egyrészt ügyelni kell arra, hogy csak olyan mértékű aggregációt alkalmazzunk, amely feloldja a visszakereshetőség problémáját, másrészt pedig figyelmet kell fordítani arra is, hogy ne alakuljanak ki olyan túlzott mértékben összevont csoportok, melyek már területi sajátosságokat is elfednek. Az aggregációs módszertan kialakításánál továbbá figyelembe kell venni az elemzési célokat is. Amennyiben például az adatelemzés szempontjából a különböző típusú településeken (pl. város, falu) élő páciensek eltérő csoportokba tartoznak és külön elemezendők, akkor az eltérő karakterisztikájú települések összevonását el kell kerülni. Jelen cikkben az egészségügyi kutatásaink során alkalmazott irányítószám-aggregációs módszertant, annak megvalósítását és sajátosságait mutatjuk be, valamint ezt megelőző- XV. ÉVFOLYAM 1. SZÁM 2016. JANUÁR-FEBRUÁR INFOKOMMUNIKÁCIÓ ADATBIZTONSÁG en kitérünk az általános aggregálási lehetőségek ismertetésére és vizsgálatára is. AZ IRÁNYÍTÓSZÁMOK AGGREGÁCIÓJÁNAK LEHETSÉGES MÓDSZEREI Az irányítószámok általános érvényű, elemzési céloktól független aggregációja kétféle módon valósulhat meg. Egyrészt alkalmazhatunk úgynevezett irányítószám-csonkolási módszert, melynek során az irányítószámok kerekítése által jönnek létre az összevont csoportok, másrészt pedig kialakíthatunk olyan módszert is, amely az irányítószámok földrajzi elhelyezkedését figyelembe véve hozza létre az aggregált csoportokat. A következőkben ezen két módszer előnyeit és hátrányait elemezzük. IRÁNYÍTÓSZÁM CSONKOLÁSON ALAPULÓ AGGREGÁCIÓ Az irányítószámok csonkolásának legegyszerűbb módja a Magyarországon használatos négy karakteres irányítószámoknak az első három számjegyre történő csonkolása. Bár egy egyszerű matematikai módszerről van szó, ezen megközelítés mégsem teljesen független a települések földrajzi elhelyezkedésétől, hiszen az irányítószámok kiosztása a földrajzi elhelyezkedés alapján történik. A módszer általános megoldásként azonban mégsem fogadható el a következő okokból: • Ezen típusú aggregáció nem veszi figyelembe az összevonásra kerülő települések lélekszámát, s eredményeképpen az aggregált csoportokra vetített összlélekszám eloszlása igen egyenetlen lesz. Továbbá, az általános érvényű irányítószám-csonkolással olyan települések is összevonásra kerülnek, melyek esetében az eredeti irányítószám által lefedett összlakosság már eleve magas volt. • A kialakuló településcsoportok több megye településeit is magukban foglalják. Így például a 798-as azonosítójú aggregált csoport Baranya és Somogy megyékből is tartalmaz településeket, méghozzá Baranya megyéből nyolc települést (7980: Pettend; 7981: Kistamási, Merenye, Molvány, Nemeske és Tótszentgyörgy; 7985: Kisdobsza és Nagydobsza), Somogy megyéből pedig két települést (7987: Istvándi, 7988: Darány). A csonkolási technika számos esetben vezet ilyen vegyes csoport kialakulásához. • Harmadrészt, mivel egyes nagyvárosok több olyan irányítószámmal is rendelkeznek (pl. Debrecen), melyek 10-es helyiértékre csonkított értéke különböző, ezért a csonkolás eredményeképpen ezen települések résztelepülésekre esnek szét, és az így kialakuló csoportok nem feltétlen tükrözik az egyes városrészek egymáshoz való földrajzi viszonyát. A fent említett három probléma részben kiküszöbölhető oly módon, ha csak a kis lélekszámú települések aggregációját valósítjuk meg, illetve utólagosan manuálisan korrigáljuk a kialakult eredménycsoportokat. A módosított csonkolási technika azonban ilyen módon elveszti a legnagyobb erényét, vagyis IME – INTERDISZCIPLINÁRIS MAGYAR EGÉSZSÉGÜGY az egyszerűségét. Mindamellett azt is be kell látnunk, hogy az így kialakult aggregált településcsoportok nem feltétlen oldják meg a személyi anonimitás biztosításának problémáját, mivel a kialakult településcsoportok minimális összlakosságára vonatkozóan a csonkolásos technika nem tartalmaz semmilyen elvárást, illetve biztosítékot. TÁVOLSÁGALAPÚ AGGREGÁCIÓS MÓDSZER A települések távolságalapú aggregációja a települések földrajzi elhelyezkedésének figyelembevételével valósítja meg az egymáshoz közel eső települések összevonását. Az általunk alkalmazott technológia iteratív módon aggregálja a településeket, s ezáltal működése során folyamatosan kontrollálható a csoportosításba bevont települések lélekszáma és jellege, illetve folyamatosan monitorozható a kialakult településcsoportok összlétszáma is. Az algoritmus kialakításakor figyelmet fordítottunk (i) az irányítószámok és a települések kapcsolatának kettős jellegére, (ii) a kistérségek és megyék által definiált mesterséges felosztás betarthatóságának kérdésére, (iii) az összevonás logikájának kialakítására és (iv) azon problémakör vizsgálatára, hogy milyen lélekszámú településcsoportokat érdemes kialakítani. A következőkben ezen kérdésköröket vesszük sorra. Az algoritmus kialakításakor szem előtt kell tartanunk, hogy bár települések aggregációját kívánjuk megvalósítani, azonban mindezt az irányítószámok összevonásával tesszük. A Magyarországon használatos irányítószámok és a hozzájuk tartozó települések között úgynevezett sok-sok kapcsolat áll fenn, miszerint egy irányítószám több települést is azonosíthat egyidejűleg, illetve előfordul az az eset is, hogy egy településhez több irányítószám tartozik. Mivel feltételezzük, hogy az elemzésbe bevont személyek lakhelye csupán irányítószámuk alapján ismert, ezért abban az esetben, ha egy irányítószám több települést takar, az irányítószámhoz rendelt településeket nem tudjuk megkülönböztetni és külön elemezni. Az irányítószámoknak ezen tulajdonsága gyakorlatilag egy, az adathalmazban implicit módon jelen lévő előzetes település-aggregációt valósít meg. A másik esetben, amikor egy településhez több irányítószám is tartozik, azon döntést kell meghoznunk, hogy ezeket a településeket szeretnénk-e településrészekre (városrészekre) bontani, vagy sem. Mivel Budapest kivételével a nagyvárosokban az egészségügyi ellátás centralizáltan történik, azért az általunk kialakított módszertanban azt az elvet követtük, hogy míg Budapestet kerületeire osztottuk, és egy-egy kerületet külön-külön kezeltünk, addig a több irányítószámmal rendelkező egyéb nagyvárosokra (pl. Debrecen, Miskolc, …) egységes önálló településekként tekintettünk. A második kérdéskör a megyék és a kistérségek által definiált mesterséges határok betarthatóságának problémája. Ezen kérdéskört megvizsgálva azt tapasztaltuk, hogy a kistérségi szeparáció nem érvényesíthető, mivel számos olyan irányítószám létezik, amely több kistérségbe tartozó települést foglal magában. Példaként tekinthetjük a 8935-ös irányítószámot, amely öt települést takar, és ezen települések két kistér- XV. ÉVFOLYAM 1. SZÁM 2016. JANUÁR-FEBRUÁR 47 INFOKOMMUNIKÁCIÓ ADATBIZTONSÁG ségbe tartoznak (Pacsa és Zalaszentgrót). Mindemellett a megyék által definiált mesterséges területfelosztás viszont betartható az aggregáció során, mivel nincs olyan irányítószám, amely különböző megyékbe tartozó településeket foglalna magában. Ennek megfelelően az általunk használt és javasolt módszertan az aggregáció során figyelembe veszi a megyehatárokat és nem von össze olyan településeket, amelyek különböző megyékben találhatók. Az aggregációs módszertan kialakításának harmadik kérdésköre az összevonás alapelveinek meghatározása. A személyiségi jogok védelme miatt azt már láthattuk, hogy elsősorban a kis lélekszámú településeket lefedő irányítószámokat kell a csoportosítás során aggregálni. Felmerül azonban a kérdés, hogy az aggregációt úgy kell-e megvalósítanunk, hogy kizárólag a kis lélekszámú településeket vonjuk össze, vagy megengedjük-e a kis lélekszámú településeknek olyan nagyobb lélekszámú településbe történő beolvasztását, amely nagy lélekszámú települések egyébként önállóan sem sértették volna a páciensek személyiségi jogait? Az első esetben – amikor kizárólag kis lélekszámú településeket vonunk össze – eredményképpen előállhat olyan diffúz eredménycsoport is, amely földrajzilag nem összefüggő területet takar. Ez abban az esetben alakul ki, ha az öszszevonandó irányítószámokhoz tartozó települések földrajzilag egymástól távolabb helyezkednek el, s köztük olyan nagyobb lélekszámú települések is találhatók, amelyek önmagukban nem sértik a személyiségi jogok védelmének alapelvét. Amennyiben az összevonás során elérendő minimális összlélekszámot viszonylag magas küszöbértékben definiáljuk, akkor ezen módszer eredményeképpen egymástól akár 30-40 km távolságra fekvő települések összevonására is sor kerülhet. Mivel ezen diffúz településcsoportok kialakulásával megnő annak az esélye, hogy olyan irányítószámok kerülnek egy csoportba, amelyek által lefedett települések lakosságának egészségügyi ellátása a távolságból fakadóan nem egységes (vagyis eltérő szakrendelőkhöz és kórházakhoz tartoznak a betegek), ezért ezen első aggregációs lehetőséget elvetettük. Az előző okfejtésből fakadóan az általunk alkalmazott és javasolt aggregációs módszer lehetővé teszi, hogy a kis lélekszámú településeket olyan településsel, településcsoporttal vonjuk össze, amelyhez tartozó lakosságszám már önmagában is meghaladja a személyiségi jogok védelméhez szükséges össznépességi minimális küszöbértéket. Mivel célunk földrajzilag összefüggő, egységes ellátórendszerrel rendelkező területcsoportok kialakítása, ezért az általunk javasolt módszerben iteratívan mindig a legkisebb lélekszámú településhez, vagy településcsoporthoz tartozó irányítószámot rendeljük hozzá a hozzá legközelebb eső nagyobb lélekszámú település irányítószámához. Az így kialakult településcsoport központjának pedig az eredetileg nagyobb lélekszámmal rendelkező települést, vagy településcsoportot (irányítószámot) tekintjük. A folyamatot iteratív módon hajtjuk végre mindaddig, amíg van olyan irányítószám, vagy irányítószám csoport, amely által lefedett összlakosság nem éri el a kívánt minimumot. 48 IME – INTERDISZCIPLINÁRIS MAGYAR EGÉSZSÉGÜGY A fenti három kérdéskör vizsgálata révén meghozott döntések alapján az általunk javasolt távolságalapú irányítószámaggregációs módszer fő lépései a következők: 1. lépés: Az azonos irányítószámmal rendelkező települések csoportokba történő összevonása. 2. lépés: Budapest kerületekre történő tagolása a csonkolásos technika alkalmazásával. 3. lépés: A Budapesten kívüli, több irányítószámmal rendelkező nagyvárosok irányítószámainak összevonása oly módon, hogy a továbbiakban a településre leginkább jellemző irányítószám fémjelzi a települést, a többi hozzá tartozó irányítószámot pedig ezen irányítószám alá egy csoportba aggregáljuk. 4. lépés: Iteratívan ismételjük a következő lépést mindaddig, amíg van olyan irányítószám, vagy irányítószám csoport, amely nem éri el a felhasználó által meghatározott minimálisan lefedendő összlakosságszámot: • Az aktuálisan legkisebb lakosságszámot lefedő irányítószámot, vagy irányítószám csoportot vonjuk össze a hozzá földrajzilag legközelebb eső, azonos megyébe tartozó irányítószámmal, vagy irányítószám csoporttal. Tekintsük az újonnan kialakuló irányítószám csoport irányítószámának az eredetileg több lakost lefedő terület irányítószámát. Az algoritmus kapcsán felmerül a kérdés, hogy vajon mekkora településcsoportokat kell kialakítani ahhoz, hogy a páciensek személyiségi jogainak védelme ne sérüljön abban az esetben, ha a páciensekre vonatkozóan a születési évszámuk és az állandó lakhelyük irányítószáma áll a rendelkezésünkre. A kérdéskör vizsgálatát statisztikai alapokon végeztük oly módon, hogy a kialakított algoritmust különféle küszöbértékek megadásával futtattuk, majd a létrejött eredménycsoportokat összehasonlítottuk. Teszteléseink során az elérendő összlélekszám értékét 600-tól 2000 főig 100-as lépésközönként határoztuk meg. Az elérendő minimális összlélekszám függvényében vizsgálva az összevonás eredményeképpen kialakult csoportok számát azt tapasztaltuk, hogy a létrejövő csoportok száma kezdetben emelkedik, majd elérve a minimális lélekszám 1200-as határértékét csökkenni kezd (1. ábra). Ez alapján láthatjuk, hogy az 1200-as küszöbérték felett kevesebb új csoport jön létre, sokkal inkább a meglévő kisebb csoportok aggregációja történik. A minimálisan elérendő összlakosság növelésével folyamatosan növekszik az egy csoportba összevont irányítószámok száma (2. ábra). A 2. diagramra tekintve láthatjuk, hogy ha a minimálisan elérendő lakosságszámot 1000 főben határozzuk meg akkor a legnagyobb aggregált csoport 13 irányítószámot foglal magában. Ugyanezt értéket kapnánk abban az esetben is, ha a minimum elérendő összlakosságszámot 1100 főre emelnénk. Azonban ha a küszöbértéket 1200-ra növeljük, akkor ez az érték rögtön 17-re ugrik. A jelenség mögött a több irányítószámot tartalmazó csoportok egyesítése bújik meg. XV. ÉVFOLYAM 1. SZÁM 2016. JANUÁR-FEBRUÁR INFOKOMMUNIKÁCIÓ ADATBIZTONSÁG EREDMÉNYEK ÉRTÉKELÉSE 1. ábra Összevont csoportok száma a minimálisan elérendő összlélekszám függvényében 2. ábra A maximálisan aggregált irányítószámok száma a minimálisan elérendő összlakosság függvényében A fenti diagramok és a bővebb statisztikai elemzések sem mutatnak olyan jellegű, a minimálisan elérendő összlakosság számához köthető törést, vagy változást, amely a küszöbérték választását egyértelműen determinálná. Mivel a javasolt algoritmus tetszőleges minimális összlakosság határérték mellett végrehajtható, ezért úgy véljük, hogy az elemzésbe bevont populáció jellege és a rendelkezésre álló adatok kell, hogy meghatározzák a küszöbérték megválasztását. Amennyiben például idősebb betegek adatait szeretnénk elemezni, akkor a minimálisan elérendő összlakosságszámot a lakosság életkorának egyenetlen eloszlása miatt magasabb értékben kell meghatározni, míg egy jellemzően középkorú populáció elemzése esetén a küszöbérték alacsonyabb értékként is megadható. Mivel az újra-azonosítási kockázat a populáció és a rendelkezésre álló adatok ismeretében matematikai módszerekkel meghatározható [4,7], ezért minden egyes anonimizálási feladat esetében érdemes ezen számításokat elvégezni, majd az összevonásnál elérendő minimális küszöbértéket úgy meghatározni, hogy az újra-azonosítási kockázat megfelelően alacsony legyen, viszont a kutatási feladatok végrehajthatóságát még ne veszélyeztesse az aggregáció mértéke. IME – INTERDISZCIPLINÁRIS MAGYAR EGÉSZSÉGÜGY Az előzőekben ismertetett területlapú aggregációs módszert oly módon alkalmazva, hogy a minimálisan elérendő összlakosságszámot példaként 1000 főben határozzuk meg a következő eredményeket kapjuk. Minimálisan 1000 főt elérendő aggregáció esetén a kialakuló területi egységek száma 1687. Ez azt jelenti, hogy Magyarország területét 1687 részre osztottuk oly módon, hogy önmagában egyetlen területi egység sem tartalmaz különböző megyében található településeket. Ezen 1687 területi egységből 701 területi egység foglal magában egynél több irányítószámmal jelzett települést. Ezen 701 csoport átlagosan 3,12 irányítószámot aggregál, a legtöbb irányítószámot tartalmazó csoportban 13, a legkevesebb irányítószámot tartalmazó csoportban két irányítószám aggregálására került sor. A kialakult csoportokban legfeljebb 2 kistérség összevonására került sor, s az összevonás több mint 2 540 000 főt érintett. Az eredmény térképre vetített vizualizációját a 3. ábra szemlélteti. A térképen a kialakult földrajzi egységek határvonalait feketével jelöltük. Míg a fehérrel jelölt földrajzi egységekben nem történt kis lélekszám miatt történő irányítószám összevonás, addig a különféle színekkel jelölt földrajzi egységek kis lélekszámú irányítószámok integrálásával jöttek létre. Az ábrán a színek erőssége a kialakult csoportban található irányítószámok számával arányos oly módon, hogy minél több irányítószám került összevonásra az adott csoportban, annál telítettebb az alkalmazott szín. A térképre tekintve láthatjuk, hogy elsősorban Nyugat-Magyarországon és az északi területeken történtek összevonások, valamint a legtöbb irányítószámot integráló csoportok Zala illetve Borsod-Abaúj-Zemplén megyében jöttek létre. 3. ábra Településcsoportok az összevonás után minimum 1000 főre aggregálva ÖSSZEFOGLALÁS Az egészségügyi adatelemzések során fontos szem előtt tartani az elemzésben részt vevő páciensek személyiségi jogainak védelmét. Jelen cikkben azon tényre hívtuk fel a figyelmet, hogy a páciensek lakhelyét meghatározó irányítószám és születési dátum ismerete a magyarországi irányítószám kiosz- XV. ÉVFOLYAM 1. SZÁM 2016. JANUÁR-FEBRUÁR 49 INFOKOMMUNIKÁCIÓ ADATBIZTONSÁG tás gyakorlatából fakadóan visszaélésekre adhat alapot. Ezen anomália feloldására egy olyan irányítószám-aggregációs módszertant mutattunk be, amellyel a települések földrajzilag összefüggő, tetszőleges méretű településcsoportokba sorolhatók oly módon, hogy egy-egy csoport csak egy-egy megyéből tartalmaz településeket. A javasolt módszer fő előnye, hogy a kialakult településcsoportok által lefedett minimális összlakosságszám dinamikusan módosítható és az integráció az iteratív eljárásból fakadóan folyamatosan monitorozható. Az általunk alkalmazott módszertan eredményét jelenleg is sikeresen alkalmazzuk olyan egészségügyi vonatkozású adatelemzéseink során, amelyek a páciensek földrajzi elhelyezke- dését is figyelembe veszik. A munkánk eredményeképpen létrejött aggregált irányítószám felosztást a különféle kutatócsoportok munkájának támogatására másokkal is szívesen megosztjuk. KÖSZÖNETNYILVÁNÍTÁS A publikáció Magyarország Kormánya támogatásával a VKSZ_12-1-2013-0012 azonosítójú „Világszínvonalú Intelligens és Inkluzív Egészségügyi Információs és Döntéstámogató Keretrendszer (Analitic Healthcare Quality User Information) kutatása” című projekt keretében jött létre. IRODALOMJEGYZÉK [1] Király F, Nemes A, Vassányi I, Kósa I: A szívkatéteres laboratóriumoktól mért földrajzi távolság hatása az iszkémiás szívbetegség gyanújával ellátásra került betegek ellátási útjára, IME – Az egészségügyi vezetők szaklapja, XIII. évfolyam, 3. szám, 2014. április, 15-18. o. [2] Zhang Y, Baik SH, Fendrick AM, Baicker K: Comparing Local and Regional Variation in Health Care Spending, New England Journal of Medicine, 2012; 367 (18): 1724 [3] Kósa I, Nemes A, Belicza E, Király F, Vassányi I: Regional differences in the utilisation of coronary angiography as initial investigation for the evaluation of patients with suspected coronary artery disease, International Journal of Cardiology, 2013, 168:(5) pp. 5012-5015. [4] Alexin Z: Kockázatokat rejt az egészségügyi adatok anonimizálása, IME – Az egészségügyi vezetők szaklapja XIII. évfolyam, 2. szám, 2014. március, 68-72. o. [5] 2011. évi CXII. törvény az információs önrendelkezési jogról és az információszabadságról (http://www.naih.hu/ jogszabalyok.html – utoljára megtekintve: 2015.09.15.) [6] www.ksh.hu (utoljára megtekintve: 2015.09.15.) [7] Golle P: Revisiting the uniqueness of simple demographics in the US population, in Proceedings of the 5th ACM workshop on Privacy in electronic society, pp. 77-80. ACM, 2006. A SZERZŐK BEMUTATÁSA Dr. Fogarassyné Dr. Vathy Ágnes (PhD, informatikus). 1995-ben szerzett matematika-fizika-számítástechnika szakos tanári diplomát a BDTF-en, majd tanulmányait a Veszprémi Egyetemen folytatta, ahol 1998-ban informatika szakos tanári diplomát szerzett. PhD tanulmányait az ELTE Informatika Doktori Iskolájában végezte, majd 2009-ben summa cum laude minősítéssel PhD fokozatot szerzett. 1998 óta a Pannon Egyetem oktatója. Számos adatbányászattal, adatelemzéssel foglalkozó tudományos cikk, könyv és könyvfejezet társszerzője, s mindemellett számos kutatási projekt témavezetője és résztvevője. Kutatási területei: adatbáziskezelés, adatbányászat, adatbányászati módszerek alkalmazása az egészségügyben, hálózatelemzés. Machalik Károly a Pannon Egyetem műszaki informatika szakos hallgatója, senior developerként számos kutatási és fejlesztési projekt aktív résztvevője. Korábbi munkáiból adódóan jelentős szakmai tapasztalattal rendelkezik az adatbázis-kezelő rendszerek, operációs rendszerek, hálózat- és alkalmazásfejlesztés területén. Érdeklődési és kutatási területe az adatbányászat és hálózatelemzés. Dr. Vassányi István és Dr. Kósa István bemutatása lapunk XIII. évfolyamának 4 számában olvasható. 50 IME – INTERDISZCIPLINÁRIS MAGYAR EGÉSZSÉGÜGY XV. ÉVFOLYAM 1. SZÁM 2016. JANUÁR-FEBRUÁR