Dokumendiregister | Sotsiaalministeerium |
Viit | 1.5-20/2833-1 |
Registreeritud | 07.11.2024 |
Sünkroonitud | 08.11.2024 |
Liik | Sissetulev kiri |
Funktsioon | 1.5 Asjaajamine. Info- ja kommunikatsioonitehnoloogia arendus ja haldus |
Sari | 1.5-20 Tervisevaldkonna infosüsteemide ja registrite andmete kohta tehtud andmeväljastustaotlused |
Toimik | 1.5-20/2024 |
Juurdepääsupiirang | Avalik |
Juurdepääsupiirang | |
Adressaat | Tartu Ülikool |
Saabumis/saatmisviis | Tartu Ülikool |
Vastutaja | Raili Sillart (Sotsiaalministeerium, Kantsleri vastutusvaldkond, Innovatsiooni vastutusvaldkond, Arendusosakond) |
Originaal | Ava uues aknas |
Tähelepanu! Tegemist on välisvõrgust saabunud kirjaga. |
Tähelepanu! Tegemist on välisvõrgust saabunud kirjaga. |
Tere, lp Sotsiaalministeerium,
Edastan rahvusvahelised konkurentsipõhised hindamised läbinud
teadusuuringu Est-Health-30 taotluse ja sellele antud EBIN
positiivse otsuse.
Vastavalt koostöös Sotsiaalministeeriumiga täpsustatud EBIN
taotlusele ning sellega kaasas olnud andmekoosseisule taotleme
andmeväljastuse protsessi algatamist Tervise Infosüsteemist.
Lugupidamisega,
kogu uuringumeeskonna nimel,
prof. Jaak Vilo
TÜ andmeteaduse õppetooli juhataja
Subject: | Otsus |
---|---|
Date: | Tue, 5 Nov 2024 07:20:46 +0200 |
From: | sm.dhs@sm.ee |
To: | Tartu Ülikool <vilo@ut.ee> |
|
UURINGU EETILISE HINDAMISE TAOTLUS EESTI BIOEETIKA JA INIMUURINGUTE NÕUKOGULE
1. Uuringu nimetus (ingliskeelsete taotluse puhul tuleb uuringu nimetus ära tuua ka eesti keeles)
EST-Health-30 - Eesti terviseandmete väärindamine
2. Uuringu põhieesmärk kuni 450 tähemärki (0,25 lk) (ingliskeelsete taotluse puhul tuleb uuringu põhieesmärk ära tuua ka eesti keeles)
Eesmärk on Eesti terviseandmete väärindamine läbi andmeteaduse meetodite, et pakkuda kvaliteetset tõendust tõhusate patsiendikesksete tervishoiu- ja ennetusteenuste osutamiseks.
Uuring viiakse läbi kahes etapis:
1. etapp on alusandmestiku loomine ja andmekvaliteedi tõstmise meetodite arendamine, mille käigus lingitakse tervise infosüsteemi, Tervisekassa andmekogu, retseptikeskuse, vähiregistri ja surma põhjuste registri andmed ja seeläbi koostatakse teadusuuringute läbiviimiseks alusandmestik (täpne andmekoosseis on toodud lisas 1). Alusandmestiku loomise oluliseks osaks on andmekvaliteeti ja andmehõivet parandavate meetodite sh tehisintellekti mudelite arendamine. Samuti on alusandmestiku loomine vajalik 2. etapi ellu viimiseks ja eesmärkide täitmiseks.
1. etapi eesmärgid on:
1.1 Hinnata valimi põhjal Eesti terviseandmete kvaliteeti ja hõivet võrreldes erinevatest andmeallikatest pärinevat informatsiooni.
1.2 Andmekvaliteedi ja andmehõive tõstmise meetodite sh tehisintellekti-, tekstikaeve- ja imputatsioonimeetodite arendamine.
1.3 Tervisesündmuste esituse ühtlustamine rahvusvahelistele standarditele üle aja ja andmeallikate, sh kasutades tekstikaeve, klasterdamise ja automaattõlke meetodeid.
1.4 Arendatavad meetodid on hiljem rakendatavad ka uutes uuringutes, suurematel andmehulkadel ning riiklikes infosüsteemides andmekvaliteedi ja -hõive parandamiseks.
1.5 Standardiseeritud ja ühtlustatud andmestiku loomine ja kirjeldamine teadusuuringute läbiviimiseks. Andmestikku kirjeldatakse läbi erinevate numbriliste näitajate ja teostatavusanalüüside senisest suuremal detailsusastmel.
2. etapp on teadus- ja rakendusuuringute teostamine uurimismetoodikate arendamiseks Eesti terviseandmetel. Lähtume põhimõttest, et loodavad analüüsimeetoid on rakendatavad sõltumata uuringu all olevast haigusest või patsiendigrupist. Tulenevalt käimasolevatest teadus- ja rakendusuuringu projektidest (vt. pt “5. Uuringu finantseerimine”) keskendutakse taotletava teadusuuringu raames ravijärgimuse, ravitrajektooride ja -teekondade ning personaliseeritud ennetusmeetoditega seotud analüüsimeetodite arendamisele. Täiendavate uurimisküsimuste tekkimisel esitatakse Eesti bioeetika ja inimuuringute nõukogule ja EST-Health-30 uuringu andmeandjatele hindamiseks uus taotlus.
2. etapi eesmärgid on:
2.1 Arendada haigustrajektooride ja raviteekondade analüüsi metoodikaid kasutades sh tehisintellekti meetodeid, et kirjeldada praeguseid ravipraktikaid, võrrelda neid raviteekondade ja -juhenditega ning modelleerida tervisetulemeid ja ravi majanduslikku mõju.
2.2 Analüüsida erinevate faktorite (nt sugu, vanus, erinevad haigused) mõju ravijärgimusele, hinnata ravijärgimuse mõju erinevatele tervisetulemitele ja luua personaalseid ennustusmudeleid, mis võimaldavad maandada ravi mittejärgimise riske.
1
2.3 Arendada personaliseeritud ennetusmudeleid, mis võimaldavad vaatlusandmete põhjal tuvastada praeguste haiguse ennetuste ja ravipraktikate kitsaskohti, planeerida senisest paremini haiguste ennetustegevusi ja hinnata pakutud ennetusteenuste majanduslikku mõju
Taotletav teadusuuring loob eeldused, et päriselu terviseandmeid saaks Eestis laiemalt kasutada ning aitab parandada tervishoiuteenuste kvaliteeti, tervishoiusüsteemi efektiivsust ning toetada tervishoiupoliitiliste tõenduspõhiste otsuste tegemist, toetades seeläbi rahvastiku tervise arengukava 2020-2030 elluviimist.
3. Vastutava(d) uurija(d) ning tema (nende) kontaktandmed
Vastutavad uurijad on samad teadusuuringu 1. ja 2. etapis
Eesnimi: Jaak
Perekonnanimi: Vilo
Ametikoht: andmeteaduse õppetooli juhataja, bioinformaatika professor
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
Telefon: +372 504 9365
e-post: vilo@ut.ee
Eesnimi: Raivo
Perekonnanimi: Kolde
Ametikoht: terviseinformaatika kaasprofessor
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
Telefon: +372 506 7961
e-post: raivo.kolde@ut.ee
Eesnimi: Sven
Perekonnanimi: Laur
Ametikoht: turvalise andmekaeve kaasprofessor
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
Telefon: +372 5309 0584
e-post: sven.laur@ut.ee
Eesnimi: Sulev
Perekonnanimi: Reisberg
Ametikoht: terviseinformaatika teadur
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
Telefon: +372 524 8123
e-post: sulev.reisberg@ut.ee
4. Uuringu läbiviijad (lisada juurde vajalik arv ridu)
2
1. ja 2. etapi tegevuste elluviimisega seotud uuringu läbiviijad:
1. Eesnimi: Marek
Perekonnanimi: Oja
Ametikoht: terviseinformaatika teadur
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
2. Eesnimi: Markus
Perekonnanimi: Haug
Ametikoht: terviseinformaatika nooremteadur
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
3. Eesnimi: Harry-Anton
Perekonnanimi: Talvik
Ametikoht: terviseinformaatika nooremteadur
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
4. Eesnimi: Hendrik
Perekonnanimi: Šuvalov
Ametikoht: terviseinformaatika nooremteadur
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
5. Eesnimi: Maria
Perekonnanimi: Malk
Ametikoht: terviseinformaatika nooremteadur
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
6. Eesnimi: Ami
Perekonnanimi: Sild
Ametikoht: terviseandmete insener-analüütik
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
7. Eesnimi: Sirli
Perekonnanimi: Tamm
Ametikoht: programmeerija
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
8. Eesnimi: Kaire
Perekonnanimi: Koljal
Ametikoht: programmeerija
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
3
9. Eesnimi: Sander
Perekonnanimi: Kütisaar
Ametikoht: süsteemiadministraator
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut, teadusarvutuste keskus
2. etapis lisanduvad veel järgmised teadusuuringu läbiviijad
10. Eesnimi: Kerli
Perekonnanimi: Mooses
Ametikoht: terviseinformaatika teadur
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
11. Eesnimi: Taavi
Perekonnanimi: Tillmann
Ametikoht: rahvatervishoiu kaasprofessor
Organisatsioon: Tartu Ülikool, peremeditsiini ja rahvatervishoiu instituut
12. Eesnimi: Kunnar
Perekonnanimi: Kukk
Ametikoht: terviseinformaatika nooremteadur
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
13. Eesnimi: Õie Renata
Perekonnanimi: Siimon
Ametikoht: terviseinformaatika nooremteadur
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
14. Eesnimi: Maarja
Perekonnanimi: Pajusalu
Ametikoht: terviseinformaatika nooremteadur
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
15. Eesnimi: Anton
Perekonnanimi: Vykhovanets
Ametikoht: terviseinformaatika nooremteadur
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
16. Eesnimi: Kermo
Perekonnanimi: Saarse
Ametikoht: terviseinformaatika nooremteadur
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
4
17. Eesnimi: Helene
Perekonnanimi: Loorents
Ametikoht: programmeerija
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
18. Eesnimi: Nikita
Perekonnanimi: Umov
Ametikoht: nooremteadur
Organisatsioon: Tartu Ülikool, peremeditsiini ja rahvatervishoiu instituut
19. Eesnimi: Laura
Perekonnanimi: Lõo
Ametikoht: nooremteadur
Organisatsioon: Tartu Ülikool, peremeditsiini ja rahvatervishoiu instituut
20. Eesnimi: Neeme
Perekonnanimi: Ilves
Ametikoht: spetsialist
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
5. Uuringu finantseerimine
Finantseerimise allikad ● SA Eesti Teadusagentuuri rahastatud Personaalse uurimistoetuse rühmagrant “Kliiniliselt oluliste radade tuvastamine terviseandmetest” (PRG1844, jaan 2023 – dets 2027). Vastutav täitja: Jaak Vilo. Eelarve: 1 350 000 EUR.
● SA Eesti Teadusagentuuri rahastatud grant SLTAT24173 (TK213U6) "Eesti Tehisintellekti Tippkeskus" (EXAI) (terviseinformaatika alamprojekt) (01.01.2024−31.12.2030); Vastutav täitja: Jaak Vilo; Eelarve: 525 222 EUR.
● SA Eesti Teadusagentuuri rahastatud temaatilise teadus- ja arendusprogrammi projekt “Terviseandmete teisese kasutamise võimekuse kasvatamine” (TEM-TA72, jaan 2024 - dets 2028). Vastutav täitja: Raivo Kolde. Eelarve: 1 350 000 EUR.
● Teadusarvutuste ja andmete säilitamiseks kasutatakse taristut Eesti Teadusarvutuste Infrastruktuur (ETAIS), mida toetab Haridus- ja Teadusministeerium otse Eesti Teadusarvutuste Infrastruktuuri ja Eesti Hariduse ja Teaduse Andmesidevõrgu kaudu1. ETAIS tegevustoetuse maht on 305 000 EUR aastas.
Viited:
1. Riikliku tähtsusega teadustaristu toetamine (07.10.2023), Riigi Teataja I. Kasutatud 19.08.2024, https://www.riigiteataja.ee/akt/104102023006
5
Uuringu üldmaksumus (summa) Alusandmestik on vajalik projektide PRG1844, TK213U6 ja TEM–TA72 eesmärkide saavutamiseks. Eesseisval perioodil (3a) on nende projektide tegevused planeeritud teadustööks loodaval andmestikul. Seepärast hindame projekti kogumaksumuseks ~1,8 mln EUR.
Uuritavale kompensatsiooni maksmine (jah, ei, põhjendus ja summa)
Ei, loodav andmestik ja terviseuuringud põhinevad päriselu andmete teisesel kasutusel, uuritavatega ühendust ei võeta.
Uuritavate kindlustus (jah, ei, kindlustaja ja poliis) Ei
6. Uuringu läbiviimise aeg (algus ja lõpp kuu ja aasta täpsusega)
Uuring viiakse läbi oktoober 2024 - detsember 2027. Lisaks arhiveeritakse andmed üheks aastaks peale uuringu lõppu, et vajadusel võimaldada arhiveerimisperioodil retsenseerimisel olevate teadusartiklite analüüsi täiendamine. Andmed hävitatakse hiljemalt 31. detsembriks 2028.
7. Teave sama uuringu projekti varasema või samaaegse hindamise kohta (sh teistes riikides)
EST-Health-30 projekti on varasemalt menetletud, kuid käesolevat uuringutaotlust on täpsustatud eesmärgi, andmetöötlustoimingute, uuringu perioodi jt aspektides lähtudes andmeandjatega toimunud aruteludest.
8. Lühiülevaade siiani samal teemal tehtud uuringutest (kuni 900 tähemärki, 0,5 lk)
Avatud teaduskoostöö organisatsiooni OHDSI loodud ja edasiarendatavate OMOP (Observational Medical Outcomes Partnership) andmemudelil põhinevate rahvusvaheliste terviseuuringute arv on viimastel aastatel hüppeliselt kasvanud. Neid on avaldatud väga erinevatel teemadel - näiteks on uuritud nii rasvumist, põlveliigese vahetust, reumatoidartriiti kui ka koroonapatsiente1,2,3,4. Ka käesoleva uuringu meeskonnal on pikaaegne kogemus sarnaste OMOP andmemudelil põhinevate terviseuuringute läbiviimisel. Näiteks EHDEN projektis osaleb meeskond aktiivse partnerina OMOP mudeli ja analüüsimeetodite arendamisel ning nende populariseerijana Euroopas5,6. Projektis “Masinõppe ja AI toega teenused” lõime käesoleva taotluse raames loodava andmestikuga sarnase, kuid väiksemas mahus (valimi suurus 10%, ei sisaldanud andmeid vähiregistrist, surma põhjuste registrist) kvaliteetse andmestiku 2012.-2019. aasta terviseandmetel7,8,9,10. Lisaks varasemalt loodud andmestikku ei uuendatud. Sellest alates oleme taaskasutanud ja edasi arendanud Eesti terviseandmete jaoks spetsiifilisi automaatseid andmepuhastuse tehnikaid, mis on võimaldanud meil endal läbi viia uuringuid ja ka osaleda mitmesugustes rahvusvahelistes projektides. Heaks näiteks, on uuring, kus hindasime inimese papilloomiviiruse (HPV) tüüpide levimust Eestis tuginedes tekstikaevega tervisedokumentidest eraldatud HPV testi tulemustele8. Meie senise töö ja Eesti terviseandmete kvaliteeti näitab ka see, et DARWIN projektis valis Euroopa Ravimiamet meid üheks kvaliteetseks andmepartneriks, mille tulemusel kasutatakse Eesti OMOP kujule viidud Eesti Geenivaramu terviseandmestikku ühena teiste seas ravimite reguleerimisega seotud küsimuste uurimiseks11. OPTIMA projektis analüüsime Eesti terviseandmeid organkasvajatega patsientidele optimaalse ravi leidmiseks. Seniste uuringute tulemusi on avaldatud nii Eesti kui rahvusvahelistes teadusajakirjades, postritel kui ettekannetel, samuti uurimisgrupi töös osalenud üliõpilaste lõputöödes.
Viited:
1. https://doi.org/10.1101%2F2020.04.22.20074336 2. https://doi.org/10.1038/s41366-021-00893-4 3. https://doi.org/10.1136/bmj.n1038 4. https://doi.org/10.1101/2020.12.14.20240994 5. http://dx.doi.org/10.1093/jamiaopen/ooac021 6. https://doi.org/10.1016/j.semarthrit.2022.152050 7. https://www.etag.ee/wp-content/uploads/2022/05/RITA_MAITT_LOPPARUANNE_FINAL.pdf
6
8. http://dx.doi.org/10.1001/jamanetworkopen.2022.54075 9. http://dx.doi.org/10.1038/s41598-023-38691-9 10. https://eestiarst.ee/kroonilise-neeruhaiguse-levimus-eesti-e-tervise-andmete-alusel/ 11. https://cs.ut.ee/et/sisu/tartu-ulikool-osaleb-andmepartnerina-andmeanaluusi-ja-tavaandmete-uurimisvorgustikus-darwin
9. Planeeritava uuringu põhjendus ning uurimisküsimused ja/või hüpoteesid (kuni 1800 tähemärki, 1 lk)
7
Meditsiinis ja rahvatervises on otsuste tegemiseks vaja laiapõhjalistel teadusuuringutel põhinevat tõendust. Uuringute tarvis on reeglina vaja esinduslikke andmeid, mis on võimalikult värsked ja samal ajal piisavalt pika aegreaga. Näiteks on värskeimad andmed (sh imikute ja vastsündinute kohta) vajalikud vastamaks küsimustele, mis puudutavad terviseteenuse osutamise hetkeseisu, uute ravimeetodite kasutust ja efektiivsust ning tervisesüsteemi vastust erinevatele hiljutistele sündmustele. Usaldusväärsemate ennustusmudelite loomiseks, haiguse arengu, ravi efektiivsuse, erinevate ravitrajektooride jms hindamiseks on vajalik vaadelda pikemaid ajaperioode.
Ajakohastel andmetel tugineva tõenduse leidmiseks kasutatakse järjest enam päriselu terviseandmete teisesel kasutusel põhinevaid uuringuid. Tänu Eesti unikaalsele tervishoiuandmete korraldusele on võimalik ühendada patsiendi tervist puudutavad olulised komponendid haiguste (Tervise infosüsteem, vähiregister), ravimite (retseptikeskus), tarbitud teenuste ja kindlustuskaitse (Tervisekassa andmekogu) ning surma põhjuste kohta. Nende andmetel OMOP andmemudelil põhinevate terviseuuringute läbiviimisel on Eesti tervishoiuvaldkonnale ja ühiskonnale laiemalt mitmekordne kasu. Nii aitab igapäevase tervishoiuvaldkonna toimimise raames salvestatud andmete taaskasutamine ühelt poolt hoida kokku andmete kogumisele kuluvat aega ja raha ning teisalt annab kõige täpsema ülevaate tegelikest protsessidest ja trajektooridest erineva terviseseisundi, soo ja vanusega isikutel. Oluline on siinjuures, et terviseandmete teisese kasutamise korral ei suurene patsientide uuringu koormus kuna kasutatakse varasemalt kogutud retrospektiivseid andmeid. Terviseandmete teisene kasutamine võimaldab ilma lisakoormust põhjustamata analüüsida ja osutada efektiivsemalt tervishoiuteenuseid patsiendi gruppidel, kellel traditsiooniliste teadusuuringute tegemine ei ole eetilistel kaalutlustel võimalik (näiteks ravimite mõju lastele või rasedatele1). Kaasates analüüsi infot patsiendi kogu raviajaloo kohta pikema aja vältel, mitte ainult uuritava haigusega seotud tegevuste kohta, võib-olla võtmetähtsusega oluliste seoste avastamisel. Lisaks on taotletava teadusuuringu käigus 30% valimi peal välja töötatud meetodid andmekvaliteedi parandamiseks rakendatavad ka teistes teadusuuringutes ning riiklikes andmebaasides kogu rahvastiku andmetel. Taotletav teadusuuring loob eeldused, et päriselu terviseandmeid saaks Eestis laiemalt kasutada ning aitab parandada tervishoiuteenuste kvaliteeti, tervishoiusüsteemi efektiivsust ning toetada tervishoiupoliitiliste tõenduspõhiste otsuste tegemist, toetades seeläbi rahvastiku tervise arengukava 2020-2030 elluviimist. Kvaliteetsem tervishoiusüsteem omakorda toetab tervelt elatud eluaastate suurenemist.
Taotletav teadusuuring koosneb kahest etapist:
1. etapp: alusandmestiku loomine ja andmekvaliteedi tõstmise meetodite arendamine
Alusandmestiku loomisel pannakse kokku ja ühtlustatakse tervise infosüsteemist, Tervisekassa andmekogust, retseptikeskusest, vähiregistrist ja surma põhjuste registrist pärit andmed. Erinevad andmebaasid kajastavad erinevaid aspekte sama patsiendi raviteekonnast. Seetõttu on võimalik saada tervikpilt raviprotsessist vaid kõikide vajalike andmete ühendamise teel. Ülekatted andmeallikate vahel võimaldavad ka süstemaatiliselt hinnata algandmete kvaliteeti ja -hõivet, mis paljuski sõltuvad nende kogumise eesmärgist ning tehnilisest võimekusest ja digitaliseerituse astmest andmete kogumise hetkel. Näiteks saame alusandmestiku loomisel hinnata kui paljude patsientide kohta on olemas vajalik informatsioon, kui suur osa tehtud mõõtmistest on andmetes kajastatud, kas ja kuidas on puuduvad mõõtmised kallutatud või kui usaldusväärsed on diagnoosid. Kuna valim on piisavalt suur ja esinduslik, siis saadud tulemused üldistuvad kogu Eesti terviseandmetele.
Tuginedes oma varasemale teadustööle analoogsete OMOP andmebaaside loomisel teame, et on mitmeid viise kuidas andmehõivet ja -kvaliteeti läbi erinevate andmepuhastamise protseduuride tõsta. Näiteks enne andmete analüüsimist teostame täiendava anonümiseerimise vabatekstilistes andmeväljades, et eemaldada võimalikud nimed, telefoninumbrid, isikukoodid, aadressid jms. Sellega vähendame isikute tuvastamise riski. Teadusuuringu käigus on plaanis juba olemasolevat anünomiseerjat veelgi tõhustada. Lisaks on üheks väljakutseks tervise infosüsteemi andmete kasutamisel vabatekstilistes andmeväljades oleva olulise terviseinfo eraldamine, struktureerimine ja standardimine. Vabatekstilistes väljades andmeanalüüsiks oluline informatsioon võib esineda lihtsamini eraldataval kujul, nagu näiteks vererõhu, kehakaalu ja pikkuse mõõtmised, kui ka keerukamal kujul, nagu patsiendi kaebused või harjumuste kirjeldused, kus on oluline mõista ka teksti sisu. Selleks, et veelgi rohkem ja efektiivsemalt leida üles erinevate uurimisküsimustega seotud infot vaba tekstist on oluline arendada vastavaid meetodeid, sh tehisintellekti ja tekstikaeve meetodeid, keerukamate olukordade jaoks, mis vajaliku informatsiooni eraldaks ning viiks selle struktureeritud ja standardiseeritud kujule. Töötades järjepidevalt samal andmestikul, on võimalik erinevate uurimisküsimuste lahendamisega andmekvaliteeti märgatavalt parandada. Töö käigus välja töötatud metoodikad loovad eeldused järgnevate uuringute paremaks läbiviimiseks ning on
8
hiljem rakendatavad ka tervise infosüsteemis olevate andmete parandamiseks. Loodud metoodikate rakendamine toetab ka Eesti teadus- ja arendustegevuse, innovatsiooni ning ettevõtluse (TAIE) arengukava 2021-2035, kus üheks juhtmõtteks on liikumine teksti- ja dokumendipõhiselt terviseandme mudelilt üle andmepõhisele mudelile. Taotletavas teadusuuringus loodavaid andmepuhastustehnikaid on võimalik kasutada ka uue põlvkonna tervise infosüsteemi loomisel ja arendamisel.
Andmete esitus algandmeallikates on läbi aja muutunud ja arenenud. Näiteks Tervisekassa tervishoiuteenuste loetelu uuendatakse iga kolme kuu järel ning pikema aegrea puhul ei pruugi erinevatest laboritest pärinevad mõõtmised olla samamoodi kodeeritud. Et uuringud saaks läbi viia võimalikult pikas ajaaknas, tuleb andmete kodeering viia ühtsele standardile. Selle protsessi käigus tuleb luua üleminekutabelid, kus algallikates esinevad koodid on esitatud standardselt. Nende loomisel kombineeritakse tekstikaeve, klasterdamise ja automaattõlke vahendeid manuaalse inspektsiooni ning kliinilise ekspertiisiga. Tulemuseks saadud üleminekutabelid võimaldavad automatiseerida andmete standardkujule viimist nii antud andmestiku uuendamisel kui ka täiesti uutes uuringutes. Samas on andmehõive ja -kvaliteedi parandamine iteratiivne protsess, kuna erinevate haigustega seotud uuringutes osalemisel tulevad ilmsiks uued kitsaskohad. Seetõttu on andmekvaliteedi tõstmise juures oluline andmeid kasutada võimalikult paljudes ja erinevates uuringutes.
Linkimise, puhastamise ning eelnevalt toodud lähenemiste rakendamisel viime erinevatest allikatest pärit andmed ühtsele OMOP andmemudelile, kus iga kirje on rahvusvaheliselt defineeritud standardkujul. Andmete OMOP kujule viimine teeb võimalikuks nende analüüsi juba suure hulga olemasolevate analüüsitööriistadega, mis muu hulgas võimaldavad keerukate kohortide loomist ning jagamist, patsiendigruppide kirjeldamist, ennustusmudelite treenimist ja palju muud. Nii saab uuringuid läbi viia ka hajutatult ehk täiendavate uurimisküsimuste lahendamisel (millele küsitakse eraldi EBINi ja andmeandjate nõusolek) ei anta uutele isikutele ligipääsu andmetele vaid algne uuringumeeskond jooksutab läbi uuringu koodi ning edastab vaid agregeeritud tulemused. 2. etapi uuringu läbiviijad saavad andmetele ligipääsu vajaduspõhiselt jälgides minimaalsusprintsiipi läbi Eesti Teadusarvutuste infrastruktuuri hallatava turvalise töötlemiskeskkonna, kus kõikide kasutajate kõik tegevused logitakse.
Eesti riiklike terviseandmebaaside omanikud on teinud avalikult kättesaadavaks erinevat riikliku tervisestatistikat, mis annab mõningase ülevaate valitud tervisesündmuste toimumistest ja tervishoiuteenuste tarbimisest. Näitek TAI tervisestatistika ja terviseuuringute andmebaasis (statistika.tai.ee) on esmashaigestumuse info valitud RHK-10 peatükkide ja alampeatükkide kohta avaldatud kuni 2016 aastani ning hilisema perioodi avalik statistika puudub. Uuringute paremaks planeerimiseks ja teostatavuse hindamiseks on vaja detailsemat infot, kus on kombineeritud mitme andmepunkti ja andmeallikat ning võetud arvesse sündmuste toimumise omavahelisi ajalisi seoseid. Näiteks südameveresoonkonna haiguste ennetamiseks on oluline teada üle 40 aasta vanuste patsientide hulka, kellel on kolesterooli tase üle normi, kuid statiinipõhiseid ravimeid pole välja kirjutatud. Selleks on vaja andmeid labori analüüsidest (Tervise Infosüsteem) ja retsepikeskusest (Tervisekassa). Adresseerimaks seda puudujääki, plaanime põhjalikult kirjeldada loodud andmestikku läbi erinevate numbriliste näitajate ja teostatavusanalüüsi detailsusastmel säilitades k ≥ 5 anonüümsus. Selline ülevaade esinduslikust populatsioonipõhisest andmekogumist on väärtuslikuks vahendiks tervishoiupoliitika kujundajatele ja -teenuse osutajatele ning uute uuringute planeerimisel ja teostatavuse hindamisel.
1. etapi eesmärgid kokkuvõtvalt on: 1.1. Hinnata valimi põhjal Eesti terviseandmete kvaliteeti ja hõivet võrreldes erinevatest
andmeallikatest pärinevat informatsiooni. 1.2. Andmekvaliteedi ja andmehõive tõstmise meetodite sh tehisintellekti-, tekstikaeve- ja
imputatsioonimeetodite arendamine. 1.3. Tervisesündmuste esituse ühtlustamine rahvusvahelistele standarditele üle aja ja
andmeallikate, sh kasutades tekstikaeve, klasterdamise ja automaattõlke meetodeid 1.4. Arendatavad meetodid on hiljem rakendatavad ka uutes uuringutes, suurematel
andmehulkadel ning riiklikes infosüsteemides andmekvaliteedi ja -hõive parandamiseks. 1.5. Standardiseeritud ja ühtlustatud andmestiku loomine ja kirjeldamine teadusuuringute
läbiviimiseks. Andmestikku kirjeldatakse läbi erinevate numbriliste näitajate ja teostatavusanalüüside senisest suuremal detailsusastmel.
2. etapp: teadus- ja rakendusuuringute teostamine uurimistetoodikate arendamiseks Eesti terviseandmetel
9
Enamasti kasutatakse teadusuuringutes ad hoc metoodikat, mis on optimeeritud konkreetsetele andmetele ja uurimisküsimustele ning mis ei üldistu uutele küsimustele ega ole kasutatavad sama uuringu kordamiseks teisel andmestikul. Selline lähenemine, kus samasid protseduure leiutatakse iga uuringu grupi poolt uuesti, on aega jt ressursse raiskav ning tingitud andmete vähesest standardiseeringust. Tänu OMOP andmemudeli laiemale levikule on võimalik luua terviseandmetele analüüsitööriistu, mis töötavad universaalselt sõltumata uuringu all olevast haigusest või patsiendi grupist. Juba OMOP platvormile arendatud arvutuslik taristu demonstreerib, et selline lähenemine kiirendab analüüsiprotsessi ning muudab seda läbipaistvamaks ja kvaliteetsemaks. Siiski on palju uurimisküsimusi, kus olemasolevast metoodikast ei piisa. Näiteks puudub nii ravitrajektooride kui ka -teekondade kirjeldamise ja modelleerimise jaoks üldistatud metoodika. Samas on Tervisekassa üheks eesmärgiks kiirendada ja laiendada raviteekondade kasutuselevõttu Eesti tervishoiusüsteemis ja seeläbi muuta pakutavaid tervishoiuteenuseid inimkesksemaks ja integreeritumaks ning toetada efektiivset ressursikasutust2. Üldistatud metoodika puudumine tähendab, et iga uue raviteekonna kirjeldamisega tegelev töörühm peab töötama välja olukorra kirjeldamise metoodika. Esinduslikul andmebaasil rakendatava standardse metoodika välja töötamine kiirendab ja optimeerib raviteekondade valmimise protsessi ning toetab Tervisekassa eesmärkide täitmist.
Taotletava teadusuuringu 2. etapi üks eesmärk on arendada standardseid analüüsimeetodeid, mis on rakendatavad sõltumata uuringu all olevast haigusest või patsiendi grupist. Meetodite arendusel on oluline, et loodud meetodid on efektiivsed ja rakendatavad erinevate kliiniliste küsimuste puhul. Selleks testime erinevaid analüüsimeetodeid nii laialt üle erinevate haiguste ja patsiendigruppide kui ka läheme sügavuti konkreetsetesse kliinilistesse domeenidesse. Kõikide uuringute puhul kaasame ka kliinilised eksperdid, kes aitavad tulemusi konteksti panna ning tagavad uuringutulemuste rakendatavuse. Tulenevalt käimasolevatest teadusprojektidest (vt pt 5 Uuringute rahastamine) keskendutakse taotletava teadusuuringu raames ravijärgimuse, ravitrajektooride ja -teekondade ning personaliseeritud ennetusmeetoditega seotud analüüsimeetodite arendamisele.
2. etapi eesmärgid kokkuvõtvalt on: 2.1. Arendada haigustrajektooride ja raviteekondade analüüsi metoodikaid kasutades sh
tehisintellekti meetodeid, et kirjeldada praeguseid ravipraktikaid, võrrelda neid raviteekondade ja -juhenditega ning modelleerida tervisetulemeid ja ravi majanduslikku mõju.
2.2. Analüüsida erinevate faktorite (nt sugu, vanus, erinevad haigused) mõju ravijärgimusele, hinnata ravijärgimuse mõju erinevatele tervisetulemitele ja luua personaalseid ennustusmudeleid, mis võimaldavad maandada ravi mittejärgimise riske.
2.3. Arendada personaliseeritud ennetusmudeleid, mis võimaldavad vaatlusandmete põhjal tuvastada praeguste haiguse ennetuste ja ravipraktikate kitsaskohti, planeerida senisest paremini haiguste ennetustegevusi ja hinnata pakutud ennetusteenuste majanduslikku mõju
Täiendavate uurimisküsimuste tekkimisel nii EST-Health-30 kui ka kolmandatest isikutest uuringu läbiviijate poolt esitatakse igakordselt Eesti bioeetika ja inimuuringute nõukogule ja andmeandjatele uus uuringutaotlus uurimisküsimuste vastavuse hindamiseks käesoleva uuringutaotluse eesmärkidega. Kui täiendav uuring kooskõlastatakse, tagavad EST-Health-30 vastutavad uurijad, et konkreetse projekti uurimismeeskond saab ligipääsu vaid EST-Health-30 andmestiku osale, mis on vajalik vastava uurimisküsimuste lahendamiseks (lähtudes võimalikult väheste andmete kogumise põhimõttest). Selleks võimaldatakse uurimismeeskonnale ligipääs EST-Health-30 andmestikule Tartu Ülikooli hallatava turvalise töötlemiskeskkonna kaudu.
Viited:
1. Dodd C, Andrews N, Petousis-Harris H, Sturkenboom M, Omer SB, Black S. Methodological frontiers in vaccine safety: qualifying available evidence for rare events, use of distributed data networks to monitor vaccine safety issues, and monitoring the safety of pregnancy interventions. BMJ Glob Health [Internet]. 2021 May;6(Suppl 2). Available from: http://dx.doi.org/10.1136/bmjgh-2020-003540
2. Eesti Tervisekassa. https://tervisekassa.ee/raviteekondade-arendamine
10. Uurimismetoodika (kuni 1800 tähemärki, 1 lk)
10
Valim ja uuringuperiood
Andmetiku aluseks on 30% juhuvalim Eestis alates 2012. aastast tervishoiuteenuseid tarbinud Eesti elanikest (andmesubjektid). Nende andmesubjektide kohta saadakse pseudonüümitud andmed alates 2012 kuni 2026 aastani Tervisekassa andmekogust, retseptikeskuse andmekogust, Tervise Infosüsteemist, surma põhjuste registrist ja vähiregistrist.
Eelnevalt peatükis 9. “Planeeritava uuringu põhjendus ning uurimisküsimused ja/või hüpoteesid” kirjeldatud eesmärkide saavutamiseks tuleb luua võimalikult pika perioodiga laiapõhjaline andmestik. Andmete vaatlemine üle pika ajaperioodi võimaldab analüüsida tervisesündmuste esituse ja kvaliteedi arengut läbi aja ning uurida terviklikke haigustrajektoore alates ennetustegevustest, esmasdiagnoosist, raviteenuste osutamisest lõpptulemini. Tuginedes uurimisühma varasemale kogemusele teame, et planeeritavateks uuringuteks vajaliku detailsusastmega terviseandmed on Eestis olemas alates 2012. aastast. Värskeimad andmed (sh imikute ja vastsündinute kohta) on vajalikud vastamaks küsimustele, mis puudutavad terviseteenuse osutamise hetkeseisu, uute ravimeetodite kasutust ja efektiivsust ning tervisesüsteemi vastust erinevatele hiljutistele sündmustele. Samuti on laiem andmestiku ajaraam vajalik, et hinnata riskimudelite 10-aastast ennustusvõimet vastavalt rahvusvaheliselt levinud praktikale.
Laiapõhjalisus võimaldab hinnata andmekvaliteeti üle paljude haiguste ja tagab, et loodud andmetöötlusmeetodid üldistuvad uutele uuringutele sõltumata vaatluse all olevast haigusest ja patsiendi grupist. Lähtuvalt 1. ja 2. etapi eesmärkidest ei saa teadusuuringut viia läbi üksikute diagnooside, vanuse ega muude parameetrite järgi kitsendatud andmestikul. Iga piirang vähendab andmestiku esinduslikkust üldpopulatsiooni suhtes ja muudab arendatavad meetodid mitteüldistuvaks, piirates loodud meetodite nii kasutamist järgnevates uuringutes kui ka rakendatavust tervise infosüsteemi andmekvaliteedi tõstmisel.
Projekti “Tehisintellekti kasutamise võimalused meditsiinis”1 raames kasutasime 10% juhuvalimit 2012.-2019. aasta andmetest. Projekti käigus saime kinnitust, et erinevate riiklike terviseandmebaaside ühendamine ja laiapõhjalise terviseajaloo kasutamine annab olulist lisandväärtust andmete analüüsis. Näiteks koostöös Naistearstide seltsiga hindasime emakakaela vähi ennetuspraktika vastavust ennetusjuhendile2 ja erinevate papilloomviirustüvede levikut Eestis3. Siiski ilmnesid 10% juhuvalimil koostatud andmestiku kasutamisel ka olulised kitsaskohad. Esiteks, oli andmestiku ajaraam liiga lühike, et vastavalt rahvusvahelistele prakikatele hinnata riskimudelite 10-aastast ennustusvõimet. Kuna andmestikku ei uuendatud, puudus info uute haiguste (nt COVID-19), ravipraktikate ning nende esituse ja andmekvaliteedi kohta. Näiteks seetõttu ei olnud võimalik ravijuhendite arendamisel teha koostööd ravijuhendite püsisekretariaadiga (https://tervis.ut.ee/et/ravijuhendid) ega panustada rahvusvahelistesse Euroopa Ravimiameti uuringutesse. Kõige olulisemana aga oleme korduvalt näinud, et 10% juhuvalim on liiga väike mitmete haigusseisundite või detailsemalt defineeritud kohortide uurimisel. Näiteks eesnäärmevähi rahvusvahelises uuringus osaledes saime vastused vaid osadele uurimisküsimustele, sest täpsemate tervisetulemite analüüsimiseks jäi valim liiga väikeseks4.
Vajalik patsientide arv sõltub väga uurimisküsimusest ning ka ühe uuringu sees võib see erineda, kuid arvestades patsientide kliinilise pildi varieeruvust ja retrospektiivsete terviseandmete kvaliteeti, oleks hinnanguliselt minimaalne vajalik patsientide arv uuringute jaoks sadades kuid veel parem üle tuhande. Oleme välja arvutanud, et taotletava ajaperioodi ja andmete ulatuse korral on 10%-lise juhuvalimiga andmestikus diagnoose, mida esineb vähemalt tuhandel patsiendil 175, samas kui 30%-lises juhuvalimi korral on selliseid diagnoose ligi kaks korda rohkem - 330 diagnoosi (joonis 1). Suurema valimi korral suureneb oluliselt saadavate tulemuste statistiline usaldusväärsus ja samas ka haiguste hulk, millel saame välja töötatud meetodeid rakendada.
Selle analüüsi põhjal näeme, et teadusuuringule seatud eesmärkide saavutamiseks on minimaalne valimi suurus 30%.
11
Joonis 1. Vähemalt 1000 patsiendil esinevate diagnooside arvu sõltuvus juhuvalimi suurusest, mis on võetud taotletava ajaperioodi ja andmete ulatusega Eesti terviseandmetest.
Andmete väljastamine, uuendamine ja säilitamine
Esimene väljastusel toimub 2024. aasta oktoobris, kui uurimisgrupile väljastatakse räsi abil pseudonüümitud andmed 2012-2023 aastate kohta. Depseudonüümimise võtit ehk räsifunktsioonis kasutatavat räsiparooli uurimisgrupile ei väljastata. Andmeid uuendatakse regulaarselt, kuid mitte tihedamini kui kord aastas, et mitte üle koormata Eesti tervishoiuandmete eest vastutavate asutuste nagu TEHIK ja Tervisekassa andmeväljastuse võimekust. Andmete uuendamine toimub järgmiselt:
● 2024 aasta andmed väljastatakse andmed 2025. aasta I kvartalis ● 2025 aasta andmed väljastatakse andmed 2026. aasta I kvartalis ● 2026 aasta andmed väljastatakse andmed 2027. aasta I kvartalis
Täpne väljastatav andmekoosseis on toodud taotluse lisas 1. Andmekoosseisu defineerimisel lähtusime eelnevate uuringute kogemusest ning kaasasime tunnused, mis on tüüpiliselt vajalikud andmete OMOP kujule viimiseks ja erinevate terviseuuringute läbiviimiseks. Andmete OMOP kujule viimiseks ja puhastamiseks kasutatakse varasemates projektides loodud tarkvara ja töövoogusid, mida projekti raames täiendatakse vastavalt vajadusele. See tagab projekti kiire käivitamise ning iga-aastase ladusa andmete uuendamise.
Andmeid uuendatakse samamoodi nagu toimus algne andmete edastamine ehk kasutatakse sama räsifunktsiooni ja räsiparooli. Andmete uuendamise käigus isikute arv valimis suureneb, kuna andmestikku lisanduvad sünnid ja isikud, kellel varasemalt isikukood puudus. Nende andmete lisamine on oluline, sest see aitab tagada, et igal uuringu aastal on valimis 30% rahvastikust. Uute sündide lisamine võimaldab hinnata imikute ja väikelastega teostatud ravipraktikate muutust ajas ning seeläbi panustada haavatavate rühmade raviteenuste kvaliteedi parandamisse kasutades neid vähekoormavaid uurimismeetodeid.
Peale projekti lõppemist (dets 2027) andmed arhiveeritakse üheks aastaks, et vajadusel võimaldada arhiveerimisperioodil retsenseerimisel olevate teadusartiklite analüüsi täiendamine. Andmed hävitatakse hiljemalt 31. detsembriks 2028 kasutades hävitamise ajahetkel parimat kasutusolevat praktikat vastavalt rakendatavale infoturbestandardile (IS0/IEC 27001). Andmete hävitamine dokumenteerikse hävitamisaktis.
Andmete hoidmine ja töötlemine
Peame loodava andmestiku ja läbiviidava uuringu puhul esmatähtsaks isikuandmete kaitse ja infoturbe tagamist. Peamised ohud isikuandmete töötlemisele, nende juhtimiseks rakendatavad kaitsemeetmed ja ohuhinnangud on täpsemalt kirjeldatud lisas 2 “EST-Health-30 andmekaitsealane mõjuhinnang”. Andmekaitsealane mõjuhinnang vaadatakse üle ja ajakohastatakse iga olulise muudatuse puhul
12
andmetöötluse metoodikas ja korraliselt vähemalt kord aastas, et ajakohastada ja vajadusel täiendada ohuhinnangut ja rakendatavaid kaitsemeetmeid.
Uuringu andmetöötlus nõuab kõrget ekspertiisi ja tehnilisi lahendusi, et tagada andmete töötlemine keskeses turvatud infrastruktuuris ja välistada andmetöötlus juhuslikes ebaühtlase turbetasemega seadmetes. Koostöös Eesti Teadusarvutuste infrastruktuuriga (https://etais.ee) töötab uurimisgrupp infoturbe riskide maandamiseks välja minimaalsusprintsiipi tagava andmetele ligipääsu andmise protsessi ja paigutab loodava andmestiku turvalisse andmeanalüüsi serverisüsteemi (andmepuuri) SAPU (https://sapu.cs.ut.ee). Andmete hoidmisega SAPU-s väheneb oluliselt andmelekke risk rakendades andmete eksportimisele ranged piirangud ning logides kõiki andmetega tehtavaid tegevusi kasutaja tasandil kogu andmete säilitamise ja arhiveerimise perioodil. Andmeandjate pöördumisel ja arvestades kohalduvaid isikuandmete kaitse nõudeid, võimaldab uurimisgrupp kontrollida andmetöötluse logiandmeid. Andmete edasisel töötlemisel SAPUs ja uuringu eesmärkide täitmiseks kasutatakse OMOP mudeli jaoks loodud ja publitseeritud tööriistu (Atlas server, Usagi, Data Characterisation, PopulationLevelEstimation ja PatientLevelEstimation R-paketid, uurimisrühma arendatud tööriistad jt). Kusjuures Atlas server on OMOP andmemudelile loodud kohortide defineerimise tööriist, mis võimaldab patsiendigruppe defineerida ilma andmetele ligipääsu omamata.
SAPU serverist väljastatakse andmeid ainult vastutava uurija nõusolekul ja agregeeritud kujul nii, et on tagatud k ≥ 5 anonüümsus. SAPU serveris olevatele andmetele on ligipääs ainult käesolevas taotluses toodud uurijatel. Uurimisgrupp tagab, et andmetele ligipääs on vastavuses kehtiva seadusandlusega. Täiendavate uurimisküsimuste tekkimisel esitatakse Eesti bioeetika ja inimuuringute nõukogule ja andmeandjatele igakordseltuus taotlus. Kooskõlastatud uurimisküsimuste lahendamiseks võimaldatakse ligipääs andmetele lähtudes minimaalsuse printsiibist. Võimalusel viiakse lisandunud uuring läbi nii, et 1. etapi uurimisrühmale edastatakse uue uurimisküsimuse lahendamiseks kood. Uurimisrühm verifitseerib eelnevalt edastatud koodi turvalisuse ning seejärel rakendab koodi andmestikul. Vastutavad uurijad kontrollivad enne tulemuste tagastamist, et saadud tulemused on kooskõlas eetikakomitee antud loaga ja järgivad k ≥ 5 anonüümsuse printsiipi. Isikuandmetega seotud rikkumiste eest kaitsvate meetmete kohta vt p 15 ja taotlusele lisatud andmekaitsealast mõjuhinnangut (lisa 2). Teadusuuringu tulemused publitseeritakse nii Eesti kui ka rahvusvahelistes teadusajakirjades (eelistatult vabalt kättesaadavate artiklitena), konverentsidel ja ettekannetel, üliõpilaste lõputöödes. Andmestiku metakirjeldus (kirjeldus andmeväljade kohta, ei sisalda reaalseid andmeid) OMOP-andmekogude registritesse, (nt http://portal.ehden.eu). Teadusuuringu muid tulemeid (andmestikku kirjeldus, andmehõive statistika ja -hinnangud, andmete standardiseerimise ja tekstikaeve meetodid, üleminekutabelid, teadusuuringute kokkuvõtted jms) tutvustatakse soovi korral andmeandjatele ning otsitakse koostööviise tulemite rakendamiseks andmeandjate hallatavates andmekogudes.
1. etapi uurimisküsimuste metoodika
Teadusuuringute läbiviimiseks on vaja täpselt aru saada andmehõivest ja -kvaliteedist. Näiteks kui paljudel patsientide kohta on olemas vajalik informatsioon, kui suur osa tehtud mõõtmistest on andmetes kajastatud, kas ja kuidas on puuduvad mõõtmised kallutatud või kui usaldusväärsed on diagnoosid. Siin saame ära kasutada fakti, et erinevad andmeallikad kajastavad samu tervisesündmuseid erinevad detailsusastme ja kvaliteediga. Nii saame Tervisekassa andmekogu, retseptikeskuse andmekogu, Tervise Infosüsteemi, surma põhjuste registri ja vähiregistri andmeid ühildades anda hinnangud Eesti terviseandmete andmehõive ja -kvaliteedi kohta. Näiteks Tervise infosüsteemi epikriisides on vaid haigusloo kokkuvõte, mitte aga kõik teostatud uuringud ja analüüsid. Kasutades raviarvetel kajastuvat informatsiooni uuringute ja analüüside tellimise kohta, saame hinnata laborianalüüside andmehõivet ja raporteerimise kallutatust.
Läbi aastate on samasid tervisesündmusi ja teenuseid tähistatud erineva koodiga ehk kodeeritud erinevalt. Et uuringud saaks läbi viia võimalikult pikas ajaaknas, tuleb andmete kodeerimine üle viia ühtsele standardile. Siin lähtume OMOP andmemudeli poolt paika pandud andmestandardist erinevate andmetüüpide jaoks (nt SNOMED, RxNorm, LOINC) ning loome üleminekutabelid Eestis kasutatud koodidelt rahvusvahelisele standardile üle minekuks. Üleminekutabelite loomiseks kasutame nii automaatseid tekstikaeve ja klasterdamise meetodeid kui ka manuaalset ülevaatust ja vastava valdkonna kliinilist ekspertiisi. Loodud üleminekutabelid on rakendatavad ka andmeandmeandjate andmebaaside kvaliteedi ühtlustamiseks.
Terviseinfosüsteemi dokumentides on suur osa informatsioonist poolstruktureeritud kujul või vaba tekstina, eriti vanemate dokumentide puhul. Sellest faktide ja tervisesündmuste eraldamiseks arendame tekstikaeve töövoogu, mis esmalt teksti väiksemateks tükkideks lahutab, eemaldab duplikaadid ning lisab tekstiosadele kuupäevad. Seejärel rakendame juba konkreetseid faktieralduse meetodeid, mis aitavad täiendada struktureeritud kujul puuduvaid andmeid. Näiteks kolesterooli näitu veres hakati struktureeritud
13
kujul esitama alles 2016. aastast ning üleminek oli haiglati erinev. Varasemalt kajastati kollesterooli näitu tekstiväljas vabatekstina. Seega saab struktureeritud andmete kvaliteeti tõsta vabatekstist leitud andmetega ning seeläbi pikendada analüüsitavat aegrida. Standardsemalt esitatud faktide eraldamiseks saame me kasutada regulaaravaldisi, kuid keerukamate kontseptsioonide eraldamiseks tuleb arendada tehisintellekti meetodeid nagu BERT ja keelemudelid, mis suudavad eraldada fakte, mille puhul on oluline teksti kontekst ja mõttest aru saamine.
2. etapi uurimisküsimuste metoodika
Haigustrajektooride ja raviteekondade modelleerimisel on mitmeid väljakutseid, mis tulenevad peamiselt kliiniliste juhtumite keerukusest ning patsientide multimorbiidsusest. Keeruline on identifitseerida olulisi sündmuseid trajektooril, võrrelda tegelikke trajektoore ravijuhendite põhjal oodatavatega, automatiseerida trajektooride andmetest õppimist ning modelleerida trajektoore teostamaks majandusliku mõju analüüse. Uurimisgrupi teadustöö otsib neile probleemidele tehnilisi lahendusi. Näiteks uurime statistilist üleesindatust oluliste sündmuste tuvastamiseks, graafiesitusi haigustrajektooride kirjeldamisel ja Markovi-, masinõppe- ning keelemudeleid trajetooride simuleerimiseks ja sündmuste ennustamiseks. Kirjeldatud eesmärkideni jõudmiseks kasutame kaheastmelist lähenemisviisi. Esmalt läheneme üksikutele diagnoosidele nagu südamepuudulikus, aktiivsus- ja tähelepanuhäire, psühhoos ning viljatus, mille põhjal loodud meetodite rakendatavust analüüsime koos kliiniliste ekspertidega. Seejärel testime arendatud meetodite universaalsust rakendades neid paralleelselt laial hulgal haigusseisunditel. Seega, käesoleva teadusuuringu käigus loodavad meetodid ei ole optimeeritud ühelegi konkreetsele haigusele ning nende rakendamine laial diagnooside hulgal, sh erinevate kaasuvate haigustega patsientidel, võimaldab hinnata meetodite universaalsust ja ka süstemaatiliselt kirjeldada tegelikke raviteekondi Eestis.
Ravijärgimuse analüüsil keskendume ravijärgimuse kirjeldamisele üle ravimite, et identifitseerida seda mõjutavaid faktoreid, kirjeldada patsiendi põhist mõju ning ennustada tuleviku käitumist. Selleks arvutame ravijärgimuse näitajaid erinevate valimite kohaselt, uudse lähenemisena kasutame lineaarseid segamudeleid laiapõhjaliste mõjutegurite leidmiseks ning rakendame masinõppe ja tehisintellekti meetodeid tulevikukäitumise ennustamiseks. Süstemaatiline ravijärgimuse ja seda mõjutavate faktorite kirjeldamine, kasutades 30% Eesti elanike retseptiandmeid võimaldab teha üldistavaid järeldusi ravijärgimuse kohta, kirjeldada ajalisi trende ning identifitseerida riskifaktoreid.
Personaliseeritud ennetusteenuste arendus vajab suhteliselt sarnast tõendusmaterjali sõltumata meditsiinilisest probleemist. Südameveresoonkonna haiguste ja diabeedi näitel tuvastame praeguse ennetustegevuse kitsaskohad, analüüsides ravimikasutuse ja ravimite võrdlevat efektiivsust. Seejärel tuleb luua masinõppe mudelid, mis hindavad konkreetse haiguse riski. Samuti tuleb hinnata ennetusteenuse rakendamise majanduslikku mõju, milleks saab muu hulgas kasutada Markovi mudeleid ja seotud meetodeid. Antud projekti pikaajaline ja laiapõhjaline terviseandmestik loob suurepärase võimaluse selle töövoo testimiseks nii, et loodavad mudelid oleksid universaalsed ja üldistatavad erinevatele haigustele ning sihtrühmadele.
Praeguses etapis, kus arendame analüüsimeetodeid, on vaja kõiki taotletud andmeid püstitatud eesmärkide saavutamiseks. Täiendavate uurimisküsimuste tekkimisel esitatakse Eesti bioeetika ja inimuuringute nõukogule ja andmeandjatele hindamiseks uus taotlus ning nendele vastamiseks võimaldatakse andmetele ligipääs lähtuvalt andmete minimaalsuse printsiibist.
Viited: 1. https://www.etag.ee/wp-content/uploads/2022/05/RITA_MAITT_LOPPARUANNE_FINAL.pdf 2. Mooses K, Šavrova A, Pajusalu M, et al. Using electronic health records to evaluate the adherence to cervical cancer
prevention guidelines: A cross-sectional study. Preventive Medicine, 183, 2024, doi: 10.1016/j.ypmed.2024.107982 3. Oja M, Tamm S, Mooses K,et al. Transforming Estonian health data to the Observational Medical Outcomes
Partnership (OMOP) Common Data Model: lessons learned. JAMIA Open, 2023: 6 (4). DOI: 10.1093/jamiaopen/ooad100
4. Gandaglia G, Pellegrino F, Golozar A et al.Clinical Characterization of Patients Diagnosed with Prostate Cancer and Undergoing Conservative Management: A PIONEER Analysis Based on Big Data. European Urology, 2023. DOI: 10.1016/j.eururo.2023.06.012
11. Uuritavate valim ja värbamise viisi kirjeldus. Uuritavate informeerimise ja nõusoleku vormid, ankeetide, küsitluste ja testide vormid esitada taotluse lisadena.
14
Valimi suurus ja kontrollgruppide olemasolu Andmetiku aluseks on 30% juhuvalim Eestis alates 2012. aastast
tervishoiuteenuseid tarbinud Eesti elanikest. Valim sisaldab kontrollgruppi.
Aasta 2024 oktoobris väljastatakse andmed perioodi 01.01.2012-31.12.2023 kohta. Esimesel andmeväljastusel on valimisse kuuluvate isikute arv ligikaudu 380 000. Järgmised andmeväljastused toimuvad vastavalt: (1) 2024 aasta andmed väljastatakse andmed 2025. aasta I kvartalis; (2) 2025 aasta andmed väljastatakse andmed 2026. aasta I kvartalis; (3) 2026 aasta andmed väljastatakse andmed 2027. aasta I kvartalis. 2024-2027 toimuvatel andmeväljastustel väljastatakse uued andmed juba andmestikku kuuluvad isikute kohta. Lisanduvad andmed nende isikute kohta, kellel varasemalt isikukood puudus või kes esmakordselt vaatlusalusel perioodil tervishoiuteenuseid tarbisid ja kelle isikukood vastab räsifunktsiooniga seatud tingimustele. Täpsemalt on valiku suurust põhjendatud punktis “10. Uurimismetoodika”.
Kes värbab uuritavaid ja kuidas/kus/kelle poolt võetakse informeeritud nõusolek? (kui on asjakohane)
Käesolevas uuringus uusi isikuandmeid ei koguta ja andmesubjektidega ühendust ei võeta. Kasutatakse juba olemasolevaid terviseandmeid teadusuuringute läbiviimise eesmärgil.
Kuidas ja kelle hulgast toimub uuritavate valik? Millised on uuritavate kaasamise või väljajätmise kriteeriumid?
Tervisekassa valib juhusliku räsiparooli ja edastab selle krüpteeritult teistele andmeallikatele (TEHIK, TAI). Kõik andmeallikad kasutavad seda räsiparooli, et arvutada räsid oma andmekogudes olevatest isikukoodidest. Räsi iga sümbol on üks kuueteistkümnesümbolilisest hulgast: a-f või 0-9. Need jaotuvad ühtlaselt. Valimisse kuuluvad isikud, kelle räsi esimene sümbol kuulub hulka {a,b,c,d,e,f,0} ja teine sümbol hulka {a,b,c,d,e,f,0,1,2,3,4}. Sellisel juhul satub valimisse (7/16)*(11/16)*100=30.08% isikukoode. Räsi arvutamise protsess on täpsemalt kirjeldatud lisas 2 “EST-Health-30 andmekaitsealane mõjuhinnang”.
Räsi või tema osa kasutatakse ühtlasi isikute pseudonüümidena, sest ilma andmeväljastuses kasutatud räsiparooli teadmata ei ole neid võimalik tagasi isikukoodideks kodeerida. Tervisekassa poolt valitud räsiparooli uurimismeeskonnale ei väljastata, mille tõttu uurimismeeskond ei tea, kes täpselt valimisse kuuluvad. Meetme eesmärk on vähendada veelgi privaatsuse riive riski. Küll aga säilitavad andmeallikad räsiparooli kuni projekti perioodi lõpuni, et tagada andmete uuendamise võimalus.
Uuritavad valitakse räsipõhise juhuvalimi alusel Eestis alates 2012. aastast tervishoiuteenuseid tarbinud Eesti elanikest. Juhuvalimi kasutamine aitab vähendada valiku nihet, kuna kõikidel isikutel on sarnane tõenäosus valimisse sattuda1. Valimisse kaasamise kriteeriumid:
- omab Eesti isikukoodi, mis vastab räsifunktsioonile - on uuringuperioodil tarbinud tervishoiuteenuseid
Viited
1. Tyrer S, Heyman B. Sampling in epidemiological research: issues, hazards and pitfalls. BJPsych Bull. 2016 Apr;40(2):57-60. doi: 10.1192/pb.bp.114.050203.
Sekkumiste liik (füüsiline, vaimne või andmed, sh eriliiki isikuandmed)
Tegemist on teisese andmekasutusega, seega kasutatakse retrospektiivselt tervishoiuteenuste pakkumisel Eesti tervishoiu
15
infosüsteemidesse kogutud andmeid. Uuritavatelt täiendavaid andmeid ei koguta ja nendega ühendust ei võeta. Tegemist on eriliiki isikuandmetega.
Koormus uuritavale (kontaktivõtmise viisid, visiitide arv, uuringute tüüp ja arv, kutsete saatmise kordus jms)
Uuritavatele isikutele andmestiku loomine ega sellel läbiviidavad terviseuuringud lisakoormust ei põhjusta. Uuritavatelt täiendavaid andmeid ei koguta ja nendega ühendust ei võeta.
12. Koeproovide väljastamine kolmandatele osapooltele (RNA, DNA, plasma vms)
Mitme geenidoonori koeproove ja mis tüüpi koeproove väljastatakse?
0, koeproove ei kasutata.
Kui palju ühe geenidoonori kohta koeproove väljastatakse?
0, koeproove ei kasutata.
Kuhu koeproov väljastatakse (riik, asutuse nimetus, aadress)?
Koeproove ei väljastata.
Mida tehakse järelejäänud koeproovidega (kas ülejääk hävitatakse või saadetakse tagasi)?
Koeproove ei kasutata.
13. Uuringu eetiliste aspektide analüüs (3600 tähemärki, kuni 2 lk). Kõik uuringud, mille objektiks on inimesed, peavad olema läbi viidud, arvestades eetilisi nõudeid, eelkõige autonoomia austamise, heategemise ja kahju vältimise ning õigluse printsiipe. (https://www.coe.int/en/web/bioethics/guide-for-research-ethics-committees-members).
vt ka https://www.etag.ee/wp-content/uploads/2020/01/Eetika_Tabel_EST_2020.pdf
Uuritavate isikuandmeid töödeldakse isikuandmete kaitse üldmääruse (EL) 2016/679 artikkel 9(2)(j) ja isikuandmete kaitse seaduse (IKS) § 6 lõigete 1, 3 ja 4 alusel teadusuuringu läbiviimise eesmärgil. Isikuandmete töötlemise õigusliku aluse põhjalikum hinnang on toodud käesoleva taotluse lisas 2 “EST-Health-30 andmekaitsealane mõjuhinnang”, peatükis “töötlemise õiguslikud alused”.
Võrdse kohtlemise printsiip – käesolev projekt ei diskrimineeri kedagi rahvuse, soo, vanuse ega muu kuuluvuse alusel. Kõikide ühiskonna- ja vanusegruppide puhul on eesmärk toetada elukvaliteedi parandamist ja tervena elatud aastate arvu suurendamist. Juhuvalimi tõttu on kõikidel inimestel võrdne tõenäosus valimisse sattuda.
Heategemise printsiip – antud projektist saadav kasu on uuritavatele pigem kaudne, kuna alustatakse baasteadmiste loomisega ja otsene kliinilises praktikas kasutatav kasu haigusega tegelemiseks võib tekkida alles mitme aasta pärast. Seega saavad antud tööst kasu pigem tulevased patsiendid.
Kahju vältimise printsiip - Planeeritav projekt on kooskõlas mittekahjustamise printsiibiga, kuna uuring ei koorma patsiente ega põhjusta riske nende tervisele.
13 a Inimesed
Abiküsimused Ei Jah
Kas uurimisobjektiks on inimesed?
Jah, uurimisobjektiks on inimesed, kuid analüüs toimub olemasolevatel pseudonüümitud terviseandmetel, mille puhul vastavalt isikuandmete kaitse seadusele informeeritud nõusolekut vaja ei ole.
16
Kas uurimisobjektiks on haavatavad isikud või isikute grupid?
Kuna valim koostatakse üle kõigi Eesti inimeste, kuulub andmestikku ka haavatavaid isikuid. Samas mitmete haavatavate gruppide puhul, kes andmestikku satuvad (näiteks lapsed, rasedad, vaimsete häirete inimesed jt), saab teisene andmete kasutamine anda olulist infot ravi tõhustamiseks ilma täiendava uuringu koormuseta.
Kas uurimisobjektiks on isikud, kes ei saa ise anda teadlikku nõusolekut uuringus osalemiseks (sh piiratud teovõimega isikud)?
Andmestik luuakse olemasolevate pseudonüümitud terviseandmete teisesel kasutusel, mille puhul vastavalt isikuandmete kaitse seadusele informeeritud nõusolekut vaja pole.
Kas uurimisobjektiks on alaealised?
Kuna valim koostatakse üle kõigi Eesti inimeste, kuuluvad andmestikku ka alaealised. Alaealiste kaasamine on vajalik, et hinnata teadusuuringute tulemuste üldistatavust ka alaealiste erinevatele vanusegruppidele. Lisaks, alaealiste väljajätmine ei võimaldaks anda Eesti rahvastiku kohta esinduslikku pilti. Loodavad analüüsimeetodid peavad olema rakendatavad ka alaealistega seotud haiguste ja ravitrajektooride uurimisel ning ennetusmudelite loomisel, mistõttu on oluline loodavasse andmestikku kaasata alaealiste andmed samadel põhimõtetel kui ülejäänud andmed. Juhuleide üksikisiku tasandil ei teki, kuna tegemist on statistlise analüüsiga. Uuritavatega antud uurimistöö raames ühendust ei võeta.
Kas uurimisobjektiks on patsiendid?
Jah.
Kas uurimistöös kogutakse inimestelt bioloogilisi proove? Kas inimestelt võetud bioloogiliisi proove kavatsetakse eksportida kolmandasse riiki (https://www.aki.ee/et/teenused-po ordumisvormid/andmete-edastami ne-valisriiki) või importida neid teisest riigist Eestisse?
Ei, bioloogilisi proove ei koguta.
13 b Isikuandmed ja andmestikud
Ei Jah
17
Kas uurimistöö käigus kogutakse või analüüsitakse isikuandmeid, sh eriliiki isikuandmeid?
1) Täpne andmete koosseis, mis on vajalik uuringu läbiviimiseks (võib esitada lisana).
Täpne andmete koosseis koos põhjendusega on esitatud taotluse lisas 1.
2) Kinnitada, et informeeritud nõusolek on olemas või saadakse enne uuringu algust, kui uuring põhineb nõusolekul.
Uuringus kasutatakse olemasolevaid pseudonüümitud terviseandmeid, mille puhul vastavalt isikuandmete kaitse seadusele informeeritud nõusolekut vaja ei ole.
3) Selgitada, miks on kõik töödeldavad andmed asjakohased ja vajalikud (lähtudes andmete minimeerimise põhimõttest).
Täpne andmete koosseis koos põhjendusega on esitatud taotluse lisas 1. Eesti eri terviseandmekogudes sisaldub patsientide tervise kohta erinevat liiki ja eri kvaliteediga infot. Selleks, et saada tervisevaldkonna küsimuste uurimiseks patsiendi terviseseisundist kvaliteetne pilt, on vajalik vaadelda korraga andmeid mitmest andmekogust (vt ka “11. Uurimismetoodika”). Tervise infosüsteemi epikriisides on kirjas diagnoosid, raviskeemid, saatekirjades ja saatekirja vastustes ka laborianalüüside tulemused, kuid info võib olla puudulik. Epikriisides sisaldub vaid haigusloo kokkuvõte, mitte aga kõik teostatud uuringud või väljakirjutatud ravimid, mis mitmetes uuringutes on oluline info. Teiselt poolt on epikriisid ainsad tervisedokumendid, kus sisaldub vabas vormis kirja pandud info patsiendi kaebuste, üldseisundi, allergiate, ravi kõrvalmõjude jms kohta. Tekstilistest osadest suudame eraldada tehisintellekti meetodite abil ka muud olulist infot, mis kodeeritud väljades puudub, näiteks patsiendi kaebusi, ravimite nõrgemaid kõrvalmõjusid. Tervisekassa andmekogu info tervishoiuteenuste kohta on täielikum ja sisaldab ka teenuste hindu, kuid selle detailsus on samas madalam (mitmed tervishoiuteenused märgitud sama koodiga) ja laborianalüüside kohta puuduvad analüüsitulemused. Kõige parema pildi patsiendile välja kirjutatud ravimite osas annab retseptikeskus, lisaks on seal ka info ravimi väljaostmise kohta, mis on väga oluline indikaator ravijärgimuse hindamiseks. Samas
18
puudub retseptikeskuses info käsimüügiravimite kohta (seda infot võib potentsiaalselt leida epikriisidest). Paljude tervisevaldkonna uuringute puhul (nt pahaloomulised kasvajad) on oluline uurida suremust, selleks on kõige kvaliteetsem info kirjas surma põhjuste registris, mis sisaldab nii surma kuupäeva kui ka spetsialisti poolt kinnitatud surma põhjuseid. Andmeväljade valikul oleme lähtunud uurimistöö eesmärkidest tuginedes uurimismeeskonna senistele kogemustele ja minimaalsuse printsiibist. Laiapõhjalisus võimaldab hinnata andmekvaliteeti üle paljude haiguste, sh arvestades kaasuvaid haigusi, ja tagab, et loodud andmetöötlusmeetodid üldistuvad uutele uuringutele sõltumata vaatluse all olevast haigusest ja patsiendi gruppidest. Lähtuvalt sellest, et üheks taotletava teadusuuringu eesmärgiks on, et arendatavad analüüsimeetodid ja ennetusmeetodid üldistuksid ka uutele andmestikele ja haigustele, ei saa me piirata andmestikku ei diagnooside, vanuse ega muude parameetrite järgi. Iga piirang vähendaks andmestiku esinduslikkust üldpopulatsiooni suhtes ja muudaks arendatavad meetodid vähem üldistuvaks ning piiraks loodud meetodite kasutamist teistes uuringutes. Ajaperioodi määratlemisel oleme lähtunud varasemast kogemusest 2012.-2019. aasta andmetega ning teadustöö eesmärkidest. Pikk ajaperiood tagab, et andmetes on näha tervisesündmuste esituse ja kvaliteedi areng läbi aja ning me saame uurida terviklikke haigustrajektoore, alates ennetustegevustest, esmasdiagnoosi, raviteenuste osutamise ja lõpptulemini. Samuti võimaldab loodava andmestiku ajaraam hinnata riskimudelite 10-aastast ennustusvõimet vastavalt rahvusvahelistelt levinud praktikatele.
4) Kas andmesubjektid on tuvastatavad? Kui jah, siis kirjeldada, kuidas on täidetud järgmised tingimused:
a. pärast tuvastamist võimaldavate andmete eemaldamist ei ole andmetöötluse eesmärgid enam saavutatavad või neid oleks ebamõistlikult raske saavutada;
b. teadus- või riikliku statistika tegija hinnangul on selleks ülekaalukas avalik huvi;
c. töödeldavate isikuandmete põhjal ei muudeta
19
andmesubjekti kohustuste mahtu ega kahjustata muul viisil ülemäära andmesubjekti õigusi.
Andmesubjektid ei ole otseselt tuvastatavad. Kaudse tuvastamise risk säilib. Kaudse tuvastamisega seotud riskide maandamiseks võtame kasutusele mitmeid meetmeid, mis on täpsemalt kirjeldatud lisas 2 “EST-Health-30 andmekaitsealane mõjuhinnang”.
Kas uurimistöö hõlmab üksikisiku süsteemset jälgimist, tema andmeprofiili kogumist või töödeldakse suures ulatuses eriliiki ja/või tundlikke andmeid või kasutatakse (sekkuvaid) andmete töötlemise meetodeid varjatud viisil (nt elulemuse uuringud, jälgimine, järelevalve, audio ja video salvestamine, geo- positsioneerimine jne) või mistahes andmete töötlemise protsessi, mis võib kahjustab uuritavate õigusi ning vabadust?
Uurimistöö käigus töödeldakse suures mahus andmesubjektide terviseandmeid ja uuritakse nende raviteekondasid, ravijärgimust ja personaliseeritud ennetusmeetmeid. Seega eksisteerib teoreetiliselt oht uuritavate õigustele ja vabadustele, kuid uurimistöö läbiviimisel on rakendatud hulgaliselt meetmeid erinevate riskide maandamiseks ning need on kirjeldatud lisas 2 “EST-Health-30 andmekaitsealane mõjuhinnang”.
Kas uurimistöös analüüsitakse eelnevalt kogutud isikuandmeid?
Uurimistöö käigus analüüsitakse eelnevalt igapäevase tervishoiusüsteemi toimimise käigus kogutud terviseandmeid. Andmekogude loetelu on toodud punktis 14 ja täpne andmete koosseis koos põhjendusega on esitatud taotluse lisas 1. Analüüs toimub retrospektiivselt.
Kas uurimistöös analüüsitakse avalikult kättesaadavaid andmeid? Ei
Kas kavatsetakse edastada isikuandmeid või võimaldada neile juurdepääs kolmandast riikidest (https://www.aki.ee/et/teenused-po ordumisvormid/andmete-edastami ne-valisriiki)?
Ei, isikuandmeid kolmandatesse riikidesse ei edastata.
Kas uurimistöö lõppedes toimub isikuandmete hävitamine/ anonüümimine?
Jah. Peale uurimisprojekti arhiveeritakse andmed üheks aastaks, et vajadusel võimaldada arhiveerimisperioodil retsenseerimisel olevate teadusartiklite analüüsi täiendamine. Andmed hävitatakse hiljemalt 31. detsembriks 2028. Andmete hävitamise protokoll saadetakse kõikidele vastutavatele andmetöötlejatele.
13 c Teised eetilised küsimused
20
Kas uurimistöö läbiviimine võib kaasa tuua eelpool kirjeldamata eetilisi riske?
Jah, kasutame ka tehisintellekti meetodeid, millega kaasnevad ülal kirjeldamata riskid. Tehisintellekti kasutamisega seonduvate riskide analüüs on toodud lisas 3.
14. Täita, kui uuring põhineb andmekogu ja/või andmeallika andmetel.
Andmekogu ja/või andmeallika nimetus
1. Tervise infosüsteem (ambulatoorne, statsionaarne, kodu- ja iseseisva statsionaarse õenduse, koduõenduse ja päevaravi epikriisid; saatekirjad, saatekirjad haiglaravile, õendusabile, ambulatoorsele vastuvõtule, e-konsultatsioonile ja õendusabile; saatekirja vastused; immuniseerimise teatised)
2. Tervisekassa andmekogu (raviarved ja kindlustuskaitse andmed) 3. Retseptikeskus 4. Vähiregister 5. Surma põhjuste register
Isikuandmete töötlemise eesmärk
Eesmärk on Eesti terviseandmete väärindamine läbi andmeteaduse meetodite, et pakkuda kvaliteetset tõendust tõhusate patsiendikesksete tervishoiu- ja ennetusteenuste osutamiseks.
Andmekoosseis ja periood, mille kohta andmed kogutakse (vajadusel lisana)
Andmekoosseis on esitatud lisana (Lisa 1. Andmekoosseis). Andmeperiood on 2012-2026.
15. Isikuandmete kaitse meetmete kirjeldus, sealhulgas andmete hoidmise, säilitamise, turvalisuse ja kustutamise kohta, sh andmete ja/või koodivõtme kustutamise kuupäev (kuni 1800 tähemärki, 1 lk).
Kirjeldada ja põhjendada uuringu vajaduseks kogutud andmete säilitamist ja tähtaega.
Andmeandjatelt saadud algandmed paigaldatakse SAPUs spetsiaalselt kirjutuskaitstud kausta, et vältida andmete juhuslikku hävimist või kahjustumist. SAPU’st tehakse regulaarselt krüpteeritud varukoopiaid Eesti Teadusarvutuste infrastruktuuri lindirobotile, mis asub füüsiliselt teises asukohas (andmekeskuses). Andmed arhiveeritakse üks aasta peale projekti lõppu. Andmete arhiveerimine üheks aastaks peale projekti lõppu on vajalik retsenseerimisel olevate artiklite publitseerimisprotsessi lõpetamiseks. Arhiveerimisperioodi lõpus, hiljemalt 31.12.2028 andmed kustutatakse. Projekti käigus võib osutuda, et ka edaspidine säilitamine, arendamine ja kasutus, sh vahepeal saadud teadustulemuste valideerimise ja täpsustamise eesmärgil on vajalik. Sellise vajaduse tekkimisel esitab uurimisgrupp vastavasisulise taotluse asjakohas(t)ele eetikakomitee(de)le. Uuringu tarbeks kogutud andmete säilitamine on täpsemalt kirjeldatud lisas 2 “EST-Health-30 andmekaitsealane mõjuhinnang”.
Kirjeldada isikuandmete pseudonüümimise protsessi ja vahendeid.
Isikuandmed pseudonüümitakse andmekogude vastutavate/ volitatud töötlejate poolt, kasutades üksnes andmeandjatele teadaolevat räsiparooli, mida nad omavahel jagavad krüpteeritult. Seda räsiparooli kasutatakse, et arvutada räsid oma andmekogudes olevatele isikukoodidele. Pseudonüümina kasutatakse saadud räsi. Andmeallikad asendavad oma
21
andmetes isikukoodid pseudonüümidega enne andmete uuringumeeskonnale väljastamist. Pseudonüümimise protsess ja vahendid on täpsemalt kirjeldatud lisas 2 “EST-Health-30 andmekaitsealane mõjuhinnang”.
Kas kavatsetakse geenidoonorite isikuandmeid depseudonüümida?
Ei, geenidoonorite andmeid ei töödelda. Uuritavate osas on korralduslikult tagatud, et uurimisgrupi liikmetel ei ole lubatud ega võimalik andmeid depseudonüümida (mh ei avaldata uurimisgrupi liikmetele räsiparooli).
Kas toimub isikuandmete transportimine ning kirjeldada, kuidas on tagatud andmete turvalisus.
Iga andmeandja väljastab valimisse kuuluvate isikute kohta oma andmebaasist pseudonüümitud andmed uuringumeeskonnale (ilma isiku otsest tuvastamist võimaldavate andmeteta). Kaudse tuvastamise riski maandamiseks rakendatakse täiendavaid andmekaitse mõjuhinnangus kirjeldatud meetmeid, sh anonüümimisrakendust vaba teksti väljadel ja otsest tuvastamist võimaldavate andmeväljade (nt aadress) välistamist. Uuringumeeskond ühendab saadud andmekomplektid pseudonüümide alusel. Nii on tagatud, et andmeandjad töötlevad vaid nende juures hoitavaid andmeid ega näe teiste asutuste andmeid.
Kirjeldatud viisil andmete vahetamisel ei liigu samaaegselt kunagi isiku otsest tuvastamist võimaldavad isikuandmed ja tema terviseandmed.
Andmete edastamiseks sõlmitakse leping iga andmekogu omaniku ja Tartu Ülikooli vahel. Andmete edastus toimub krüpteeritult läbi turvalise andmevahetusserveri, mis on üles seatud Eesti Teadusarvutuste infrastruktuuri poolt või kasutades andmeallikate tavapäraseid andmete väljastamise viise vastavalt nende sisemistele protseduurireeglitele (enamasti konkreetsele juhtivuurijale parooliga ligipääsetav kataloog andmeallika serveris, andmefail on krüpteeritud).
Analüüsiks viib uuringumeeskond need andmed eraldi virtuaalserverisse SAPU (vt järgmine punkt), mida haldab Eesti Teadusarvutuste infrastruktuur.
Isikuandmete turvaline transportimine on täpsemalt kirjeldatud lisas 2 “EST-Health-30 andmekaitsealane mõjuhinnang”.
Kirjeldada, kuidas on andmed kaitstud loata või ebaseadusliku töötlemise eest.
Peame tähtsaks loodava andmestiku infoturbelist kaitset, mis nõuab kõrget ekspertiisi ja tehnilisi lahendusi, et välistada andmete hoidmine juhuslikes ebaühtlase andmekaitsega arvutites. Koostöös Eesti Teadusarvutuste infrastruktuuriga (https://etais.ee) töötab uurimisgrupp infoturbe riskide maandamiseks välja minimaalsusprintsiipi tagava andmetele ligipääsu andmise protsessi ja paigutab loodava andmestiku turvalisse andmeanalüüsi serverisüsteemi (andmepuuri) SAPU (https://sapu.cs.ut.ee). Andmete hoidmisega SAPU-s väheneb oluliselt andmelekke risk rakendades andmete eksportimisele ranged piirangud ning logides kõiki andmetega tehtavaid tegevusi kasutaja tasandil kogu andmete säilitamise ja arhiveerimise perioodil. Soovi korral tagatakse andmeandjateleandjatele ligipääs logidele. Andmete edasisel töötlemisel SAPUs ja uuringu eesmärkide täitmiseks kasutatakse OMOP mudeli jaoks loodud ja publitseeritud tööriistu (Atlas server, Usagi, Data Characterisation, PopulationLevelEstimation ja PatientLevelEstimation R-paketid, uurimisrühma arendatud tööriistad jt). Kusjuures Atlas server on OMOP andmemudelile loodud kohortide defineerimise tööriist, mis võimaldab patsiendigruppe defineerida ilma andmetele
22
ligipääsu omamata. Seega on Atlas tööriist vajalik just minimaalsusprintsiibi tagamiseks.
SAPU serverist väljastatakse andmeid ainult vastutava uurija nõusolekul ja agregeeritud kujul nii, et on tagatud k ≥ 5 anonüümsus. SAPU serveris olevatele andmetele on ligipääs ainult käesolevas taotluses toodud uurijatel. Uurimisgrupp tagab, et andmetele ligipääs on vastavuses kehtiva seadusandlusega. Täiendavate uurimisküsimuste tekkimisel esitatakse Eesti bioeetika ja inimuuringute nõukogule ja andmeandjatele hindamiseks uus taotlus. Lisandunud uurimisküsimuste lahendamiseks antakse ligipääs andmetele lähtudes minimaalsuse printsiibist. Võimalusel viiakse lisandunud uuring läbi nii, et 1. etapi uurimisrühmale edastatakse uue uurimisküsimuse lahendamiseks kood, mille uurimisrühm läbi jooksutab ning tagastab ainult analüüsi tulemused lähtudes k ≥ 5 anonüümsusest. Loata või ebaseadusliku töötlemise eest kaitsvate meetmete kohta vt taotlusele lisatud “EST-Health-30 andmekaitsealane mõjuhinnang” (lisa 2).
Kinnitan, et kõik uuringu läbiviijad on teadlikud projekti läbiviimisega kaasnevatest eetilistest ja isikuandmete kaitsega kaasnevatest nõuetest.
Vastutavate uurijate allkirjad
/Jaak Vilo digiallkiri/
/Raivo Kolde digiallkiri/
/Sven Laur digiallkiri/
/Sulev Reisberg digiallkiri/
Taotluse esitamise kuupäev
20.08.2024
Taotluse EBIN ID (täidab hindaja)
Lisadokumentide loetelu:
1. Taotletav andmekoosseis (MS Exceli fail kolmel lehel)
2. Andmekaitsealane mõjuhinnang
3. AI eetika küsimused
4. Viited vastutavate uurijate avalikele CV-dele:
a. Jaak Vilo: https://www.etis.ee/CV/Jaak_Vilo/est/
b. Raivo Kolde: https://www.etis.ee/CV/Raivo_Kolde/est/
c. Sven Laur: https://www.etis.ee/CV/Sven_Laur/est/
23
d. Sulev Reisberg: https://www.etis.ee/CV/Sulev_Reisberg/est/
24
EST-Health-30 andmekaitsealane mõjuhinnang
Käesolev andmekaitseline mõjuhinnang on tehtud põhjusel, et Euroopa isikuandmete kaitse üldmääruse (2016/679, edaspidi GDPR) artikkel 35 lõiked 1 ja 3 nõuab enne ulatuslikku eriliiki isikuandmete (terviseandmete) töötlemist kavandatavate isikuandmete töötlemise toimingute mõju hindamist isikuandmete kaitsele.
Kokkuvõte andmekaitsealase mõjuhinnangu tulemustest Käesolev andmekaitsealane mõjuhinnang on läbi viidud uurimisprojekti „EST-Health-30 - Eesti terviseandmete väärindamine“ kohta. Teadusuuringu üldeesmärk on Eesti terviseandmete väärindamine läbi andmeteaduse meetodite, et pakkuda kvaliteetset tõendust tõhusate patsiendikesksete tervishoiu- ja ennetusteenuste osutamiseks. Andmetiku aluseks on 30% juhuvalim Eestis alates 2012. aastast tervishoiuteenuseid tarbinud Eesti elanikest (andmesubjektid).
Andmekaitsealane mõjuhinnang on läbi viidud ajavahemikus 01.08.2024 - 17.08.2024 ning kehtib kuni uurimisprojektis kasutatud andmete kustutamiseni hiljemalt 31.12.2028. Juhul, kui muutuvad mõjuhinnangu aluseks olnud asjaolud, siis mõjuhinnangut täiendatakse vastavalt.
Kokkuvõttes leiavad mõjuhinnangu koostajad, et uurimisprojektis on kasutusel tõhusad riskimaandamise mehhanismid ja rakendatud meetmete tulemusena ei teki andmesubjekti õigustele suurt ohtu isikuandmete kaitse üldmääruse (2016/679/EU) artikkel 35 lõike 1 tähenduses.
Mõjuhinnang on kooskõlastatud Tartu Ülikooli andmekaitse peaspetsialistiga.
Sissejuhatus Tartu Ülikool (TÜ) on avalik-õiguslik ning vanim ja suurim Eesti ülikool. Tartu Ülikooli üheks peamiseks eesmärgiks on edendada teadust, kuid spetsiifilisemalt ka edendada Eestit ja tema rahvast uurivaid teadusi ning eestikeelset haridust. Tartu Ülikooli neljast valdkonnast on konkreetselt meditsiinile keskendunud meditsiiniteaduste valdkond. Samas on tervisevaldkond muutumas järjest interdistsiplinaarsemaks ning meditsiiniga on tihedalt seotud ka loodusteaduste valdkond - näiteks genoomika instituut uurib geneetika ja haiguste vahelisi seoseid, arvutiteaduse instituut aga arendab nii geneetilistel kui terviseandmetel rakendamiseks andmeteaduse meetodeid, s.h masinõpet.
1
Käesolev mõjuhinnang käsitleb EST-Health-30 alusandmestikku, mis luuakse Tervisekassa andmekogu, retseptikeskuse andmekogu, Tervise Infosüsteemi, surma põhjuste registri ja vähiregistri andmete alusel. Alusandmestiku loomist ja sellel põhinevate teadus- ja rakendusuuringute teostamist uurimistetoodikate arendamiseks Eesti terviseandmetel kavandab arvutiteaduse instituudi terviseinformaatika uurimisgrupp (vt taotlus p3 “Vastutavad uurijad” ja p4 “Uuringu läbiviijad”) (edaspidi Uurimisgrupp). Uurimisgrupp on Eesti terviseandmekogudest pärit pseudonüümitud andmestikel viinud varasemalt läbi mitmeid erinevaid teadusuuringuid. Seekordne uurimisprojekt erineb eelmistest uurimisprojektidest selle poolest, et on eelnevatest laiapõhjalisem, kaasates senisest rohkem patsiente ja kaasaegsemaid andmeid. Projekt koosneb kahest etapist, millel on järgmised eesmärgid:
1. 1. etapp: alusandmestiku loomine ja andmekvaliteedi tõstmise meetodite arendamine 1.1. Hinnata valimi põhjal Eesti terviseandmete kvaliteeti ja hõivet võrreldes
erinevatest andmeallikatest pärinevat informatsiooni. 1.2. Andmekvaliteedi ja andmehõive tõstmise meetodite sh tehisintellekti-,
tekstikaeve- ja imputatsioonimeetodite arendamine. 1.3. Tervisesündmuste esituse ühtlustamine rahvusvahelistele standarditele üle aja
ja andmeallikate, sh kasutades tekstikaeve, klasterdamise ja automaattõlke meetodeid.
1.4. Arendatavad meetodid on hiljem rakendatavad ka uutes uuringutes, suurematel andmehulkadel ning riiklikes infosüsteemides andmekvaliteedi ja -hõive parandamiseks.
1.5. Standardiseeritud ja ühtlustatud andmestiku loomine ja kirjeldamine teadusuuringute läbiviimiseks. Andmestikku kirjeldatakse läbi erinevate numbriliste näitajate ja teostatavusanalüüside senisest suuremal detailsusastmel.
2. 2. etapp: teadus- ja rakendusuuringute teostamine uurimistetoodikate arendamiseks Eesti terviseandmetel.
2.1. Arendada haigustrajektooride ja raviteekondade analüüsi metoodikaid kasutades sh tehisintellekti meetodeid, et kirjeldada praeguseid ravipraktikaid, võrrelda neid raviteekondade ja -juhenditega ning modelleerida tervisetulemeid ja ravi majanduslikku mõju.
2.2. Analüüsida erinevate faktorite (nt sugu, vanus, erinevad haigused) mõju ravijärgimusele, hinnata ravijärgimuse mõju erinevatele tervisetulemitele ja luua personaalseid ennustusmudeleid, mis võimaldavad maandada ravi mittejärgimise riske.
2.3. Arendada personaliseeritud ennetusmudeleid, mis võimaldavad vaatlusandmete põhjal tuvastada praeguste haiguse ennetuste ja ravipraktikate kitsaskohti, planeerida senisest paremini haiguste ennetustegevusi ja hinnata pakutud ennetusteenuste majanduslikku mõju
Andmetiku aluseks on 30% juhuvalim Eestis alates 2012. aastast tervishoiuteenuseid tarbinud Eesti elanikest (andmesubjektidest). Nende andmesubjektide kohta saadakse pseudonüümitud andmed Tervisekassa andmekogust, retseptikeskuse andmekogust, Tervise Infosüsteemist, surma põhjuste registrist ja vähiregistrist. Pseudonüümi alusel viib Uurimisgrupp sama isiku andmed kokku ning töötleb neid.
2
Uurimisprojekt kestab 01.10.2024-31.12.2027. Peale uurimisprojekti lõppu andmed arhiveeritakse üheks aastaks. Arhiveerimisperioodi lõpus, hiljemalt 31.12.2028 andmed kustutatakse.
Mõjuhinnangu läbiviimisest
Läbiviimise aeg Käesolev andmekaitsealane mõjuhinnang on läbi viidud ajavahemikul 01.08.2024 - 17.08.2024.
Mõjuhinnangu ulatus Käesolev andmekaitsealane mõjuhinnang on koostatud andmestiku EST-Health-30 elutsükli kohta Tartu Ülikoolis s.o. Andmete aktiivse kasutamise perioodi kohta oktoober 2024-31.12.2027 ja arhiveerimisperioodi kohta 01.01.2028-31.12.2028.
Metoodika Käesoleva andmekaitsealase mõjuhinnangu loomisel on kasutatud riskide identifitseerimisel ja hindamisel põhinevat metoodikat. Mõjude hindamisel võetakse arvesse kirjeldatud andmetöötlemise iseloomu, ulatust ja konteksti. Riskid on leitud ja kirjeldatud andmetöötluse ohustsenaariumite hindamisest lähtuvalt. Riskide hindamisel on hinnatud skaalal (0-väga madal; 4-väga kõrge) kahte tegurit:
● riski realiseerumise tõenäosus; ● riski realiseerumise mõju.
Üldine riski tase leitakse kahe skaala ristumispunktis vastavalt alltoodud joonisele ja tabelile. Näiteks kui tõenäosus on 3 ja mõju 2, siis riski tase on 5 ehk keskmine.
3
Riski tase Tulemus Kirjeldus 6-8 Kõrge 3-5 Keskmine 0-2 Madal
Projektipõhise infosüsteemi kirjeldus EST-Health-30 andmestikku hoitakse ja kõik teisendused/analüüsid teostatakse Eesti Teadusarvutuste infrastruktuuri poolt pakutavas sensitiivsete andmete privaatses uurimiskeskkonnas (SAPU). Projekti käigus kasutatakse eraldiseisvat SAPU keskkonda, mis ei ole seotud teiste SAPU keskkondadega. Detailne info Eesti Teadisarvutuste infrastruktuuri kohta on leitav aadressil https://etais.ee/ ja lisainfo sensitiivsete andmete privaatse uurimiskeskkonna (SAPU) koht on leitav aadressil https://docs.hpc.ut.ee/public/services/SAPU/ (inglise keeles).
Kasutajate haldus Projekti käigus kasutatavasse SAPU keskkonda (andmepuur) luuakse spetsiaalsed ja eraldiseisvad kasutajakontod ainult projekti vastutava täitja taotlusel ja heakskiidul. Igale uuringu täitjale antakse ligipääs ainult tööks vajalikele andmetabelitele. SAPU keskkond on
4
selleks volitatud isikutele kättesaadav ainult aktiivse analüüsi faasis ning muul ajal on keskkond välja lülitatud ning sinna ei ole võimalik siseneda ka kasutajakonto olemasolu korral. Kolmandatel isikutel (kaasa arvatud Tartu Ülikooli teistel töötajatel) puudub juurdepääs kasutatavasse SAPU keskkonda.
SAPU keskkonnas eristatakse nelja erinevat kasutajarolli: ● Cloud operator (administraatori õigused) - SAPU tehniline administraator, seda rolli
täidab Eesti Teadusarvutuste infrastruktuur - hoolitseb turvalisuse, monitoorimise ülesannete eest, vastutab, et server töötab. Ei kasuta ja ei vaata andmeid.
● Data owner (otsene ligipääs masinale ja monitoorimisele) - vastutav uurija, kellele väljastatakse andmed ja kes toob andmed SAPU masinasse. Kõik andmetele ligipääsude andmised ning andmete väljaliigutamise SAPUst toimuvad vaid data owneri ehk vastutava uurija kinnitusel. Data owner ehk vastutav uurija vastutab ka logide jälgimise ja säilitamise eest kogu andmete eluea jooksul.
● Data custodian (otsene ligipääs masinale ja monitoorimisele) - uuringu täitja, kes tegeleb peaasjalikult tehniliste küsimustega, sh toetab data owner‘i andmete SAPUsse viimisega, monitoorib logisid ja vajadusel aitab pilve operaatorit.
● Data analyst (ligipääs üksnes läbi virtuaalse töölaua) - uuringu täitja, kes analüüsib ja töötleb andmeid.
Teadaolevad turvameetmed ● Andmete edastamiseks sõlmitakse leping iga andmeandja ja Tartu Ülikooli vahel.
Andmete edastus toimub krüpteeritult läbi turvalise andmevahetusserveri, mis on üles seatud Eesti Teadusarvutuste infrastruktuuri poolt või kasutades andmeallikate tavapäraseid andmete väljastamise viise vastavalt nende sisemistele protseduurireeglitele (enamasti konkreetsele juhtivuurijale parooliga ligipääsetav kataloog andmeallika serveris, andmefail on krüpteeritud).
● Analüüsiks kasutatakse Eesti Teadusarvutuste infrastruktuuri poolt pakutavat sensitiivsete andmete privaatset uurimiskeskkonda (SAPU) millele on piiratud ligipääs vaid eetikaloal loetletud uurijatele.
● Kasutusel on füüsilise ja infotehnoloogilised turvameetmed, mida on täpsemalt kirjeldatud mõjuhinnangu lõpus.
Süsteemi kasutusotstarve Sensitiivsete andmete privaatne uurimiskeskkond (SAPU) on Eesti Teadusarvutuste infrastruktuuri poolt spetsiaalselt loodud ja pakutav andmetöötluskeskkond, kus analüütikud saavad töötada tundlike andmete kallal, vähendades võimalikku andmete volitamata kopeerimist, ülekandmist või masinatest välja võtmist, pakkudes kõrgemat turvaklassi kui tavaline suure jõudlusega arvutusklaster.
5
SAPU kõrgetasemeline arhitektuur
SAPU andmevärav Kuna analüütikud vajavad võimalust SAPU masinasse viia andmeid, skripte ja muud teavet ning samuti on vajalik SAPU masinast analüüsitulemusi, siis on kasutusele võetud S3 Object Storage põhised eeskirjad kolme kaustaga:
Graafiline kasutajaliides RDP või masina avalikustamine internetis kätkeb endas mitmeid infoturbe riske ja nende maandamiseks on kasutusele võetud puhverserver. Kasutatakse avatud lähtekoodiga tehnoloogiat Apache Guacamole.
6
Autentimine ja autoriseerimine SAPU’l on eraldiseisev LDAP server, millega luuakse ühendus identiteedi ja juurdepääsu haldamiseks.
Andmestiku elutsükkel Andmestiku elutsükkel on järgmine:
1. Eesti Tervisekassa, Tervise Arengu Instituut (TAI) ja Tervise ja Heaolu Infosüsteemide Keskus (TEHIK) edastavad oma infosüsteemidest lisas “Andmekoosseis” kirjeldatud andmed Tartu Ülikooli vastutavale uurijale.
2. Uurimisgrupi vastutav uurija korraldab andmete tõstmise SAPU-sse. 3. Uurimisgrupi liikmed töötlevad SAPU-s olevaid andmeid ainult teadusuuringu
eesmärkide täitmiseks. 4. Alusandmeid uuendatakse regulaarselt, taotluses toodud sagedusega korrates samme
1-3. 5. Vajadusel toimub tulemuste väljastamine SAPU’st. Tulemuste väljastamine toimub ainult
vastutava uurija kinnitusel ning pidades silmas anonüümsustaset k ≥ 5. 6. Uuringu lõppedes SAPU koos andmetega arhiveeritakse üheks aastaks ning vajadusel
tagatakse ligipääs andmetele. Peale arhiveerimisperioodi lõppu andmed kustutatakse. Kustutatakse ka kõik SAPU ja andmete varukoopiad.
7
Isikuandmete töötlemise toimingud
Isikuandmete kogumine Käesolevas uuringus uusi isikuandmeid ei koguta ja andmesubjektidega ühendust ei võeta. Kasutatakse juba olemasolevaid terviseandmeid ainult taotluses kirjeldatud teadusuuringu eesmärkide täitmiseks. Vastavalt isikuandmete kaitse seadusele § 6 lg 1 võib teadusuuringu vajaduseks isikuandmeid töödelda andmesubjekti nõusolekuta, kui need on pseudonüümitud. Andmed pseudonüümitakse käesolevas uuringus enne Uurimisgrupini jõudmist andmeallikate poolt.
Vaatamata sellele, et andmed on pseudonüümitud ega sisalda isiku otsest tuvastamist võimaldavaid tunnuseid, käsitletakse uuringu andmeid järgmistes peatükkides tulenevalt nende tundlikust iseloomust kui eriliiki isikuandmeid.
Isikuandmete pseudonüümimine ja edastamine
Valimi moodustamine ja pseudonüümide moodustamine Andmestiku aluseks on isikukoodide põhjal koostatud juhuvalim. Juhuvalimi moodustamise aluseks on isikute isikukoodid, täpsemalt nende põhjal loodud pseudonüümid. Pseudonüümide salajaseks, kuid ühetaoliseks moodustamiseks kasutavad kõik andmeandjad sama räsifunktsiooni ja salajast parooli ehk räsiparooli. Viimast Uurimisgrupile ei väljastata.
Salajase pseudonüümimisparooli moodustamine ja andmeallikatega jagamine
1. Tervisekassa määrab salajase parooli (siin näidetes edaspidi “mypassword”) 2. Tervisekassa salvestab parooli tekstifaili, mille sisu on umbes järgmine:
Pseudonüümimiseks kasutatav parool on: mypassword Kontroll - järgmine käsk: echo -n "99999999999SIIAÕIGEPAROOL" | openssl dgst -sha256 | awk '{print $2}' peab andma tulemuseks a40a173b33e0c3913e3bdb7a7e8878ad9b52925541631f96be5143ac32eb68f7
3. Tervisekassa krüpteerib tekstifaili digidoc konteineris, määrates adressaatideks konkreetsed andmeväljastuse eest vastutavad isikud nii TEHIK-s kui TAI-s. See tagab, et parooli ei näe Uurimisgrupi liikmed TÜ-s.
4. Tervisekassa edastab krüpteeritud digidoc konteineri TÜ Uurimisgrupile, kes edastab selle omakorda TEHIK-le ja TAI-le. Selline korraldus tagab, et Tervisekassa ei pea ise korraldama ega sekkuma TEHIK ega TAI poolsesse andmeväljastusse.
Pseudonüümimine ja valimi moodustamine Protsess valimi ja pseudonüümide moodustamiseks iga andmeandja juures on järgmine:
8
1. Andmeandja veendub, et pseudonüümimiseks kasutama hakatav räsifunktsioon töötab õigesti. Järgmine käsk: echo -n "99999999999mypassword" | openssl dgst -sha256 | awk '{print $2}' peab andma tulemuseks a40a173b33e0c3913e3bdb7a7e8878ad9b52925541631f96be5143ac32eb68f7 Lisaks kontrollib andmeandja, et Tervisekassast saadud parool annab räsimisel õige tulemuse.
2. Tervisekassa moodustab kõigile isikukoodidele vastavad räsid, andes räsifunktsioonile ette ühendatud sõnena nii isikukoodi kui salajase parooli. Näiteks isikukoodi 99999999999 korral moodustatakse räsi ülaltoodud käsuga ja selle näite põhjal saadav räsi on a40a173b33e0c3913e3bdb7a7e8878ad9b52925541631f96be5143ac32eb68f7
3. Räsi iga sümbol on üks kuueteistkümnesümbolilisest hulgast: a-f või 0-9. Need jaotuvad ühtlaselt. Valimisse kuuluvad isikud, kelle räsi esimene sümbol kuulub hulka {a,b,c,d,e,f,0} ja teine sümbol hulka {a,b,c,d,e,f,0,1,2,3,4}. Sellisel juhul satub valimisse (7/16)*(11/16)*100=30.08% isikukoode. Näide: ka ülaltoodud näidisisikukood 99999999999 satub valimisse, sest tema räsi esimene sümbol “a” kuulub hulka {a,b,c,d,e,f,0} ja teine sümbol “4” kuulub hulka {a,b,c,d,e,f,0,1,2,3,4}.
4. Nendest isikukoodidest kuuluvad käesoleva andmestiku valimisse isikud, kelle kohta on vastava andmeandja andmebaasis sisestatud kandeid uuringuperioodil. Pseudonüümidena kasutatakse loodud räsisid.
5. Andmeandja säilitab parooli turvaliselt tuleviku andmeuuenduste väljastamiseks.
Antud lahenduse puhul ei ole tarvis moodustada valimit ühe andmeandja juures ning seda siis teiste andmeandjatega jagada. Puudub ka vajadus vahetada isikukood-pseudonüümide tabelit. Andmeandjad vahetavad omavahel üksnes räsifunktsioonis kasutatavat parooli, kasutades selleks turvalist krüpteeritud kanalit, näiteks vastuvõtja isikukoodile kodeeritud .CDOC konteinerit. Kuna pseudonüümimine ja valim moodustatakse ainult isikukoodi põhjal, satuvad ka uued isikud pseudonüümi sobivuse korral automaatselt valimisse.
Pseudonüümide moodustamiseks etteantud isikukoodide faili põhjal ja nende seast valimi määramiseks saab kasutada järgmist skripti:
#!/bin/bash
PASSWORD='mypassword' #siia panna ainult andmeallikatele teadaolev parool
while read -r line; do hash=$(echo -n "$line$PASSWORD" | openssl dgst -sha256 | awk '{print $2}') if [[ $hash =~ ^[abcdef0][abcdef01234] ]]; then echo "$line" >> valimisse_kuuluvad_isikukoodid.txt echo "$line $hash" >> valimisse_kuuluvate_isikukoodide_pseudonyymid.txt
fi done < isikukoodid.txt
9
Andmete töötlus enne Uurimisgrupile väljastamist Andmeandjad väljastavad üksnes valimisse kuuluvate isikute andmeid.
Nende isikute kohta väljastatakse uurimisgrupile andmed järgmistest andmekogudest: 1. Tervisekassa andmekogu (raviarved ja kindlustuskaitse andmed, vastutav töötleja:
Tervisekassa) 2. Retseptikeskuse andmekogu (vastutav töötleja: Tervisekassa) 3. Tervise Infosüsteem (vastutav töötleja: Sotsiaalministeerium, volitatud töötleja: TEHIK) 4. Surma põhjuste register (vastutav töötleja: TAI) 5. Eesti vähiregister (vastutav töötleja: TAI)
Täpne andmekoosseis kõigi andmekogude lõikes on kirjeldatud uuringutaotluse juurde kuuluvas lisas. Muuhulgas eemaldatakse otsest isikutuvastamist võimaldavad andmed ning asendatakse pseudonüümiga.
Varasemaid andmeid kui 1. jaanuar 2012. a ei väljastata.
Andmete üleandmine Uurimisgrupile Andmete edastamiseks sõlmitakse leping iga andmeandja ja Tartu Ülikooli vahel. Andmete edastus toimub krüpteeritult läbi turvalise andmevahetus serveri, mis on üles seatud Eesti Teadusarvutuste infrastruktuuri poolt või kasutades andmeallikate tavapäraseid andmete väljastamise viise vastavalt nende sisemistele protseduurireeglitele (enamasti konkreetsele juhtivuurijale parooliga ligipääsetav kataloog andmeallika serveris koos krüpteeritud andmefailiga).
Andmete uuendamine Andmestiku on plaanis regulaarselt uuendada. Täienevad olemasolevate andmesubjektide andmed, aga valimisse satub ka uusi andmesubjekte (näiteks isikud, kellel varem puudus isikukood). Protsess uuendamiseks on järgmine:
1. Uurimisgrupp algatab regulaarselt andmete uuendamise protsessi, pöördudes selleks kõigi andmeandjate poole ja täpsustades, millisest ajahetkest alates ja millise ajahetkeni toimunud uuendusi on tarvis.
2. Kõik andmeandjad teostavad vajaliku andmete väljavõtte, pseudonüümimise ja edastavad andmed Uurimisgrupile sarnaselt algsele väljastamisele. Kuna kasutatakse täpselt sama pseudonüümimisalgoritmi ja räsiparooli, saavad valimisse juba varem kuulunud isikud sama pseudonüümi, mis varasemates väljastustes ning uutele luuakse uus pseudonüüm.
10
Andmete säilitamine Andmeandjatelt saadud algandmed paigaldatakse SAPUs spetsiaalselt kirjutuskaitstud kausta, et vältida andmete juhuslikku hävimist või kahjustumist. Esimese tegevusena kasutatakse andmetel TÜ poolt arendatud anonüümimisrakendust, mis tuvastab ja asendab algandmete vabatekstilistes dokumendiosades isikunimed, aadressid, telefoninumbrid, isikukoodid, kui neid seal peaks leiduma. Edasine töötlus toimub ainult täiendava anonüümimisprotsessi läbinud andmetel ning algselt saadud andmetele pääsevad ligi üksnes vastutavad uurijad ja data custodian rollis (vt allpool) olevad uuringu läbiviijad, et anonümiseerimisrakendust vajadusel uuesti kasutada.
Järgmiseks luuakse automaatskriptidega kvaliteetne terviseandmestik samas serveris paiknevasse PostgreSQL andmebaasi. Selle andmestiku kahjustumine ei ole kriitiline, sest vajadusel on võimalik automaatskriptidega see algandmetest uuesti taastada.
SAPU’st tehakse regulaarselt krüpteeritud varukoopiaid Eesti Teadusarvutuste infrastruktuuri lindirobotile, mis asub füüsiliselt teises asukohas (andmekeskuses).
Säilitamise tähtajad Andmeid säilitatakse kuni projekti eesmärkide täitmiseni, kuid maksimaalselt kuni uuringuprojekti arhiveerimisperioodi lõpuni: 31.12.2028. Kui uuringu käigus tekib põhjendatud vajadus andmeid säilitada kauem, esitatakse enne uuringu lõppu Eesti bioeetika ja inimõiguste nõukogule (EBIN) vastavasisuline taotlus.
Hoiustamisel kasutatavad turvameetmed Eesti Teadusarvutuste infrastruktuur järgib infrastruktuuri haldamisel ISKE M taseme nõudeid. Andmeid ja vaheandmeid hävitatakse vajadusel vastavalt ISKE H turbeastmega andmete hävitamise nõuetele. Eesti Teadusarvutuste infrastruktuur käsitleb kõiki teenuse pakkumise käigus teatavaks saavaid/käsitletavaid andmeid konfidentsiaalsetena.
Seoses 2022. aasta lõpus kehtima hakanud „Võrgu- ja infosüsteemide küberturvalisuse nõuded“ määruse ja „Eesti infoturbestandard“ määrusega on Tartu Ülikool ja ka Eesti Teadusarvutuste infrastruktuur kohustatud järgima Eesti Infoturbestandardit ning regulaarselt läbi viima Eesti infoturbestandardi järgimise auditeid. Tartu Ülikool peab esimese auditi läbima vähemalt 3 aasta jooksul (ehk enne 2025. a lõppu) ning käesoleval hetkel selle nimel ka tegutsetakse.
Kuidas välditakse andmete juhuslikku hävimist või kahjustumist? ● Andmetest tehakse regulaarseid krüpteeritud varukoopiaid. ● Regulaarselt teostatakse serverite turvatestimist, uuendamist ja monitoorimist. ● Serverid on varustatud katkematu toiteallikaga (UPS).
11
● Kasutusel on füüsilised ja organisatoorsed turvameetmed, mis takistavad selleks volitamata isikute füüsilist juurdepääsu serveritele.
● Kasutajal puudub SAPU keskkonnast juurdepääs internetile. ● Kasutajal puudub SAPU keskkonnas õigus installeerida programme. ● SAPU keskkonda saavad siseneda ainult selleks vastavaid õigusi omavad kasutajad. ● Kasutajaid juhendatakse ja koolitatakse SAPU keskkonna kasutamise osas.
Logid, turvakoopiad Andmete töötlus toimub SAPU keskkonnas, mis rangelt piirab kasutajate võimalust andmeid serverist välja kopeerida ning võimaldab vastutavatel uurijatel jälgida kõikide kasutajate tegevusi. Vastutavad uurijad tagavad, et logitakse kõikide kasutajate kõik tegevused SAPU keskkonnas, sh salvestatakse jooksvalt ka kasutaja ekraanipilti (video). Kasutajad on logidest ja ekraanipildi salvestamisest teadlikud ning see toimib ka heidutava meetmena. Logide monitoorimise korraldavad vastutavad uurijad. Samuti tagavad vastutavad uurijad vajadusel andmeandjatele ligipääsu kasutajate logidele kogu andmete eluea vältel.
Andmetest tehakse üks kord nädalas regulaarseid varukoopiad vastavalt Eesti Teadusarvutuste infrastruktuuri varundamise korrale. Varundamine toimub Eesti Teadusarvutuste infrastruktuuri lindirobotile, mis asub füüsiliselt teises asukohas (andmekeskuses). Varukoopiad on spetsiaalselt krüpteeritud, alles hoitakse viimast kolme varukoopiat. Varukoopiate tegemisel kasutatakse inkrementaalset varukoopiat ja on tagatud, et eelnevaid varukoopiaid ei ole võimalik muuta.
Arhiveerimine Andmed arhiveeritakse üheks aastaks peale projekti lõppemist Eesti Teadusarvutuste infrastruktuuri poolt krüpteeritud kujul SAPU keskkonnas. Andmetele võimaldatakse ligipääs vastutava uurija kinnitusel vaid põhjendatud juhtudel, näiteks retsenseerimisele saadetud teadusartiklite retsensioonidele vastamiseks. Kõik arhiveeritud andmetega tehtud toimingud logitakse kasutaja tasandil. Andmed hävitatakse hiljemalt 31. detsembriks 2028 kasutades hävitamise ajahetkel parimat kasutuselolevat praktikat vastavalt rakendatavale infoturbestandardile (IS0/IEC 27001). Andmete hävitamine dokumenteerikse hävitamisaktis.
Andmete kasutamine Andmeid kasutatakse üksnes Uurimisgrupi poolt ainult SAPU serveris ja üksnes andmestiku loomiseks või taotluses kirjeldatud teadusuuringute läbiviimiseks.
Uurimisgrupp Uurimisgrupi koosseis on käesoleva mõjuhinnangu koostamise hetkel järgmine:
Uuringu läbiviija nimi Roll projektis Roll SAPU serveris
12
Jaak Vilo Vastutav uurija, professor Data owner
Raivo Kolde Vastutav uurija, kaasprofessor
Data owner
Sven Laur Vastutav uurija, kaasprofessor
Data owner
Sulev Reisberg Vastutav uurija, teadur Data owner
Marek Oja Teadur Data custodian
Kerli Mooses Teadur Data analyst
Taavi Tillmann Kaasprofessor Data analyst
Markus Haug Nooremteadur Data analyst
Harry-Anton Talvik Nooremteadur Data custodian
Hendrik Šuvalov Nooremteadur Data analyst
Kunnar Kukk Nooremteadur Data analyst
Õie Renata Siimon Nooremteadur Data analyst
Maarja Pajusalu Nooremteadur Data analyst
Maria Malk Nooremteadur Data analyst
Anton Vykhovanets Nooremteadur Data analyst
Nikita Umov Nooremteadur Data analyst
Laura Lõo Nooremteadur Data analyst
Kermo Saarse Nooremteadur Data analyst
Sirli Tamm Andmekvaliteedi spetsialist, programmeerija
Data custodian
Kaire Koljal Andmekvaliteedi spetsialist, programmeerija
Data analyst
Ami Sild Terviseandmete insener-analüütik
Data custodian
Helene Loorents Programmeerija Data analyst
Neeme Ilves Spetsialist Data analyst
13
Sander Kütisaar (Eesti Teadusarvutuste infrastruktuur)
SAPU pilve operaator Cloud operator
Uurimisgrupi koosseis ja rollid võivad projekti käigus vastutavate uurijate kinnitusel täieneda. Isikkoosseisu muutmiseks esitatakse EBIN-le vastavasisuline jätkutaotlus. Igale Uurimisgrupi liikmele antakse ligipääs ainult töö eesmärkide täitmiseks vajalikele andmetabelitele. Kui loodud andmestiku kasutamiseks rahuldatakse täiendavadi taotlusi, siis käesoleva taotluse vastutavad uurijad korraldavad ligipääsu ka uute uuringute läbiviijatele lähtudes andmete minimaalsuse printsiibist ja tagavad ka nende logide salvestamise ja monitoorimise.
Andmete väljastamine SAPU serverist saab toimuda üksnes data owner rollis uurija kinnitusel ja see juhtub üldjuhul uurimistulemuste avaldamisel nt teaduspublikatsioonis. Väljastuse heakskiitmisel kontrollib vastutav uurija, et väljastatavad andmed on kooskõlas uuringu taotluses kirjeldatud eesmärkide ja sisuga. Uurimisgrupp avaldab üksnes statistilisi tulemusi, kus on tagatud k ≥ 5 anonüümsus. Uurimisgrupp ei avalda ega jaga kolmandate osapooltega üksikpatsientide andmeid ega pseudonüüme. Kõikide avaldatavate andmestike kohta annab oma kinnituse vastutav uurija.
Uuringute tulemused publitseeritakse nii Eesti kui rahvusvahelistes teadusajakirjades (eelistatult vabalt kättesaadavate artiklitena), konverentsidel ja ettekannetel, üliõpilaste lõputöödes. Andmestiku metakirjeldus (kirjeldus andmeväljade kohta, ei sisalda reaalseid andmeid) OMOP-andmekogude registritesse, (nt http://portal.ehden.eu). Teadusuuringu muid tulemeid (andmestikku kirjeldus, andmehõive statistika ja -hinnangud, andmete standardiseerimise ja tekstikaeve meetodid, üleminekutabelid, teadusuuringute kokkuvõtted jms) tutvustatakse soovi korral andmeandjatele ning otsitakse koostööviise tulemite rakendamiseks andmeandjate andmebaasides.
Andmete kustutamine Andmed hävitatakse hiljemalt 31. detsembriks 2028 kasutades hävitamise ajahetkel parimat kasutusolevat praktikat vastavalt rakendatavale infoturbestandardile (IS0/IEC 27001). Andmete hävitamine dokumenteerikse hävitamisaktis.. Andmete kustutamise protsessi käigus kustutatakse ka kõik andmete varukoopiad. Kui uuringu käigus tekib põhjendatud vajadus andmeid säilitada kauem, esitatakse enne uuringu lõppu Eesti bioeetika ja inimõiguste nõukogule (EBIN) vastavasisuline taotlus.
Andmete kustutamist teostab Eesti Teadusarvutuste infrastruktuuri meeskond koostöös vastutava uurijaga, et tagada permanentne ja pöördumatu andmete kustutamine. Andmete kustutamine dokumenteeritakse ja andmete kustutamise kohta koostatakse andmete kustutamise akt. Andmete kustutamise protokoll saadetakse kõikidele vastutavatele andmetöötlejatele.
14
Isikuandmete töötlemise eesmärgid
Töötlemise eesmärgid Eesmärk on Eesti terviseandmete väärindamine läbi andmeteaduse meetodite, et pakkuda kvaliteetset tõendust tõhusate patsiendikesksete tervishoiu- ja ennetusteenuste osutamiseks.
Uuring viiakse läbi kahes etapis:
1. etapp: alusandmestiku loomine ja andmekvaliteedi tõstmise meetodite arendamine 1. etapi eesmärgid on:
- Hinnata valimi põhjal Eesti terviseandmete kvaliteeti ja hõivet võrreldes erinevatest andmeallikatest pärinevat informatsiooni.
- Andmekvaliteedi ja andmehõive tõstmise meetodite sh tehisintellekti-, tekstikaeve- ja imputatsioonimeetodite arendamine.
- Tervisesündmuste esituse ühtlustamine rahvusvahelistele standarditele üle aja ja andmeallikate, sh kasutades tekstikaeve, klasterdamise ja automaattõlke meetodeid
- Arendatavad meetodid on hiljem rakendatavad ka uutes uuringutes, suurematel andmehulkadel ning riiklikes infosüsteemides andmekvaliteedi ja -hõive parandamiseks.
- Standardiseeritud ja ühtlustatud andmestiku loomine ja kirjeldamine teadusuuringute läbiviimiseks. Andmestikku kirjeldatakse läbi erinevate numbriliste näitajate ja teostatavusanalüüside senisest suuremal detailsusastmel.
2. etapp: teadus- ja rakendusuuringute teostamine uurimismetoodikate arendamiseks Eesti terviseandmetel.
2. etapi eesmärgid on:
- Arendada haigustrajektooride ja raviteekondade analüüsi metoodikaid kasutades sh tehisintellekti meetodeid, et kirjeldada praeguseid ravipraktikaid, võrrelda neid raviteekondade ja -juhenditega ning modelleerida tervisetulemeid ja ravi majanduslikku mõju.
- Analüüsida erinevate faktorite (nt sugu, vanus, erinevad haigused) mõju ravijärgimusele, hinnata ravijärgimuse mõju erinevatele tervisetulemitele ja luua personaalseid ennustusmudeleid, mis võimaldavad maandada ravi mittejärgimise riske.
- Arendada personaliseeritud ennetusmudeleid, mis võimaldavad vaatlusandmete põhjal tuvastada praeguste haiguse ennetuste ja ravipraktikate kitsaskohti, planeerida senisest paremini haiguste ennetustegevusi ja hinnata pakutud ennetusteenuste majanduslikku mõju
Töötlemise õiguslikud alused Euroopa isikuandmete kaitse üldmääruse (2016/679, edaspidi GDPR) artikkel 9 lg 2 (j) kohaselt on lubatud töödelda eriliiki terviseandmeid s.h terviseandmeid, kui “töötlemine on vajalik
15
avalikes huvides toimuval teaduseesmärgil /…/, ning on proportsionaalne saavutatava eesmärgiga, austab isikuandmete kaitse õiguse olemust ning tagatud on sobivad ja konkreetsed meetmed andmesubjekti põhiõiguste ja huvide kaitseks.” Alljärgnevalt on selgitatud, kuidas need nõuded on täidetud.
Kas antud juhul toimub töötlemine teaduse eesmärgil? Jah, andmeid töödeldakse ainult teaduse eesmärgil, täpsemalt teadusuuringute läbiviimise eesmärgil (vt eespool).
Kas antud juhul on töötlemine vajalik avalikes huvides? GDPR preambula p 45 kohaselt “kui /…./ töötlemine on vajalik avalikes huvides oleva ülesande täitmiseks /…/, peaks töötlemise alus olema sätestatud liidu või liikmesriigi õigusaktis.” Antud juhul tuleneb liikmesriigi (Eesti) õiguslik alus järgnevast:
● Eesti isikuandmete kaitse seadus (IKS) § 6 lg 4 lubab töödelda isikuandmeid teadusuuringu vajadusteks, kui IKS nõuete tingimuste täitmist kontrollib asjaomase valdkonna eetikakomitee. Vastav komitee on Eesti bioeetika ja inimõiguste nõukogu (EBIN) näol loodud sotsiaalministri määrusega 24.09.2019 nr 60 “Uuringueetika komitee moodustamine, selle töökord, liikmete arv ja määramise kord ning uuringu taotluse läbivaatamise tasumäärad”. EBIN ülesandeks on (§ 3 lk 3) “isikute põhiõiguste ennetava kaitse tagamine ja uuringutele rakendatavate hindamispõhimõtete ühtlustamine, et kindlustada uuritavate isikute õiguste kaitsemeetmed ning uurijate kohustused neid kaitsemeetmeid järgida.” Uuringumeeskond on esitanud EBIN-le vastavasisulise taotluse.
● Tartu Ülikool on avalik-õiguslik juriidiline isik ning pakub teadustegevusel põhinevaid avalikke teenuseid. Eesti rahvast uurivate teaduste edendamine ning koostöö teiste ülikoolide ja kogu ühiskonnaga on Tartu Ülikooli seadusest tulenev Tartu Ülikooli eesmärk (Tartu Ülikooli seadus § 2 lg 2 ja 3). Taotletava eesti rahvastikul põhineva andmestiku loomise ja sellel läbiviidavate uuringutega edendab Tartu Ülikool nii meditsiini- kui andmeteadust, samuti koostööd teiste ülikoolide ja ühiskonnaga laiemalt. Tartu Ülikool teeb koostööd kogu ühiskonnaga, toetades Eesti ühiskonna arengut ja loob teadustegevusel põhinevaid võimalusi rahvusvaheliseks koostööks (Tartu Ülikooli seadus § 2 lg 5).
Meditsiinis ja rahvatervises on otsuste tegemiseks vaja laiapõhjalistel teadusuuringutel põhinevat tõendust. Uuringute tarvis on reeglina vaja esinduslikke andmeid, mis on võimalikult värsked ja samal ajal piisavalt pika aegreaga. Näiteks on värskeimad andmed (sh imikute ja vastsündinute kohta) vajalikud vastamaks küsimustele, mis puudutavad terviseteenuse osutamise hetkeseisu, uute ravimeetodite kasutust ja efektiivsust ning tervisesüsteemi vastust erinevatele hiljutistele sündmustele. Samas ennustusmudelite loomiseks, haiguse arengu, ravi efektiivsuse, erinevate ravitrajektooride jms hindamiseks on vajalik vaadelda pikemaid ajaperioode.
Ajakohastel andmetel tugineva tõenduse leidmiseks kasutatakse järjest enam päriselu terviseandmete teisesel kasutusel põhinevaid uuringuid. Tänu Eesti unikaalsele
16
tervishoiuandmete korraldusele on võimalik ühendada patsiendi tervist puudutavad olulised komponendid haiguste (Tervise infosüsteem, vähiregister), ravimite (retseptikeskus), tarbitud teenuste ja kindlustuskaitse (Tervisekassa andmekogu) ning surma põhjuste kohta. Nende andmetel OMOP andmemudelil põhinevate terviseuuringute läbiviimisel on Eesti tervishoiuvaldkonnale ja ühiskonnale laiemalt mitmekordne kasu. Nii aitab igapäevase tervishoiuvaldkonna toimimise raames salvestatud andmete taaskasutamine ühelt poolt hoida kokku andmete kogumisele kuluvat aega ja raha ning teisalt annab kõige täpsema ülevaate tegelikest protsessidest ja trajektooridest erineva terviseseisundi, soo ja vanusega isikutel. Oluline on siinjuures, et terviseandmete teisese kasutamise korral ei suurene patsientide uuringu koormus kuna kasutatakse varasemalt kogutud retrospektiivseid andmeid. Terviseandmete teisene kasutamine võimaldab ilma lisakoormust põhjustamata analüüsida ja osutada efektiivsemalt tervishoiu teenuseid patsiendi gruppidel, kellel traditsiooniliste teadusuuringute tegemine ei ole eetilistel kaalutlustel võimalik (näiteks ravimite mõju lastele või rasedatele1). Kaasates analüüsi infot patsiendi kogu raviajaloo kohta pikema aja vältel, mitte ainult uuritava haigusega seotud tegevuste kohta, võib-olla võtmetähtsusega oluliste seoste avastamisel. Lisaks on taotletava teadusuuringu käigus 30% valimi peal välja töötatud meetodid andmekvaliteedi parandamiseks rakendatavad ka teistes teadusuuringutes ning riiklikes andmebaasides kogu rahvastiku andmetel. Taotletav teadusuuring loob eeldused, et päriselu terviseandmeid saaks Eestis laiemalt kasutada ning aitab parandada tervishoiuteenuste kvaliteeti, tervishoiusüsteemi efektiivsust ning toetada tervishoiupoliitiliste tõenduspõhiste otsuste tegemist, toetades seeläbi rahvastiku tervise arengukava 2020-2030 elluviimist. Kvaliteetsem tervishoiusüsteem omakorda toetab tervelt elatud eluaastate suurenemist.
Seega on eriliiki isikuandmete töötlemine vajalik avalikes huvides ning on sätestatud Eesti õiguses.
Kas isikuandmete töötlemise ulatus on proportsionaalne saavutatava eesmärgiga? Eesti eri terviseandmekogudes sisaldub patsientide tervise kohta erinevat liiki ja eri kvaliteediga infot. Selleks, et saada tervisevaldkonna küsimuste uurimiseks patsiendi terviseseisundist kvaliteetne pilt, on vajalik vaadelda korraga andmeid mitmest andmekogust (vt ka taotlus punkt “11. Uurimismetoodika”). Tervise infosüsteemi epikriisides on kirjas diagnoosid, raviskeemid, saatekirjades ja saatekirja vastustes ka laborianalüüside tulemused, kuid info võib olla puudulik. Epikriisides sisaldub vaid haigusloo kokkuvõte, mitte aga kõik teostatud uuringud või väljakirjutatud ravimid, mis mitmetes uuringutes on oluline info. Teiselt poolt on epikriisid ainsad tervisedokumendid, kus sisaldub vabas vormis kirja pandud info patsiendi kaebuste, üldseisundi, allergiate, ravi kõrvalmõjude jms kohta. Tekstilistest osadest suudame eraldada tehisintellekti meetodite abil ka muud olulist infot, mis kodeeritud väljades puudub, näiteks patsiendi kaebusi, ravimite nõrgemaid kõrvalmõjusid. Tervisekassa andmekogu info tervishoiuteenuste kohta on täielikum ja sisaldab ka teenuste hindu, kuid selle detailsus on samas madalam (mitmed tervishoiuteenused märgitud sama koodiga) ja laborianalüüside kohta puuduvad analüüsitulemused. Kõige parema pildi patsiendile välja kirjutatud ravimite osas annab retseptikeskus, lisaks on seal ka info ravimi väljaostmise kohta, mis on väga oluline indikaator ravijärgimuse hindamiseks. Samas puudub retseptikeskuses info käsimüügiravimite kohta (seda infot võib potentsiaalselt leida
17
epikriisidest). Paljude tervisevaldkonna uuringute puhul (nt pahaloomulised kasvajad) on oluline uurida suremust, selleks on kõige kvaliteetsem info kirjas surma põhjuste registris, mis sisaldab nii surma kuupäeva kui ka spetsialisti poolt kinnitatud surma põhjuseid. Andmeväljade valikul oleme lähtunud uurimistöö eesmärkidest tuginedes uurimismeeskonna senistele kogemustele ja minimaalsuse printsiibist. Laiapõhjalisus võimaldab hinnata andmekvaliteeti üle paljude haiguste, sh arvestades kaasuvaid haigusi, ja tagab, et loodud andmetöötlusmeetodid üldistuvad uutele uuringutele sõltumata vaatluse all olevast haigusest ja patsiendi gruppidest. Lähtuvalt sellest, et üheks taotletava teadusuuringu eesmärgiks on, et arendatavad analüüsimeetodid ja ennetusmeetodid üldistuksid ka uutele andmestikele ja haigustele, ei saa me piirata andmestikku ei diagnooside, vanuse ega muude parameetrite järgi. Iga piirang vähendaks andmestiku esinduslikkust üldpopulatsiooni suhtes ja muudaks arendatavad meetodid vähem üldistuvaks ning piiraks loodud meetodite kasutamist teistes uuringutes kui ka rakendatavust Terviseinfosüsteemi andmekvaliteedi tõstmisel. Andmete vaatlemine üle pika ajaperioodi võimaldab analüüsida tervisesündmuste esituse ja kvaliteedi arengut läbi aja ning uurida terviklikke haigustrajektoore alates ennetustegevustest, esmasdiagnoosist, raviteenuste osutamisest lõpptulemini. Tuginedes uurimisrühma varasemale kogemusele teame, et planeeritavateks uuringuteks vajaliku detailsusastmega terviseandmed on Eestis olemas alates 2012. aastast. Värskeimad andmed (sh imikute ja vastsündinute kohta) on vajalikud vastamaks küsimustele, mis puudutavad terviseteenuse osutamise hetkeseisu, uute ravimeetodite kasutust ja efektiivsust ning tervisesüsteemi vastust erinevatele hiljutistele sündmustele. Samuti on laiem andmestiku ajaraam vajalik, et hinnata riskimudelite 10-aastast ennustusvõimet vastavalt rahvusvaheliselt levinud praktikale. 30% suuruse juhuvalimi vajadus tuleneb uurimisrühma varasemast kogemusest ning rahvusvaheliselt levinud praktikast. Projekti “Tehisintellekti kasutamise võimalused meditsiinis” raames kasutasime 10% juhuvalimit 2012.-2019. aasta andmetest. Projekti käigus saime kinnitust, et erinevate riiklike terviseandmebaaside ühendamine ja laiapõhjalise terviseajaloo kasutamine annab olulist lisandväärtust andmete analüüsis. Näiteks koostöös Naistearstide seltsiga hindasime emakakaela vähi ennetuspraktika vastavust ennetusjuhendile ja erinevate papilloomviirustüvede levikut Eestis. Siiski ilmnesid 10% juhuvalimil koostatud andmestiku kasutamisel ka olulised kitsaskohad. Esiteks, oli andmestiku ajaraam liiga lühike, et vastavalt rahvusvahelistele prakikatele hinnata riskimudelite 10-aastast ennustusvõimet. Kuna andmestikku ei uuendatud, puudus info uute haiguste (nt COVID-19), ravipraktikate ning nende esituse ja andmekvaliteedi kohta. Näiteks seetõttu ei olnud võimalik ravijuhendite arendamisel teha koostööd ravijuhendite püsisekretariaadiga (https://tervis.ut.ee/et/ravijuhendid) ega panustada rahvusvahelistesse Euroopa Ravimiameti uuringutesse. Kõige olulisemana aga oleme korduvalt näinud, et 10% juhuvalim on liiga väike mitmete haigusseisundite või detailsemalt defineeritud kohortide uurimisel. Näiteks eesnäärmevähi rahvusvahelises uuringus osaledes saime vastused vaid osadele uurimisküsimustele, sest täpsemate tervisetulemite analüüsimiseks jäi valim liiga väikeseks. Vajalik patsientide arv sõltub väga uurimisküsimusest ning ka ühe uuringu sees võib see erineda, kuid arvestades patsientide kliinilise pildi varieeruvust ja retrospektiivsete terviseandmete kvaliteeti, oleks hinnanguliselt minimaalne vajalik patsientide arv uuringute jaoks sadades kuid veel parem üle tuhande. Oleme välja arvutanud, et taotletava ajaperioodi ja andmete ulatuse korral on 10%-lise juhuvalimiga andmestikus diagnoose, mida esineb
18
vähemalt tuhandel patsiendil 175, samas kui 30%-lises juhuvalimi korral on selliseid diagnoose ligi kaks korda rohkem - 330 diagnoosi (joonis 1). Suurema valimi korral suureneb oluliselt saadavate tulemuste statistiline usaldusväärsus ja samas ka haiguste hulk, millel saame välja töötatud meetodeid rakendada. Selle analüüsi põhjal näeme, et teadusuuringule seatud eesmärkide saavutamiseks on minimaalne valimi suurus 30%.
Joonis 1. Vähemalt 1000 patsiendil esinevate diagnooside arvu sõltuvus juhuvalimi suurusest, mis on võetud taotletava ajaperioodi ja andmete ulatusega Eesti terviseandmetest.
Kas isikuandmete töötlemine austab isikuandmete töötlemine isikuandmete kaitse õiguse olemust? Meie hinnangul austab selles mõjuhinnangus kirjeldatud isikuandmete töötlemine isikuandmete kaitse õiguse olemust.
Võrdse kohtlemise printsiip – kirjeldatud isikuandmete töötlemine ei diskrimineeri kedagi rahvuse, soo, vanuse ega muu kuuluvuse alusel. Kõikide ühiskonna- ja vanusegruppide puhul on eesmärk toetada elukvaliteedi parandamist ja tervena elatud aastate arvu suurendamist. Juhuvalimi tõttu on kõikidel inimestel võrdne tõenäosus valimisse sattuda.
19
Heategemise printsiip – antud andmestikust ja sellel läbiviidavatest terviseuuringutest saadav kasu on uuritavatele pigem kaudne, kuna alustatakse baasteadmiste loomisega ja otsene kliinilises praktikas kasutatav kasu haigusega tegelemiseks võib tekkida alles mitme aasta pärast. Seega saavad antud tööst kasu pigem tulevased patsiendid.
Kahju vältimise printsiip – kirjeldatud isikuandmete töötlemine on kooskõlas mittekahjustamise printsiibiga, kuna ei koorma patsiente ega põhjusta riske nende tervisele.
Taotluses kirjeldatud Uurimisgrupil on pikaaegne kogemus sarnaste andmestike loomisel, terviseuuringute läbiviimisel ja tulemuste publitseerimisel, samuti selle valdkonna üliõpilaste õpetamisel. Uurimisgrupp on andmestiku loomiseks kirjutanud põhjaliku taotluse ja käesoleva andmekaitsealase mõjuhinnangu koos riskide maandusmeetmetega ning palunud neid hinnata Eesti bioeetika ja inimuuringute nõukogul.
Kas tagatud on sobivad ja konkreetsed meetmed andmesubjekti põhiõiguste ja huvide kaitseks? Meie hinnangul on tagatud sobivad ja konkreetsed meetmed andmesubjekti põhiõiguste ja huvide kaitseks.
GDPR artikkel 6 lg 4 kohaselt võtab vastutav töötleja, juhul kui isikuandmete töötlemine toimub muul eesmärgil kui andmesubjekti nõusolekul ega põhine andmesubjekti nõusolekul, arvesse m.h “asjakohaste kaitsemeetmete olemasolu, milleks võivad olla näiteks /…/ pseudonümiseerimine”. Artikkel 89 lg 1 kohaselt kohaldatakse avalikes huvides toimuva teaduse eesmärgil isikuandmete töötlemise suhtes andmesubjekti õiguste ja vabaduste kaitseks asjakohaseid kaitsemeetmeid. “Need meetmed võivad hõlmata pseudonümiseerimist, kui kõnealuseid eesmärke on võimalik saavutada sellisel viisil,” kuid nõuab vajadusel täiendavat töötlemist, kui andmesubjektid on jätkuvalt tuvastatavad (“kui kõnealuseid eesmärke saab täita täiendava töötlemisega, mis ei võimalda või ei võimalda enam andmesubjektide tuvastamist, täidetakse need eesmärgid sel viisil.”). Vastavad tingimused ja kaitsemeetmed tuleb preambula p 157 kohaselt sätestada liikmesriigi õiguses (“Teadusuuringute hõlbustamiseks võib isikuandmeid töödelda teadusuuringute eesmärgil, mille suhtes kohaldatakse asjakohaseid tingimusi ja kaitsemeetmeid, mis on sätestatud liidu või liikmesriigi õiguses.”). Eestis reguleerib isikuandmete kaitset isikuandmete kaitse seadus (IKS), mis lubab isikuandmeid andmesubjekti nõusolekuta teadusuuringu vajadusteks töödelda pseudonüümitult (IKS § 6 lg 1 “Isikuandmeid võib andmesubjekti nõusolekuta teadus- või ajaloouuringu või riikliku statistika vajadusteks töödelda eelkõige pseudonüümitud või samaväärset andmekaitse taset võimaldaval kujul. Enne isikuandmete üleandmist teadus- või ajaloouuringu või riikliku statistika vajadustel töötlemiseks asendatakse isikuandmed pseudonüümitud või samaväärset andmekaitse taset võimaldaval kujul andmetega.”). IKS § 6 lg 3 kohaselt on teadusuuringu vajadusteks lubatud kasutada andmeid ka andmesubjekti tuvastamist võimaldaval kujul, kui täidetud on kolm tingimust: (1) pärast tuvastamist
20
võimaldavate andmete eemaldamist ei ole andmetöötluse eesmärgid enam saavutatavad või neid oleks ebamõistlikult raske saavutada; (2) selleks on ülekaalukas avalik huvi; (3) töödeldavate isikuandmete põhjal ei muudeta andmesubjekti kohustuste mahtu ega kahjustata muul viisil ülemäära andmesubjekti õigusi. Rahvatervise seadus lubab kasutada vähiregistri andmeid teadustööks isikustamata kujul (§ 141 lg 2). Tervise infosüsteemi andmete kasutamist teaduse vajaduseks lubab Tervishoiuteenuste korraldamise seadus § 593 lg 7, kui vajalikkust ja põhjendust ning isikute põhiõiguste kaitsemeetmeid on hinnanud uuringueetika komitee (§ 594 lg 1 ja lg 2). Vastav komitee on EBIN näol loodud sotsiaalministri määrusega 24.09.2019 nr 60 “Uuringueetika komitee moodustamine, selle töökord, liikmete arv ja määramise kord ning uuringu taotluse läbivaatamise tasumäärad”. EBIN ülesandeks on (§ 3 lk 3) “isikute põhiõiguste ennetava kaitse tagamine ja uuringutele rakendatavate hindamispõhimõtete ühtlustamine, et kindlustada uuritavate isikute õiguste kaitsemeetmed ning uurijate kohustused neid kaitsemeetmeid järgida.”
Käesolevas projektis töödeldakse andmeid pseudonüümitud kujul, kuid lisaks rakendatakse andmesubjektide tuvastamise riski maandamiseks ka täiendavat töötlust:
1. Uurimisgrupp ei tea, millised isikud kuuluvad valimisse. 2. Taotletav andmestik ei sisalda isikute nimesid, isikukoode, aadresse jms. Taotletavad
andmed pseudonüümitakse andmeandmeandja poolt enne Uurimisgrupile väljastamist. Pseudonüümimisvõti on tagasipööramatu ning seda taotluses kirjeldatud meeskonnale ei avaldata.
3. Andmestiku loomisel ega hiljem ei toimu depseudonüümimist ja uuritavatega ühendust ei võeta.
4. Andmete töötlus toimub spetsiaalsel tundlike andmete platvormil SAPU, mis piirab kasutajate võimalust andmeid serverist välja kopeerida ega võimalda andmeid muul moel linkida teiste andmestikega (maandab linkimisründe riski andmesubjektide tuvastamiseks).
5. Esimeseks tegevuseks SAPU serveris on andmete täiendav töötlemine automaatse anonüümimisrakendusega, et eemaldada andmete vabatekstilistest osadest võimalikud nimed, telefoninumbrid, isikukoodid, aadressid.
Muud kaitsemeetmed on kirjeldatud käesoleva mõjuhinnangu lõpus.
Kuigi käesolevas uuringus ei kasutata andmeid andmesubjekti tuvastamist võimaldaval kujul, vaid pseudonüümitult ja rakendatakse ka muid kaitsemeetmeid andmesubjekti tuvastamise riski maandamiseks, on siiski täidetud ka IKS § 6 lg 3 kolm tingimust: (1) terviseuuringute, s.h ravijärgimuse ja ravitrajektooride uurimiseesmärke oleks ebamõistlikult raske saavutada ilma üksikpatsientide tasemel andmeid analüüsimata; (2) uuringu vastu on ülekaalukas avalik huvi (vt põhjendust eespool); (3) töödeldavate isikuandmete põhjal ei muudeta andmesubjekti kohustuste mahtu ega kahjustata muul viisil ülemäära andmesubjekti õigusi (samuti põhjendatud eespool).
21
Riskid ja nende maandamine Riskide kaardistus koos maandamise meetmega on toodud järgmises tabelis. Riski tõenäosust on hinnatud pärast maandusmeetmete rakendamist (nt ilma SAPU kasutamiseta oleks tõenäosused märgatavalt suuremad):
Riski nr
Riski nimetus Jääkriski tõenäosus (0-väga madal; 4-väga kõrge)
Riski mõju (0-väga madal; 4-väga kõrge)
Riski tase Tegevused / ettepanekud riski maandamiseks
1 Inimeste terviseandmed saavad avalikuks
1 (madal) 4 (väga kõrge)
Keskmine SAPU kasutamine (ei saa kopeerida), mis on kättesaadav vaid Tartu Ülikooli sisevõrgust ainult Uurimisgrupi liikmetele, serveri monitooring ja tegevuste logimine, kindel protsess andmete SAPU-st väljatoomiseks, pika kogemusega Uurimisgrupi liikmed, konfidentsiaalsusklausel töölepingus, füüsilised turvameetmed serveriruumil, andmed pseudonüümitud, juhuvalimi kasutamine (mitte kõik Eesti inimesed). Uurimisgrupi liikmete juhendamine ja koolitamine.
2 Andmestikus olevate andmesubjektide suurel hulgal (süstemaatiline) tuvastamine
1 (madal) 4 (väga kõrge)
Keskmine Otseste isikuandmete eemaldamine andmeandjate poolel enne Uurimisgrupile edastamist, unikaalsete pseudonüümide kasutamine, juhuvalimi kasutamine (mitte kõik Eesti inimesed), SAPU kasutamine (ei saa andmeid kopeerida ega teiste andmestikega linkida)
3 Andmestikus konkreetse andmesubjekti juhuslik tuvastamine
2 (keskmine) 1 (madal) Keskmine Otseste isikuandmete eemaldamine andmeandjate poolel enne Uurimisgrupile edastamist, unikaalsete pseudonüümide kasutamine, juhuvalimi kasutamine (mitte kõik Eesti inimesed), väga väike tõenäosus, et juhuslikult tuvastatud isik on uurijale tuttav
4 Andmestikust iseenda tuvastamine
3 (kõrge) 0 (väga madal)
Keskmine Otseste isikuandmete eemaldamine enne Uurimisgrupile edastamist, unikaalsete pseudonüümide kasutamine, valimisse kuulumine juhuslik, iseenda tuvastamisel ei saa uurija teada uut informatsiooni
22
5 Andmeallikad avaldavad Uurimisgrupile pseudonüümimis-pa rooli, mis muudab andmesubjektid Uurimisgrupi poolt tuvastatavaks
1 (madal) 2 (keskmine)
Keskmine Selgelt kindlaksmääratud protsess parooli vahetamiseks andmeallikate vahel ilma seda Uurimisgrupile avaldamata, juhuvalimi kasutamine (mitte kõik Eesti inimesed), SAPU kasutamine (ei saa andmeid kopeerida ega teiste andmestikega linkida)
6 Andmeandja kaotab pseudonüümimiseks kasutatava parooli (pole võimalik enam andmeid uuendada)
1 (madal) 2 (keskmine)
Keskmine Vajadusel saab parooli uuesti küsida teiselt andmeallikalt. Kui parool on lõplikult kadunud, kustutab Uurimisgrupp kõik seni antud andmed ja küsitakse kõigilt andmeandjatelt kõik vajalikud andmed uuesti (kuigi sel juhul muutub ka valim)
7 Vabatekstiline info võib sisaldada sensitiivseid andmeid
2 (keskmine) 1 (madal) Keskmine Andmete saamisel on SAPU serveris esimeseks sammuks anonüümimisrakenduse kasutamine, mis tuvastab ja asendab vabatekstilistes dokumendiosades isikunimed, aadressid, telefoninumbrid, isikukoodid. Juhuleidude korral on Uurimisgrupil kindel protsess nende käsitlemiseks, täiendatakse vastavalt anonüümimisrakendust ja teostatakse anonüümimine uuesti.
8 Andmetele saavad ligi Uurimisgrupi välised isikud
2 (keskmine) 1 (madal) Keskmine SAPU serverisse kasutajakontode lisamine ja eemaldamine käib kindlaksmääratud protsessi alusel, regulaarselt vaadatakse üle kõigi kasutajate õigused, lähtutakse TÜ IT-turbe kordadest ja kõik Uurimisgrupi liikmed peavad läbima küberhügieeni ja kodust töötamise infoturbe alased ning andmekaitse alse koolitused ja eksamid (https://cyberhygiene.ut.ee/)
9 Andmeid kasutatakse uurimismeeskonna poolt muuks otstarbeks kui lubatud
1 (madal) 1 (madal) Madal SAPU kasutamine (ei saa andmeid kopeerida, automaatne tegevuste logimine), Uurimisgrupi kõrge kvalifikatsioon ja pikaaegne kogemus terviseandmetega töötamisel
10 Avaldatavad tulemused on liiga detailsed (andmesubjektide tuvastamise risk)
1 (madal) 1 (madal) Madal Kindel protsess andmete SAPU-st väljatoomiseks, tulemuste avaldamisel kontrollitakse, et tagatud on k≥5 anonüümsus, pika kogemusega Uurimisgrupi liikmed
23
Kasutusel olevad riskide vältimise meetmed
Tartu Ülikoolis on riskide vältimise aluseks riskianalüüs, mida tehakse igas vajalikus valdkonnas / teemas / projektis ning selle eest on vastutav vastava valdkonna / teema / projekti esindaja.
Riskianalüüsi käigus: ● kirjeldatakse võimalikud riskid, ● hinnatakse iga riski tõenäosust ja võimalikku mõju, ● vastavalt riski tõenäosusele ja võimalikult mõjule määratakse riski tase, ● vajadusel kirjeldatakse riskide kontrollimise ja maandamise tegevused.
Regulaarseid riskianalüüse viiakse läbi vastavalt vajadusele.
Antud projektis vastutab riskide vältimise ja vajalike meetmete rakendamise eest vastutav uurija, kes saab vajadusel abi Tartu Ülikooli siseauditi büroolt.
Füüsilised turvameetmed Andmetöötlus toimub Tartu Ülikooli teadusarvutuste keskuse infrastruktuuril:
● Jälgitakse Eesti infoturbestandardiga kehtestatud nõudeid. ● Erinevad ressursid on eraldatud võrgu tasandil. ● Töötajaid koolitatakse järjepidevalt. ● Kõik võrguseadmed ja serverid asuvad Tartu Ülikooli majutatud suletud
andmekeskustes. ● Andmekeskustes kasutatavad tulekustutussüsteemid toimivad automaatselt, on
gaasipõhise lahendusena ning on ette nähtud andmekeskustes kasutamiseks. ● Andmekeskustes ei hoita kergestisüttivaid või tuleohtlikke esemeid. ● Andmekeskuste konstruktsioonides ja sisustuses on viidud miinimumini süttivate
materjalide, nagu puu, tekstiil ja sünteetilised materjalid kasutamine. ● Andmekeskused on kaitstud uputuste ja veekahjustuste eest. ● Andmekeskustes on tagatud optimaalne temperatuur ja õhuniiskus. ● Andmekeskused on kaitstud sissemurdmise ja volitamata sisenemise eest. ● Füüsiliselt pääsevad andmekeskusesse nimelist (personaalset) juurdepääsuõigust
omavad isikud. ● Isikliku juurdepääsuõigusega isikud pääsevad andmekeskusesse kas võtme või
töötõendi ja valvekoodi abil. ● Ilma isikliku juurdepääsuõiguseta isikutel on võimalik andmekeskusesse siseneda
üksnes andmekeskusesse juurdepääsu omava isiku juuresolekul. ● Andmekeskuste turvalisuse tagamiseks kasutatakse tehnilist valve- ja
läbipääsusüsteemi ning videovalvet. ● Valve- ja läbipääsusüsteem salvestab andmed juurdepääsukaartide kasutamise ja
valvestamise kohta.
24
● Andmekeskused asuva kahe tulekindla ukse taga, mida saab avada vaid isikliku kiipkaardiga või spetsiaalse võtmega.
● Andmekeskused on elektroonilise valve all ning andmekeskusesse sisenemisel tuleb elektrooniline valve isikliku koodi abil deaktiveerida.
● Andmekeskuse elektrooniline valve on deaktiveeritud ainult siis, kui keegi asub füüsiliselt andmekeskuses, on sinna sisenemas või sealt lahkumas.
● Kõik andmekeskusse sisenemised ja elektroonilise valve deaktiveerimised/aktiveerimised logitakse.
● Tuleohutuse tagamisel järgitakse Ülikooli tuleohutuseeskirju. ● Tartu Ülikooli teadusarvutuste keskuses kehtivad tehnilised ja organisatoorsed meetmed
infoturbe tagamiseks ning andmete kaitsmiseks. Valik tehnilisi ja organisatoorseid meetmeid (turvakaalutlustel ei ole avalikustatud kõik tehnilised ja organisatoorsed meetmed) on toodud Tartu Ülikooli teadusarvutuste keskuse koduleheküljel https://hpc.ut.ee/terms/information-security (inglise keeles).
Infotehnoloogilised turvameetmed
Andmetöötlus toimub Eesti Teadusarvutusteinfrastruktuuril SAPU keskkonnas, kus: ● Jälgitakse Eesti infoturbestandardiga kehtestatud nõudeid. ● Teostatakse regulaarselt serverite testimist, uuendamist ja monitoorimist. ● Haavatavuste tuvastamiseks kasutatakse monitoorimist, masinõpet ning ka erinevaid
läbistusteste. Muuhulgas kasutatakse haavatavuste tuvastamiseks ka juba olemasolevaid haavatavuste tuvastamise tarkvarasid (näiteks Nessus) ning jälgitakse järjepidevalt erinevaid haavatavuste nimekirju. Lisaks Eesti Teadusarvutuste infrastruktuurile skaneerib taristu avalikult kättesaadavaid ressursse ka CERT-EE.
● Erinevad ressursid on eraldatud kasutajaõiguste tasandil. ● Õiguste määramisel lähtutakse minimaalsuse põhimõttest ja vaikimisi administraatori
juurdepääsu ei võimaldata. ● Servereid skaneeritakse regulaarselt ja jooksvalt jälgitakse ka võrguliiklust. ● Vaikimisi on keelatud kõik tegevused, mis ei ole otseselt vajalikud töö tegemiseks. ● Kasutatakse andmete varundamist Eesti Teadusarvutuste infrastruktuuri lindirobotile, mis
asub füüsiliselt teises asukohas (Eesti Teadusarvutuste infrastruktuuri andmekeskuses). ● Kõik kasutajate tegevused SAPU keskkonnas logitakse ja logisid monitooritakse. ● Kõik potentsiaalsed turvaintsidendid ja turvanõrkuste leidmise katsed logitakse (näiteks
sisse logimise katsed, pöördumised erinevate portide poole, kasutajaõiguste muutused jne).
● SAPU keskkonnas olevate kasutajate ekraanipilt salvestatakse. ● SAPU keskkonnast info/andmete välja liigutamine on võimalik ainult, kui vastutav uurija
on vastavad andmed üle vaadanud ja selleks nõusoleku andnud. ● SAPU keskkonnast info/andmete välja kopeerimine ei ole võimalik („copy“ käsk). ● SAPU keskkond asub eraldi tulemüüri taga. ● Interneti juurdepääs SAPU masinast on täielikult suletud ja ei ole võimalik teha päringuid
internetti.
25
● SAPU keskkonnas on eelinstalleeritud tarkvara ja kasutajal ei ole võimalik keskkonda tarkvara ise installeerida.
● Andmete liigutamine (kaasa arvatud analüüsi tulemuste) SAPU keskkonnast välja vajab vastutava uurija nõusolekut.
● SAPU keskkondi varundatakse regulaarselt. ● Perioodidel, kui SAPU keskkonda ei kasutata, on keskkond välja lülitatud ja keskkonda
ei ole võimalik siseneda. ● Eesti Teadusarvutuste infrastruktuuris kehtivad tehnilised ja organisatoorsed meetmed
infoturbe tagamiseks ning andmete kaitsmiseks. Valik tehnilisi ja organisatoorseid meetmeid (turvakaalutlustel ei ole avalikustatud kõik tehnilised ja organisatoorsed meetmed) on toodud Tartu Ülikooli teadusarvutuste keskuse koduleheküljel https://hpc.ut.ee/terms/information-security (inglise keeles).
26
Specification of Objectives against Ethical Requirements
Yes No (how potential risks will be mitigated?)
Respect for Human Agency
End-users and others affected by the AI system are not deprived of abilities to make all decisions about their own lives, have basic freedoms taken away from them,
X
End-users and others affected by the AI system are not subordinated, coerced, deceived, manipulated, objectified or dehumanized, nor is attachment or addiction to the system and its operations being stimulated.
X
The system does not autonomously make decisions about vital issues that are normally decided by humans by means of free personal choices or collective deliberations or similarly significantly affects individuals,
X
The system is designed in a way that give system operators and, as much as possible, end-users the ability to control, direct and intervene in basic operations of the system (when relevant)
X
Privacy & Data Governance
The system processes data in line with the requirements for lawfulness, fairness and transparency set in the national and EU data protection legal framework and the reasonable expectations of the data subjects.
X
Technical and organisational measures are in place to safeguard the rights of data subjects (through measures such as anonymization, pseudonymisation, encryption, and aggregation).
X
There are security measures in place to prevent data breaches and leakages (such as mechanisms for logging data access and data modification).
X
Fairness
The system is designed to avoid algorithmic bias, in input data, modelling and algorithm design.
The system is designed to avoid historical and selection bias in data collection, representation and measurement bias in algorithmic training,
X, kasutame juhuvalimit
aggregation and evaluation bias in modelling and automation bias in deployment
The system is designed so that it can be used different types of end-users with different abilities (whenever possible/relevant)
X
The system does not have negative social impacts on relevant groups, including impacts other than those resulting from algorithmic bias or lack of universal accessibility,
X
Individual, and Social and Environmental Well-being
The AI system takes the welfare of all stakeholders into account and do not unduly or unfairly reduce/undermine their well-being
X
The AI system is mindful of principles of environmental sustainability, both regarding the system itself and the supply chain to which it connects (when relevant)
X, tegemist on väiksemahuliste mudelitega, mis ei tarbi suures mahus resursse
The AI system does not have the potential to negatively impact the quality of communication, social interaction, information, democratic processes, and social relations (when relevant)
X
The system does not reduce safety and integrity in the workplace and complies with the relevant health and safety and employment regulations
X
Transparency
The end-users are aware that they are interacting with an AI system
X, teadusuuringu planeeritavate tegevuste jooksul ei jõuta väljaarendatud süsteemid lõppkasutajani. Juhul, kui väljatöötatud
tehisintellekti meetodeid planeeritakse rakendada realelusüsteemidel, võetakse kasutusele vastavad riske maandavad meetmed.
The purpose, capabilities, limitations, benefits and risks of the AI system and of the decisions conveyed are openly communicated to and understood by end-users and other stakeholders along with its possible consequences
X
People can audit, query, dispute, seek to change or object to AI or robotics activities (when applicable)
X
The AI system enables traceability during its entire lifecycle, from initial design to post-deployment evaluation and audit
X
The system offers details about how decisions are taken and on which reasons these were based (when relevant and possible)
X, suuremate keelemudelite kasutamisel ei ole alati võimalik otsuste põhjuseid interpreteeritavalt taastada. Kuid neid mudeleid me ei kasuta patsiente puudutavate otsuste tegemisel
The system keeps records of the decisions made (when relevant)
X
Accountability & Oversight
The system provides details of how potential ethically and socially undesirable effects will be detected, stopped, and prevented from reoccurring.
X, arendatavad tehisintellekti mudelid on kitsaste tehniliste eesmärkidega ja ei oma kirjeldatud mõõtmetes mõju.
The AI system allows for human oversight during the entire life-cycle of the project /regarding their decision cycles and operation (when relevant)
X
28
EESTI BIOEETIKA JA INIMUURINGUTE NÕUKOGU OTSUS
11. november 2024 nr 1.1-12/2793 Nõukogu koosseisus: Esimees: Liina Vahter Tallinna Ülikool Aseesimees: Carolina Murd Tervise Arengu Instituut Teadussekretär: Aive Pevkur Tallinna Tehnikaülikool Liikmed: Maarja Kirss Andmekaitse Inspektsioon Maie Bachmann Tallinna Tehnikaülikool Ingeri Luik-Tamme TGS Baltic Advokaadibüroo Ingrid Ots-Vaik valdkondlik ekspert Ethel Bubõr andmekaitseõiguse jurist Agne Velthut-Meikas Tallinna Tehnikaülikool Merike Sisask Tallinna Ülikool Arutas 8. oktoobril 2024. a vastutavate uurijate Jaak Vilo, Raivo Kolde, Sven Lauri ja Sulev Reisbergi jätkutaotlust uuringule “EST-Health-30 - Eesti terviseandmete väärindamine“. Uuringu eesmärgiks Eesti terviseandmete väärindamine läbi andmeteaduse meetodite, et pakkuda kvaliteetset tõendust tõhusate patsiendikesksete tervishoiu- ja ennetusteenuste osutamiseks. Taotletav teadusuuring loob eeldused, et päriselu terviseandmeid saaks Eestis laiemalt kasutada ning aitab parandada tervishoiuteenuste kvaliteeti, tervishoiusüsteemi efektiivsust ning toetada tervishoiupoliitiliste tõenduspõhiste otsuste tegemist, toetades seeläbi rahvastiku tervise arengukava 2020-2030 elluviimist. Valimi suurus on 30% juhuvalim Eestis alates 2012. aastast tervishoiuteenuseid tarbinud Eesti elanikest. Valim sisaldab kontrollgruppi. Uuringu taotluse menetlusest taandas ennast Maarja Kirss, Andmekaitse Inspektsioonist. Jätkutaotlus esitati, kuna 15.01.2024. a heakskiidetud taotluse “Standardse esindusliku Eesti terviseandmestiku loomine teadusuuringuteks (EST-Health-30)” (nr 1.1-12/102) alusel keeldusid andmeomanikud (Tervise Arengu Instituut (TAI), Sotsiaalministeerium (SoM)) andmeid väljastamast ning soovisid taotlusesse muudatusi. Pärast andmeomanike, Andmekaiste Inspektsiooni ja EBINi esindajatega toimunud ning 14.08.2024. a toimunud kohtumisel saadud tagasisidest täiendati varasemalt heakskiidetud Est-Health-30 taotlust (nr 1.1-12/102). 15.01.2024. a heakskiidetud taotlust “Standardse esindusliku Eesti terviseandmestiku loomine teadusuuringuteks (EST-Health-30)” täiendati järgmiselt:
• Muudeti uuringu nimetust, kuna esialgne nimi võis tunduda mõnevõrra eksitav ja jättis mulje, et teadusuuringu peamine eesmärk on andmekogu loomine. Siiski on teadusuuringu
põhieesmärgiks teadustöö tegemine terviseandmetel ning seatud eesmärkide täitmiseks on vajalik ka kvaliteetse alusandmestiku loomine taotluses kirjeldatud tingimustel. Uus uuringu nimetus kajastab selgemalt taotluse sisu (punkt 1 “Uuringu nimetus”).
• Projekti tegevused viiakse läbi kahe etapina, kus esimeses etapis toimub alusandmestiku loomine ja andmekvaliteedi tõstmise meetodite arendamine. Teises etapis teadus- ja rakendusuuringute teostamine uurimismetoodikate arendamiseks Eesti terviseandmetel. Sellist jaotust rakendatakse läbi kogu taotluse (punkt 2 “Uuringu põhieesmärk”, punkt 9 “Planeeritava uuringu põhjendus ning uurimisküsimused ja/või hüpoteesid”, punkt 10 “Uurimismetoodika”).
• Sõnastati selgemalt projekti üldeesmärk ning kirjeldati detailselt esimese ja teise etapi eesmärgid (punkt 2 “Uuringu põhieesmärk”).
• Lisati vahepeal uurimisgrupiga lisandunud nooremteadureid uuringu läbiviijate loetelusse (punkt 4 “Uuringu läbiviijad”).
• Täpsustati uuringu finantseerimisallikaid (punkt 5 “Uuringu finantseerimine”), mille põhieesmärkide täitmiseks on teostatav teadusuuring vajalik.
• Tulenevalt andmeomanike valmisolekust andmeid jagada kuni Euroopa ühtse andmeruumi loomisega seotud seadusandluse rakendumiseni lühendati uuringu läbiviimise aega kaks aastat (täiendatud taotluses oktoober 2024 - detsember 2027). Lisati juurde soov andmed arhiveerida üheks aastaks peale projekti lõppu, et tagada publitseerimisel olevate teadusartiklite edukas avaldamine (punkt 6 “Uuringu läbiviimise aeg”).
• Toodi selgemalt ja põhjalikumalt välja, kuidas taotletav projekt on avalikes huvides, luues eeldused päriselu terviseandmete laialdasemaks kasutamiseks Eestis, aidates parandada tervishoiuteenuste kvaliteeti, tervishoiusüsteemi efektiivsust ning toetades tervishoiupoliitiliste tõenduspõhiste otsuste tegemist. See kõik toetab ka rahvastiku tervise arengukava 2020-2030 elluviimist ja tervelt elatud eluaastate suurenemist (punkt 9 “Planeeritava uuringu põhjendus ning uurimisküsimused ja/või hüpoteesid”, punkt 13a “Uuringu eetiliste aspektide analüüs. Inimesed”).
• Lähtuvalt SoMi tagasisidest täiendati valimi suuruse põhjendust, selgitades veelgi täpsemalt 30%-se valimi vajalikkust analüüsimetoodikate arendamisel ja valideerimisel. Samuti kirjeldati põhjalikumalt andmete hoidmise ja töötlemisega seonduvat, sh logide salvestamist, andmetele ligipääsu, andmete väljastamist turvalisest andmepuurist (SAPU) (punkt 10 “Uurimismetoodika”, punkt 11 “Uuritavate valim ja värbamise viisi kirjeldus”, punkt 13b “Uuringu eetiliste aspektide analüüs. Isikuandmed ja andmestikud”, punkt 15 “Isikuandmete kaitse meetmete kirjeldus”, Lisa 2 “Andmekaitsealane mõjuhinnang”).
• Uuringu taotluse täiendamisega ei kaasne esialgse valimi suurendamist ega korduvväljastusi. Otsus: anda luba uuringu läbiviimiseks. Uuringu läbiviimise lõpptähtaeg on 31. detsember 2028. a. uuringu alusandmed hävitatakse hiljemalt 31. detsembriks 2028. a. Selgitus: Eesti bioeetika ja inimuuringute nõukogu otsus uuringu taotluse osas ei kohusta isikuandmete või andmekogu vastutavat või volitatud töötlejat andmeid uurijale väljastama. Isikuandmete või andmekogu vastutav või volitatud töötleja on kohustatud hindama, kas isikuandmete väljastamine uuringu tegemise eesmärgil ja uurija poolt taotletud viisil on tehniliselt võimalik, lubatud ja vastab õigusaktidele.
- Eesti bioeetika ja inimuuringute nõukogu annab hinnangu planeeritavas uuringus isikuandmete töötlemise suhtes taotluses esitatud kirjelduse ja dokumentide alusel. Uuringus kasutatavate isikuandmete vastutav või volitatud töötleja (vastutav uurija ning uuringumeeskond) vastutab isikuandmete töötlemise nõuetekohasuse ja õigusaktidele vastavuse eest ka siis kui nõukogu on uuringu kooskõlastanud. - Andmesubjektide poolt teadusuuringuga seoses esitatud andmekaitsealastele päringutele ja taotlustele kohustub vastama kas uuringumeeskond või isikuandmete vastutav või volitatud töötleja, sõltuvalt päringust. Otsuse lahutamatu lisa on vastutavate uurijate poolt 20. augustil 2024. a digiallkirjastatud uuringu taotlus koos lisadega ning 16. septembril 2024. a digiallkirjastatud selgitus. /allkirjastatud digitaalselt/ Liina Vahter Eesti bioeetika ja inimuuringute nõukogu esimees
UURINGU EETILISE HINDAMISE TAOTLUS EESTI BIOEETIKA JA INIMUURINGUTE NÕUKOGULE
1. Uuringu nimetus (ingliskeelsete taotluse puhul tuleb uuringu nimetus ära tuua ka eesti keeles)
EST-Health-30 - Eesti terviseandmete väärindamine
2. Uuringu põhieesmärk kuni 450 tähemärki (0,25 lk) (ingliskeelsete taotluse puhul tuleb uuringu põhieesmärk ära tuua ka eesti keeles)
Eesmärk on Eesti terviseandmete väärindamine läbi andmeteaduse meetodite, et pakkuda kvaliteetset tõendust tõhusate patsiendikesksete tervishoiu- ja ennetusteenuste osutamiseks.
Uuring viiakse läbi kahes etapis:
1. etapp on alusandmestiku loomine ja andmekvaliteedi tõstmise meetodite arendamine, mille käigus lingitakse tervise infosüsteemi, Tervisekassa andmekogu, retseptikeskuse, vähiregistri ja surma põhjuste registri andmed ja seeläbi koostatakse teadusuuringute läbiviimiseks alusandmestik (täpne andmekoosseis on toodud lisas 1). Alusandmestiku loomise oluliseks osaks on andmekvaliteeti ja andmehõivet parandavate meetodite sh tehisintellekti mudelite arendamine. Samuti on alusandmestiku loomine vajalik 2. etapi ellu viimiseks ja eesmärkide täitmiseks.
1. etapi eesmärgid on:
1.1 Hinnata valimi põhjal Eesti terviseandmete kvaliteeti ja hõivet võrreldes erinevatest andmeallikatest pärinevat informatsiooni.
1.2 Andmekvaliteedi ja andmehõive tõstmise meetodite sh tehisintellekti-, tekstikaeve- ja imputatsioonimeetodite arendamine.
1.3 Tervisesündmuste esituse ühtlustamine rahvusvahelistele standarditele üle aja ja andmeallikate, sh kasutades tekstikaeve, klasterdamise ja automaattõlke meetodeid.
1.4 Arendatavad meetodid on hiljem rakendatavad ka uutes uuringutes, suurematel andmehulkadel ning riiklikes infosüsteemides andmekvaliteedi ja -hõive parandamiseks.
1.5 Standardiseeritud ja ühtlustatud andmestiku loomine ja kirjeldamine teadusuuringute läbiviimiseks. Andmestikku kirjeldatakse läbi erinevate numbriliste näitajate ja teostatavusanalüüside senisest suuremal detailsusastmel.
2. etapp on teadus- ja rakendusuuringute teostamine uurimismetoodikate arendamiseks Eesti terviseandmetel. Lähtume põhimõttest, et loodavad analüüsimeetoid on rakendatavad sõltumata uuringu all olevast haigusest või patsiendigrupist. Tulenevalt käimasolevatest teadus- ja rakendusuuringu projektidest (vt. pt “5. Uuringu finantseerimine”) keskendutakse taotletava teadusuuringu raames ravijärgimuse, ravitrajektooride ja -teekondade ning personaliseeritud ennetusmeetoditega seotud analüüsimeetodite arendamisele. Täiendavate uurimisküsimuste tekkimisel esitatakse Eesti bioeetika ja inimuuringute nõukogule ja EST-Health-30 uuringu andmeandjatele hindamiseks uus taotlus.
2. etapi eesmärgid on:
2.1 Arendada haigustrajektooride ja raviteekondade analüüsi metoodikaid kasutades sh tehisintellekti meetodeid, et kirjeldada praeguseid ravipraktikaid, võrrelda neid raviteekondade ja -juhenditega ning modelleerida tervisetulemeid ja ravi majanduslikku mõju.
2.2 Analüüsida erinevate faktorite (nt sugu, vanus, erinevad haigused) mõju ravijärgimusele, hinnata ravijärgimuse mõju erinevatele tervisetulemitele ja luua personaalseid ennustusmudeleid, mis võimaldavad maandada ravi mittejärgimise riske.
1
2.3 Arendada personaliseeritud ennetusmudeleid, mis võimaldavad vaatlusandmete põhjal tuvastada praeguste haiguse ennetuste ja ravipraktikate kitsaskohti, planeerida senisest paremini haiguste ennetustegevusi ja hinnata pakutud ennetusteenuste majanduslikku mõju
Taotletav teadusuuring loob eeldused, et päriselu terviseandmeid saaks Eestis laiemalt kasutada ning aitab parandada tervishoiuteenuste kvaliteeti, tervishoiusüsteemi efektiivsust ning toetada tervishoiupoliitiliste tõenduspõhiste otsuste tegemist, toetades seeläbi rahvastiku tervise arengukava 2020-2030 elluviimist.
3. Vastutava(d) uurija(d) ning tema (nende) kontaktandmed
Vastutavad uurijad on samad teadusuuringu 1. ja 2. etapis
Eesnimi: Jaak
Perekonnanimi: Vilo
Ametikoht: andmeteaduse õppetooli juhataja, bioinformaatika professor
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
Telefon: +372 504 9365
e-post: vilo@ut.ee
Eesnimi: Raivo
Perekonnanimi: Kolde
Ametikoht: terviseinformaatika kaasprofessor
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
Telefon: +372 506 7961
e-post: raivo.kolde@ut.ee
Eesnimi: Sven
Perekonnanimi: Laur
Ametikoht: turvalise andmekaeve kaasprofessor
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
Telefon: +372 5309 0584
e-post: sven.laur@ut.ee
Eesnimi: Sulev
Perekonnanimi: Reisberg
Ametikoht: terviseinformaatika teadur
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
Telefon: +372 524 8123
e-post: sulev.reisberg@ut.ee
4. Uuringu läbiviijad (lisada juurde vajalik arv ridu)
2
1. ja 2. etapi tegevuste elluviimisega seotud uuringu läbiviijad:
1. Eesnimi: Marek
Perekonnanimi: Oja
Ametikoht: terviseinformaatika teadur
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
2. Eesnimi: Markus
Perekonnanimi: Haug
Ametikoht: terviseinformaatika nooremteadur
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
3. Eesnimi: Harry-Anton
Perekonnanimi: Talvik
Ametikoht: terviseinformaatika nooremteadur
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
4. Eesnimi: Hendrik
Perekonnanimi: Šuvalov
Ametikoht: terviseinformaatika nooremteadur
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
5. Eesnimi: Maria
Perekonnanimi: Malk
Ametikoht: terviseinformaatika nooremteadur
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
6. Eesnimi: Ami
Perekonnanimi: Sild
Ametikoht: terviseandmete insener-analüütik
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
7. Eesnimi: Sirli
Perekonnanimi: Tamm
Ametikoht: programmeerija
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
8. Eesnimi: Kaire
Perekonnanimi: Koljal
Ametikoht: programmeerija
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
3
9. Eesnimi: Sander
Perekonnanimi: Kütisaar
Ametikoht: süsteemiadministraator
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut, teadusarvutuste keskus
2. etapis lisanduvad veel järgmised teadusuuringu läbiviijad
10. Eesnimi: Kerli
Perekonnanimi: Mooses
Ametikoht: terviseinformaatika teadur
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
11. Eesnimi: Taavi
Perekonnanimi: Tillmann
Ametikoht: rahvatervishoiu kaasprofessor
Organisatsioon: Tartu Ülikool, peremeditsiini ja rahvatervishoiu instituut
12. Eesnimi: Kunnar
Perekonnanimi: Kukk
Ametikoht: terviseinformaatika nooremteadur
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
13. Eesnimi: Õie Renata
Perekonnanimi: Siimon
Ametikoht: terviseinformaatika nooremteadur
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
14. Eesnimi: Maarja
Perekonnanimi: Pajusalu
Ametikoht: terviseinformaatika nooremteadur
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
15. Eesnimi: Anton
Perekonnanimi: Vykhovanets
Ametikoht: terviseinformaatika nooremteadur
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
16. Eesnimi: Kermo
Perekonnanimi: Saarse
Ametikoht: terviseinformaatika nooremteadur
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
4
17. Eesnimi: Helene
Perekonnanimi: Loorents
Ametikoht: programmeerija
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
18. Eesnimi: Nikita
Perekonnanimi: Umov
Ametikoht: nooremteadur
Organisatsioon: Tartu Ülikool, peremeditsiini ja rahvatervishoiu instituut
19. Eesnimi: Laura
Perekonnanimi: Lõo
Ametikoht: nooremteadur
Organisatsioon: Tartu Ülikool, peremeditsiini ja rahvatervishoiu instituut
20. Eesnimi: Neeme
Perekonnanimi: Ilves
Ametikoht: spetsialist
Organisatsioon: Tartu Ülikool, arvutiteaduse instituut
5. Uuringu finantseerimine
Finantseerimise allikad ● SA Eesti Teadusagentuuri rahastatud Personaalse uurimistoetuse rühmagrant “Kliiniliselt oluliste radade tuvastamine terviseandmetest” (PRG1844, jaan 2023 – dets 2027). Vastutav täitja: Jaak Vilo. Eelarve: 1 350 000 EUR.
● SA Eesti Teadusagentuuri rahastatud grant SLTAT24173 (TK213U6) "Eesti Tehisintellekti Tippkeskus" (EXAI) (terviseinformaatika alamprojekt) (01.01.2024−31.12.2030); Vastutav täitja: Jaak Vilo; Eelarve: 525 222 EUR.
● SA Eesti Teadusagentuuri rahastatud temaatilise teadus- ja arendusprogrammi projekt “Terviseandmete teisese kasutamise võimekuse kasvatamine” (TEM-TA72, jaan 2024 - dets 2028). Vastutav täitja: Raivo Kolde. Eelarve: 1 350 000 EUR.
● Teadusarvutuste ja andmete säilitamiseks kasutatakse taristut Eesti Teadusarvutuste Infrastruktuur (ETAIS), mida toetab Haridus- ja Teadusministeerium otse Eesti Teadusarvutuste Infrastruktuuri ja Eesti Hariduse ja Teaduse Andmesidevõrgu kaudu1. ETAIS tegevustoetuse maht on 305 000 EUR aastas.
Viited:
1. Riikliku tähtsusega teadustaristu toetamine (07.10.2023), Riigi Teataja I. Kasutatud 19.08.2024, https://www.riigiteataja.ee/akt/104102023006
5
Uuringu üldmaksumus (summa) Alusandmestik on vajalik projektide PRG1844, TK213U6 ja TEM–TA72 eesmärkide saavutamiseks. Eesseisval perioodil (3a) on nende projektide tegevused planeeritud teadustööks loodaval andmestikul. Seepärast hindame projekti kogumaksumuseks ~1,8 mln EUR.
Uuritavale kompensatsiooni maksmine (jah, ei, põhjendus ja summa)
Ei, loodav andmestik ja terviseuuringud põhinevad päriselu andmete teisesel kasutusel, uuritavatega ühendust ei võeta.
Uuritavate kindlustus (jah, ei, kindlustaja ja poliis) Ei
6. Uuringu läbiviimise aeg (algus ja lõpp kuu ja aasta täpsusega)
Uuring viiakse läbi oktoober 2024 - detsember 2027. Lisaks arhiveeritakse andmed üheks aastaks peale uuringu lõppu, et vajadusel võimaldada arhiveerimisperioodil retsenseerimisel olevate teadusartiklite analüüsi täiendamine. Andmed hävitatakse hiljemalt 31. detsembriks 2028.
7. Teave sama uuringu projekti varasema või samaaegse hindamise kohta (sh teistes riikides)
EST-Health-30 projekti on varasemalt menetletud, kuid käesolevat uuringutaotlust on täpsustatud eesmärgi, andmetöötlustoimingute, uuringu perioodi jt aspektides lähtudes andmeandjatega toimunud aruteludest.
8. Lühiülevaade siiani samal teemal tehtud uuringutest (kuni 900 tähemärki, 0,5 lk)
Avatud teaduskoostöö organisatsiooni OHDSI loodud ja edasiarendatavate OMOP (Observational Medical Outcomes Partnership) andmemudelil põhinevate rahvusvaheliste terviseuuringute arv on viimastel aastatel hüppeliselt kasvanud. Neid on avaldatud väga erinevatel teemadel - näiteks on uuritud nii rasvumist, põlveliigese vahetust, reumatoidartriiti kui ka koroonapatsiente1,2,3,4. Ka käesoleva uuringu meeskonnal on pikaaegne kogemus sarnaste OMOP andmemudelil põhinevate terviseuuringute läbiviimisel. Näiteks EHDEN projektis osaleb meeskond aktiivse partnerina OMOP mudeli ja analüüsimeetodite arendamisel ning nende populariseerijana Euroopas5,6. Projektis “Masinõppe ja AI toega teenused” lõime käesoleva taotluse raames loodava andmestikuga sarnase, kuid väiksemas mahus (valimi suurus 10%, ei sisaldanud andmeid vähiregistrist, surma põhjuste registrist) kvaliteetse andmestiku 2012.-2019. aasta terviseandmetel7,8,9,10. Lisaks varasemalt loodud andmestikku ei uuendatud. Sellest alates oleme taaskasutanud ja edasi arendanud Eesti terviseandmete jaoks spetsiifilisi automaatseid andmepuhastuse tehnikaid, mis on võimaldanud meil endal läbi viia uuringuid ja ka osaleda mitmesugustes rahvusvahelistes projektides. Heaks näiteks, on uuring, kus hindasime inimese papilloomiviiruse (HPV) tüüpide levimust Eestis tuginedes tekstikaevega tervisedokumentidest eraldatud HPV testi tulemustele8. Meie senise töö ja Eesti terviseandmete kvaliteeti näitab ka see, et DARWIN projektis valis Euroopa Ravimiamet meid üheks kvaliteetseks andmepartneriks, mille tulemusel kasutatakse Eesti OMOP kujule viidud Eesti Geenivaramu terviseandmestikku ühena teiste seas ravimite reguleerimisega seotud küsimuste uurimiseks11. OPTIMA projektis analüüsime Eesti terviseandmeid organkasvajatega patsientidele optimaalse ravi leidmiseks. Seniste uuringute tulemusi on avaldatud nii Eesti kui rahvusvahelistes teadusajakirjades, postritel kui ettekannetel, samuti uurimisgrupi töös osalenud üliõpilaste lõputöödes.
Viited:
1. https://doi.org/10.1101%2F2020.04.22.20074336 2. https://doi.org/10.1038/s41366-021-00893-4 3. https://doi.org/10.1136/bmj.n1038 4. https://doi.org/10.1101/2020.12.14.20240994 5. http://dx.doi.org/10.1093/jamiaopen/ooac021 6. https://doi.org/10.1016/j.semarthrit.2022.152050 7. https://www.etag.ee/wp-content/uploads/2022/05/RITA_MAITT_LOPPARUANNE_FINAL.pdf
6
8. http://dx.doi.org/10.1001/jamanetworkopen.2022.54075 9. http://dx.doi.org/10.1038/s41598-023-38691-9 10. https://eestiarst.ee/kroonilise-neeruhaiguse-levimus-eesti-e-tervise-andmete-alusel/ 11. https://cs.ut.ee/et/sisu/tartu-ulikool-osaleb-andmepartnerina-andmeanaluusi-ja-tavaandmete-uurimisvorgustikus-darwin
9. Planeeritava uuringu põhjendus ning uurimisküsimused ja/või hüpoteesid (kuni 1800 tähemärki, 1 lk)
7
Meditsiinis ja rahvatervises on otsuste tegemiseks vaja laiapõhjalistel teadusuuringutel põhinevat tõendust. Uuringute tarvis on reeglina vaja esinduslikke andmeid, mis on võimalikult värsked ja samal ajal piisavalt pika aegreaga. Näiteks on värskeimad andmed (sh imikute ja vastsündinute kohta) vajalikud vastamaks küsimustele, mis puudutavad terviseteenuse osutamise hetkeseisu, uute ravimeetodite kasutust ja efektiivsust ning tervisesüsteemi vastust erinevatele hiljutistele sündmustele. Usaldusväärsemate ennustusmudelite loomiseks, haiguse arengu, ravi efektiivsuse, erinevate ravitrajektooride jms hindamiseks on vajalik vaadelda pikemaid ajaperioode.
Ajakohastel andmetel tugineva tõenduse leidmiseks kasutatakse järjest enam päriselu terviseandmete teisesel kasutusel põhinevaid uuringuid. Tänu Eesti unikaalsele tervishoiuandmete korraldusele on võimalik ühendada patsiendi tervist puudutavad olulised komponendid haiguste (Tervise infosüsteem, vähiregister), ravimite (retseptikeskus), tarbitud teenuste ja kindlustuskaitse (Tervisekassa andmekogu) ning surma põhjuste kohta. Nende andmetel OMOP andmemudelil põhinevate terviseuuringute läbiviimisel on Eesti tervishoiuvaldkonnale ja ühiskonnale laiemalt mitmekordne kasu. Nii aitab igapäevase tervishoiuvaldkonna toimimise raames salvestatud andmete taaskasutamine ühelt poolt hoida kokku andmete kogumisele kuluvat aega ja raha ning teisalt annab kõige täpsema ülevaate tegelikest protsessidest ja trajektooridest erineva terviseseisundi, soo ja vanusega isikutel. Oluline on siinjuures, et terviseandmete teisese kasutamise korral ei suurene patsientide uuringu koormus kuna kasutatakse varasemalt kogutud retrospektiivseid andmeid. Terviseandmete teisene kasutamine võimaldab ilma lisakoormust põhjustamata analüüsida ja osutada efektiivsemalt tervishoiuteenuseid patsiendi gruppidel, kellel traditsiooniliste teadusuuringute tegemine ei ole eetilistel kaalutlustel võimalik (näiteks ravimite mõju lastele või rasedatele1). Kaasates analüüsi infot patsiendi kogu raviajaloo kohta pikema aja vältel, mitte ainult uuritava haigusega seotud tegevuste kohta, võib-olla võtmetähtsusega oluliste seoste avastamisel. Lisaks on taotletava teadusuuringu käigus 30% valimi peal välja töötatud meetodid andmekvaliteedi parandamiseks rakendatavad ka teistes teadusuuringutes ning riiklikes andmebaasides kogu rahvastiku andmetel. Taotletav teadusuuring loob eeldused, et päriselu terviseandmeid saaks Eestis laiemalt kasutada ning aitab parandada tervishoiuteenuste kvaliteeti, tervishoiusüsteemi efektiivsust ning toetada tervishoiupoliitiliste tõenduspõhiste otsuste tegemist, toetades seeläbi rahvastiku tervise arengukava 2020-2030 elluviimist. Kvaliteetsem tervishoiusüsteem omakorda toetab tervelt elatud eluaastate suurenemist.
Taotletav teadusuuring koosneb kahest etapist:
1. etapp: alusandmestiku loomine ja andmekvaliteedi tõstmise meetodite arendamine
Alusandmestiku loomisel pannakse kokku ja ühtlustatakse tervise infosüsteemist, Tervisekassa andmekogust, retseptikeskusest, vähiregistrist ja surma põhjuste registrist pärit andmed. Erinevad andmebaasid kajastavad erinevaid aspekte sama patsiendi raviteekonnast. Seetõttu on võimalik saada tervikpilt raviprotsessist vaid kõikide vajalike andmete ühendamise teel. Ülekatted andmeallikate vahel võimaldavad ka süstemaatiliselt hinnata algandmete kvaliteeti ja -hõivet, mis paljuski sõltuvad nende kogumise eesmärgist ning tehnilisest võimekusest ja digitaliseerituse astmest andmete kogumise hetkel. Näiteks saame alusandmestiku loomisel hinnata kui paljude patsientide kohta on olemas vajalik informatsioon, kui suur osa tehtud mõõtmistest on andmetes kajastatud, kas ja kuidas on puuduvad mõõtmised kallutatud või kui usaldusväärsed on diagnoosid. Kuna valim on piisavalt suur ja esinduslik, siis saadud tulemused üldistuvad kogu Eesti terviseandmetele.
Tuginedes oma varasemale teadustööle analoogsete OMOP andmebaaside loomisel teame, et on mitmeid viise kuidas andmehõivet ja -kvaliteeti läbi erinevate andmepuhastamise protseduuride tõsta. Näiteks enne andmete analüüsimist teostame täiendava anonümiseerimise vabatekstilistes andmeväljades, et eemaldada võimalikud nimed, telefoninumbrid, isikukoodid, aadressid jms. Sellega vähendame isikute tuvastamise riski. Teadusuuringu käigus on plaanis juba olemasolevat anünomiseerjat veelgi tõhustada. Lisaks on üheks väljakutseks tervise infosüsteemi andmete kasutamisel vabatekstilistes andmeväljades oleva olulise terviseinfo eraldamine, struktureerimine ja standardimine. Vabatekstilistes väljades andmeanalüüsiks oluline informatsioon võib esineda lihtsamini eraldataval kujul, nagu näiteks vererõhu, kehakaalu ja pikkuse mõõtmised, kui ka keerukamal kujul, nagu patsiendi kaebused või harjumuste kirjeldused, kus on oluline mõista ka teksti sisu. Selleks, et veelgi rohkem ja efektiivsemalt leida üles erinevate uurimisküsimustega seotud infot vaba tekstist on oluline arendada vastavaid meetodeid, sh tehisintellekti ja tekstikaeve meetodeid, keerukamate olukordade jaoks, mis vajaliku informatsiooni eraldaks ning viiks selle struktureeritud ja standardiseeritud kujule. Töötades järjepidevalt samal andmestikul, on võimalik erinevate uurimisküsimuste lahendamisega andmekvaliteeti märgatavalt parandada. Töö käigus välja töötatud metoodikad loovad eeldused järgnevate uuringute paremaks läbiviimiseks ning on
8
hiljem rakendatavad ka tervise infosüsteemis olevate andmete parandamiseks. Loodud metoodikate rakendamine toetab ka Eesti teadus- ja arendustegevuse, innovatsiooni ning ettevõtluse (TAIE) arengukava 2021-2035, kus üheks juhtmõtteks on liikumine teksti- ja dokumendipõhiselt terviseandme mudelilt üle andmepõhisele mudelile. Taotletavas teadusuuringus loodavaid andmepuhastustehnikaid on võimalik kasutada ka uue põlvkonna tervise infosüsteemi loomisel ja arendamisel.
Andmete esitus algandmeallikates on läbi aja muutunud ja arenenud. Näiteks Tervisekassa tervishoiuteenuste loetelu uuendatakse iga kolme kuu järel ning pikema aegrea puhul ei pruugi erinevatest laboritest pärinevad mõõtmised olla samamoodi kodeeritud. Et uuringud saaks läbi viia võimalikult pikas ajaaknas, tuleb andmete kodeering viia ühtsele standardile. Selle protsessi käigus tuleb luua üleminekutabelid, kus algallikates esinevad koodid on esitatud standardselt. Nende loomisel kombineeritakse tekstikaeve, klasterdamise ja automaattõlke vahendeid manuaalse inspektsiooni ning kliinilise ekspertiisiga. Tulemuseks saadud üleminekutabelid võimaldavad automatiseerida andmete standardkujule viimist nii antud andmestiku uuendamisel kui ka täiesti uutes uuringutes. Samas on andmehõive ja -kvaliteedi parandamine iteratiivne protsess, kuna erinevate haigustega seotud uuringutes osalemisel tulevad ilmsiks uued kitsaskohad. Seetõttu on andmekvaliteedi tõstmise juures oluline andmeid kasutada võimalikult paljudes ja erinevates uuringutes.
Linkimise, puhastamise ning eelnevalt toodud lähenemiste rakendamisel viime erinevatest allikatest pärit andmed ühtsele OMOP andmemudelile, kus iga kirje on rahvusvaheliselt defineeritud standardkujul. Andmete OMOP kujule viimine teeb võimalikuks nende analüüsi juba suure hulga olemasolevate analüüsitööriistadega, mis muu hulgas võimaldavad keerukate kohortide loomist ning jagamist, patsiendigruppide kirjeldamist, ennustusmudelite treenimist ja palju muud. Nii saab uuringuid läbi viia ka hajutatult ehk täiendavate uurimisküsimuste lahendamisel (millele küsitakse eraldi EBINi ja andmeandjate nõusolek) ei anta uutele isikutele ligipääsu andmetele vaid algne uuringumeeskond jooksutab läbi uuringu koodi ning edastab vaid agregeeritud tulemused. 2. etapi uuringu läbiviijad saavad andmetele ligipääsu vajaduspõhiselt jälgides minimaalsusprintsiipi läbi Eesti Teadusarvutuste infrastruktuuri hallatava turvalise töötlemiskeskkonna, kus kõikide kasutajate kõik tegevused logitakse.
Eesti riiklike terviseandmebaaside omanikud on teinud avalikult kättesaadavaks erinevat riikliku tervisestatistikat, mis annab mõningase ülevaate valitud tervisesündmuste toimumistest ja tervishoiuteenuste tarbimisest. Näitek TAI tervisestatistika ja terviseuuringute andmebaasis (statistika.tai.ee) on esmashaigestumuse info valitud RHK-10 peatükkide ja alampeatükkide kohta avaldatud kuni 2016 aastani ning hilisema perioodi avalik statistika puudub. Uuringute paremaks planeerimiseks ja teostatavuse hindamiseks on vaja detailsemat infot, kus on kombineeritud mitme andmepunkti ja andmeallikat ning võetud arvesse sündmuste toimumise omavahelisi ajalisi seoseid. Näiteks südameveresoonkonna haiguste ennetamiseks on oluline teada üle 40 aasta vanuste patsientide hulka, kellel on kolesterooli tase üle normi, kuid statiinipõhiseid ravimeid pole välja kirjutatud. Selleks on vaja andmeid labori analüüsidest (Tervise Infosüsteem) ja retsepikeskusest (Tervisekassa). Adresseerimaks seda puudujääki, plaanime põhjalikult kirjeldada loodud andmestikku läbi erinevate numbriliste näitajate ja teostatavusanalüüsi detailsusastmel säilitades k ≥ 5 anonüümsus. Selline ülevaade esinduslikust populatsioonipõhisest andmekogumist on väärtuslikuks vahendiks tervishoiupoliitika kujundajatele ja -teenuse osutajatele ning uute uuringute planeerimisel ja teostatavuse hindamisel.
1. etapi eesmärgid kokkuvõtvalt on: 1.1. Hinnata valimi põhjal Eesti terviseandmete kvaliteeti ja hõivet võrreldes erinevatest
andmeallikatest pärinevat informatsiooni. 1.2. Andmekvaliteedi ja andmehõive tõstmise meetodite sh tehisintellekti-, tekstikaeve- ja
imputatsioonimeetodite arendamine. 1.3. Tervisesündmuste esituse ühtlustamine rahvusvahelistele standarditele üle aja ja
andmeallikate, sh kasutades tekstikaeve, klasterdamise ja automaattõlke meetodeid 1.4. Arendatavad meetodid on hiljem rakendatavad ka uutes uuringutes, suurematel
andmehulkadel ning riiklikes infosüsteemides andmekvaliteedi ja -hõive parandamiseks. 1.5. Standardiseeritud ja ühtlustatud andmestiku loomine ja kirjeldamine teadusuuringute
läbiviimiseks. Andmestikku kirjeldatakse läbi erinevate numbriliste näitajate ja teostatavusanalüüside senisest suuremal detailsusastmel.
2. etapp: teadus- ja rakendusuuringute teostamine uurimistetoodikate arendamiseks Eesti terviseandmetel
9
Enamasti kasutatakse teadusuuringutes ad hoc metoodikat, mis on optimeeritud konkreetsetele andmetele ja uurimisküsimustele ning mis ei üldistu uutele küsimustele ega ole kasutatavad sama uuringu kordamiseks teisel andmestikul. Selline lähenemine, kus samasid protseduure leiutatakse iga uuringu grupi poolt uuesti, on aega jt ressursse raiskav ning tingitud andmete vähesest standardiseeringust. Tänu OMOP andmemudeli laiemale levikule on võimalik luua terviseandmetele analüüsitööriistu, mis töötavad universaalselt sõltumata uuringu all olevast haigusest või patsiendi grupist. Juba OMOP platvormile arendatud arvutuslik taristu demonstreerib, et selline lähenemine kiirendab analüüsiprotsessi ning muudab seda läbipaistvamaks ja kvaliteetsemaks. Siiski on palju uurimisküsimusi, kus olemasolevast metoodikast ei piisa. Näiteks puudub nii ravitrajektooride kui ka -teekondade kirjeldamise ja modelleerimise jaoks üldistatud metoodika. Samas on Tervisekassa üheks eesmärgiks kiirendada ja laiendada raviteekondade kasutuselevõttu Eesti tervishoiusüsteemis ja seeläbi muuta pakutavaid tervishoiuteenuseid inimkesksemaks ja integreeritumaks ning toetada efektiivset ressursikasutust2. Üldistatud metoodika puudumine tähendab, et iga uue raviteekonna kirjeldamisega tegelev töörühm peab töötama välja olukorra kirjeldamise metoodika. Esinduslikul andmebaasil rakendatava standardse metoodika välja töötamine kiirendab ja optimeerib raviteekondade valmimise protsessi ning toetab Tervisekassa eesmärkide täitmist.
Taotletava teadusuuringu 2. etapi üks eesmärk on arendada standardseid analüüsimeetodeid, mis on rakendatavad sõltumata uuringu all olevast haigusest või patsiendi grupist. Meetodite arendusel on oluline, et loodud meetodid on efektiivsed ja rakendatavad erinevate kliiniliste küsimuste puhul. Selleks testime erinevaid analüüsimeetodeid nii laialt üle erinevate haiguste ja patsiendigruppide kui ka läheme sügavuti konkreetsetesse kliinilistesse domeenidesse. Kõikide uuringute puhul kaasame ka kliinilised eksperdid, kes aitavad tulemusi konteksti panna ning tagavad uuringutulemuste rakendatavuse. Tulenevalt käimasolevatest teadusprojektidest (vt pt 5 Uuringute rahastamine) keskendutakse taotletava teadusuuringu raames ravijärgimuse, ravitrajektooride ja -teekondade ning personaliseeritud ennetusmeetoditega seotud analüüsimeetodite arendamisele.
2. etapi eesmärgid kokkuvõtvalt on: 2.1. Arendada haigustrajektooride ja raviteekondade analüüsi metoodikaid kasutades sh
tehisintellekti meetodeid, et kirjeldada praeguseid ravipraktikaid, võrrelda neid raviteekondade ja -juhenditega ning modelleerida tervisetulemeid ja ravi majanduslikku mõju.
2.2. Analüüsida erinevate faktorite (nt sugu, vanus, erinevad haigused) mõju ravijärgimusele, hinnata ravijärgimuse mõju erinevatele tervisetulemitele ja luua personaalseid ennustusmudeleid, mis võimaldavad maandada ravi mittejärgimise riske.
2.3. Arendada personaliseeritud ennetusmudeleid, mis võimaldavad vaatlusandmete põhjal tuvastada praeguste haiguse ennetuste ja ravipraktikate kitsaskohti, planeerida senisest paremini haiguste ennetustegevusi ja hinnata pakutud ennetusteenuste majanduslikku mõju
Täiendavate uurimisküsimuste tekkimisel nii EST-Health-30 kui ka kolmandatest isikutest uuringu läbiviijate poolt esitatakse igakordselt Eesti bioeetika ja inimuuringute nõukogule ja andmeandjatele uus uuringutaotlus uurimisküsimuste vastavuse hindamiseks käesoleva uuringutaotluse eesmärkidega. Kui täiendav uuring kooskõlastatakse, tagavad EST-Health-30 vastutavad uurijad, et konkreetse projekti uurimismeeskond saab ligipääsu vaid EST-Health-30 andmestiku osale, mis on vajalik vastava uurimisküsimuste lahendamiseks (lähtudes võimalikult väheste andmete kogumise põhimõttest). Selleks võimaldatakse uurimismeeskonnale ligipääs EST-Health-30 andmestikule Tartu Ülikooli hallatava turvalise töötlemiskeskkonna kaudu.
Viited:
1. Dodd C, Andrews N, Petousis-Harris H, Sturkenboom M, Omer SB, Black S. Methodological frontiers in vaccine safety: qualifying available evidence for rare events, use of distributed data networks to monitor vaccine safety issues, and monitoring the safety of pregnancy interventions. BMJ Glob Health [Internet]. 2021 May;6(Suppl 2). Available from: http://dx.doi.org/10.1136/bmjgh-2020-003540
2. Eesti Tervisekassa. https://tervisekassa.ee/raviteekondade-arendamine
10. Uurimismetoodika (kuni 1800 tähemärki, 1 lk)
10
Valim ja uuringuperiood
Andmetiku aluseks on 30% juhuvalim Eestis alates 2012. aastast tervishoiuteenuseid tarbinud Eesti elanikest (andmesubjektid). Nende andmesubjektide kohta saadakse pseudonüümitud andmed alates 2012 kuni 2026 aastani Tervisekassa andmekogust, retseptikeskuse andmekogust, Tervise Infosüsteemist, surma põhjuste registrist ja vähiregistrist.
Eelnevalt peatükis 9. “Planeeritava uuringu põhjendus ning uurimisküsimused ja/või hüpoteesid” kirjeldatud eesmärkide saavutamiseks tuleb luua võimalikult pika perioodiga laiapõhjaline andmestik. Andmete vaatlemine üle pika ajaperioodi võimaldab analüüsida tervisesündmuste esituse ja kvaliteedi arengut läbi aja ning uurida terviklikke haigustrajektoore alates ennetustegevustest, esmasdiagnoosist, raviteenuste osutamisest lõpptulemini. Tuginedes uurimisühma varasemale kogemusele teame, et planeeritavateks uuringuteks vajaliku detailsusastmega terviseandmed on Eestis olemas alates 2012. aastast. Värskeimad andmed (sh imikute ja vastsündinute kohta) on vajalikud vastamaks küsimustele, mis puudutavad terviseteenuse osutamise hetkeseisu, uute ravimeetodite kasutust ja efektiivsust ning tervisesüsteemi vastust erinevatele hiljutistele sündmustele. Samuti on laiem andmestiku ajaraam vajalik, et hinnata riskimudelite 10-aastast ennustusvõimet vastavalt rahvusvaheliselt levinud praktikale.
Laiapõhjalisus võimaldab hinnata andmekvaliteeti üle paljude haiguste ja tagab, et loodud andmetöötlusmeetodid üldistuvad uutele uuringutele sõltumata vaatluse all olevast haigusest ja patsiendi grupist. Lähtuvalt 1. ja 2. etapi eesmärkidest ei saa teadusuuringut viia läbi üksikute diagnooside, vanuse ega muude parameetrite järgi kitsendatud andmestikul. Iga piirang vähendab andmestiku esinduslikkust üldpopulatsiooni suhtes ja muudab arendatavad meetodid mitteüldistuvaks, piirates loodud meetodite nii kasutamist järgnevates uuringutes kui ka rakendatavust tervise infosüsteemi andmekvaliteedi tõstmisel.
Projekti “Tehisintellekti kasutamise võimalused meditsiinis”1 raames kasutasime 10% juhuvalimit 2012.-2019. aasta andmetest. Projekti käigus saime kinnitust, et erinevate riiklike terviseandmebaaside ühendamine ja laiapõhjalise terviseajaloo kasutamine annab olulist lisandväärtust andmete analüüsis. Näiteks koostöös Naistearstide seltsiga hindasime emakakaela vähi ennetuspraktika vastavust ennetusjuhendile2 ja erinevate papilloomviirustüvede levikut Eestis3. Siiski ilmnesid 10% juhuvalimil koostatud andmestiku kasutamisel ka olulised kitsaskohad. Esiteks, oli andmestiku ajaraam liiga lühike, et vastavalt rahvusvahelistele prakikatele hinnata riskimudelite 10-aastast ennustusvõimet. Kuna andmestikku ei uuendatud, puudus info uute haiguste (nt COVID-19), ravipraktikate ning nende esituse ja andmekvaliteedi kohta. Näiteks seetõttu ei olnud võimalik ravijuhendite arendamisel teha koostööd ravijuhendite püsisekretariaadiga (https://tervis.ut.ee/et/ravijuhendid) ega panustada rahvusvahelistesse Euroopa Ravimiameti uuringutesse. Kõige olulisemana aga oleme korduvalt näinud, et 10% juhuvalim on liiga väike mitmete haigusseisundite või detailsemalt defineeritud kohortide uurimisel. Näiteks eesnäärmevähi rahvusvahelises uuringus osaledes saime vastused vaid osadele uurimisküsimustele, sest täpsemate tervisetulemite analüüsimiseks jäi valim liiga väikeseks4.
Vajalik patsientide arv sõltub väga uurimisküsimusest ning ka ühe uuringu sees võib see erineda, kuid arvestades patsientide kliinilise pildi varieeruvust ja retrospektiivsete terviseandmete kvaliteeti, oleks hinnanguliselt minimaalne vajalik patsientide arv uuringute jaoks sadades kuid veel parem üle tuhande. Oleme välja arvutanud, et taotletava ajaperioodi ja andmete ulatuse korral on 10%-lise juhuvalimiga andmestikus diagnoose, mida esineb vähemalt tuhandel patsiendil 175, samas kui 30%-lises juhuvalimi korral on selliseid diagnoose ligi kaks korda rohkem - 330 diagnoosi (joonis 1). Suurema valimi korral suureneb oluliselt saadavate tulemuste statistiline usaldusväärsus ja samas ka haiguste hulk, millel saame välja töötatud meetodeid rakendada.
Selle analüüsi põhjal näeme, et teadusuuringule seatud eesmärkide saavutamiseks on minimaalne valimi suurus 30%.
11
Joonis 1. Vähemalt 1000 patsiendil esinevate diagnooside arvu sõltuvus juhuvalimi suurusest, mis on võetud taotletava ajaperioodi ja andmete ulatusega Eesti terviseandmetest.
Andmete väljastamine, uuendamine ja säilitamine
Esimene väljastusel toimub 2024. aasta oktoobris, kui uurimisgrupile väljastatakse räsi abil pseudonüümitud andmed 2012-2023 aastate kohta. Depseudonüümimise võtit ehk räsifunktsioonis kasutatavat räsiparooli uurimisgrupile ei väljastata. Andmeid uuendatakse regulaarselt, kuid mitte tihedamini kui kord aastas, et mitte üle koormata Eesti tervishoiuandmete eest vastutavate asutuste nagu TEHIK ja Tervisekassa andmeväljastuse võimekust. Andmete uuendamine toimub järgmiselt:
● 2024 aasta andmed väljastatakse andmed 2025. aasta I kvartalis ● 2025 aasta andmed väljastatakse andmed 2026. aasta I kvartalis ● 2026 aasta andmed väljastatakse andmed 2027. aasta I kvartalis
Täpne väljastatav andmekoosseis on toodud taotluse lisas 1. Andmekoosseisu defineerimisel lähtusime eelnevate uuringute kogemusest ning kaasasime tunnused, mis on tüüpiliselt vajalikud andmete OMOP kujule viimiseks ja erinevate terviseuuringute läbiviimiseks. Andmete OMOP kujule viimiseks ja puhastamiseks kasutatakse varasemates projektides loodud tarkvara ja töövoogusid, mida projekti raames täiendatakse vastavalt vajadusele. See tagab projekti kiire käivitamise ning iga-aastase ladusa andmete uuendamise.
Andmeid uuendatakse samamoodi nagu toimus algne andmete edastamine ehk kasutatakse sama räsifunktsiooni ja räsiparooli. Andmete uuendamise käigus isikute arv valimis suureneb, kuna andmestikku lisanduvad sünnid ja isikud, kellel varasemalt isikukood puudus. Nende andmete lisamine on oluline, sest see aitab tagada, et igal uuringu aastal on valimis 30% rahvastikust. Uute sündide lisamine võimaldab hinnata imikute ja väikelastega teostatud ravipraktikate muutust ajas ning seeläbi panustada haavatavate rühmade raviteenuste kvaliteedi parandamisse kasutades neid vähekoormavaid uurimismeetodeid.
Peale projekti lõppemist (dets 2027) andmed arhiveeritakse üheks aastaks, et vajadusel võimaldada arhiveerimisperioodil retsenseerimisel olevate teadusartiklite analüüsi täiendamine. Andmed hävitatakse hiljemalt 31. detsembriks 2028 kasutades hävitamise ajahetkel parimat kasutusolevat praktikat vastavalt rakendatavale infoturbestandardile (IS0/IEC 27001). Andmete hävitamine dokumenteerikse hävitamisaktis.
Andmete hoidmine ja töötlemine
Peame loodava andmestiku ja läbiviidava uuringu puhul esmatähtsaks isikuandmete kaitse ja infoturbe tagamist. Peamised ohud isikuandmete töötlemisele, nende juhtimiseks rakendatavad kaitsemeetmed ja ohuhinnangud on täpsemalt kirjeldatud lisas 2 “EST-Health-30 andmekaitsealane mõjuhinnang”. Andmekaitsealane mõjuhinnang vaadatakse üle ja ajakohastatakse iga olulise muudatuse puhul
12
andmetöötluse metoodikas ja korraliselt vähemalt kord aastas, et ajakohastada ja vajadusel täiendada ohuhinnangut ja rakendatavaid kaitsemeetmeid.
Uuringu andmetöötlus nõuab kõrget ekspertiisi ja tehnilisi lahendusi, et tagada andmete töötlemine keskeses turvatud infrastruktuuris ja välistada andmetöötlus juhuslikes ebaühtlase turbetasemega seadmetes. Koostöös Eesti Teadusarvutuste infrastruktuuriga (https://etais.ee) töötab uurimisgrupp infoturbe riskide maandamiseks välja minimaalsusprintsiipi tagava andmetele ligipääsu andmise protsessi ja paigutab loodava andmestiku turvalisse andmeanalüüsi serverisüsteemi (andmepuuri) SAPU (https://sapu.cs.ut.ee). Andmete hoidmisega SAPU-s väheneb oluliselt andmelekke risk rakendades andmete eksportimisele ranged piirangud ning logides kõiki andmetega tehtavaid tegevusi kasutaja tasandil kogu andmete säilitamise ja arhiveerimise perioodil. Andmeandjate pöördumisel ja arvestades kohalduvaid isikuandmete kaitse nõudeid, võimaldab uurimisgrupp kontrollida andmetöötluse logiandmeid. Andmete edasisel töötlemisel SAPUs ja uuringu eesmärkide täitmiseks kasutatakse OMOP mudeli jaoks loodud ja publitseeritud tööriistu (Atlas server, Usagi, Data Characterisation, PopulationLevelEstimation ja PatientLevelEstimation R-paketid, uurimisrühma arendatud tööriistad jt). Kusjuures Atlas server on OMOP andmemudelile loodud kohortide defineerimise tööriist, mis võimaldab patsiendigruppe defineerida ilma andmetele ligipääsu omamata.
SAPU serverist väljastatakse andmeid ainult vastutava uurija nõusolekul ja agregeeritud kujul nii, et on tagatud k ≥ 5 anonüümsus. SAPU serveris olevatele andmetele on ligipääs ainult käesolevas taotluses toodud uurijatel. Uurimisgrupp tagab, et andmetele ligipääs on vastavuses kehtiva seadusandlusega. Täiendavate uurimisküsimuste tekkimisel esitatakse Eesti bioeetika ja inimuuringute nõukogule ja andmeandjatele igakordseltuus taotlus. Kooskõlastatud uurimisküsimuste lahendamiseks võimaldatakse ligipääs andmetele lähtudes minimaalsuse printsiibist. Võimalusel viiakse lisandunud uuring läbi nii, et 1. etapi uurimisrühmale edastatakse uue uurimisküsimuse lahendamiseks kood. Uurimisrühm verifitseerib eelnevalt edastatud koodi turvalisuse ning seejärel rakendab koodi andmestikul. Vastutavad uurijad kontrollivad enne tulemuste tagastamist, et saadud tulemused on kooskõlas eetikakomitee antud loaga ja järgivad k ≥ 5 anonüümsuse printsiipi. Isikuandmetega seotud rikkumiste eest kaitsvate meetmete kohta vt p 15 ja taotlusele lisatud andmekaitsealast mõjuhinnangut (lisa 2). Teadusuuringu tulemused publitseeritakse nii Eesti kui ka rahvusvahelistes teadusajakirjades (eelistatult vabalt kättesaadavate artiklitena), konverentsidel ja ettekannetel, üliõpilaste lõputöödes. Andmestiku metakirjeldus (kirjeldus andmeväljade kohta, ei sisalda reaalseid andmeid) OMOP-andmekogude registritesse, (nt http://portal.ehden.eu). Teadusuuringu muid tulemeid (andmestikku kirjeldus, andmehõive statistika ja -hinnangud, andmete standardiseerimise ja tekstikaeve meetodid, üleminekutabelid, teadusuuringute kokkuvõtted jms) tutvustatakse soovi korral andmeandjatele ning otsitakse koostööviise tulemite rakendamiseks andmeandjate hallatavates andmekogudes.
1. etapi uurimisküsimuste metoodika
Teadusuuringute läbiviimiseks on vaja täpselt aru saada andmehõivest ja -kvaliteedist. Näiteks kui paljudel patsientide kohta on olemas vajalik informatsioon, kui suur osa tehtud mõõtmistest on andmetes kajastatud, kas ja kuidas on puuduvad mõõtmised kallutatud või kui usaldusväärsed on diagnoosid. Siin saame ära kasutada fakti, et erinevad andmeallikad kajastavad samu tervisesündmuseid erinevad detailsusastme ja kvaliteediga. Nii saame Tervisekassa andmekogu, retseptikeskuse andmekogu, Tervise Infosüsteemi, surma põhjuste registri ja vähiregistri andmeid ühildades anda hinnangud Eesti terviseandmete andmehõive ja -kvaliteedi kohta. Näiteks Tervise infosüsteemi epikriisides on vaid haigusloo kokkuvõte, mitte aga kõik teostatud uuringud ja analüüsid. Kasutades raviarvetel kajastuvat informatsiooni uuringute ja analüüside tellimise kohta, saame hinnata laborianalüüside andmehõivet ja raporteerimise kallutatust.
Läbi aastate on samasid tervisesündmusi ja teenuseid tähistatud erineva koodiga ehk kodeeritud erinevalt. Et uuringud saaks läbi viia võimalikult pikas ajaaknas, tuleb andmete kodeerimine üle viia ühtsele standardile. Siin lähtume OMOP andmemudeli poolt paika pandud andmestandardist erinevate andmetüüpide jaoks (nt SNOMED, RxNorm, LOINC) ning loome üleminekutabelid Eestis kasutatud koodidelt rahvusvahelisele standardile üle minekuks. Üleminekutabelite loomiseks kasutame nii automaatseid tekstikaeve ja klasterdamise meetodeid kui ka manuaalset ülevaatust ja vastava valdkonna kliinilist ekspertiisi. Loodud üleminekutabelid on rakendatavad ka andmeandmeandjate andmebaaside kvaliteedi ühtlustamiseks.
Terviseinfosüsteemi dokumentides on suur osa informatsioonist poolstruktureeritud kujul või vaba tekstina, eriti vanemate dokumentide puhul. Sellest faktide ja tervisesündmuste eraldamiseks arendame tekstikaeve töövoogu, mis esmalt teksti väiksemateks tükkideks lahutab, eemaldab duplikaadid ning lisab tekstiosadele kuupäevad. Seejärel rakendame juba konkreetseid faktieralduse meetodeid, mis aitavad täiendada struktureeritud kujul puuduvaid andmeid. Näiteks kolesterooli näitu veres hakati struktureeritud
13
kujul esitama alles 2016. aastast ning üleminek oli haiglati erinev. Varasemalt kajastati kollesterooli näitu tekstiväljas vabatekstina. Seega saab struktureeritud andmete kvaliteeti tõsta vabatekstist leitud andmetega ning seeläbi pikendada analüüsitavat aegrida. Standardsemalt esitatud faktide eraldamiseks saame me kasutada regulaaravaldisi, kuid keerukamate kontseptsioonide eraldamiseks tuleb arendada tehisintellekti meetodeid nagu BERT ja keelemudelid, mis suudavad eraldada fakte, mille puhul on oluline teksti kontekst ja mõttest aru saamine.
2. etapi uurimisküsimuste metoodika
Haigustrajektooride ja raviteekondade modelleerimisel on mitmeid väljakutseid, mis tulenevad peamiselt kliiniliste juhtumite keerukusest ning patsientide multimorbiidsusest. Keeruline on identifitseerida olulisi sündmuseid trajektooril, võrrelda tegelikke trajektoore ravijuhendite põhjal oodatavatega, automatiseerida trajektooride andmetest õppimist ning modelleerida trajektoore teostamaks majandusliku mõju analüüse. Uurimisgrupi teadustöö otsib neile probleemidele tehnilisi lahendusi. Näiteks uurime statistilist üleesindatust oluliste sündmuste tuvastamiseks, graafiesitusi haigustrajektooride kirjeldamisel ja Markovi-, masinõppe- ning keelemudeleid trajetooride simuleerimiseks ja sündmuste ennustamiseks. Kirjeldatud eesmärkideni jõudmiseks kasutame kaheastmelist lähenemisviisi. Esmalt läheneme üksikutele diagnoosidele nagu südamepuudulikus, aktiivsus- ja tähelepanuhäire, psühhoos ning viljatus, mille põhjal loodud meetodite rakendatavust analüüsime koos kliiniliste ekspertidega. Seejärel testime arendatud meetodite universaalsust rakendades neid paralleelselt laial hulgal haigusseisunditel. Seega, käesoleva teadusuuringu käigus loodavad meetodid ei ole optimeeritud ühelegi konkreetsele haigusele ning nende rakendamine laial diagnooside hulgal, sh erinevate kaasuvate haigustega patsientidel, võimaldab hinnata meetodite universaalsust ja ka süstemaatiliselt kirjeldada tegelikke raviteekondi Eestis.
Ravijärgimuse analüüsil keskendume ravijärgimuse kirjeldamisele üle ravimite, et identifitseerida seda mõjutavaid faktoreid, kirjeldada patsiendi põhist mõju ning ennustada tuleviku käitumist. Selleks arvutame ravijärgimuse näitajaid erinevate valimite kohaselt, uudse lähenemisena kasutame lineaarseid segamudeleid laiapõhjaliste mõjutegurite leidmiseks ning rakendame masinõppe ja tehisintellekti meetodeid tulevikukäitumise ennustamiseks. Süstemaatiline ravijärgimuse ja seda mõjutavate faktorite kirjeldamine, kasutades 30% Eesti elanike retseptiandmeid võimaldab teha üldistavaid järeldusi ravijärgimuse kohta, kirjeldada ajalisi trende ning identifitseerida riskifaktoreid.
Personaliseeritud ennetusteenuste arendus vajab suhteliselt sarnast tõendusmaterjali sõltumata meditsiinilisest probleemist. Südameveresoonkonna haiguste ja diabeedi näitel tuvastame praeguse ennetustegevuse kitsaskohad, analüüsides ravimikasutuse ja ravimite võrdlevat efektiivsust. Seejärel tuleb luua masinõppe mudelid, mis hindavad konkreetse haiguse riski. Samuti tuleb hinnata ennetusteenuse rakendamise majanduslikku mõju, milleks saab muu hulgas kasutada Markovi mudeleid ja seotud meetodeid. Antud projekti pikaajaline ja laiapõhjaline terviseandmestik loob suurepärase võimaluse selle töövoo testimiseks nii, et loodavad mudelid oleksid universaalsed ja üldistatavad erinevatele haigustele ning sihtrühmadele.
Praeguses etapis, kus arendame analüüsimeetodeid, on vaja kõiki taotletud andmeid püstitatud eesmärkide saavutamiseks. Täiendavate uurimisküsimuste tekkimisel esitatakse Eesti bioeetika ja inimuuringute nõukogule ja andmeandjatele hindamiseks uus taotlus ning nendele vastamiseks võimaldatakse andmetele ligipääs lähtuvalt andmete minimaalsuse printsiibist.
Viited: 1. https://www.etag.ee/wp-content/uploads/2022/05/RITA_MAITT_LOPPARUANNE_FINAL.pdf 2. Mooses K, Šavrova A, Pajusalu M, et al. Using electronic health records to evaluate the adherence to cervical cancer
prevention guidelines: A cross-sectional study. Preventive Medicine, 183, 2024, doi: 10.1016/j.ypmed.2024.107982 3. Oja M, Tamm S, Mooses K,et al. Transforming Estonian health data to the Observational Medical Outcomes
Partnership (OMOP) Common Data Model: lessons learned. JAMIA Open, 2023: 6 (4). DOI: 10.1093/jamiaopen/ooad100
4. Gandaglia G, Pellegrino F, Golozar A et al.Clinical Characterization of Patients Diagnosed with Prostate Cancer and Undergoing Conservative Management: A PIONEER Analysis Based on Big Data. European Urology, 2023. DOI: 10.1016/j.eururo.2023.06.012
11. Uuritavate valim ja värbamise viisi kirjeldus. Uuritavate informeerimise ja nõusoleku vormid, ankeetide, küsitluste ja testide vormid esitada taotluse lisadena.
14
Valimi suurus ja kontrollgruppide olemasolu Andmetiku aluseks on 30% juhuvalim Eestis alates 2012. aastast
tervishoiuteenuseid tarbinud Eesti elanikest. Valim sisaldab kontrollgruppi.
Aasta 2024 oktoobris väljastatakse andmed perioodi 01.01.2012-31.12.2023 kohta. Esimesel andmeväljastusel on valimisse kuuluvate isikute arv ligikaudu 380 000. Järgmised andmeväljastused toimuvad vastavalt: (1) 2024 aasta andmed väljastatakse andmed 2025. aasta I kvartalis; (2) 2025 aasta andmed väljastatakse andmed 2026. aasta I kvartalis; (3) 2026 aasta andmed väljastatakse andmed 2027. aasta I kvartalis. 2024-2027 toimuvatel andmeväljastustel väljastatakse uued andmed juba andmestikku kuuluvad isikute kohta. Lisanduvad andmed nende isikute kohta, kellel varasemalt isikukood puudus või kes esmakordselt vaatlusalusel perioodil tervishoiuteenuseid tarbisid ja kelle isikukood vastab räsifunktsiooniga seatud tingimustele. Täpsemalt on valiku suurust põhjendatud punktis “10. Uurimismetoodika”.
Kes värbab uuritavaid ja kuidas/kus/kelle poolt võetakse informeeritud nõusolek? (kui on asjakohane)
Käesolevas uuringus uusi isikuandmeid ei koguta ja andmesubjektidega ühendust ei võeta. Kasutatakse juba olemasolevaid terviseandmeid teadusuuringute läbiviimise eesmärgil.
Kuidas ja kelle hulgast toimub uuritavate valik? Millised on uuritavate kaasamise või väljajätmise kriteeriumid?
Tervisekassa valib juhusliku räsiparooli ja edastab selle krüpteeritult teistele andmeallikatele (TEHIK, TAI). Kõik andmeallikad kasutavad seda räsiparooli, et arvutada räsid oma andmekogudes olevatest isikukoodidest. Räsi iga sümbol on üks kuueteistkümnesümbolilisest hulgast: a-f või 0-9. Need jaotuvad ühtlaselt. Valimisse kuuluvad isikud, kelle räsi esimene sümbol kuulub hulka {a,b,c,d,e,f,0} ja teine sümbol hulka {a,b,c,d,e,f,0,1,2,3,4}. Sellisel juhul satub valimisse (7/16)*(11/16)*100=30.08% isikukoode. Räsi arvutamise protsess on täpsemalt kirjeldatud lisas 2 “EST-Health-30 andmekaitsealane mõjuhinnang”.
Räsi või tema osa kasutatakse ühtlasi isikute pseudonüümidena, sest ilma andmeväljastuses kasutatud räsiparooli teadmata ei ole neid võimalik tagasi isikukoodideks kodeerida. Tervisekassa poolt valitud räsiparooli uurimismeeskonnale ei väljastata, mille tõttu uurimismeeskond ei tea, kes täpselt valimisse kuuluvad. Meetme eesmärk on vähendada veelgi privaatsuse riive riski. Küll aga säilitavad andmeallikad räsiparooli kuni projekti perioodi lõpuni, et tagada andmete uuendamise võimalus.
Uuritavad valitakse räsipõhise juhuvalimi alusel Eestis alates 2012. aastast tervishoiuteenuseid tarbinud Eesti elanikest. Juhuvalimi kasutamine aitab vähendada valiku nihet, kuna kõikidel isikutel on sarnane tõenäosus valimisse sattuda1. Valimisse kaasamise kriteeriumid:
- omab Eesti isikukoodi, mis vastab räsifunktsioonile - on uuringuperioodil tarbinud tervishoiuteenuseid
Viited
1. Tyrer S, Heyman B. Sampling in epidemiological research: issues, hazards and pitfalls. BJPsych Bull. 2016 Apr;40(2):57-60. doi: 10.1192/pb.bp.114.050203.
Sekkumiste liik (füüsiline, vaimne või andmed, sh eriliiki isikuandmed)
Tegemist on teisese andmekasutusega, seega kasutatakse retrospektiivselt tervishoiuteenuste pakkumisel Eesti tervishoiu
15
infosüsteemidesse kogutud andmeid. Uuritavatelt täiendavaid andmeid ei koguta ja nendega ühendust ei võeta. Tegemist on eriliiki isikuandmetega.
Koormus uuritavale (kontaktivõtmise viisid, visiitide arv, uuringute tüüp ja arv, kutsete saatmise kordus jms)
Uuritavatele isikutele andmestiku loomine ega sellel läbiviidavad terviseuuringud lisakoormust ei põhjusta. Uuritavatelt täiendavaid andmeid ei koguta ja nendega ühendust ei võeta.
12. Koeproovide väljastamine kolmandatele osapooltele (RNA, DNA, plasma vms)
Mitme geenidoonori koeproove ja mis tüüpi koeproove väljastatakse?
0, koeproove ei kasutata.
Kui palju ühe geenidoonori kohta koeproove väljastatakse?
0, koeproove ei kasutata.
Kuhu koeproov väljastatakse (riik, asutuse nimetus, aadress)?
Koeproove ei väljastata.
Mida tehakse järelejäänud koeproovidega (kas ülejääk hävitatakse või saadetakse tagasi)?
Koeproove ei kasutata.
13. Uuringu eetiliste aspektide analüüs (3600 tähemärki, kuni 2 lk). Kõik uuringud, mille objektiks on inimesed, peavad olema läbi viidud, arvestades eetilisi nõudeid, eelkõige autonoomia austamise, heategemise ja kahju vältimise ning õigluse printsiipe. (https://www.coe.int/en/web/bioethics/guide-for-research-ethics-committees-members).
vt ka https://www.etag.ee/wp-content/uploads/2020/01/Eetika_Tabel_EST_2020.pdf
Uuritavate isikuandmeid töödeldakse isikuandmete kaitse üldmääruse (EL) 2016/679 artikkel 9(2)(j) ja isikuandmete kaitse seaduse (IKS) § 6 lõigete 1, 3 ja 4 alusel teadusuuringu läbiviimise eesmärgil. Isikuandmete töötlemise õigusliku aluse põhjalikum hinnang on toodud käesoleva taotluse lisas 2 “EST-Health-30 andmekaitsealane mõjuhinnang”, peatükis “töötlemise õiguslikud alused”.
Võrdse kohtlemise printsiip – käesolev projekt ei diskrimineeri kedagi rahvuse, soo, vanuse ega muu kuuluvuse alusel. Kõikide ühiskonna- ja vanusegruppide puhul on eesmärk toetada elukvaliteedi parandamist ja tervena elatud aastate arvu suurendamist. Juhuvalimi tõttu on kõikidel inimestel võrdne tõenäosus valimisse sattuda.
Heategemise printsiip – antud projektist saadav kasu on uuritavatele pigem kaudne, kuna alustatakse baasteadmiste loomisega ja otsene kliinilises praktikas kasutatav kasu haigusega tegelemiseks võib tekkida alles mitme aasta pärast. Seega saavad antud tööst kasu pigem tulevased patsiendid.
Kahju vältimise printsiip - Planeeritav projekt on kooskõlas mittekahjustamise printsiibiga, kuna uuring ei koorma patsiente ega põhjusta riske nende tervisele.
13 a Inimesed
Abiküsimused Ei Jah
Kas uurimisobjektiks on inimesed?
Jah, uurimisobjektiks on inimesed, kuid analüüs toimub olemasolevatel pseudonüümitud terviseandmetel, mille puhul vastavalt isikuandmete kaitse seadusele informeeritud nõusolekut vaja ei ole.
16
Kas uurimisobjektiks on haavatavad isikud või isikute grupid?
Kuna valim koostatakse üle kõigi Eesti inimeste, kuulub andmestikku ka haavatavaid isikuid. Samas mitmete haavatavate gruppide puhul, kes andmestikku satuvad (näiteks lapsed, rasedad, vaimsete häirete inimesed jt), saab teisene andmete kasutamine anda olulist infot ravi tõhustamiseks ilma täiendava uuringu koormuseta.
Kas uurimisobjektiks on isikud, kes ei saa ise anda teadlikku nõusolekut uuringus osalemiseks (sh piiratud teovõimega isikud)?
Andmestik luuakse olemasolevate pseudonüümitud terviseandmete teisesel kasutusel, mille puhul vastavalt isikuandmete kaitse seadusele informeeritud nõusolekut vaja pole.
Kas uurimisobjektiks on alaealised?
Kuna valim koostatakse üle kõigi Eesti inimeste, kuuluvad andmestikku ka alaealised. Alaealiste kaasamine on vajalik, et hinnata teadusuuringute tulemuste üldistatavust ka alaealiste erinevatele vanusegruppidele. Lisaks, alaealiste väljajätmine ei võimaldaks anda Eesti rahvastiku kohta esinduslikku pilti. Loodavad analüüsimeetodid peavad olema rakendatavad ka alaealistega seotud haiguste ja ravitrajektooride uurimisel ning ennetusmudelite loomisel, mistõttu on oluline loodavasse andmestikku kaasata alaealiste andmed samadel põhimõtetel kui ülejäänud andmed. Juhuleide üksikisiku tasandil ei teki, kuna tegemist on statistlise analüüsiga. Uuritavatega antud uurimistöö raames ühendust ei võeta.
Kas uurimisobjektiks on patsiendid?
Jah.
Kas uurimistöös kogutakse inimestelt bioloogilisi proove? Kas inimestelt võetud bioloogiliisi proove kavatsetakse eksportida kolmandasse riiki (https://www.aki.ee/et/teenused-po ordumisvormid/andmete-edastami ne-valisriiki) või importida neid teisest riigist Eestisse?
Ei, bioloogilisi proove ei koguta.
13 b Isikuandmed ja andmestikud
Ei Jah
17
Kas uurimistöö käigus kogutakse või analüüsitakse isikuandmeid, sh eriliiki isikuandmeid?
1) Täpne andmete koosseis, mis on vajalik uuringu läbiviimiseks (võib esitada lisana).
Täpne andmete koosseis koos põhjendusega on esitatud taotluse lisas 1.
2) Kinnitada, et informeeritud nõusolek on olemas või saadakse enne uuringu algust, kui uuring põhineb nõusolekul.
Uuringus kasutatakse olemasolevaid pseudonüümitud terviseandmeid, mille puhul vastavalt isikuandmete kaitse seadusele informeeritud nõusolekut vaja ei ole.
3) Selgitada, miks on kõik töödeldavad andmed asjakohased ja vajalikud (lähtudes andmete minimeerimise põhimõttest).
Täpne andmete koosseis koos põhjendusega on esitatud taotluse lisas 1. Eesti eri terviseandmekogudes sisaldub patsientide tervise kohta erinevat liiki ja eri kvaliteediga infot. Selleks, et saada tervisevaldkonna küsimuste uurimiseks patsiendi terviseseisundist kvaliteetne pilt, on vajalik vaadelda korraga andmeid mitmest andmekogust (vt ka “11. Uurimismetoodika”). Tervise infosüsteemi epikriisides on kirjas diagnoosid, raviskeemid, saatekirjades ja saatekirja vastustes ka laborianalüüside tulemused, kuid info võib olla puudulik. Epikriisides sisaldub vaid haigusloo kokkuvõte, mitte aga kõik teostatud uuringud või väljakirjutatud ravimid, mis mitmetes uuringutes on oluline info. Teiselt poolt on epikriisid ainsad tervisedokumendid, kus sisaldub vabas vormis kirja pandud info patsiendi kaebuste, üldseisundi, allergiate, ravi kõrvalmõjude jms kohta. Tekstilistest osadest suudame eraldada tehisintellekti meetodite abil ka muud olulist infot, mis kodeeritud väljades puudub, näiteks patsiendi kaebusi, ravimite nõrgemaid kõrvalmõjusid. Tervisekassa andmekogu info tervishoiuteenuste kohta on täielikum ja sisaldab ka teenuste hindu, kuid selle detailsus on samas madalam (mitmed tervishoiuteenused märgitud sama koodiga) ja laborianalüüside kohta puuduvad analüüsitulemused. Kõige parema pildi patsiendile välja kirjutatud ravimite osas annab retseptikeskus, lisaks on seal ka info ravimi väljaostmise kohta, mis on väga oluline indikaator ravijärgimuse hindamiseks. Samas
18
puudub retseptikeskuses info käsimüügiravimite kohta (seda infot võib potentsiaalselt leida epikriisidest). Paljude tervisevaldkonna uuringute puhul (nt pahaloomulised kasvajad) on oluline uurida suremust, selleks on kõige kvaliteetsem info kirjas surma põhjuste registris, mis sisaldab nii surma kuupäeva kui ka spetsialisti poolt kinnitatud surma põhjuseid. Andmeväljade valikul oleme lähtunud uurimistöö eesmärkidest tuginedes uurimismeeskonna senistele kogemustele ja minimaalsuse printsiibist. Laiapõhjalisus võimaldab hinnata andmekvaliteeti üle paljude haiguste, sh arvestades kaasuvaid haigusi, ja tagab, et loodud andmetöötlusmeetodid üldistuvad uutele uuringutele sõltumata vaatluse all olevast haigusest ja patsiendi gruppidest. Lähtuvalt sellest, et üheks taotletava teadusuuringu eesmärgiks on, et arendatavad analüüsimeetodid ja ennetusmeetodid üldistuksid ka uutele andmestikele ja haigustele, ei saa me piirata andmestikku ei diagnooside, vanuse ega muude parameetrite järgi. Iga piirang vähendaks andmestiku esinduslikkust üldpopulatsiooni suhtes ja muudaks arendatavad meetodid vähem üldistuvaks ning piiraks loodud meetodite kasutamist teistes uuringutes. Ajaperioodi määratlemisel oleme lähtunud varasemast kogemusest 2012.-2019. aasta andmetega ning teadustöö eesmärkidest. Pikk ajaperiood tagab, et andmetes on näha tervisesündmuste esituse ja kvaliteedi areng läbi aja ning me saame uurida terviklikke haigustrajektoore, alates ennetustegevustest, esmasdiagnoosi, raviteenuste osutamise ja lõpptulemini. Samuti võimaldab loodava andmestiku ajaraam hinnata riskimudelite 10-aastast ennustusvõimet vastavalt rahvusvahelistelt levinud praktikatele.
4) Kas andmesubjektid on tuvastatavad? Kui jah, siis kirjeldada, kuidas on täidetud järgmised tingimused:
a. pärast tuvastamist võimaldavate andmete eemaldamist ei ole andmetöötluse eesmärgid enam saavutatavad või neid oleks ebamõistlikult raske saavutada;
b. teadus- või riikliku statistika tegija hinnangul on selleks ülekaalukas avalik huvi;
c. töödeldavate isikuandmete põhjal ei muudeta
19
andmesubjekti kohustuste mahtu ega kahjustata muul viisil ülemäära andmesubjekti õigusi.
Andmesubjektid ei ole otseselt tuvastatavad. Kaudse tuvastamise risk säilib. Kaudse tuvastamisega seotud riskide maandamiseks võtame kasutusele mitmeid meetmeid, mis on täpsemalt kirjeldatud lisas 2 “EST-Health-30 andmekaitsealane mõjuhinnang”.
Kas uurimistöö hõlmab üksikisiku süsteemset jälgimist, tema andmeprofiili kogumist või töödeldakse suures ulatuses eriliiki ja/või tundlikke andmeid või kasutatakse (sekkuvaid) andmete töötlemise meetodeid varjatud viisil (nt elulemuse uuringud, jälgimine, järelevalve, audio ja video salvestamine, geo- positsioneerimine jne) või mistahes andmete töötlemise protsessi, mis võib kahjustab uuritavate õigusi ning vabadust?
Uurimistöö käigus töödeldakse suures mahus andmesubjektide terviseandmeid ja uuritakse nende raviteekondasid, ravijärgimust ja personaliseeritud ennetusmeetmeid. Seega eksisteerib teoreetiliselt oht uuritavate õigustele ja vabadustele, kuid uurimistöö läbiviimisel on rakendatud hulgaliselt meetmeid erinevate riskide maandamiseks ning need on kirjeldatud lisas 2 “EST-Health-30 andmekaitsealane mõjuhinnang”.
Kas uurimistöös analüüsitakse eelnevalt kogutud isikuandmeid?
Uurimistöö käigus analüüsitakse eelnevalt igapäevase tervishoiusüsteemi toimimise käigus kogutud terviseandmeid. Andmekogude loetelu on toodud punktis 14 ja täpne andmete koosseis koos põhjendusega on esitatud taotluse lisas 1. Analüüs toimub retrospektiivselt.
Kas uurimistöös analüüsitakse avalikult kättesaadavaid andmeid? Ei
Kas kavatsetakse edastada isikuandmeid või võimaldada neile juurdepääs kolmandast riikidest (https://www.aki.ee/et/teenused-po ordumisvormid/andmete-edastami ne-valisriiki)?
Ei, isikuandmeid kolmandatesse riikidesse ei edastata.
Kas uurimistöö lõppedes toimub isikuandmete hävitamine/ anonüümimine?
Jah. Peale uurimisprojekti arhiveeritakse andmed üheks aastaks, et vajadusel võimaldada arhiveerimisperioodil retsenseerimisel olevate teadusartiklite analüüsi täiendamine. Andmed hävitatakse hiljemalt 31. detsembriks 2028. Andmete hävitamise protokoll saadetakse kõikidele vastutavatele andmetöötlejatele.
13 c Teised eetilised küsimused
20
Kas uurimistöö läbiviimine võib kaasa tuua eelpool kirjeldamata eetilisi riske?
Jah, kasutame ka tehisintellekti meetodeid, millega kaasnevad ülal kirjeldamata riskid. Tehisintellekti kasutamisega seonduvate riskide analüüs on toodud lisas 3.
14. Täita, kui uuring põhineb andmekogu ja/või andmeallika andmetel.
Andmekogu ja/või andmeallika nimetus
1. Tervise infosüsteem (ambulatoorne, statsionaarne, kodu- ja iseseisva statsionaarse õenduse, koduõenduse ja päevaravi epikriisid; saatekirjad, saatekirjad haiglaravile, õendusabile, ambulatoorsele vastuvõtule, e-konsultatsioonile ja õendusabile; saatekirja vastused; immuniseerimise teatised)
2. Tervisekassa andmekogu (raviarved ja kindlustuskaitse andmed) 3. Retseptikeskus 4. Vähiregister 5. Surma põhjuste register
Isikuandmete töötlemise eesmärk
Eesmärk on Eesti terviseandmete väärindamine läbi andmeteaduse meetodite, et pakkuda kvaliteetset tõendust tõhusate patsiendikesksete tervishoiu- ja ennetusteenuste osutamiseks.
Andmekoosseis ja periood, mille kohta andmed kogutakse (vajadusel lisana)
Andmekoosseis on esitatud lisana (Lisa 1. Andmekoosseis). Andmeperiood on 2012-2026.
15. Isikuandmete kaitse meetmete kirjeldus, sealhulgas andmete hoidmise, säilitamise, turvalisuse ja kustutamise kohta, sh andmete ja/või koodivõtme kustutamise kuupäev (kuni 1800 tähemärki, 1 lk).
Kirjeldada ja põhjendada uuringu vajaduseks kogutud andmete säilitamist ja tähtaega.
Andmeandjatelt saadud algandmed paigaldatakse SAPUs spetsiaalselt kirjutuskaitstud kausta, et vältida andmete juhuslikku hävimist või kahjustumist. SAPU’st tehakse regulaarselt krüpteeritud varukoopiaid Eesti Teadusarvutuste infrastruktuuri lindirobotile, mis asub füüsiliselt teises asukohas (andmekeskuses). Andmed arhiveeritakse üks aasta peale projekti lõppu. Andmete arhiveerimine üheks aastaks peale projekti lõppu on vajalik retsenseerimisel olevate artiklite publitseerimisprotsessi lõpetamiseks. Arhiveerimisperioodi lõpus, hiljemalt 31.12.2028 andmed kustutatakse. Projekti käigus võib osutuda, et ka edaspidine säilitamine, arendamine ja kasutus, sh vahepeal saadud teadustulemuste valideerimise ja täpsustamise eesmärgil on vajalik. Sellise vajaduse tekkimisel esitab uurimisgrupp vastavasisulise taotluse asjakohas(t)ele eetikakomitee(de)le. Uuringu tarbeks kogutud andmete säilitamine on täpsemalt kirjeldatud lisas 2 “EST-Health-30 andmekaitsealane mõjuhinnang”.
Kirjeldada isikuandmete pseudonüümimise protsessi ja vahendeid.
Isikuandmed pseudonüümitakse andmekogude vastutavate/ volitatud töötlejate poolt, kasutades üksnes andmeandjatele teadaolevat räsiparooli, mida nad omavahel jagavad krüpteeritult. Seda räsiparooli kasutatakse, et arvutada räsid oma andmekogudes olevatele isikukoodidele. Pseudonüümina kasutatakse saadud räsi. Andmeallikad asendavad oma
21
andmetes isikukoodid pseudonüümidega enne andmete uuringumeeskonnale väljastamist. Pseudonüümimise protsess ja vahendid on täpsemalt kirjeldatud lisas 2 “EST-Health-30 andmekaitsealane mõjuhinnang”.
Kas kavatsetakse geenidoonorite isikuandmeid depseudonüümida?
Ei, geenidoonorite andmeid ei töödelda. Uuritavate osas on korralduslikult tagatud, et uurimisgrupi liikmetel ei ole lubatud ega võimalik andmeid depseudonüümida (mh ei avaldata uurimisgrupi liikmetele räsiparooli).
Kas toimub isikuandmete transportimine ning kirjeldada, kuidas on tagatud andmete turvalisus.
Iga andmeandja väljastab valimisse kuuluvate isikute kohta oma andmebaasist pseudonüümitud andmed uuringumeeskonnale (ilma isiku otsest tuvastamist võimaldavate andmeteta). Kaudse tuvastamise riski maandamiseks rakendatakse täiendavaid andmekaitse mõjuhinnangus kirjeldatud meetmeid, sh anonüümimisrakendust vaba teksti väljadel ja otsest tuvastamist võimaldavate andmeväljade (nt aadress) välistamist. Uuringumeeskond ühendab saadud andmekomplektid pseudonüümide alusel. Nii on tagatud, et andmeandjad töötlevad vaid nende juures hoitavaid andmeid ega näe teiste asutuste andmeid.
Kirjeldatud viisil andmete vahetamisel ei liigu samaaegselt kunagi isiku otsest tuvastamist võimaldavad isikuandmed ja tema terviseandmed.
Andmete edastamiseks sõlmitakse leping iga andmekogu omaniku ja Tartu Ülikooli vahel. Andmete edastus toimub krüpteeritult läbi turvalise andmevahetusserveri, mis on üles seatud Eesti Teadusarvutuste infrastruktuuri poolt või kasutades andmeallikate tavapäraseid andmete väljastamise viise vastavalt nende sisemistele protseduurireeglitele (enamasti konkreetsele juhtivuurijale parooliga ligipääsetav kataloog andmeallika serveris, andmefail on krüpteeritud).
Analüüsiks viib uuringumeeskond need andmed eraldi virtuaalserverisse SAPU (vt järgmine punkt), mida haldab Eesti Teadusarvutuste infrastruktuur.
Isikuandmete turvaline transportimine on täpsemalt kirjeldatud lisas 2 “EST-Health-30 andmekaitsealane mõjuhinnang”.
Kirjeldada, kuidas on andmed kaitstud loata või ebaseadusliku töötlemise eest.
Peame tähtsaks loodava andmestiku infoturbelist kaitset, mis nõuab kõrget ekspertiisi ja tehnilisi lahendusi, et välistada andmete hoidmine juhuslikes ebaühtlase andmekaitsega arvutites. Koostöös Eesti Teadusarvutuste infrastruktuuriga (https://etais.ee) töötab uurimisgrupp infoturbe riskide maandamiseks välja minimaalsusprintsiipi tagava andmetele ligipääsu andmise protsessi ja paigutab loodava andmestiku turvalisse andmeanalüüsi serverisüsteemi (andmepuuri) SAPU (https://sapu.cs.ut.ee). Andmete hoidmisega SAPU-s väheneb oluliselt andmelekke risk rakendades andmete eksportimisele ranged piirangud ning logides kõiki andmetega tehtavaid tegevusi kasutaja tasandil kogu andmete säilitamise ja arhiveerimise perioodil. Soovi korral tagatakse andmeandjateleandjatele ligipääs logidele. Andmete edasisel töötlemisel SAPUs ja uuringu eesmärkide täitmiseks kasutatakse OMOP mudeli jaoks loodud ja publitseeritud tööriistu (Atlas server, Usagi, Data Characterisation, PopulationLevelEstimation ja PatientLevelEstimation R-paketid, uurimisrühma arendatud tööriistad jt). Kusjuures Atlas server on OMOP andmemudelile loodud kohortide defineerimise tööriist, mis võimaldab patsiendigruppe defineerida ilma andmetele
22
ligipääsu omamata. Seega on Atlas tööriist vajalik just minimaalsusprintsiibi tagamiseks.
SAPU serverist väljastatakse andmeid ainult vastutava uurija nõusolekul ja agregeeritud kujul nii, et on tagatud k ≥ 5 anonüümsus. SAPU serveris olevatele andmetele on ligipääs ainult käesolevas taotluses toodud uurijatel. Uurimisgrupp tagab, et andmetele ligipääs on vastavuses kehtiva seadusandlusega. Täiendavate uurimisküsimuste tekkimisel esitatakse Eesti bioeetika ja inimuuringute nõukogule ja andmeandjatele hindamiseks uus taotlus. Lisandunud uurimisküsimuste lahendamiseks antakse ligipääs andmetele lähtudes minimaalsuse printsiibist. Võimalusel viiakse lisandunud uuring läbi nii, et 1. etapi uurimisrühmale edastatakse uue uurimisküsimuse lahendamiseks kood, mille uurimisrühm läbi jooksutab ning tagastab ainult analüüsi tulemused lähtudes k ≥ 5 anonüümsusest. Loata või ebaseadusliku töötlemise eest kaitsvate meetmete kohta vt taotlusele lisatud “EST-Health-30 andmekaitsealane mõjuhinnang” (lisa 2).
Kinnitan, et kõik uuringu läbiviijad on teadlikud projekti läbiviimisega kaasnevatest eetilistest ja isikuandmete kaitsega kaasnevatest nõuetest.
Vastutavate uurijate allkirjad
/Jaak Vilo digiallkiri/
/Raivo Kolde digiallkiri/
/Sven Laur digiallkiri/
/Sulev Reisberg digiallkiri/
Taotluse esitamise kuupäev
20.08.2024
Taotluse EBIN ID (täidab hindaja)
Lisadokumentide loetelu:
1. Taotletav andmekoosseis (MS Exceli fail kolmel lehel)
2. Andmekaitsealane mõjuhinnang
3. AI eetika küsimused
4. Viited vastutavate uurijate avalikele CV-dele:
a. Jaak Vilo: https://www.etis.ee/CV/Jaak_Vilo/est/
b. Raivo Kolde: https://www.etis.ee/CV/Raivo_Kolde/est/
c. Sven Laur: https://www.etis.ee/CV/Sven_Laur/est/
23
d. Sulev Reisberg: https://www.etis.ee/CV/Sulev_Reisberg/est/
24
EST-Health-30 andmekaitsealane mõjuhinnang
Käesolev andmekaitseline mõjuhinnang on tehtud põhjusel, et Euroopa isikuandmete kaitse üldmääruse (2016/679, edaspidi GDPR) artikkel 35 lõiked 1 ja 3 nõuab enne ulatuslikku eriliiki isikuandmete (terviseandmete) töötlemist kavandatavate isikuandmete töötlemise toimingute mõju hindamist isikuandmete kaitsele.
Kokkuvõte andmekaitsealase mõjuhinnangu tulemustest Käesolev andmekaitsealane mõjuhinnang on läbi viidud uurimisprojekti „EST-Health-30 - Eesti terviseandmete väärindamine“ kohta. Teadusuuringu üldeesmärk on Eesti terviseandmete väärindamine läbi andmeteaduse meetodite, et pakkuda kvaliteetset tõendust tõhusate patsiendikesksete tervishoiu- ja ennetusteenuste osutamiseks. Andmetiku aluseks on 30% juhuvalim Eestis alates 2012. aastast tervishoiuteenuseid tarbinud Eesti elanikest (andmesubjektid).
Andmekaitsealane mõjuhinnang on läbi viidud ajavahemikus 01.08.2024 - 17.08.2024 ning kehtib kuni uurimisprojektis kasutatud andmete kustutamiseni hiljemalt 31.12.2028. Juhul, kui muutuvad mõjuhinnangu aluseks olnud asjaolud, siis mõjuhinnangut täiendatakse vastavalt.
Kokkuvõttes leiavad mõjuhinnangu koostajad, et uurimisprojektis on kasutusel tõhusad riskimaandamise mehhanismid ja rakendatud meetmete tulemusena ei teki andmesubjekti õigustele suurt ohtu isikuandmete kaitse üldmääruse (2016/679/EU) artikkel 35 lõike 1 tähenduses.
Mõjuhinnang on kooskõlastatud Tartu Ülikooli andmekaitse peaspetsialistiga.
Sissejuhatus Tartu Ülikool (TÜ) on avalik-õiguslik ning vanim ja suurim Eesti ülikool. Tartu Ülikooli üheks peamiseks eesmärgiks on edendada teadust, kuid spetsiifilisemalt ka edendada Eestit ja tema rahvast uurivaid teadusi ning eestikeelset haridust. Tartu Ülikooli neljast valdkonnast on konkreetselt meditsiinile keskendunud meditsiiniteaduste valdkond. Samas on tervisevaldkond muutumas järjest interdistsiplinaarsemaks ning meditsiiniga on tihedalt seotud ka loodusteaduste valdkond - näiteks genoomika instituut uurib geneetika ja haiguste vahelisi seoseid, arvutiteaduse instituut aga arendab nii geneetilistel kui terviseandmetel rakendamiseks andmeteaduse meetodeid, s.h masinõpet.
1
Käesolev mõjuhinnang käsitleb EST-Health-30 alusandmestikku, mis luuakse Tervisekassa andmekogu, retseptikeskuse andmekogu, Tervise Infosüsteemi, surma põhjuste registri ja vähiregistri andmete alusel. Alusandmestiku loomist ja sellel põhinevate teadus- ja rakendusuuringute teostamist uurimistetoodikate arendamiseks Eesti terviseandmetel kavandab arvutiteaduse instituudi terviseinformaatika uurimisgrupp (vt taotlus p3 “Vastutavad uurijad” ja p4 “Uuringu läbiviijad”) (edaspidi Uurimisgrupp). Uurimisgrupp on Eesti terviseandmekogudest pärit pseudonüümitud andmestikel viinud varasemalt läbi mitmeid erinevaid teadusuuringuid. Seekordne uurimisprojekt erineb eelmistest uurimisprojektidest selle poolest, et on eelnevatest laiapõhjalisem, kaasates senisest rohkem patsiente ja kaasaegsemaid andmeid. Projekt koosneb kahest etapist, millel on järgmised eesmärgid:
1. 1. etapp: alusandmestiku loomine ja andmekvaliteedi tõstmise meetodite arendamine 1.1. Hinnata valimi põhjal Eesti terviseandmete kvaliteeti ja hõivet võrreldes
erinevatest andmeallikatest pärinevat informatsiooni. 1.2. Andmekvaliteedi ja andmehõive tõstmise meetodite sh tehisintellekti-,
tekstikaeve- ja imputatsioonimeetodite arendamine. 1.3. Tervisesündmuste esituse ühtlustamine rahvusvahelistele standarditele üle aja
ja andmeallikate, sh kasutades tekstikaeve, klasterdamise ja automaattõlke meetodeid.
1.4. Arendatavad meetodid on hiljem rakendatavad ka uutes uuringutes, suurematel andmehulkadel ning riiklikes infosüsteemides andmekvaliteedi ja -hõive parandamiseks.
1.5. Standardiseeritud ja ühtlustatud andmestiku loomine ja kirjeldamine teadusuuringute läbiviimiseks. Andmestikku kirjeldatakse läbi erinevate numbriliste näitajate ja teostatavusanalüüside senisest suuremal detailsusastmel.
2. 2. etapp: teadus- ja rakendusuuringute teostamine uurimistetoodikate arendamiseks Eesti terviseandmetel.
2.1. Arendada haigustrajektooride ja raviteekondade analüüsi metoodikaid kasutades sh tehisintellekti meetodeid, et kirjeldada praeguseid ravipraktikaid, võrrelda neid raviteekondade ja -juhenditega ning modelleerida tervisetulemeid ja ravi majanduslikku mõju.
2.2. Analüüsida erinevate faktorite (nt sugu, vanus, erinevad haigused) mõju ravijärgimusele, hinnata ravijärgimuse mõju erinevatele tervisetulemitele ja luua personaalseid ennustusmudeleid, mis võimaldavad maandada ravi mittejärgimise riske.
2.3. Arendada personaliseeritud ennetusmudeleid, mis võimaldavad vaatlusandmete põhjal tuvastada praeguste haiguse ennetuste ja ravipraktikate kitsaskohti, planeerida senisest paremini haiguste ennetustegevusi ja hinnata pakutud ennetusteenuste majanduslikku mõju
Andmetiku aluseks on 30% juhuvalim Eestis alates 2012. aastast tervishoiuteenuseid tarbinud Eesti elanikest (andmesubjektidest). Nende andmesubjektide kohta saadakse pseudonüümitud andmed Tervisekassa andmekogust, retseptikeskuse andmekogust, Tervise Infosüsteemist, surma põhjuste registrist ja vähiregistrist. Pseudonüümi alusel viib Uurimisgrupp sama isiku andmed kokku ning töötleb neid.
2
Uurimisprojekt kestab 01.10.2024-31.12.2027. Peale uurimisprojekti lõppu andmed arhiveeritakse üheks aastaks. Arhiveerimisperioodi lõpus, hiljemalt 31.12.2028 andmed kustutatakse.
Mõjuhinnangu läbiviimisest
Läbiviimise aeg Käesolev andmekaitsealane mõjuhinnang on läbi viidud ajavahemikul 01.08.2024 - 17.08.2024.
Mõjuhinnangu ulatus Käesolev andmekaitsealane mõjuhinnang on koostatud andmestiku EST-Health-30 elutsükli kohta Tartu Ülikoolis s.o. Andmete aktiivse kasutamise perioodi kohta oktoober 2024-31.12.2027 ja arhiveerimisperioodi kohta 01.01.2028-31.12.2028.
Metoodika Käesoleva andmekaitsealase mõjuhinnangu loomisel on kasutatud riskide identifitseerimisel ja hindamisel põhinevat metoodikat. Mõjude hindamisel võetakse arvesse kirjeldatud andmetöötlemise iseloomu, ulatust ja konteksti. Riskid on leitud ja kirjeldatud andmetöötluse ohustsenaariumite hindamisest lähtuvalt. Riskide hindamisel on hinnatud skaalal (0-väga madal; 4-väga kõrge) kahte tegurit:
● riski realiseerumise tõenäosus; ● riski realiseerumise mõju.
Üldine riski tase leitakse kahe skaala ristumispunktis vastavalt alltoodud joonisele ja tabelile. Näiteks kui tõenäosus on 3 ja mõju 2, siis riski tase on 5 ehk keskmine.
3
Riski tase Tulemus Kirjeldus 6-8 Kõrge 3-5 Keskmine 0-2 Madal
Projektipõhise infosüsteemi kirjeldus EST-Health-30 andmestikku hoitakse ja kõik teisendused/analüüsid teostatakse Eesti Teadusarvutuste infrastruktuuri poolt pakutavas sensitiivsete andmete privaatses uurimiskeskkonnas (SAPU). Projekti käigus kasutatakse eraldiseisvat SAPU keskkonda, mis ei ole seotud teiste SAPU keskkondadega. Detailne info Eesti Teadisarvutuste infrastruktuuri kohta on leitav aadressil https://etais.ee/ ja lisainfo sensitiivsete andmete privaatse uurimiskeskkonna (SAPU) koht on leitav aadressil https://docs.hpc.ut.ee/public/services/SAPU/ (inglise keeles).
Kasutajate haldus Projekti käigus kasutatavasse SAPU keskkonda (andmepuur) luuakse spetsiaalsed ja eraldiseisvad kasutajakontod ainult projekti vastutava täitja taotlusel ja heakskiidul. Igale uuringu täitjale antakse ligipääs ainult tööks vajalikele andmetabelitele. SAPU keskkond on
4
selleks volitatud isikutele kättesaadav ainult aktiivse analüüsi faasis ning muul ajal on keskkond välja lülitatud ning sinna ei ole võimalik siseneda ka kasutajakonto olemasolu korral. Kolmandatel isikutel (kaasa arvatud Tartu Ülikooli teistel töötajatel) puudub juurdepääs kasutatavasse SAPU keskkonda.
SAPU keskkonnas eristatakse nelja erinevat kasutajarolli: ● Cloud operator (administraatori õigused) - SAPU tehniline administraator, seda rolli
täidab Eesti Teadusarvutuste infrastruktuur - hoolitseb turvalisuse, monitoorimise ülesannete eest, vastutab, et server töötab. Ei kasuta ja ei vaata andmeid.
● Data owner (otsene ligipääs masinale ja monitoorimisele) - vastutav uurija, kellele väljastatakse andmed ja kes toob andmed SAPU masinasse. Kõik andmetele ligipääsude andmised ning andmete väljaliigutamise SAPUst toimuvad vaid data owneri ehk vastutava uurija kinnitusel. Data owner ehk vastutav uurija vastutab ka logide jälgimise ja säilitamise eest kogu andmete eluea jooksul.
● Data custodian (otsene ligipääs masinale ja monitoorimisele) - uuringu täitja, kes tegeleb peaasjalikult tehniliste küsimustega, sh toetab data owner‘i andmete SAPUsse viimisega, monitoorib logisid ja vajadusel aitab pilve operaatorit.
● Data analyst (ligipääs üksnes läbi virtuaalse töölaua) - uuringu täitja, kes analüüsib ja töötleb andmeid.
Teadaolevad turvameetmed ● Andmete edastamiseks sõlmitakse leping iga andmeandja ja Tartu Ülikooli vahel.
Andmete edastus toimub krüpteeritult läbi turvalise andmevahetusserveri, mis on üles seatud Eesti Teadusarvutuste infrastruktuuri poolt või kasutades andmeallikate tavapäraseid andmete väljastamise viise vastavalt nende sisemistele protseduurireeglitele (enamasti konkreetsele juhtivuurijale parooliga ligipääsetav kataloog andmeallika serveris, andmefail on krüpteeritud).
● Analüüsiks kasutatakse Eesti Teadusarvutuste infrastruktuuri poolt pakutavat sensitiivsete andmete privaatset uurimiskeskkonda (SAPU) millele on piiratud ligipääs vaid eetikaloal loetletud uurijatele.
● Kasutusel on füüsilise ja infotehnoloogilised turvameetmed, mida on täpsemalt kirjeldatud mõjuhinnangu lõpus.
Süsteemi kasutusotstarve Sensitiivsete andmete privaatne uurimiskeskkond (SAPU) on Eesti Teadusarvutuste infrastruktuuri poolt spetsiaalselt loodud ja pakutav andmetöötluskeskkond, kus analüütikud saavad töötada tundlike andmete kallal, vähendades võimalikku andmete volitamata kopeerimist, ülekandmist või masinatest välja võtmist, pakkudes kõrgemat turvaklassi kui tavaline suure jõudlusega arvutusklaster.
5
SAPU kõrgetasemeline arhitektuur
SAPU andmevärav Kuna analüütikud vajavad võimalust SAPU masinasse viia andmeid, skripte ja muud teavet ning samuti on vajalik SAPU masinast analüüsitulemusi, siis on kasutusele võetud S3 Object Storage põhised eeskirjad kolme kaustaga:
Graafiline kasutajaliides RDP või masina avalikustamine internetis kätkeb endas mitmeid infoturbe riske ja nende maandamiseks on kasutusele võetud puhverserver. Kasutatakse avatud lähtekoodiga tehnoloogiat Apache Guacamole.
6
Autentimine ja autoriseerimine SAPU’l on eraldiseisev LDAP server, millega luuakse ühendus identiteedi ja juurdepääsu haldamiseks.
Andmestiku elutsükkel Andmestiku elutsükkel on järgmine:
1. Eesti Tervisekassa, Tervise Arengu Instituut (TAI) ja Tervise ja Heaolu Infosüsteemide Keskus (TEHIK) edastavad oma infosüsteemidest lisas “Andmekoosseis” kirjeldatud andmed Tartu Ülikooli vastutavale uurijale.
2. Uurimisgrupi vastutav uurija korraldab andmete tõstmise SAPU-sse. 3. Uurimisgrupi liikmed töötlevad SAPU-s olevaid andmeid ainult teadusuuringu
eesmärkide täitmiseks. 4. Alusandmeid uuendatakse regulaarselt, taotluses toodud sagedusega korrates samme
1-3. 5. Vajadusel toimub tulemuste väljastamine SAPU’st. Tulemuste väljastamine toimub ainult
vastutava uurija kinnitusel ning pidades silmas anonüümsustaset k ≥ 5. 6. Uuringu lõppedes SAPU koos andmetega arhiveeritakse üheks aastaks ning vajadusel
tagatakse ligipääs andmetele. Peale arhiveerimisperioodi lõppu andmed kustutatakse. Kustutatakse ka kõik SAPU ja andmete varukoopiad.
7
Isikuandmete töötlemise toimingud
Isikuandmete kogumine Käesolevas uuringus uusi isikuandmeid ei koguta ja andmesubjektidega ühendust ei võeta. Kasutatakse juba olemasolevaid terviseandmeid ainult taotluses kirjeldatud teadusuuringu eesmärkide täitmiseks. Vastavalt isikuandmete kaitse seadusele § 6 lg 1 võib teadusuuringu vajaduseks isikuandmeid töödelda andmesubjekti nõusolekuta, kui need on pseudonüümitud. Andmed pseudonüümitakse käesolevas uuringus enne Uurimisgrupini jõudmist andmeallikate poolt.
Vaatamata sellele, et andmed on pseudonüümitud ega sisalda isiku otsest tuvastamist võimaldavaid tunnuseid, käsitletakse uuringu andmeid järgmistes peatükkides tulenevalt nende tundlikust iseloomust kui eriliiki isikuandmeid.
Isikuandmete pseudonüümimine ja edastamine
Valimi moodustamine ja pseudonüümide moodustamine Andmestiku aluseks on isikukoodide põhjal koostatud juhuvalim. Juhuvalimi moodustamise aluseks on isikute isikukoodid, täpsemalt nende põhjal loodud pseudonüümid. Pseudonüümide salajaseks, kuid ühetaoliseks moodustamiseks kasutavad kõik andmeandjad sama räsifunktsiooni ja salajast parooli ehk räsiparooli. Viimast Uurimisgrupile ei väljastata.
Salajase pseudonüümimisparooli moodustamine ja andmeallikatega jagamine
1. Tervisekassa määrab salajase parooli (siin näidetes edaspidi “mypassword”) 2. Tervisekassa salvestab parooli tekstifaili, mille sisu on umbes järgmine:
Pseudonüümimiseks kasutatav parool on: mypassword Kontroll - järgmine käsk: echo -n "99999999999SIIAÕIGEPAROOL" | openssl dgst -sha256 | awk '{print $2}' peab andma tulemuseks a40a173b33e0c3913e3bdb7a7e8878ad9b52925541631f96be5143ac32eb68f7
3. Tervisekassa krüpteerib tekstifaili digidoc konteineris, määrates adressaatideks konkreetsed andmeväljastuse eest vastutavad isikud nii TEHIK-s kui TAI-s. See tagab, et parooli ei näe Uurimisgrupi liikmed TÜ-s.
4. Tervisekassa edastab krüpteeritud digidoc konteineri TÜ Uurimisgrupile, kes edastab selle omakorda TEHIK-le ja TAI-le. Selline korraldus tagab, et Tervisekassa ei pea ise korraldama ega sekkuma TEHIK ega TAI poolsesse andmeväljastusse.
Pseudonüümimine ja valimi moodustamine Protsess valimi ja pseudonüümide moodustamiseks iga andmeandja juures on järgmine:
8
1. Andmeandja veendub, et pseudonüümimiseks kasutama hakatav räsifunktsioon töötab õigesti. Järgmine käsk: echo -n "99999999999mypassword" | openssl dgst -sha256 | awk '{print $2}' peab andma tulemuseks a40a173b33e0c3913e3bdb7a7e8878ad9b52925541631f96be5143ac32eb68f7 Lisaks kontrollib andmeandja, et Tervisekassast saadud parool annab räsimisel õige tulemuse.
2. Tervisekassa moodustab kõigile isikukoodidele vastavad räsid, andes räsifunktsioonile ette ühendatud sõnena nii isikukoodi kui salajase parooli. Näiteks isikukoodi 99999999999 korral moodustatakse räsi ülaltoodud käsuga ja selle näite põhjal saadav räsi on a40a173b33e0c3913e3bdb7a7e8878ad9b52925541631f96be5143ac32eb68f7
3. Räsi iga sümbol on üks kuueteistkümnesümbolilisest hulgast: a-f või 0-9. Need jaotuvad ühtlaselt. Valimisse kuuluvad isikud, kelle räsi esimene sümbol kuulub hulka {a,b,c,d,e,f,0} ja teine sümbol hulka {a,b,c,d,e,f,0,1,2,3,4}. Sellisel juhul satub valimisse (7/16)*(11/16)*100=30.08% isikukoode. Näide: ka ülaltoodud näidisisikukood 99999999999 satub valimisse, sest tema räsi esimene sümbol “a” kuulub hulka {a,b,c,d,e,f,0} ja teine sümbol “4” kuulub hulka {a,b,c,d,e,f,0,1,2,3,4}.
4. Nendest isikukoodidest kuuluvad käesoleva andmestiku valimisse isikud, kelle kohta on vastava andmeandja andmebaasis sisestatud kandeid uuringuperioodil. Pseudonüümidena kasutatakse loodud räsisid.
5. Andmeandja säilitab parooli turvaliselt tuleviku andmeuuenduste väljastamiseks.
Antud lahenduse puhul ei ole tarvis moodustada valimit ühe andmeandja juures ning seda siis teiste andmeandjatega jagada. Puudub ka vajadus vahetada isikukood-pseudonüümide tabelit. Andmeandjad vahetavad omavahel üksnes räsifunktsioonis kasutatavat parooli, kasutades selleks turvalist krüpteeritud kanalit, näiteks vastuvõtja isikukoodile kodeeritud .CDOC konteinerit. Kuna pseudonüümimine ja valim moodustatakse ainult isikukoodi põhjal, satuvad ka uued isikud pseudonüümi sobivuse korral automaatselt valimisse.
Pseudonüümide moodustamiseks etteantud isikukoodide faili põhjal ja nende seast valimi määramiseks saab kasutada järgmist skripti:
#!/bin/bash
PASSWORD='mypassword' #siia panna ainult andmeallikatele teadaolev parool
while read -r line; do hash=$(echo -n "$line$PASSWORD" | openssl dgst -sha256 | awk '{print $2}') if [[ $hash =~ ^[abcdef0][abcdef01234] ]]; then echo "$line" >> valimisse_kuuluvad_isikukoodid.txt echo "$line $hash" >> valimisse_kuuluvate_isikukoodide_pseudonyymid.txt
fi done < isikukoodid.txt
9
Andmete töötlus enne Uurimisgrupile väljastamist Andmeandjad väljastavad üksnes valimisse kuuluvate isikute andmeid.
Nende isikute kohta väljastatakse uurimisgrupile andmed järgmistest andmekogudest: 1. Tervisekassa andmekogu (raviarved ja kindlustuskaitse andmed, vastutav töötleja:
Tervisekassa) 2. Retseptikeskuse andmekogu (vastutav töötleja: Tervisekassa) 3. Tervise Infosüsteem (vastutav töötleja: Sotsiaalministeerium, volitatud töötleja: TEHIK) 4. Surma põhjuste register (vastutav töötleja: TAI) 5. Eesti vähiregister (vastutav töötleja: TAI)
Täpne andmekoosseis kõigi andmekogude lõikes on kirjeldatud uuringutaotluse juurde kuuluvas lisas. Muuhulgas eemaldatakse otsest isikutuvastamist võimaldavad andmed ning asendatakse pseudonüümiga.
Varasemaid andmeid kui 1. jaanuar 2012. a ei väljastata.
Andmete üleandmine Uurimisgrupile Andmete edastamiseks sõlmitakse leping iga andmeandja ja Tartu Ülikooli vahel. Andmete edastus toimub krüpteeritult läbi turvalise andmevahetus serveri, mis on üles seatud Eesti Teadusarvutuste infrastruktuuri poolt või kasutades andmeallikate tavapäraseid andmete väljastamise viise vastavalt nende sisemistele protseduurireeglitele (enamasti konkreetsele juhtivuurijale parooliga ligipääsetav kataloog andmeallika serveris koos krüpteeritud andmefailiga).
Andmete uuendamine Andmestiku on plaanis regulaarselt uuendada. Täienevad olemasolevate andmesubjektide andmed, aga valimisse satub ka uusi andmesubjekte (näiteks isikud, kellel varem puudus isikukood). Protsess uuendamiseks on järgmine:
1. Uurimisgrupp algatab regulaarselt andmete uuendamise protsessi, pöördudes selleks kõigi andmeandjate poole ja täpsustades, millisest ajahetkest alates ja millise ajahetkeni toimunud uuendusi on tarvis.
2. Kõik andmeandjad teostavad vajaliku andmete väljavõtte, pseudonüümimise ja edastavad andmed Uurimisgrupile sarnaselt algsele väljastamisele. Kuna kasutatakse täpselt sama pseudonüümimisalgoritmi ja räsiparooli, saavad valimisse juba varem kuulunud isikud sama pseudonüümi, mis varasemates väljastustes ning uutele luuakse uus pseudonüüm.
10
Andmete säilitamine Andmeandjatelt saadud algandmed paigaldatakse SAPUs spetsiaalselt kirjutuskaitstud kausta, et vältida andmete juhuslikku hävimist või kahjustumist. Esimese tegevusena kasutatakse andmetel TÜ poolt arendatud anonüümimisrakendust, mis tuvastab ja asendab algandmete vabatekstilistes dokumendiosades isikunimed, aadressid, telefoninumbrid, isikukoodid, kui neid seal peaks leiduma. Edasine töötlus toimub ainult täiendava anonüümimisprotsessi läbinud andmetel ning algselt saadud andmetele pääsevad ligi üksnes vastutavad uurijad ja data custodian rollis (vt allpool) olevad uuringu läbiviijad, et anonümiseerimisrakendust vajadusel uuesti kasutada.
Järgmiseks luuakse automaatskriptidega kvaliteetne terviseandmestik samas serveris paiknevasse PostgreSQL andmebaasi. Selle andmestiku kahjustumine ei ole kriitiline, sest vajadusel on võimalik automaatskriptidega see algandmetest uuesti taastada.
SAPU’st tehakse regulaarselt krüpteeritud varukoopiaid Eesti Teadusarvutuste infrastruktuuri lindirobotile, mis asub füüsiliselt teises asukohas (andmekeskuses).
Säilitamise tähtajad Andmeid säilitatakse kuni projekti eesmärkide täitmiseni, kuid maksimaalselt kuni uuringuprojekti arhiveerimisperioodi lõpuni: 31.12.2028. Kui uuringu käigus tekib põhjendatud vajadus andmeid säilitada kauem, esitatakse enne uuringu lõppu Eesti bioeetika ja inimõiguste nõukogule (EBIN) vastavasisuline taotlus.
Hoiustamisel kasutatavad turvameetmed Eesti Teadusarvutuste infrastruktuur järgib infrastruktuuri haldamisel ISKE M taseme nõudeid. Andmeid ja vaheandmeid hävitatakse vajadusel vastavalt ISKE H turbeastmega andmete hävitamise nõuetele. Eesti Teadusarvutuste infrastruktuur käsitleb kõiki teenuse pakkumise käigus teatavaks saavaid/käsitletavaid andmeid konfidentsiaalsetena.
Seoses 2022. aasta lõpus kehtima hakanud „Võrgu- ja infosüsteemide küberturvalisuse nõuded“ määruse ja „Eesti infoturbestandard“ määrusega on Tartu Ülikool ja ka Eesti Teadusarvutuste infrastruktuur kohustatud järgima Eesti Infoturbestandardit ning regulaarselt läbi viima Eesti infoturbestandardi järgimise auditeid. Tartu Ülikool peab esimese auditi läbima vähemalt 3 aasta jooksul (ehk enne 2025. a lõppu) ning käesoleval hetkel selle nimel ka tegutsetakse.
Kuidas välditakse andmete juhuslikku hävimist või kahjustumist? ● Andmetest tehakse regulaarseid krüpteeritud varukoopiaid. ● Regulaarselt teostatakse serverite turvatestimist, uuendamist ja monitoorimist. ● Serverid on varustatud katkematu toiteallikaga (UPS).
11
● Kasutusel on füüsilised ja organisatoorsed turvameetmed, mis takistavad selleks volitamata isikute füüsilist juurdepääsu serveritele.
● Kasutajal puudub SAPU keskkonnast juurdepääs internetile. ● Kasutajal puudub SAPU keskkonnas õigus installeerida programme. ● SAPU keskkonda saavad siseneda ainult selleks vastavaid õigusi omavad kasutajad. ● Kasutajaid juhendatakse ja koolitatakse SAPU keskkonna kasutamise osas.
Logid, turvakoopiad Andmete töötlus toimub SAPU keskkonnas, mis rangelt piirab kasutajate võimalust andmeid serverist välja kopeerida ning võimaldab vastutavatel uurijatel jälgida kõikide kasutajate tegevusi. Vastutavad uurijad tagavad, et logitakse kõikide kasutajate kõik tegevused SAPU keskkonnas, sh salvestatakse jooksvalt ka kasutaja ekraanipilti (video). Kasutajad on logidest ja ekraanipildi salvestamisest teadlikud ning see toimib ka heidutava meetmena. Logide monitoorimise korraldavad vastutavad uurijad. Samuti tagavad vastutavad uurijad vajadusel andmeandjatele ligipääsu kasutajate logidele kogu andmete eluea vältel.
Andmetest tehakse üks kord nädalas regulaarseid varukoopiad vastavalt Eesti Teadusarvutuste infrastruktuuri varundamise korrale. Varundamine toimub Eesti Teadusarvutuste infrastruktuuri lindirobotile, mis asub füüsiliselt teises asukohas (andmekeskuses). Varukoopiad on spetsiaalselt krüpteeritud, alles hoitakse viimast kolme varukoopiat. Varukoopiate tegemisel kasutatakse inkrementaalset varukoopiat ja on tagatud, et eelnevaid varukoopiaid ei ole võimalik muuta.
Arhiveerimine Andmed arhiveeritakse üheks aastaks peale projekti lõppemist Eesti Teadusarvutuste infrastruktuuri poolt krüpteeritud kujul SAPU keskkonnas. Andmetele võimaldatakse ligipääs vastutava uurija kinnitusel vaid põhjendatud juhtudel, näiteks retsenseerimisele saadetud teadusartiklite retsensioonidele vastamiseks. Kõik arhiveeritud andmetega tehtud toimingud logitakse kasutaja tasandil. Andmed hävitatakse hiljemalt 31. detsembriks 2028 kasutades hävitamise ajahetkel parimat kasutuselolevat praktikat vastavalt rakendatavale infoturbestandardile (IS0/IEC 27001). Andmete hävitamine dokumenteerikse hävitamisaktis.
Andmete kasutamine Andmeid kasutatakse üksnes Uurimisgrupi poolt ainult SAPU serveris ja üksnes andmestiku loomiseks või taotluses kirjeldatud teadusuuringute läbiviimiseks.
Uurimisgrupp Uurimisgrupi koosseis on käesoleva mõjuhinnangu koostamise hetkel järgmine:
Uuringu läbiviija nimi Roll projektis Roll SAPU serveris
12
Jaak Vilo Vastutav uurija, professor Data owner
Raivo Kolde Vastutav uurija, kaasprofessor
Data owner
Sven Laur Vastutav uurija, kaasprofessor
Data owner
Sulev Reisberg Vastutav uurija, teadur Data owner
Marek Oja Teadur Data custodian
Kerli Mooses Teadur Data analyst
Taavi Tillmann Kaasprofessor Data analyst
Markus Haug Nooremteadur Data analyst
Harry-Anton Talvik Nooremteadur Data custodian
Hendrik Šuvalov Nooremteadur Data analyst
Kunnar Kukk Nooremteadur Data analyst
Õie Renata Siimon Nooremteadur Data analyst
Maarja Pajusalu Nooremteadur Data analyst
Maria Malk Nooremteadur Data analyst
Anton Vykhovanets Nooremteadur Data analyst
Nikita Umov Nooremteadur Data analyst
Laura Lõo Nooremteadur Data analyst
Kermo Saarse Nooremteadur Data analyst
Sirli Tamm Andmekvaliteedi spetsialist, programmeerija
Data custodian
Kaire Koljal Andmekvaliteedi spetsialist, programmeerija
Data analyst
Ami Sild Terviseandmete insener-analüütik
Data custodian
Helene Loorents Programmeerija Data analyst
Neeme Ilves Spetsialist Data analyst
13
Sander Kütisaar (Eesti Teadusarvutuste infrastruktuur)
SAPU pilve operaator Cloud operator
Uurimisgrupi koosseis ja rollid võivad projekti käigus vastutavate uurijate kinnitusel täieneda. Isikkoosseisu muutmiseks esitatakse EBIN-le vastavasisuline jätkutaotlus. Igale Uurimisgrupi liikmele antakse ligipääs ainult töö eesmärkide täitmiseks vajalikele andmetabelitele. Kui loodud andmestiku kasutamiseks rahuldatakse täiendavadi taotlusi, siis käesoleva taotluse vastutavad uurijad korraldavad ligipääsu ka uute uuringute läbiviijatele lähtudes andmete minimaalsuse printsiibist ja tagavad ka nende logide salvestamise ja monitoorimise.
Andmete väljastamine SAPU serverist saab toimuda üksnes data owner rollis uurija kinnitusel ja see juhtub üldjuhul uurimistulemuste avaldamisel nt teaduspublikatsioonis. Väljastuse heakskiitmisel kontrollib vastutav uurija, et väljastatavad andmed on kooskõlas uuringu taotluses kirjeldatud eesmärkide ja sisuga. Uurimisgrupp avaldab üksnes statistilisi tulemusi, kus on tagatud k ≥ 5 anonüümsus. Uurimisgrupp ei avalda ega jaga kolmandate osapooltega üksikpatsientide andmeid ega pseudonüüme. Kõikide avaldatavate andmestike kohta annab oma kinnituse vastutav uurija.
Uuringute tulemused publitseeritakse nii Eesti kui rahvusvahelistes teadusajakirjades (eelistatult vabalt kättesaadavate artiklitena), konverentsidel ja ettekannetel, üliõpilaste lõputöödes. Andmestiku metakirjeldus (kirjeldus andmeväljade kohta, ei sisalda reaalseid andmeid) OMOP-andmekogude registritesse, (nt http://portal.ehden.eu). Teadusuuringu muid tulemeid (andmestikku kirjeldus, andmehõive statistika ja -hinnangud, andmete standardiseerimise ja tekstikaeve meetodid, üleminekutabelid, teadusuuringute kokkuvõtted jms) tutvustatakse soovi korral andmeandjatele ning otsitakse koostööviise tulemite rakendamiseks andmeandjate andmebaasides.
Andmete kustutamine Andmed hävitatakse hiljemalt 31. detsembriks 2028 kasutades hävitamise ajahetkel parimat kasutusolevat praktikat vastavalt rakendatavale infoturbestandardile (IS0/IEC 27001). Andmete hävitamine dokumenteerikse hävitamisaktis.. Andmete kustutamise protsessi käigus kustutatakse ka kõik andmete varukoopiad. Kui uuringu käigus tekib põhjendatud vajadus andmeid säilitada kauem, esitatakse enne uuringu lõppu Eesti bioeetika ja inimõiguste nõukogule (EBIN) vastavasisuline taotlus.
Andmete kustutamist teostab Eesti Teadusarvutuste infrastruktuuri meeskond koostöös vastutava uurijaga, et tagada permanentne ja pöördumatu andmete kustutamine. Andmete kustutamine dokumenteeritakse ja andmete kustutamise kohta koostatakse andmete kustutamise akt. Andmete kustutamise protokoll saadetakse kõikidele vastutavatele andmetöötlejatele.
14
Isikuandmete töötlemise eesmärgid
Töötlemise eesmärgid Eesmärk on Eesti terviseandmete väärindamine läbi andmeteaduse meetodite, et pakkuda kvaliteetset tõendust tõhusate patsiendikesksete tervishoiu- ja ennetusteenuste osutamiseks.
Uuring viiakse läbi kahes etapis:
1. etapp: alusandmestiku loomine ja andmekvaliteedi tõstmise meetodite arendamine 1. etapi eesmärgid on:
- Hinnata valimi põhjal Eesti terviseandmete kvaliteeti ja hõivet võrreldes erinevatest andmeallikatest pärinevat informatsiooni.
- Andmekvaliteedi ja andmehõive tõstmise meetodite sh tehisintellekti-, tekstikaeve- ja imputatsioonimeetodite arendamine.
- Tervisesündmuste esituse ühtlustamine rahvusvahelistele standarditele üle aja ja andmeallikate, sh kasutades tekstikaeve, klasterdamise ja automaattõlke meetodeid
- Arendatavad meetodid on hiljem rakendatavad ka uutes uuringutes, suurematel andmehulkadel ning riiklikes infosüsteemides andmekvaliteedi ja -hõive parandamiseks.
- Standardiseeritud ja ühtlustatud andmestiku loomine ja kirjeldamine teadusuuringute läbiviimiseks. Andmestikku kirjeldatakse läbi erinevate numbriliste näitajate ja teostatavusanalüüside senisest suuremal detailsusastmel.
2. etapp: teadus- ja rakendusuuringute teostamine uurimismetoodikate arendamiseks Eesti terviseandmetel.
2. etapi eesmärgid on:
- Arendada haigustrajektooride ja raviteekondade analüüsi metoodikaid kasutades sh tehisintellekti meetodeid, et kirjeldada praeguseid ravipraktikaid, võrrelda neid raviteekondade ja -juhenditega ning modelleerida tervisetulemeid ja ravi majanduslikku mõju.
- Analüüsida erinevate faktorite (nt sugu, vanus, erinevad haigused) mõju ravijärgimusele, hinnata ravijärgimuse mõju erinevatele tervisetulemitele ja luua personaalseid ennustusmudeleid, mis võimaldavad maandada ravi mittejärgimise riske.
- Arendada personaliseeritud ennetusmudeleid, mis võimaldavad vaatlusandmete põhjal tuvastada praeguste haiguse ennetuste ja ravipraktikate kitsaskohti, planeerida senisest paremini haiguste ennetustegevusi ja hinnata pakutud ennetusteenuste majanduslikku mõju
Töötlemise õiguslikud alused Euroopa isikuandmete kaitse üldmääruse (2016/679, edaspidi GDPR) artikkel 9 lg 2 (j) kohaselt on lubatud töödelda eriliiki terviseandmeid s.h terviseandmeid, kui “töötlemine on vajalik
15
avalikes huvides toimuval teaduseesmärgil /…/, ning on proportsionaalne saavutatava eesmärgiga, austab isikuandmete kaitse õiguse olemust ning tagatud on sobivad ja konkreetsed meetmed andmesubjekti põhiõiguste ja huvide kaitseks.” Alljärgnevalt on selgitatud, kuidas need nõuded on täidetud.
Kas antud juhul toimub töötlemine teaduse eesmärgil? Jah, andmeid töödeldakse ainult teaduse eesmärgil, täpsemalt teadusuuringute läbiviimise eesmärgil (vt eespool).
Kas antud juhul on töötlemine vajalik avalikes huvides? GDPR preambula p 45 kohaselt “kui /…./ töötlemine on vajalik avalikes huvides oleva ülesande täitmiseks /…/, peaks töötlemise alus olema sätestatud liidu või liikmesriigi õigusaktis.” Antud juhul tuleneb liikmesriigi (Eesti) õiguslik alus järgnevast:
● Eesti isikuandmete kaitse seadus (IKS) § 6 lg 4 lubab töödelda isikuandmeid teadusuuringu vajadusteks, kui IKS nõuete tingimuste täitmist kontrollib asjaomase valdkonna eetikakomitee. Vastav komitee on Eesti bioeetika ja inimõiguste nõukogu (EBIN) näol loodud sotsiaalministri määrusega 24.09.2019 nr 60 “Uuringueetika komitee moodustamine, selle töökord, liikmete arv ja määramise kord ning uuringu taotluse läbivaatamise tasumäärad”. EBIN ülesandeks on (§ 3 lk 3) “isikute põhiõiguste ennetava kaitse tagamine ja uuringutele rakendatavate hindamispõhimõtete ühtlustamine, et kindlustada uuritavate isikute õiguste kaitsemeetmed ning uurijate kohustused neid kaitsemeetmeid järgida.” Uuringumeeskond on esitanud EBIN-le vastavasisulise taotluse.
● Tartu Ülikool on avalik-õiguslik juriidiline isik ning pakub teadustegevusel põhinevaid avalikke teenuseid. Eesti rahvast uurivate teaduste edendamine ning koostöö teiste ülikoolide ja kogu ühiskonnaga on Tartu Ülikooli seadusest tulenev Tartu Ülikooli eesmärk (Tartu Ülikooli seadus § 2 lg 2 ja 3). Taotletava eesti rahvastikul põhineva andmestiku loomise ja sellel läbiviidavate uuringutega edendab Tartu Ülikool nii meditsiini- kui andmeteadust, samuti koostööd teiste ülikoolide ja ühiskonnaga laiemalt. Tartu Ülikool teeb koostööd kogu ühiskonnaga, toetades Eesti ühiskonna arengut ja loob teadustegevusel põhinevaid võimalusi rahvusvaheliseks koostööks (Tartu Ülikooli seadus § 2 lg 5).
Meditsiinis ja rahvatervises on otsuste tegemiseks vaja laiapõhjalistel teadusuuringutel põhinevat tõendust. Uuringute tarvis on reeglina vaja esinduslikke andmeid, mis on võimalikult värsked ja samal ajal piisavalt pika aegreaga. Näiteks on värskeimad andmed (sh imikute ja vastsündinute kohta) vajalikud vastamaks küsimustele, mis puudutavad terviseteenuse osutamise hetkeseisu, uute ravimeetodite kasutust ja efektiivsust ning tervisesüsteemi vastust erinevatele hiljutistele sündmustele. Samas ennustusmudelite loomiseks, haiguse arengu, ravi efektiivsuse, erinevate ravitrajektooride jms hindamiseks on vajalik vaadelda pikemaid ajaperioode.
Ajakohastel andmetel tugineva tõenduse leidmiseks kasutatakse järjest enam päriselu terviseandmete teisesel kasutusel põhinevaid uuringuid. Tänu Eesti unikaalsele
16
tervishoiuandmete korraldusele on võimalik ühendada patsiendi tervist puudutavad olulised komponendid haiguste (Tervise infosüsteem, vähiregister), ravimite (retseptikeskus), tarbitud teenuste ja kindlustuskaitse (Tervisekassa andmekogu) ning surma põhjuste kohta. Nende andmetel OMOP andmemudelil põhinevate terviseuuringute läbiviimisel on Eesti tervishoiuvaldkonnale ja ühiskonnale laiemalt mitmekordne kasu. Nii aitab igapäevase tervishoiuvaldkonna toimimise raames salvestatud andmete taaskasutamine ühelt poolt hoida kokku andmete kogumisele kuluvat aega ja raha ning teisalt annab kõige täpsema ülevaate tegelikest protsessidest ja trajektooridest erineva terviseseisundi, soo ja vanusega isikutel. Oluline on siinjuures, et terviseandmete teisese kasutamise korral ei suurene patsientide uuringu koormus kuna kasutatakse varasemalt kogutud retrospektiivseid andmeid. Terviseandmete teisene kasutamine võimaldab ilma lisakoormust põhjustamata analüüsida ja osutada efektiivsemalt tervishoiu teenuseid patsiendi gruppidel, kellel traditsiooniliste teadusuuringute tegemine ei ole eetilistel kaalutlustel võimalik (näiteks ravimite mõju lastele või rasedatele1). Kaasates analüüsi infot patsiendi kogu raviajaloo kohta pikema aja vältel, mitte ainult uuritava haigusega seotud tegevuste kohta, võib-olla võtmetähtsusega oluliste seoste avastamisel. Lisaks on taotletava teadusuuringu käigus 30% valimi peal välja töötatud meetodid andmekvaliteedi parandamiseks rakendatavad ka teistes teadusuuringutes ning riiklikes andmebaasides kogu rahvastiku andmetel. Taotletav teadusuuring loob eeldused, et päriselu terviseandmeid saaks Eestis laiemalt kasutada ning aitab parandada tervishoiuteenuste kvaliteeti, tervishoiusüsteemi efektiivsust ning toetada tervishoiupoliitiliste tõenduspõhiste otsuste tegemist, toetades seeläbi rahvastiku tervise arengukava 2020-2030 elluviimist. Kvaliteetsem tervishoiusüsteem omakorda toetab tervelt elatud eluaastate suurenemist.
Seega on eriliiki isikuandmete töötlemine vajalik avalikes huvides ning on sätestatud Eesti õiguses.
Kas isikuandmete töötlemise ulatus on proportsionaalne saavutatava eesmärgiga? Eesti eri terviseandmekogudes sisaldub patsientide tervise kohta erinevat liiki ja eri kvaliteediga infot. Selleks, et saada tervisevaldkonna küsimuste uurimiseks patsiendi terviseseisundist kvaliteetne pilt, on vajalik vaadelda korraga andmeid mitmest andmekogust (vt ka taotlus punkt “11. Uurimismetoodika”). Tervise infosüsteemi epikriisides on kirjas diagnoosid, raviskeemid, saatekirjades ja saatekirja vastustes ka laborianalüüside tulemused, kuid info võib olla puudulik. Epikriisides sisaldub vaid haigusloo kokkuvõte, mitte aga kõik teostatud uuringud või väljakirjutatud ravimid, mis mitmetes uuringutes on oluline info. Teiselt poolt on epikriisid ainsad tervisedokumendid, kus sisaldub vabas vormis kirja pandud info patsiendi kaebuste, üldseisundi, allergiate, ravi kõrvalmõjude jms kohta. Tekstilistest osadest suudame eraldada tehisintellekti meetodite abil ka muud olulist infot, mis kodeeritud väljades puudub, näiteks patsiendi kaebusi, ravimite nõrgemaid kõrvalmõjusid. Tervisekassa andmekogu info tervishoiuteenuste kohta on täielikum ja sisaldab ka teenuste hindu, kuid selle detailsus on samas madalam (mitmed tervishoiuteenused märgitud sama koodiga) ja laborianalüüside kohta puuduvad analüüsitulemused. Kõige parema pildi patsiendile välja kirjutatud ravimite osas annab retseptikeskus, lisaks on seal ka info ravimi väljaostmise kohta, mis on väga oluline indikaator ravijärgimuse hindamiseks. Samas puudub retseptikeskuses info käsimüügiravimite kohta (seda infot võib potentsiaalselt leida
17
epikriisidest). Paljude tervisevaldkonna uuringute puhul (nt pahaloomulised kasvajad) on oluline uurida suremust, selleks on kõige kvaliteetsem info kirjas surma põhjuste registris, mis sisaldab nii surma kuupäeva kui ka spetsialisti poolt kinnitatud surma põhjuseid. Andmeväljade valikul oleme lähtunud uurimistöö eesmärkidest tuginedes uurimismeeskonna senistele kogemustele ja minimaalsuse printsiibist. Laiapõhjalisus võimaldab hinnata andmekvaliteeti üle paljude haiguste, sh arvestades kaasuvaid haigusi, ja tagab, et loodud andmetöötlusmeetodid üldistuvad uutele uuringutele sõltumata vaatluse all olevast haigusest ja patsiendi gruppidest. Lähtuvalt sellest, et üheks taotletava teadusuuringu eesmärgiks on, et arendatavad analüüsimeetodid ja ennetusmeetodid üldistuksid ka uutele andmestikele ja haigustele, ei saa me piirata andmestikku ei diagnooside, vanuse ega muude parameetrite järgi. Iga piirang vähendaks andmestiku esinduslikkust üldpopulatsiooni suhtes ja muudaks arendatavad meetodid vähem üldistuvaks ning piiraks loodud meetodite kasutamist teistes uuringutes kui ka rakendatavust Terviseinfosüsteemi andmekvaliteedi tõstmisel. Andmete vaatlemine üle pika ajaperioodi võimaldab analüüsida tervisesündmuste esituse ja kvaliteedi arengut läbi aja ning uurida terviklikke haigustrajektoore alates ennetustegevustest, esmasdiagnoosist, raviteenuste osutamisest lõpptulemini. Tuginedes uurimisrühma varasemale kogemusele teame, et planeeritavateks uuringuteks vajaliku detailsusastmega terviseandmed on Eestis olemas alates 2012. aastast. Värskeimad andmed (sh imikute ja vastsündinute kohta) on vajalikud vastamaks küsimustele, mis puudutavad terviseteenuse osutamise hetkeseisu, uute ravimeetodite kasutust ja efektiivsust ning tervisesüsteemi vastust erinevatele hiljutistele sündmustele. Samuti on laiem andmestiku ajaraam vajalik, et hinnata riskimudelite 10-aastast ennustusvõimet vastavalt rahvusvaheliselt levinud praktikale. 30% suuruse juhuvalimi vajadus tuleneb uurimisrühma varasemast kogemusest ning rahvusvaheliselt levinud praktikast. Projekti “Tehisintellekti kasutamise võimalused meditsiinis” raames kasutasime 10% juhuvalimit 2012.-2019. aasta andmetest. Projekti käigus saime kinnitust, et erinevate riiklike terviseandmebaaside ühendamine ja laiapõhjalise terviseajaloo kasutamine annab olulist lisandväärtust andmete analüüsis. Näiteks koostöös Naistearstide seltsiga hindasime emakakaela vähi ennetuspraktika vastavust ennetusjuhendile ja erinevate papilloomviirustüvede levikut Eestis. Siiski ilmnesid 10% juhuvalimil koostatud andmestiku kasutamisel ka olulised kitsaskohad. Esiteks, oli andmestiku ajaraam liiga lühike, et vastavalt rahvusvahelistele prakikatele hinnata riskimudelite 10-aastast ennustusvõimet. Kuna andmestikku ei uuendatud, puudus info uute haiguste (nt COVID-19), ravipraktikate ning nende esituse ja andmekvaliteedi kohta. Näiteks seetõttu ei olnud võimalik ravijuhendite arendamisel teha koostööd ravijuhendite püsisekretariaadiga (https://tervis.ut.ee/et/ravijuhendid) ega panustada rahvusvahelistesse Euroopa Ravimiameti uuringutesse. Kõige olulisemana aga oleme korduvalt näinud, et 10% juhuvalim on liiga väike mitmete haigusseisundite või detailsemalt defineeritud kohortide uurimisel. Näiteks eesnäärmevähi rahvusvahelises uuringus osaledes saime vastused vaid osadele uurimisküsimustele, sest täpsemate tervisetulemite analüüsimiseks jäi valim liiga väikeseks. Vajalik patsientide arv sõltub väga uurimisküsimusest ning ka ühe uuringu sees võib see erineda, kuid arvestades patsientide kliinilise pildi varieeruvust ja retrospektiivsete terviseandmete kvaliteeti, oleks hinnanguliselt minimaalne vajalik patsientide arv uuringute jaoks sadades kuid veel parem üle tuhande. Oleme välja arvutanud, et taotletava ajaperioodi ja andmete ulatuse korral on 10%-lise juhuvalimiga andmestikus diagnoose, mida esineb
18
vähemalt tuhandel patsiendil 175, samas kui 30%-lises juhuvalimi korral on selliseid diagnoose ligi kaks korda rohkem - 330 diagnoosi (joonis 1). Suurema valimi korral suureneb oluliselt saadavate tulemuste statistiline usaldusväärsus ja samas ka haiguste hulk, millel saame välja töötatud meetodeid rakendada. Selle analüüsi põhjal näeme, et teadusuuringule seatud eesmärkide saavutamiseks on minimaalne valimi suurus 30%.
Joonis 1. Vähemalt 1000 patsiendil esinevate diagnooside arvu sõltuvus juhuvalimi suurusest, mis on võetud taotletava ajaperioodi ja andmete ulatusega Eesti terviseandmetest.
Kas isikuandmete töötlemine austab isikuandmete töötlemine isikuandmete kaitse õiguse olemust? Meie hinnangul austab selles mõjuhinnangus kirjeldatud isikuandmete töötlemine isikuandmete kaitse õiguse olemust.
Võrdse kohtlemise printsiip – kirjeldatud isikuandmete töötlemine ei diskrimineeri kedagi rahvuse, soo, vanuse ega muu kuuluvuse alusel. Kõikide ühiskonna- ja vanusegruppide puhul on eesmärk toetada elukvaliteedi parandamist ja tervena elatud aastate arvu suurendamist. Juhuvalimi tõttu on kõikidel inimestel võrdne tõenäosus valimisse sattuda.
19
Heategemise printsiip – antud andmestikust ja sellel läbiviidavatest terviseuuringutest saadav kasu on uuritavatele pigem kaudne, kuna alustatakse baasteadmiste loomisega ja otsene kliinilises praktikas kasutatav kasu haigusega tegelemiseks võib tekkida alles mitme aasta pärast. Seega saavad antud tööst kasu pigem tulevased patsiendid.
Kahju vältimise printsiip – kirjeldatud isikuandmete töötlemine on kooskõlas mittekahjustamise printsiibiga, kuna ei koorma patsiente ega põhjusta riske nende tervisele.
Taotluses kirjeldatud Uurimisgrupil on pikaaegne kogemus sarnaste andmestike loomisel, terviseuuringute läbiviimisel ja tulemuste publitseerimisel, samuti selle valdkonna üliõpilaste õpetamisel. Uurimisgrupp on andmestiku loomiseks kirjutanud põhjaliku taotluse ja käesoleva andmekaitsealase mõjuhinnangu koos riskide maandusmeetmetega ning palunud neid hinnata Eesti bioeetika ja inimuuringute nõukogul.
Kas tagatud on sobivad ja konkreetsed meetmed andmesubjekti põhiõiguste ja huvide kaitseks? Meie hinnangul on tagatud sobivad ja konkreetsed meetmed andmesubjekti põhiõiguste ja huvide kaitseks.
GDPR artikkel 6 lg 4 kohaselt võtab vastutav töötleja, juhul kui isikuandmete töötlemine toimub muul eesmärgil kui andmesubjekti nõusolekul ega põhine andmesubjekti nõusolekul, arvesse m.h “asjakohaste kaitsemeetmete olemasolu, milleks võivad olla näiteks /…/ pseudonümiseerimine”. Artikkel 89 lg 1 kohaselt kohaldatakse avalikes huvides toimuva teaduse eesmärgil isikuandmete töötlemise suhtes andmesubjekti õiguste ja vabaduste kaitseks asjakohaseid kaitsemeetmeid. “Need meetmed võivad hõlmata pseudonümiseerimist, kui kõnealuseid eesmärke on võimalik saavutada sellisel viisil,” kuid nõuab vajadusel täiendavat töötlemist, kui andmesubjektid on jätkuvalt tuvastatavad (“kui kõnealuseid eesmärke saab täita täiendava töötlemisega, mis ei võimalda või ei võimalda enam andmesubjektide tuvastamist, täidetakse need eesmärgid sel viisil.”). Vastavad tingimused ja kaitsemeetmed tuleb preambula p 157 kohaselt sätestada liikmesriigi õiguses (“Teadusuuringute hõlbustamiseks võib isikuandmeid töödelda teadusuuringute eesmärgil, mille suhtes kohaldatakse asjakohaseid tingimusi ja kaitsemeetmeid, mis on sätestatud liidu või liikmesriigi õiguses.”). Eestis reguleerib isikuandmete kaitset isikuandmete kaitse seadus (IKS), mis lubab isikuandmeid andmesubjekti nõusolekuta teadusuuringu vajadusteks töödelda pseudonüümitult (IKS § 6 lg 1 “Isikuandmeid võib andmesubjekti nõusolekuta teadus- või ajaloouuringu või riikliku statistika vajadusteks töödelda eelkõige pseudonüümitud või samaväärset andmekaitse taset võimaldaval kujul. Enne isikuandmete üleandmist teadus- või ajaloouuringu või riikliku statistika vajadustel töötlemiseks asendatakse isikuandmed pseudonüümitud või samaväärset andmekaitse taset võimaldaval kujul andmetega.”). IKS § 6 lg 3 kohaselt on teadusuuringu vajadusteks lubatud kasutada andmeid ka andmesubjekti tuvastamist võimaldaval kujul, kui täidetud on kolm tingimust: (1) pärast tuvastamist
20
võimaldavate andmete eemaldamist ei ole andmetöötluse eesmärgid enam saavutatavad või neid oleks ebamõistlikult raske saavutada; (2) selleks on ülekaalukas avalik huvi; (3) töödeldavate isikuandmete põhjal ei muudeta andmesubjekti kohustuste mahtu ega kahjustata muul viisil ülemäära andmesubjekti õigusi. Rahvatervise seadus lubab kasutada vähiregistri andmeid teadustööks isikustamata kujul (§ 141 lg 2). Tervise infosüsteemi andmete kasutamist teaduse vajaduseks lubab Tervishoiuteenuste korraldamise seadus § 593 lg 7, kui vajalikkust ja põhjendust ning isikute põhiõiguste kaitsemeetmeid on hinnanud uuringueetika komitee (§ 594 lg 1 ja lg 2). Vastav komitee on EBIN näol loodud sotsiaalministri määrusega 24.09.2019 nr 60 “Uuringueetika komitee moodustamine, selle töökord, liikmete arv ja määramise kord ning uuringu taotluse läbivaatamise tasumäärad”. EBIN ülesandeks on (§ 3 lk 3) “isikute põhiõiguste ennetava kaitse tagamine ja uuringutele rakendatavate hindamispõhimõtete ühtlustamine, et kindlustada uuritavate isikute õiguste kaitsemeetmed ning uurijate kohustused neid kaitsemeetmeid järgida.”
Käesolevas projektis töödeldakse andmeid pseudonüümitud kujul, kuid lisaks rakendatakse andmesubjektide tuvastamise riski maandamiseks ka täiendavat töötlust:
1. Uurimisgrupp ei tea, millised isikud kuuluvad valimisse. 2. Taotletav andmestik ei sisalda isikute nimesid, isikukoode, aadresse jms. Taotletavad
andmed pseudonüümitakse andmeandmeandja poolt enne Uurimisgrupile väljastamist. Pseudonüümimisvõti on tagasipööramatu ning seda taotluses kirjeldatud meeskonnale ei avaldata.
3. Andmestiku loomisel ega hiljem ei toimu depseudonüümimist ja uuritavatega ühendust ei võeta.
4. Andmete töötlus toimub spetsiaalsel tundlike andmete platvormil SAPU, mis piirab kasutajate võimalust andmeid serverist välja kopeerida ega võimalda andmeid muul moel linkida teiste andmestikega (maandab linkimisründe riski andmesubjektide tuvastamiseks).
5. Esimeseks tegevuseks SAPU serveris on andmete täiendav töötlemine automaatse anonüümimisrakendusega, et eemaldada andmete vabatekstilistest osadest võimalikud nimed, telefoninumbrid, isikukoodid, aadressid.
Muud kaitsemeetmed on kirjeldatud käesoleva mõjuhinnangu lõpus.
Kuigi käesolevas uuringus ei kasutata andmeid andmesubjekti tuvastamist võimaldaval kujul, vaid pseudonüümitult ja rakendatakse ka muid kaitsemeetmeid andmesubjekti tuvastamise riski maandamiseks, on siiski täidetud ka IKS § 6 lg 3 kolm tingimust: (1) terviseuuringute, s.h ravijärgimuse ja ravitrajektooride uurimiseesmärke oleks ebamõistlikult raske saavutada ilma üksikpatsientide tasemel andmeid analüüsimata; (2) uuringu vastu on ülekaalukas avalik huvi (vt põhjendust eespool); (3) töödeldavate isikuandmete põhjal ei muudeta andmesubjekti kohustuste mahtu ega kahjustata muul viisil ülemäära andmesubjekti õigusi (samuti põhjendatud eespool).
21
Riskid ja nende maandamine Riskide kaardistus koos maandamise meetmega on toodud järgmises tabelis. Riski tõenäosust on hinnatud pärast maandusmeetmete rakendamist (nt ilma SAPU kasutamiseta oleks tõenäosused märgatavalt suuremad):
Riski nr
Riski nimetus Jääkriski tõenäosus (0-väga madal; 4-väga kõrge)
Riski mõju (0-väga madal; 4-väga kõrge)
Riski tase Tegevused / ettepanekud riski maandamiseks
1 Inimeste terviseandmed saavad avalikuks
1 (madal) 4 (väga kõrge)
Keskmine SAPU kasutamine (ei saa kopeerida), mis on kättesaadav vaid Tartu Ülikooli sisevõrgust ainult Uurimisgrupi liikmetele, serveri monitooring ja tegevuste logimine, kindel protsess andmete SAPU-st väljatoomiseks, pika kogemusega Uurimisgrupi liikmed, konfidentsiaalsusklausel töölepingus, füüsilised turvameetmed serveriruumil, andmed pseudonüümitud, juhuvalimi kasutamine (mitte kõik Eesti inimesed). Uurimisgrupi liikmete juhendamine ja koolitamine.
2 Andmestikus olevate andmesubjektide suurel hulgal (süstemaatiline) tuvastamine
1 (madal) 4 (väga kõrge)
Keskmine Otseste isikuandmete eemaldamine andmeandjate poolel enne Uurimisgrupile edastamist, unikaalsete pseudonüümide kasutamine, juhuvalimi kasutamine (mitte kõik Eesti inimesed), SAPU kasutamine (ei saa andmeid kopeerida ega teiste andmestikega linkida)
3 Andmestikus konkreetse andmesubjekti juhuslik tuvastamine
2 (keskmine) 1 (madal) Keskmine Otseste isikuandmete eemaldamine andmeandjate poolel enne Uurimisgrupile edastamist, unikaalsete pseudonüümide kasutamine, juhuvalimi kasutamine (mitte kõik Eesti inimesed), väga väike tõenäosus, et juhuslikult tuvastatud isik on uurijale tuttav
4 Andmestikust iseenda tuvastamine
3 (kõrge) 0 (väga madal)
Keskmine Otseste isikuandmete eemaldamine enne Uurimisgrupile edastamist, unikaalsete pseudonüümide kasutamine, valimisse kuulumine juhuslik, iseenda tuvastamisel ei saa uurija teada uut informatsiooni
22
5 Andmeallikad avaldavad Uurimisgrupile pseudonüümimis-pa rooli, mis muudab andmesubjektid Uurimisgrupi poolt tuvastatavaks
1 (madal) 2 (keskmine)
Keskmine Selgelt kindlaksmääratud protsess parooli vahetamiseks andmeallikate vahel ilma seda Uurimisgrupile avaldamata, juhuvalimi kasutamine (mitte kõik Eesti inimesed), SAPU kasutamine (ei saa andmeid kopeerida ega teiste andmestikega linkida)
6 Andmeandja kaotab pseudonüümimiseks kasutatava parooli (pole võimalik enam andmeid uuendada)
1 (madal) 2 (keskmine)
Keskmine Vajadusel saab parooli uuesti küsida teiselt andmeallikalt. Kui parool on lõplikult kadunud, kustutab Uurimisgrupp kõik seni antud andmed ja küsitakse kõigilt andmeandjatelt kõik vajalikud andmed uuesti (kuigi sel juhul muutub ka valim)
7 Vabatekstiline info võib sisaldada sensitiivseid andmeid
2 (keskmine) 1 (madal) Keskmine Andmete saamisel on SAPU serveris esimeseks sammuks anonüümimisrakenduse kasutamine, mis tuvastab ja asendab vabatekstilistes dokumendiosades isikunimed, aadressid, telefoninumbrid, isikukoodid. Juhuleidude korral on Uurimisgrupil kindel protsess nende käsitlemiseks, täiendatakse vastavalt anonüümimisrakendust ja teostatakse anonüümimine uuesti.
8 Andmetele saavad ligi Uurimisgrupi välised isikud
2 (keskmine) 1 (madal) Keskmine SAPU serverisse kasutajakontode lisamine ja eemaldamine käib kindlaksmääratud protsessi alusel, regulaarselt vaadatakse üle kõigi kasutajate õigused, lähtutakse TÜ IT-turbe kordadest ja kõik Uurimisgrupi liikmed peavad läbima küberhügieeni ja kodust töötamise infoturbe alased ning andmekaitse alse koolitused ja eksamid (https://cyberhygiene.ut.ee/)
9 Andmeid kasutatakse uurimismeeskonna poolt muuks otstarbeks kui lubatud
1 (madal) 1 (madal) Madal SAPU kasutamine (ei saa andmeid kopeerida, automaatne tegevuste logimine), Uurimisgrupi kõrge kvalifikatsioon ja pikaaegne kogemus terviseandmetega töötamisel
10 Avaldatavad tulemused on liiga detailsed (andmesubjektide tuvastamise risk)
1 (madal) 1 (madal) Madal Kindel protsess andmete SAPU-st väljatoomiseks, tulemuste avaldamisel kontrollitakse, et tagatud on k≥5 anonüümsus, pika kogemusega Uurimisgrupi liikmed
23
Kasutusel olevad riskide vältimise meetmed
Tartu Ülikoolis on riskide vältimise aluseks riskianalüüs, mida tehakse igas vajalikus valdkonnas / teemas / projektis ning selle eest on vastutav vastava valdkonna / teema / projekti esindaja.
Riskianalüüsi käigus: ● kirjeldatakse võimalikud riskid, ● hinnatakse iga riski tõenäosust ja võimalikku mõju, ● vastavalt riski tõenäosusele ja võimalikult mõjule määratakse riski tase, ● vajadusel kirjeldatakse riskide kontrollimise ja maandamise tegevused.
Regulaarseid riskianalüüse viiakse läbi vastavalt vajadusele.
Antud projektis vastutab riskide vältimise ja vajalike meetmete rakendamise eest vastutav uurija, kes saab vajadusel abi Tartu Ülikooli siseauditi büroolt.
Füüsilised turvameetmed Andmetöötlus toimub Tartu Ülikooli teadusarvutuste keskuse infrastruktuuril:
● Jälgitakse Eesti infoturbestandardiga kehtestatud nõudeid. ● Erinevad ressursid on eraldatud võrgu tasandil. ● Töötajaid koolitatakse järjepidevalt. ● Kõik võrguseadmed ja serverid asuvad Tartu Ülikooli majutatud suletud
andmekeskustes. ● Andmekeskustes kasutatavad tulekustutussüsteemid toimivad automaatselt, on
gaasipõhise lahendusena ning on ette nähtud andmekeskustes kasutamiseks. ● Andmekeskustes ei hoita kergestisüttivaid või tuleohtlikke esemeid. ● Andmekeskuste konstruktsioonides ja sisustuses on viidud miinimumini süttivate
materjalide, nagu puu, tekstiil ja sünteetilised materjalid kasutamine. ● Andmekeskused on kaitstud uputuste ja veekahjustuste eest. ● Andmekeskustes on tagatud optimaalne temperatuur ja õhuniiskus. ● Andmekeskused on kaitstud sissemurdmise ja volitamata sisenemise eest. ● Füüsiliselt pääsevad andmekeskusesse nimelist (personaalset) juurdepääsuõigust
omavad isikud. ● Isikliku juurdepääsuõigusega isikud pääsevad andmekeskusesse kas võtme või
töötõendi ja valvekoodi abil. ● Ilma isikliku juurdepääsuõiguseta isikutel on võimalik andmekeskusesse siseneda
üksnes andmekeskusesse juurdepääsu omava isiku juuresolekul. ● Andmekeskuste turvalisuse tagamiseks kasutatakse tehnilist valve- ja
läbipääsusüsteemi ning videovalvet. ● Valve- ja läbipääsusüsteem salvestab andmed juurdepääsukaartide kasutamise ja
valvestamise kohta.
24
● Andmekeskused asuva kahe tulekindla ukse taga, mida saab avada vaid isikliku kiipkaardiga või spetsiaalse võtmega.
● Andmekeskused on elektroonilise valve all ning andmekeskusesse sisenemisel tuleb elektrooniline valve isikliku koodi abil deaktiveerida.
● Andmekeskuse elektrooniline valve on deaktiveeritud ainult siis, kui keegi asub füüsiliselt andmekeskuses, on sinna sisenemas või sealt lahkumas.
● Kõik andmekeskusse sisenemised ja elektroonilise valve deaktiveerimised/aktiveerimised logitakse.
● Tuleohutuse tagamisel järgitakse Ülikooli tuleohutuseeskirju. ● Tartu Ülikooli teadusarvutuste keskuses kehtivad tehnilised ja organisatoorsed meetmed
infoturbe tagamiseks ning andmete kaitsmiseks. Valik tehnilisi ja organisatoorseid meetmeid (turvakaalutlustel ei ole avalikustatud kõik tehnilised ja organisatoorsed meetmed) on toodud Tartu Ülikooli teadusarvutuste keskuse koduleheküljel https://hpc.ut.ee/terms/information-security (inglise keeles).
Infotehnoloogilised turvameetmed
Andmetöötlus toimub Eesti Teadusarvutusteinfrastruktuuril SAPU keskkonnas, kus: ● Jälgitakse Eesti infoturbestandardiga kehtestatud nõudeid. ● Teostatakse regulaarselt serverite testimist, uuendamist ja monitoorimist. ● Haavatavuste tuvastamiseks kasutatakse monitoorimist, masinõpet ning ka erinevaid
läbistusteste. Muuhulgas kasutatakse haavatavuste tuvastamiseks ka juba olemasolevaid haavatavuste tuvastamise tarkvarasid (näiteks Nessus) ning jälgitakse järjepidevalt erinevaid haavatavuste nimekirju. Lisaks Eesti Teadusarvutuste infrastruktuurile skaneerib taristu avalikult kättesaadavaid ressursse ka CERT-EE.
● Erinevad ressursid on eraldatud kasutajaõiguste tasandil. ● Õiguste määramisel lähtutakse minimaalsuse põhimõttest ja vaikimisi administraatori
juurdepääsu ei võimaldata. ● Servereid skaneeritakse regulaarselt ja jooksvalt jälgitakse ka võrguliiklust. ● Vaikimisi on keelatud kõik tegevused, mis ei ole otseselt vajalikud töö tegemiseks. ● Kasutatakse andmete varundamist Eesti Teadusarvutuste infrastruktuuri lindirobotile, mis
asub füüsiliselt teises asukohas (Eesti Teadusarvutuste infrastruktuuri andmekeskuses). ● Kõik kasutajate tegevused SAPU keskkonnas logitakse ja logisid monitooritakse. ● Kõik potentsiaalsed turvaintsidendid ja turvanõrkuste leidmise katsed logitakse (näiteks
sisse logimise katsed, pöördumised erinevate portide poole, kasutajaõiguste muutused jne).
● SAPU keskkonnas olevate kasutajate ekraanipilt salvestatakse. ● SAPU keskkonnast info/andmete välja liigutamine on võimalik ainult, kui vastutav uurija
on vastavad andmed üle vaadanud ja selleks nõusoleku andnud. ● SAPU keskkonnast info/andmete välja kopeerimine ei ole võimalik („copy“ käsk). ● SAPU keskkond asub eraldi tulemüüri taga. ● Interneti juurdepääs SAPU masinast on täielikult suletud ja ei ole võimalik teha päringuid
internetti.
25
● SAPU keskkonnas on eelinstalleeritud tarkvara ja kasutajal ei ole võimalik keskkonda tarkvara ise installeerida.
● Andmete liigutamine (kaasa arvatud analüüsi tulemuste) SAPU keskkonnast välja vajab vastutava uurija nõusolekut.
● SAPU keskkondi varundatakse regulaarselt. ● Perioodidel, kui SAPU keskkonda ei kasutata, on keskkond välja lülitatud ja keskkonda
ei ole võimalik siseneda. ● Eesti Teadusarvutuste infrastruktuuris kehtivad tehnilised ja organisatoorsed meetmed
infoturbe tagamiseks ning andmete kaitsmiseks. Valik tehnilisi ja organisatoorseid meetmeid (turvakaalutlustel ei ole avalikustatud kõik tehnilised ja organisatoorsed meetmed) on toodud Tartu Ülikooli teadusarvutuste keskuse koduleheküljel https://hpc.ut.ee/terms/information-security (inglise keeles).
26
Specification of Objectives against Ethical Requirements
Yes No (how potential risks will be mitigated?)
Respect for Human Agency
End-users and others affected by the AI system are not deprived of abilities to make all decisions about their own lives, have basic freedoms taken away from them,
X
End-users and others affected by the AI system are not subordinated, coerced, deceived, manipulated, objectified or dehumanized, nor is attachment or addiction to the system and its operations being stimulated.
X
The system does not autonomously make decisions about vital issues that are normally decided by humans by means of free personal choices or collective deliberations or similarly significantly affects individuals,
X
The system is designed in a way that give system operators and, as much as possible, end-users the ability to control, direct and intervene in basic operations of the system (when relevant)
X
Privacy & Data Governance
The system processes data in line with the requirements for lawfulness, fairness and transparency set in the national and EU data protection legal framework and the reasonable expectations of the data subjects.
X
Technical and organisational measures are in place to safeguard the rights of data subjects (through measures such as anonymization, pseudonymisation, encryption, and aggregation).
X
There are security measures in place to prevent data breaches and leakages (such as mechanisms for logging data access and data modification).
X
Fairness
The system is designed to avoid algorithmic bias, in input data, modelling and algorithm design.
The system is designed to avoid historical and selection bias in data collection, representation and measurement bias in algorithmic training,
X, kasutame juhuvalimit
aggregation and evaluation bias in modelling and automation bias in deployment
The system is designed so that it can be used different types of end-users with different abilities (whenever possible/relevant)
X
The system does not have negative social impacts on relevant groups, including impacts other than those resulting from algorithmic bias or lack of universal accessibility,
X
Individual, and Social and Environmental Well-being
The AI system takes the welfare of all stakeholders into account and do not unduly or unfairly reduce/undermine their well-being
X
The AI system is mindful of principles of environmental sustainability, both regarding the system itself and the supply chain to which it connects (when relevant)
X, tegemist on väiksemahuliste mudelitega, mis ei tarbi suures mahus resursse
The AI system does not have the potential to negatively impact the quality of communication, social interaction, information, democratic processes, and social relations (when relevant)
X
The system does not reduce safety and integrity in the workplace and complies with the relevant health and safety and employment regulations
X
Transparency
The end-users are aware that they are interacting with an AI system
X, teadusuuringu planeeritavate tegevuste jooksul ei jõuta väljaarendatud süsteemid lõppkasutajani. Juhul, kui väljatöötatud
tehisintellekti meetodeid planeeritakse rakendada realelusüsteemidel, võetakse kasutusele vastavad riske maandavad meetmed.
The purpose, capabilities, limitations, benefits and risks of the AI system and of the decisions conveyed are openly communicated to and understood by end-users and other stakeholders along with its possible consequences
X
People can audit, query, dispute, seek to change or object to AI or robotics activities (when applicable)
X
The AI system enables traceability during its entire lifecycle, from initial design to post-deployment evaluation and audit
X
The system offers details about how decisions are taken and on which reasons these were based (when relevant and possible)
X, suuremate keelemudelite kasutamisel ei ole alati võimalik otsuste põhjuseid interpreteeritavalt taastada. Kuid neid mudeleid me ei kasuta patsiente puudutavate otsuste tegemisel
The system keeps records of the decisions made (when relevant)
X
Accountability & Oversight
The system provides details of how potential ethically and socially undesirable effects will be detected, stopped, and prevented from reoccurring.
X, arendatavad tehisintellekti mudelid on kitsaste tehniliste eesmärkidega ja ei oma kirjeldatud mõõtmetes mõju.
The AI system allows for human oversight during the entire life-cycle of the project /regarding their decision cycles and operation (when relevant)
X
28
EESTI BIOEETIKA JA INIMUURINGUTE NÕUKOGU OTSUS
11. november 2024 nr 1.1-12/2793 Nõukogu koosseisus: Esimees: Liina Vahter Tallinna Ülikool Aseesimees: Carolina Murd Tervise Arengu Instituut Teadussekretär: Aive Pevkur Tallinna Tehnikaülikool Liikmed: Maarja Kirss Andmekaitse Inspektsioon Maie Bachmann Tallinna Tehnikaülikool Ingeri Luik-Tamme TGS Baltic Advokaadibüroo Ingrid Ots-Vaik valdkondlik ekspert Ethel Bubõr andmekaitseõiguse jurist Agne Velthut-Meikas Tallinna Tehnikaülikool Merike Sisask Tallinna Ülikool Arutas 8. oktoobril 2024. a vastutavate uurijate Jaak Vilo, Raivo Kolde, Sven Lauri ja Sulev Reisbergi jätkutaotlust uuringule “EST-Health-30 - Eesti terviseandmete väärindamine“. Uuringu eesmärgiks Eesti terviseandmete väärindamine läbi andmeteaduse meetodite, et pakkuda kvaliteetset tõendust tõhusate patsiendikesksete tervishoiu- ja ennetusteenuste osutamiseks. Taotletav teadusuuring loob eeldused, et päriselu terviseandmeid saaks Eestis laiemalt kasutada ning aitab parandada tervishoiuteenuste kvaliteeti, tervishoiusüsteemi efektiivsust ning toetada tervishoiupoliitiliste tõenduspõhiste otsuste tegemist, toetades seeläbi rahvastiku tervise arengukava 2020-2030 elluviimist. Valimi suurus on 30% juhuvalim Eestis alates 2012. aastast tervishoiuteenuseid tarbinud Eesti elanikest. Valim sisaldab kontrollgruppi. Uuringu taotluse menetlusest taandas ennast Maarja Kirss, Andmekaitse Inspektsioonist. Jätkutaotlus esitati, kuna 15.01.2024. a heakskiidetud taotluse “Standardse esindusliku Eesti terviseandmestiku loomine teadusuuringuteks (EST-Health-30)” (nr 1.1-12/102) alusel keeldusid andmeomanikud (Tervise Arengu Instituut (TAI), Sotsiaalministeerium (SoM)) andmeid väljastamast ning soovisid taotlusesse muudatusi. Pärast andmeomanike, Andmekaiste Inspektsiooni ja EBINi esindajatega toimunud ning 14.08.2024. a toimunud kohtumisel saadud tagasisidest täiendati varasemalt heakskiidetud Est-Health-30 taotlust (nr 1.1-12/102). 15.01.2024. a heakskiidetud taotlust “Standardse esindusliku Eesti terviseandmestiku loomine teadusuuringuteks (EST-Health-30)” täiendati järgmiselt:
• Muudeti uuringu nimetust, kuna esialgne nimi võis tunduda mõnevõrra eksitav ja jättis mulje, et teadusuuringu peamine eesmärk on andmekogu loomine. Siiski on teadusuuringu
põhieesmärgiks teadustöö tegemine terviseandmetel ning seatud eesmärkide täitmiseks on vajalik ka kvaliteetse alusandmestiku loomine taotluses kirjeldatud tingimustel. Uus uuringu nimetus kajastab selgemalt taotluse sisu (punkt 1 “Uuringu nimetus”).
• Projekti tegevused viiakse läbi kahe etapina, kus esimeses etapis toimub alusandmestiku loomine ja andmekvaliteedi tõstmise meetodite arendamine. Teises etapis teadus- ja rakendusuuringute teostamine uurimismetoodikate arendamiseks Eesti terviseandmetel. Sellist jaotust rakendatakse läbi kogu taotluse (punkt 2 “Uuringu põhieesmärk”, punkt 9 “Planeeritava uuringu põhjendus ning uurimisküsimused ja/või hüpoteesid”, punkt 10 “Uurimismetoodika”).
• Sõnastati selgemalt projekti üldeesmärk ning kirjeldati detailselt esimese ja teise etapi eesmärgid (punkt 2 “Uuringu põhieesmärk”).
• Lisati vahepeal uurimisgrupiga lisandunud nooremteadureid uuringu läbiviijate loetelusse (punkt 4 “Uuringu läbiviijad”).
• Täpsustati uuringu finantseerimisallikaid (punkt 5 “Uuringu finantseerimine”), mille põhieesmärkide täitmiseks on teostatav teadusuuring vajalik.
• Tulenevalt andmeomanike valmisolekust andmeid jagada kuni Euroopa ühtse andmeruumi loomisega seotud seadusandluse rakendumiseni lühendati uuringu läbiviimise aega kaks aastat (täiendatud taotluses oktoober 2024 - detsember 2027). Lisati juurde soov andmed arhiveerida üheks aastaks peale projekti lõppu, et tagada publitseerimisel olevate teadusartiklite edukas avaldamine (punkt 6 “Uuringu läbiviimise aeg”).
• Toodi selgemalt ja põhjalikumalt välja, kuidas taotletav projekt on avalikes huvides, luues eeldused päriselu terviseandmete laialdasemaks kasutamiseks Eestis, aidates parandada tervishoiuteenuste kvaliteeti, tervishoiusüsteemi efektiivsust ning toetades tervishoiupoliitiliste tõenduspõhiste otsuste tegemist. See kõik toetab ka rahvastiku tervise arengukava 2020-2030 elluviimist ja tervelt elatud eluaastate suurenemist (punkt 9 “Planeeritava uuringu põhjendus ning uurimisküsimused ja/või hüpoteesid”, punkt 13a “Uuringu eetiliste aspektide analüüs. Inimesed”).
• Lähtuvalt SoMi tagasisidest täiendati valimi suuruse põhjendust, selgitades veelgi täpsemalt 30%-se valimi vajalikkust analüüsimetoodikate arendamisel ja valideerimisel. Samuti kirjeldati põhjalikumalt andmete hoidmise ja töötlemisega seonduvat, sh logide salvestamist, andmetele ligipääsu, andmete väljastamist turvalisest andmepuurist (SAPU) (punkt 10 “Uurimismetoodika”, punkt 11 “Uuritavate valim ja värbamise viisi kirjeldus”, punkt 13b “Uuringu eetiliste aspektide analüüs. Isikuandmed ja andmestikud”, punkt 15 “Isikuandmete kaitse meetmete kirjeldus”, Lisa 2 “Andmekaitsealane mõjuhinnang”).
• Uuringu taotluse täiendamisega ei kaasne esialgse valimi suurendamist ega korduvväljastusi. Otsus: anda luba uuringu läbiviimiseks. Uuringu läbiviimise lõpptähtaeg on 31. detsember 2028. a. uuringu alusandmed hävitatakse hiljemalt 31. detsembriks 2028. a. Selgitus: Eesti bioeetika ja inimuuringute nõukogu otsus uuringu taotluse osas ei kohusta isikuandmete või andmekogu vastutavat või volitatud töötlejat andmeid uurijale väljastama. Isikuandmete või andmekogu vastutav või volitatud töötleja on kohustatud hindama, kas isikuandmete väljastamine uuringu tegemise eesmärgil ja uurija poolt taotletud viisil on tehniliselt võimalik, lubatud ja vastab õigusaktidele.
- Eesti bioeetika ja inimuuringute nõukogu annab hinnangu planeeritavas uuringus isikuandmete töötlemise suhtes taotluses esitatud kirjelduse ja dokumentide alusel. Uuringus kasutatavate isikuandmete vastutav või volitatud töötleja (vastutav uurija ning uuringumeeskond) vastutab isikuandmete töötlemise nõuetekohasuse ja õigusaktidele vastavuse eest ka siis kui nõukogu on uuringu kooskõlastanud. - Andmesubjektide poolt teadusuuringuga seoses esitatud andmekaitsealastele päringutele ja taotlustele kohustub vastama kas uuringumeeskond või isikuandmete vastutav või volitatud töötleja, sõltuvalt päringust. Otsuse lahutamatu lisa on vastutavate uurijate poolt 20. augustil 2024. a digiallkirjastatud uuringu taotlus koos lisadega ning 16. septembril 2024. a digiallkirjastatud selgitus. /allkirjastatud digitaalselt/ Liina Vahter Eesti bioeetika ja inimuuringute nõukogu esimees