Justiits- ja digiministeerium 06.02.2025
Suur-Ameerika 1, Tallinn 10122
Järelpäring Eesti Meediaettevõtete Liidult
(Eesti keele korpuse andmete andmine globaalsetele keelemudeli loojatele)
Austatud justiits- ja digiminister Liisa Pakosta,
6. veebruaril 2025 teatas justiits- ja digiministeerium oma pressiteates, et Eesti andis Facebooki ja Instagrami emafirma Meta kasutusse eesti keele korpuse avaandmed, mis sisaldavad peaaegu 4 miljardit sõna. Ministeeriumi pressiteate järgi on tegu järjekorras juba teise suure keelemudeli arendamisega tegeleva ettevõttega, kellele see andmekogu kättesaadavaks tehakse.
Meediaettevõtete Liit avaldab protesti ministeeriumi tegevuse suhtes. Eesti meediaettevõtted pole tehnoloogilise progressi vastu, kuid praegu tekkinud olukorra lahendamiseks on hädavajalik viivitamatult peatada igasugune autoriõigustega kaitstud meediasisu tasuta loovutamine tehisaru treenivatele ettevõtetele.
Mistahes meediasisu loovutamine tehisaru treenimiseks saab toimuda üksnes autoriõiguste omajate loal ja õiglase tasu eest. Samuti tuleb enne sisu loovutamist väga selgelt lahendada isikuandmete kaitse ning sisu väärkasutamisega seotud küsimused.
Mööname, et suurte keelemudelite võime ülesandeid lahendada sõltub paljuski nende treenimiseks kasutatud andmetest. Ka Eesti valitsus on hiljaaegu arutanud keeletehnoloogiaga seotud küsimusi ning eesti keele säilimist ja parendamist AI-teenustes. Seepärast ei peaks tulema üllatusena, et kvaliteetsed keeleandmed on sageli kaitstud autoriõigustega ning et Eesti õigusega on lubatud teadusasutustes teksti- ja andmekaeve eesmärkidel vabalt kasutada veebist võetud avalikke andmeid.
Eesti keele ühendkorpus, milles on 3,8 miljardit sõnet ja mis vastab oma tunnustelt kõige rohkem ministri väljaütlemistes ja ministeeriumi pressiteates kirjeldatule, sisaldab rohkem kui pooles ulatuses perioodikatekste, lisaks ka uudisvoos ilmunud uudisportaalide sisu. Tegu ei ole üksikute sõnade, vaid terviktekstidega, mille kogumine on toimunud selgelt määratletud eesmärgil ja mille kasutamiseks on samamoodi väga selged ja piiritletud reeglid.
Rõhutame, et Eesti Meediaettevõtete Liidu liikmete loodud kvaliteetsed keeleandmed (tekstid) on nii ositi kui tervikuna kaitstud autoriõigustega (vastavalt teoste ja kogumikena kui ka kaasnevate õigustena ajakirjandusväljaande kirjastajate õigustega).
Autoriõiguse seadusega on teadusasutustel lubatud teksti- ja andmekaeve eesmärgil kasutada veebist võetud avalikke andmeid. Muudel isikutel on õigus andmeid kasutada ainult konkreetsetel tingimustel, kui õiguste omajad pole seda ära keelanud. Praegusel juhul on õiguste omanikud sellise andmete kasutamise keelanud.
Samuti rõhutame selle teema juures isikuandmete kaitse aspekti. Meediasisu sisaldab paratamatult isikuandmeid, inimeste nimesid ja muid andmeid, mida ajakirjandus tohib töödelda üksnes isikuandmete kaitse seaduse §-s 4 sätestatud ajakirjandusliku erandi alusel. Sisu üleandmine tehisaru treenimiseks kujutab endast täiesti uut laadi isikuandmete töötlemist, milleks on vaja eraldi õiguslikku alust.
Eraldi vajab märkimist seegi, et mis tahes meediasisu – ka väljaannete sisuarhiivid – kujutavad endast kirjastajate olulist vara. Autoriõigused ja nendega kaasnevad õigused on üks valdkondi, mis võimaldavad ajakirjandusväljaannetel mitmekesistada oma ärimudeleid ja tuluvoogusid, mida Eesti turul sooduspositsioonil tegutsevad suurplatvormid, Meta (Facebook, Instagram) ja Alpabet (Google) teiste seas, on olulisel määral kahjustanud. Kommertsalustel tegutsevatele välisettevõtetele, kes Eestis makse ei maksa, ei tohiks teha ärilisi soodustusi teiste turuosaliste arvel.
Tõeline mure eesti keele ja kultuuri jätkusuutlikkuse pärast peaks algama sellest, et riik aitab kindlustada kõigile loojatele, Eesti meediamajad teiste seas, võrdsed turutingimused, seisab kodumaiste autorite huvide eest ning toetab neid läbirääkimistes suurplatvormidega. Kirjastajate kollektiivsete õiguste esindusorganisatsioon Balti Uudismeedia Väljaandjate Ühing on valmis meediasisu kasutamiseks läbi rääkima nii tehisaru treenijatega kui ka justiits-ja digiministeeriumiga.
Johtuvalt ministeeriumi pressiteates kirjeldatud läbirääkimistest, kokkuleppest ning justiits-ja digiministri selleteemalistest väljaütlemistest on Eesti Meediaettevõtete Liidul tema kõikide liikmete nimel tekkinud rida küsimusi, millele ootame vastust esimesel võimalusel:
• Milliseid andmeid sisaldavad „Eesti keele korpuse avaandmed“, mille üleandmist Metale käsitletakse ja viidatakse ministeeriumi sõnumites ja ministri selleteemalistes sõnavõttudes? Kas, millises ulatuses ja millisel kujul sisaldavad need andmed meediaettevõtete (teiste seas ka Eesti Meediaettevõtete Liidu liikmete) autoriõigustega kaitstud sisu?
• Millisel õiguslikul alusel (sh AutÕS ja IKS mõttes) toimus selle sisu koondamine ülal nimetatud andmekogusse ja üleandmine Metale (või kui seda üleandmist pole veel toimunud, siis millisel õiguslikul alusel kavatsetakse/kavatseti seda sisu üle anda)?
• Milliseid andmed anti üle/kavatsetakse üle anda „teisele suure keelemudeli väljatöötajale“, millele viitab justiits- ja digiministeerium oma teadetes, ning millisel õiguslikul alusel?
• Millistel tingimustel lepiti/kavatsetakse leppida Metaga kokku keelekorpuse sisu kasutamine ning milliseid kaitsemeetmeid võttis ministeerium ja/või teised lepingu osapooled tarvitusele, vältimaks andmete õigusvastast kasutamist (sh. rakenduste väljundites)?
• Milliseid samme on astunud ministeerium ülal kirjeldatud andmekogu sisu Eesti autorite ja autoriõigustega kaasnevate õiguste omanike õiguste kaitseks, nendelt loa saamiseks ja neile õiglase tasu maksmiseks? Kui meediaettevõtete sisu Metale (ja teisele suure keelemudeli väljatöötajale) loata ja tasuta üle anti/antakse, siis kuidas kavatsetakse selle õigusrikkumisega tekkinud kahju heastada?
Lugupidamisega
Väino Koorberg
Juhatuse liige