Taotlusvorm
Koostatud justiits- ja digiministri 18.05.2026 määruse nr 15 “Tulevikukindla andmemajanduse ökosüsteemi mudel ja taristulised lahendused andmete turvaliseks haldamiseks, käitlemiseks ja väärindamiseks” põhjal.
1. Taotleja andmed
Taotleja asutuse nimi
Eesti Rahvusraamatukogu
Taotleja esindaja nimi
Martin Öövel
Taotleja esindaja ametikoht
peadirektor
Esindaja telefoninumber
+372 5019 775
Esindaja e-post
[email protected]
2. Projekti kontakt (vajadusel)
Projekti esindaja nimi
Urmas Sinisalu
Projekti esindaja ametikoht
Üleriigiliste raamatukoguteenuste keskuse juht
Projekti esindaja telefoninumber
+372 56 807 222
Projekti esindaja e-post
[email protected]
3. Projekti lühiülevaade
Projekti lühikirjeldus
Projekti eesmärk on valideerida ja arendada mäluasutustele (raamatukogud, muuseumid ja arhiivid) suunatud tehisarulahendust, uurida kas ja kuidas on võimalik avatud ja lokaalsete keelemudelite abil luua digipärandile kvaliteetseid kirjeldusi. Planeeritav uurimus ja arendus põhinevad Rahvusraamatukogu (edaspidi RaRa) automaatse kataloogimise kratil KATA (https://kata.rara.ee/), keskendudes mudelite töökindluse, kuluefektiivsuse ja ressursitõhususe optimeerimisele.
Projekti tulemuseks on avalikule sektorile taaskasutatavad treeningandmed ja treenitud mudel(id).
Projekti ajaraam
01.09.2026 – 30.09.2027
Omafinantseeringu suurus ja allikas
23 968€, mis on 22,2% taotluse summast ning kaetakse Eesti Rahvusraamatukogu palgafondist
(kogu projekti maksumus on 131 994€).
Taotletav toetuse summa [€]
108 026€ (projektijuhtimine + välise partneri kaasamine ja mudelite treenimiseks vajalik ressurss)
4. Projekti detailsem kirjeldus
Probleemikirjeldus
Selgitage, miks on probleem aktuaalne ning keda see puudutab. Mida on probleemi lahendamiseks Eestis juba tehtud või mis on tegemisel?
Lokaalsed keelemudelid ei tööta nii hästi kui kinnised suured kommertsmudelid (ChatGPT, Claude) ja nende kasutamine autoriõiguse kaitse all olevat ainese töötlemiseks ei ole õiguslikult ega turvakaalutlustelt võimalik.
Projekt on üks osa valdkondlikust "Kultuuripärandi digitegevuskava 2024–2029" kus digipärandi väärindamine ja uute kasutusviiside väljatöötamine toetab kultuuri- ja majanduskeskkonda ning aitab kaasa Eesti identiteedi elujõulisena püsimisele. Riiklikul tasemel on strateegiliselt oluline kultuuripärandi võimalikult lai kättesaadavaks tegemine, näiteks on 2029. aastaks eesmärk digiteerida 55% Eesti mäluasutuste kogudes olevast pärandist. Ainult digiteerimisest ei piisa pärandi (taas)kasutamise võimestamiseks ning lihtsalt serveris seisvad failid ei teeni tagasi investeeringuid, mis nende kättesaadavaks tegemiseks on tehtud. Digiühiskonna arengukava 2035 ja Eesti 2035 toetamiseks ning digipärandi võimalikult laia kasutuse ja leviku võimaldamiseks ning eesti keele ja kultuuri püsimajäämise toetamiseks digitaalses maailmas peaks see olema võimalikult lihtsalt kasutatav. Selleks peab aines olema kergelt leitav ja töödeldav.
Nii Eestis kui mujal Euroopas on katsetatud automaatse kataloogimise, märksõnastamise ja ainese rikastamisega, kuid rikastatava ainese algfailid on väga erikujulised, nii formaatide kui ka nende masinloetavaks muutmise keerukuse poolest. Digitaalselt sündinud, juba eksisteeriva tekstikihiga failidest, kuni skaneeritud vanade fraktuurkirjas teavikuteni. Lisaks on oluline metaandmestik sageli paigutatud hoopis visuaalsete elementidena (värvilised ja kunstiliselt kujundatud kaanepildid). Seetõttu on rikastamise kvaliteet algfaili olemusest tulenevalt hetkel väga varieeruv ning keerulisema sisendmaterjali puhul puudulik. Seejuures võivad mittetäielikud olla olulised andmed nagu pealkiri, autori nimi ning sisukokkuvõte. Sellistes tingimustes saavad paremini hakkama kinnised kommertsmudelid.
Kuid mäluasutustes töödeldav pärand sisaldab isikuandmeid ja autoriõiguse kaitse all olevat ainest, mille töötlemine kinniste ja kolmandate osapoolte kontrollitavate mudelitega ei ole õiguslikult ega turvakaalutlustelt võimalik. Samal ajal pole pilveteenuste kasutamine mudelite jooksutamiseks või suuremahuliseks andmetöötluseks majanduslikult jätkusuutlik. Lokaalsete mudelite integreerimine nõuab eelnevat analüüsi kuna võimekad mudelid nõuavad kulukat infrastruktuuri, samas kui väiksemad mudelid ei taga ilma häälestuse ja treeninguta piisavat kvaliteeti. Oluline on leida optimaalne tasakaal lokaalse mudeli kvaliteedi ja ülalpidamiskulude vahel. Kuigi planeeritava projekti käigus analüüsitakse spetsiifilisemalt mäluasutuste konteksti, on see siiski tõlgitav laiemalt avalikku sektorisse.
2025. aastal avalikustas JUSTDIGI aruande “Tulevikukindla arvutusvõimekuse tagamise”, mis muu hulgas rõhutab, et kohalik arvutusvõime on kriitilise tähtsusega ressurss. Samas tuuakse välja, et teadus- ja avalikus sektoris puudub lokaalne ja privaatne arvutusvõimekus ning sõltuvus pilveteenuse pakkujatest ja välisriikide arvutusvõimekusest on risk autonoomiale. Kuigi näiteks Tartu Ülikooli teadusarvutuse keskuses on loodud lokaalne arvutusvõimekus, ei loo see võimalusi mudelite kasutamiseks asutuste põhiprotsessides ja aktiivsetes töövoogudes, kuna teadustööks mõeldud platvormid ei lahenda asutuseülese juurutamise, tarkvaralise integreerituse ja kuluefektiivse ülalpidamise probleeme.
Projekti oodatav tulemus ja mõju
Kas projektil on selge ning mõõdetav eesmärk, mille saavutamist või mittesaavutamist on võimalik hinnata?
Projekti esimeses etapis viiakse mäluasutuste spetsialistidele läbi töötuba “Lokaalsete mudelite rakendamine mäluasutustes”, mille eesmärk on kaardistada erinevate mäluasutuste vajadusi ja kasutusjuhtumeid digipärandi kirjelduste loomisel ja metaandmete rikastamisel. Selle tulemusena sünnib ülevaade valdkonna vajadustest ja võimalikest rakendusstsenaariumidest, mis on sisendiks rakendusuuringule ja mudeli treenimisele ning loovad eeldused projekti tulemina valmiva rakenduse laiemaks kasutuselevõtuks Eesti mäluastustes ja avalikus sektoris laiemalt.
Projekti teine etapp on rakendusuuring avatud ja lokaalsete mudelite töökindluse, kuluefektiivsuse ja ressursitõhususe optimeerimiseks. Eksperimenteeritakse erinevate vabavaraliste suurte keelemudelitega kolmel lähteülesandel:
1. info eraldamine;
2. sisukokkuvõtete koostamine;
3. tekstisektsioonide eraldamine.
1. Info eraldamine
Raamatukogu kontekstis on oluline eraldada väljaandeid kirjeldav metaandmete komplekt, uuringu tulemus on üldistuv ka teistsugusele informatsioonile. Kavas on välja selgitada, kas sõltuvalt informatsiooni tüübist esineb eraldamise kvaliteedis erisusi ja milliseid vahendeid selle vahe vähendamiseks kasutada oleks võimalik; kuidas muutub eraldatava informatsiooni kvaliteet sõltuvalt sisendinfo kvaliteedist ja mudeli suurusest; kas ja milliste mudelite/informatsiooni puhul on vajalik mudeli edasine peenhäälestamine ja millal piisab lihtsalt instruktsioonidele näidete lisamisest ("few shot learning").
Ülesandele lisab kompleksust lokaalsete mudelite kontekstiakna suurus, mille laiendamisel kasvavad nõuded ka riistvarale. Seega on ülesande efektiivseks lahendamiseks lisaks oluline välja selgitada piisav kontekst ning selle koondamine tervikväljaandest. Lisaks klassikalisele tekstipõhisele lähenemisele on vaja uurida ka infoeraldamist pildiliselt materjalilt multimodaalsete mudelite abil. Kas multimodaalsete mudelite tulemite kvaliteet ületab OCR-ist ja tekstipõhisest infoeraldusest koosneva töövoo oma?
Tulemid:
• Peenhäälestamiseks kasutatud andmed (kui on kasutatud juurdepääsupiiranguteta andmeid)
• Peenhäälestatud mudel(id)
• Olulisemate metaandemete eraldamist võimaldav avatud koodiga rakendus.
2. Sisukokkuvõtete koostamine
Ülesande raames uuritakse sisukokkuvõtete koostamist avatud keelemudelite abil. Kokkuvõtete koostamine nõuab infoeraldusega võrreldes rohkem "loomingulisust" - see tähendab, et infoeralduse puhul on oodatav tulem enamjaolt väga sarnasel kujul juba sisendtekstis olemas, kokkuvõtte puhul tuleb see aga sünteesida, pidades sealjuures kinni sihtkeele grammatikast, lauseehitusest jms õigekirja ja -keelega seotud reeglitest. Ülesandele lisab keerukust asjaolu, et fookuses on eelkõige eesti keel, mille osakaal avatud mudelite treeningandmetes on suuremate keeltega võrreldes madalam. Teise olulise keerukusena tuleb mängu juba eelmisest punktist läbi käinud probleem: kuidas limiteeritud kontekstiakna puhul kogu kokkuvõte tegemiseks vajalik informatsioon mudelile ette sööta?
Tulemid:
• Sisukokkuvõtete eraldamist võimaldav avatud koodiga rakendus
3. Tekstisektsioonide eraldamine
Ülesande eesmärgiks on tuvastada sisenddokumendi olulisemad sektsioonid - raamatute puhul näiteks tiitelleht, impressum, sisukord, eessõna, järelsõna jne. Ühest küljest on sektsioonide eraldamine vajalik kuivõrd teatud tekstiosad nagu sisukord moodustavad osa väljaande metaandmetest, teisalt oleks selle tulem abiks eelkirjeldatud ülesannete sisendina. Näiteks oleks tiitellehte ning impressumit võimalik kasutada esimeses punktis kirjeldatud metaandmete eraldaja sisendina. Tekstiosade edukaks eraldamisel on oluline roll just multimodaalsetel mudelitel, kuivõrd informatsiooni paigutus kannab endas sageli olulist infot, mis tekstipõhises mudeldamises kaduma läheks.
Tulemid:
• Tekstisektsioonide eraldamist võimaldav avatud koodiga rakendus
Projekti tulemuste kvaliteedi muutumist praeguse standardi suhtes on võimalik hinnata, kui kõrvutada samadel sisendfailidel tuvastatud metaandmete komplekte, mis on genereeritud a) pärast praeguse KATA versiooni rakendamist ning b) pärast projekti käigus täiendatud KATA versiooni rakendamist. Kuldstandardina on omakorda võimalik kasutada kataloogijate loodud kirjeid ning nendega võrrelda mõlemat eelnevalt viidatud komplekti.
Projekti tulemid avalikustatakse RaRa digilaboris ja neid tutvustatakse teistele Eesti mäluasutustele. Valmiv rakendus on avatud lähtekoodiga ning taaskasutatav teiste asutuste poolt.
Projekti meeskond ja töökorraldus
Kirjeldage rollide ja töö jaotust projektimeeskonnas. Missugust täiendavat ekspertiisi tuleb juurde kaasata (nt tehniline ekspertiis, andmekaitse)?
• Projektijuht – 0.2 FTE, 12 kuud - (a 600€ bruto) vastutab tegevuste planeerimise, ajakava täitmise, riigihanke läbiviimise, partnerite koordineerimise ning projekti tulemuste saavutamise eest.
• RaRa valdkonnaeksperdid (2x0.3 FTE, 10 kuud) määratlevad lahendatava probleemi, kirjeldavad kasutusjuhtumid ning osalevad lahenduse testimisel ja kasutuselevõtu hindamisel.
• Testijuhtimine, rakenduste testimine ja tulemite vastuvõtmine (1x0.3 FTE, 2 kuud).
• Juurde kaasatakse tehisaru ja masinõppe eksperdid mudelite valikuks, treenimiseks ja peenhäälestamiseks, testimiseks ja valideerimiseks. Riigihange 6 kuuks (a ~70 000€+KM)
• Mudelite treenimiseks ja andmete majutusele kuluv ressurss 7 800€
Jätkutegevused
Kirjeldage planeeritud jätkutegevusi pärast rahastusperioodi lõppu.
Loodavad edukad mudelid võetakse kasutusele RaRa töövoogudes ning rakendustes.
Loodav rakendus on majutatud RaRa infras ja pakutakse demokeskkonda teadus- ja mäluasutusele.
Riskid ja maandamismeetmed
Kirjeldage peamisi riske, mis võivad takistada projekti elluviimist või eesmärkide saavutamist, millised maandamismeetmed kasutusele võetakse?
• Suurim risk on, et avatud ja lokaalsete mudelite kvaliteet ei saavuta vajalikku taset. Riski maandamiseks võrreldakse erineva suurusega mudeleid, peenhäälestamise viise ja katsetatakse erinevaid juhendamistehnikaid. Lõpptulemusena on siiski väärtuslik tulemus ka selle riski realiseerumine, kuna selle käigus saame olulisi teadmiseid edasiseks uuringuks.
• Treening- ja hindamisandmete kvaliteedi ebapiisavus. Andmete kvaliteet võib olla ebaühtlane, OCR vigane, fraktuur eksitav ja ainese struktuur keeruline. Maandamiseks kasutame fraktuurkirja ja ajalooliste dokumentide jaoks spetsiaalselt treenitud OCR-mudeleid ning kaasame valdkonnaeksperdid andmete valideerimisse ja vigade analüüsi.
• Arvutusressursi vajadus osutub prognoositust suuremaks. Mudelid, eriti võimekamad, võivad nõuda planeeritust ja ette nähtust suuremat ressurssi. Maandamiseks rakendatakse vajadusel mudelite optimeerimist ja kasutatakse ETAISi (https://etais.ee/) arvutusvõimsuseid.
5. Seos teadus- ja arendustegevuse kriteeriumitega (palun kirjeldage)
Tegevuse liik (alusuuring, rakendusuuring või eksperimentaalarendus)
rakendusuuring
Uudsus
Uudsus seisneb avatud ja lokaalse mudeli rakendamise analüüsimisel sisult ja ülesehituselt keeruka digipärandi automaatseks kirjeldamiseks, kus andmekaitse, isikuandmed, autoriõiguse ja ressursside nõuded/piirangud välistavad kinniste ja/või pilvepõhiste kommertslahenduste kasutamise.
Uuritakse süstemaatiliselt seost mudelite kvaliteedi, arvutusressursi vajaduse ja kasutuskulu vahel. Projekti ei keskendu kõige täpsema mudeli leidmisele, vaid tulemuste kvaliteedi ja ressursikulu optimaalse tasakaalu leidmisele. Samuti on uuringu lähenemine multimodaalne, võrreldakse mudelite võimekust eriilmelise kultuuripärandi töötlemisel ning hinnatakse millistel juhtudel annab see lähenemine mõõdetava kvaliteedivõidu. Lisakihi annab eesti keele väiksus ja esindatuse maht mudelite treeningandmetes, uuringu tulemused annavad ülevaadet selliste mudelite peenhäälestuse vajadusest eesti keelega toimetulekuks.
Loomingulisus
Loomingulisus seisneb selles, et otsitakse erinevate mudelite, peenhäälestamise meetodite, tehnikate ja kontekstide valikute kombinatsioone, mis võimaldaksid saavutada vastuvõetava kvaliteedi minimaalse kuluga.
Ettemääramatu tulemus
Puudub teadmine millisel määral suudavad avatud ja lokaalsed mudelid täita kirjeldatud ülesandeid kvaliteedi, ressursikasutuse ja kuluefektiivsuse seisukohast. Ettemääramatus seisneb teadmatuses kas ja milliste meetodide abil on võimalik saavutada kirjeldamise kvaliteet, mis on võrreldav teiste kinniste ja kulukamate lahendustega. Samuti ei tea me milline mudel, selle suurus või peenhäälestuse meetod annab parima tulemuse.
Süsteemsus
Projekti esimeses etapis kaardistatakse valdkonna vajadused laiemalt ehk ei piirduta kitsalt vaid RaRa vajadustega.
Teises etapis viiakse läbi rakendusuuring kolme omavahel seotud ülesandega, iga ülesande puhul hinnatakse erinevate mudelite ja lahenduste mõju tulemuste kvaliteedile ja ressursikasutusele. Katsetused viiakse läbi ühtsetel sisendandmetel ja tulemusi võrreldakse määratud kvaliteedinäitajate alusel.
Ülekantavus või korratavus
Projekt on kavandatud selliselt, et tulemused on korratavad kui ka ülekantavad teistel mäluasutustele. Seda tehakse läbi protsessi dokumenteerimise ja tutvustamise, eksperimendid tuginevad määratletud sisendandmetel, uurimisküsimustel ja kvaliteedinäitajatel. See võimaldab katseid korrata ja valideerida. Ülekantavust suurendab veelgi avatud koodiga arendusmudel, mida on võimalik teistel lahendust juurutada.
6. Projekti eelarve ja ajakava
Lisa iga etapi ning tegevuse juurde tegevuse kirjeldus, algus ja lõpp ning eelarve.
I etapp 01.09.2026- 31.12.2026
RaRa valdkonnaekspertide poolt valmib ärinõuetele vastav tehniline kirjeldus (5880€) ja projektijuht toestab riigihanke ettevalmistuse ning korraldab riigihanke (3208€).
Töötoa korraldamine valdkonna spetsialistidele sisendi kogumiseks ja valideerimiseks (~2000€ koos KM).
II etapp 11.01.2027-31.05.2027
Projektijuhtimine (4010€)
Alusandmete ettevalmistamine RaRa poolt (9800€) ning palgatud ekspertide poolt analüüs ja uuring ning treenimine ja tööriistade valimine/loomine/täiendamine. Valmib sisend järgmiseks etapiks (uuring, analüüs ja sisendandmed) 1/3 hanke maksumusest (~28 933€ koos KM)
Masinõppe mudelite loomine/treenimise ressurss (~7 800€ koos KM)
Puhkused 01.06.2027-30.06.2027
Puhveraeg edukale pakkujale rakenduse silumiseks.
III etapp 01.07.2027- 30.09.2027
Tulemite vastuvõtmine (5880€) ja testimine (2408€)
Valmib rakendus ja avaldatakse mudelid 2/3 hanke maksumusest (57 867€ koos KM)
Projekti tulemite tutvustamine teadus- ja mäluasutustele (1000€ koos KM)
Dokumentatsioon ja projekti lõpetamine (3208€)
7. Kasutatavate andmete ülevaade
Ülevaade projekti käigus töödeldavatest andmetest
Treening- ja testandmeteks on kultuuripärandi portaali DIGAR vahendusel kättesaadavaks tehtavad ja vaba litsentsiga raamatud, ajakirjad, ajalehed ja jätkväljaanded eesti ja teistes soome-urgi keeltes ning murrakutes.
Kas vajalik on läbi viia andmekaitsealane mõjuhinnang?
Ei ole plaanis läbi viia andmekaitsealast mõjuhinnangut kuna kasutatakse autoriõiguse alt väljas olevat ainest ja ei töödelda eriliigilisi isikuandmeid ning otsustusprotsessi ei ole kaasatud tehisaru. Projekti käigus hinnatakse jooksvalt kavandatava tehisarulahenduse mõju isikuandmete kaitsele. Kui töötlemise laad, ulatus või eesmärk viitab kõrgele riskile andmesubjektide õigustele ja vabadustele, viiakse enne lahenduse kasutuselevõttu läbi andmekaitsealane mõjuhinnang ning rakendatakse vajalikud riskide maandamise meetmed.
Kas projekti käigus rakendatakse andmejälgijat?
Projekti käigus töödeldavates tekstides võib sisalduda isikuandmeid (näiteks nimed ajaleheartiklites), kuid nendel tekstidel pole tehtud olemituvastust seega pole võimalik isikud nende nime järgi üheselt tuvastada ning ei tehta päringuid teistesse infosüsteemidesse ega registritesse seega andmejälgija rakendamine ei kanna otstarvet.
Kas vajalik on täita algoritmi kasutatavuse vorm?1
Ei kohaldu.
Kas projekti käigus avalikustatakse avaandmeid?
Jah, tehakse kättesaadavaks RaRa Digilaboris (https://digilab.rara.ee/) ja andmete teabeväravas (https://andmed.eesti.ee/).
8. Muu vajalik teave vabas vormis
Volitused
Kontrollige e-äriregistrist2, kas Teil on äriregistri registrikaardi järgi õigus taotleja esindamiseks. Juhul, kui Teil puudub e-äriregistris taotleja esindusõigus, saate oma esindusõigust tõendada, lisades taotlusele digiallkirjastatud volituse.
Kinnitused
Palun tutvuge alljärgnevate tingimustega ning kinnitage, et olete nendega nõus:
Annan nõusoleku:
• teha õiguspädevale organile järelpärimisi;
• teostada taotleja suhtes toetuse andmise tingimustest tulenevaid õigusi;
• edasise infovahetuse toimumiseks elektroonilisel teel.
Kinnitan järgnevat:
• kõik taotluses esitatud andmed on õiged ning esitatud dokumendid on kehtivad ja ehtsad;
• taotluses sisalduv projekt vastab toetuse andmise tingimuste määruses sätestatud eesmärkidele ja toetatavatele tegevustele;
• taotlejal on toetuse andmise tingimustes sätestatud projekti elluviimiseks ja haldamiseks vajalik kvalifikatsioon või kogemus ning õiguslik, organisatsiooniline või tehniline eeldus;
• taotleja kohustub väljastama andmeid ja osutama igakülgselt kaasabi Justiits- ja Digiministeeriumile ning teistele asutustele, kelle kohustus on teha taotluses sisalduva projekti elluviimise üle järelevalvet;
• taotleja kohustub viima projekti ellu taotluses esitatud teabe ja tingimuste alusel;
• taotleja kohustub Justiits- ja Digiministeeriumi viivitamata teavitama taotluses esitatud andmetes toimunud muudatusest ja ilmnenud asjaolust, mis võib mõjutada taotluse kohta otsuse tegemist;
• taotlejal on nõutavad vahendid projekti omafinantseeringu tagamiseks;
• taotleja on teadlik, et toetuse saamise info ja toetuse summa avalikustatakse.
☒ Kinnitan, et kõik taotluses esitatud andmed on õiged ja täielikud, olen ülaltoodud tingimustega tutvunud ja olen nendega nõus.