Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Sendu okkur póst. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Árásir á gyðinga í skugga þjóðarmorðs Helen Ólafsdóttir Skoðun „Quiet, piggy“ Harpa Kristbergsdóttir Skoðun Um ólaunaða vinnu, velsæld og nýja sýn á hagkerfið Dóra Guðrún Guðmundsdóttir,Soffía S. Sigurgeirsdóttir,Elva Rakel Jónsdóttir Skoðun Djöfulsins, helvítis, andskotans pakk Vilhjálmur H. Vilhjálmsson Skoðun Kjósið reið og óupplýst! Ragnheiður Kristín Finnbogadóttir Skoðun Íslenska er leiðinleg Nói Pétur Á Guðnason Skoðun Réttar upplýsingar um rekstur og fjármögnun RÚV Stefán Eiríksson,Björn Þór Hermannsson Skoðun Þrjú slys á sama stað en svarið er: Það er allt í lagi hér! Róbert Ragnarsson Skoðun Ísland er ekki í hópi þeirra sem standa sig best í loftslagsmálum Eyþór Eðvarðsson Skoðun EES: ekki slagorð — heldur réttindi Yngvi Ómar Sigrúnarson Skoðun Skoðun Skoðun Íslenska er leiðinleg Nói Pétur Á Guðnason skrifar Skoðun Þrjú slys á sama stað en svarið er: Það er allt í lagi hér! Róbert Ragnarsson skrifar Skoðun Réttar upplýsingar um rekstur og fjármögnun RÚV Stefán Eiríksson,Björn Þór Hermannsson skrifar Skoðun Kjósið reið og óupplýst! Ragnheiður Kristín Finnbogadóttir skrifar Skoðun Ekkert barn á Íslandi á að búa við fátækt Kolbrún Áslaugar Baldursdóttir skrifar Skoðun Árásir á gyðinga í skugga þjóðarmorðs Helen Ólafsdóttir skrifar Skoðun Hundrað doktorsgráður Ólafur Eysteinn Sigurjónsson skrifar Skoðun EES: ekki slagorð — heldur réttindi Yngvi Ómar Sigrúnarson skrifar Skoðun Að þjóna íþróttum Rögnvaldur Hreiðarsson skrifar Skoðun „Quiet, piggy“ Harpa Kristbergsdóttir skrifar Skoðun Ísland er ekki í hópi þeirra sem standa sig best í loftslagsmálum Eyþór Eðvarðsson skrifar Skoðun Ísland, öryggi og almennur viðbúnaður Magnús Árni Skjöld Magnússon skrifar Skoðun Um ólaunaða vinnu, velsæld og nýja sýn á hagkerfið Dóra Guðrún Guðmundsdóttir,Soffía S. Sigurgeirsdóttir,Elva Rakel Jónsdóttir skrifar Skoðun Leysum húsnæðisvandann Guðjón Sigurbjartsson skrifar Skoðun Hugleiðing um jól, fæðingu Krists og inngilding á Íslandi Nicole Leigh Mosty skrifar Skoðun Betri en við höldum Hjálmar Gíslason skrifar Skoðun Draumurinn um ESB-samning er uppgjöf – Ekki fórna framtíðinni fyrir falsöryggi Eggert Sigurbergsson skrifar Skoðun Setjum við Ísland í fyrsta sæti? Júlíus Valsson skrifar Skoðun Misskilningur Viðreisnar um áhrif EES-úrsagnar á Íslendinga erlendis Eggert Sigurbergsson skrifar Skoðun Skattahækkanir í felum – árás á heimilin Lóa Jóhannsdóttir skrifar Skoðun Að fyrirgefa sjálfum sér Sigurður Árni Reynisson skrifar Skoðun Hér starfa líka (alls konar) konur Selma Svavarsdóttir skrifar Skoðun Kílómetragjald í blindgötu – þegar stjórnvöld misskilja ferðaþjónustuna Þórir Garðarsson skrifar Skoðun 5 vaxtalækkanir á einu ári Arna Lára Jónsdóttir skrifar Skoðun Falskur finnst mér tónninn Kristján Fr. Friðbertsson skrifar Skoðun Treystir Viðreisn þjóðinni í raun? Hjörtur J. Guðmundsson skrifar Skoðun Frá sr. Friðriki til Eurovision: Sama woke-frásagnarvélin, sama niðurrifsverkefni gegn gyðing-kristnum rótum Vesturlanda Hilmar Kristinsson skrifar Skoðun Þingmaður með hálfsannleik um voffann Úffa Árni Stefán Árnason skrifar Skoðun Allt fyrir ekkert – eða ekkert fyrir allt? Eggert Sigurbergsson skrifar Skoðun Glansmynd án innihalds Árni Rúnar Þorvaldsson skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Um ólaunaða vinnu, velsæld og nýja sýn á hagkerfið Dóra Guðrún Guðmundsdóttir,Soffía S. Sigurgeirsdóttir,Elva Rakel Jónsdóttir Skoðun
Skoðun Réttar upplýsingar um rekstur og fjármögnun RÚV Stefán Eiríksson,Björn Þór Hermannsson skrifar
Skoðun Um ólaunaða vinnu, velsæld og nýja sýn á hagkerfið Dóra Guðrún Guðmundsdóttir,Soffía S. Sigurgeirsdóttir,Elva Rakel Jónsdóttir skrifar
Skoðun Draumurinn um ESB-samning er uppgjöf – Ekki fórna framtíðinni fyrir falsöryggi Eggert Sigurbergsson skrifar
Skoðun Misskilningur Viðreisnar um áhrif EES-úrsagnar á Íslendinga erlendis Eggert Sigurbergsson skrifar
Skoðun Kílómetragjald í blindgötu – þegar stjórnvöld misskilja ferðaþjónustuna Þórir Garðarsson skrifar
Skoðun Frá sr. Friðriki til Eurovision: Sama woke-frásagnarvélin, sama niðurrifsverkefni gegn gyðing-kristnum rótum Vesturlanda Hilmar Kristinsson skrifar
Um ólaunaða vinnu, velsæld og nýja sýn á hagkerfið Dóra Guðrún Guðmundsdóttir,Soffía S. Sigurgeirsdóttir,Elva Rakel Jónsdóttir Skoðun