Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Kynntu þér reglur ritstjórnar um skoðanagreinar. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Álftanes – ný byggð á flóðasvæði Einar Sveinbjörnsson Skoðun Má lækka skatta? Helgi Brynjarsson Skoðun Hvar býrðu? Ásta Þórdís Skjalddal Guðjónsdóttir Skoðun Flokksformaðurinn sem styður þjóðarmorð Hjálmtýr Heiðdal Skoðun Ísland selur sig ekki sjálft – og óvissa selur ekkert Rannveig Grétarsdóttir Skoðun „Faðir vor“— Ákall um að afskrifa allar skuldir og lifa í kærleika Sigurvin Lárus Jónsson Skoðun Markaðsöflin græða meðan börnin tapa Hólmfríður Jennýjar Árnadóttir Skoðun Píeta samtökin 10 ára – samstaða um von Bjarni Karlsson Skoðun Nokkrar staðreyndir um frítt í strætó fyrir börn og ungmenni í Hafnarfirði Árni Rúnar Þorvaldsson Skoðun Lágir skattar og góð þjónusta fara saman í Kópavogi Guðmundur Jóhann Jónsson Skoðun Skoðun Skoðun Hvar býrðu? Ásta Þórdís Skjalddal Guðjónsdóttir skrifar Skoðun Ísland selur sig ekki sjálft – og óvissa selur ekkert Rannveig Grétarsdóttir skrifar Skoðun Föstudagurinn langi spyr: stöndum við með týndu börnunum okkar? Steinþór Þórarinsson skrifar Skoðun Lágir skattar og góð þjónusta fara saman í Kópavogi Guðmundur Jóhann Jónsson skrifar Skoðun Píeta samtökin 10 ára – samstaða um von Bjarni Karlsson skrifar Skoðun Markaðsöflin græða meðan börnin tapa Hólmfríður Jennýjar Árnadóttir skrifar Skoðun „Faðir vor“— Ákall um að afskrifa allar skuldir og lifa í kærleika Sigurvin Lárus Jónsson skrifar Skoðun Álftanes – ný byggð á flóðasvæði Einar Sveinbjörnsson skrifar Skoðun Má lækka skatta? Helgi Brynjarsson skrifar Skoðun Um langa föstudaga, fólk á flótta og konur sem þora Þórhallur Guðmundsson skrifar Skoðun Horn í síðu fyrirtækjareksturs Diljá Matthíasardóttir skrifar Skoðun Flokksformaðurinn sem styður þjóðarmorð Hjálmtýr Heiðdal skrifar Skoðun Bændur, páskalamb og sjókvíaeldi Jóhann Helgi Stefánsson skrifar Skoðun Nokkrar staðreyndir um frítt í strætó fyrir börn og ungmenni í Hafnarfirði Árni Rúnar Þorvaldsson skrifar Skoðun Húsnæðismarkaðurinn á Íslandi: Kerfisvandi – en líka tæknilegt tækifæri Sigurður Sigurðsson skrifar Skoðun „Forsjárdeila“ er ekki sönnunargagn í sakamálarannsókn Sigrún Sif Eyfeld Jóelsdóttir skrifar Skoðun Fæðuöryggi byrjar hér heima Þórarinn Ingi Pétursson skrifar Skoðun Hver ber ábyrgð á heimilisleysi á Íslandi? Bjartur Hrafn Jóhannsson skrifar Skoðun Flott að fá það á hreint, Þorgerður Hjörtur J. Guðmundsson skrifar Skoðun Kostnaður við borgarstjórn Reykjavíkur Regína Ásvaldsdóttir skrifar Skoðun Búum við í Norður-Kóreu? Davíð Már Sigurðsson skrifar Skoðun Fyrirframgreiðsla fyrir mannkosti Kári Stefánsson skrifar Skoðun Ekki okkar verðbólga Óskar Hafnfjörð Gunnarsson skrifar Skoðun Vangaveltur blóðmerabónda Heiðar Þór Sigurjónsson skrifar Skoðun Virðisaukaskattur er frábært fyrirbæri! Ásta Kristín Sigurjónsdóttir skrifar Skoðun Lífshlaupið - sterkari og heilbrigðari þjóð Willum Þór Þórsson skrifar Skoðun Dauðarefsing gegn börnum Yousef Tamimi skrifar Skoðun Þarf íþróttamaður að vera áhrifavaldur til að ná árangri? Egill Gunnarsson skrifar Skoðun Fjárfestum í verðmætasköpun Ragnar Sigurðsson skrifar Skoðun Kennslutími, kostnaður og árangur – hvað segja gögnin í raun Ómar Örn Magnússon,Linda Heiðarsdóttir,Jón Páll Haraldsson skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Nokkrar staðreyndir um frítt í strætó fyrir börn og ungmenni í Hafnarfirði Árni Rúnar Þorvaldsson Skoðun
Skoðun „Faðir vor“— Ákall um að afskrifa allar skuldir og lifa í kærleika Sigurvin Lárus Jónsson skrifar
Skoðun Nokkrar staðreyndir um frítt í strætó fyrir börn og ungmenni í Hafnarfirði Árni Rúnar Þorvaldsson skrifar
Skoðun Húsnæðismarkaðurinn á Íslandi: Kerfisvandi – en líka tæknilegt tækifæri Sigurður Sigurðsson skrifar
Skoðun „Forsjárdeila“ er ekki sönnunargagn í sakamálarannsókn Sigrún Sif Eyfeld Jóelsdóttir skrifar
Skoðun Kennslutími, kostnaður og árangur – hvað segja gögnin í raun Ómar Örn Magnússon,Linda Heiðarsdóttir,Jón Páll Haraldsson skrifar
Nokkrar staðreyndir um frítt í strætó fyrir börn og ungmenni í Hafnarfirði Árni Rúnar Þorvaldsson Skoðun