Skoðun

Ís­lenskt mállíkan – full­veldi eða út­vistunar­samningur?

Jón Guðnason, Hrafn Loftsson, Stefán Ólafsson, Kristinn R. Þórisson, Hannes Högni Vilhjálmsson og Henning Arnór Úlfarsson skrifa

Menningar-, nýsköpunar- og háskólaráðherra, Logi Einarsson, skrifaði um sjálfstæðisbaráttu nútímans í nýlegri grein á Vísi. Við fögnum því hversu mikla athygli málefni gervigreindar og íslensku fá hjá ráðherra og tökum undir þá áherslu sem kemur fram í greininni um að íslenska ríkið þurfi að tryggja öfluga innviði fyrir gervigreind og byggja upp sérfræðikunnáttu sem getur haldið tækninni við og þróað nýjar lausnir. Í ljósi djúprar þekkingar íslenskra vísindamanna á gervigreind og beitingu slíkrar tækni fyrir íslenskt mál kemur það okkur hins vegar verulega á óvart að ráðherra segi samræður hafnar við erlent fyrirtæki um þróun íslensks mállíkans „á heimsmælikvarða”.

Árið 2018 var hópurinn "Samstarf um íslenska máltækni" (SíM) stofnaður. SÍM er hópur íslenskra háskóla, stofnana, fyrirtækja og félagasamtaka sem vann að rannsóknum og þróun innan máltækniáætlunar stjórnvalda, „Máltækni fyrir íslensku 2019-2023”, og framhaldi hennar. Í þessari áætlun voru margvísleg mállíkön þróuð frá grunni sem geta t.d. greint íslenskan texta í orðflokka og beygingarlegar myndir, borið kennsl á nöfn, þýtt texta úr íslensku í ensku, svarað spurningum, varpað íslensku tali yfir í texta og myndað íslenskt tal úr texta. Það mállíkan sem ráðherra vísar til í sinni grein er vissulega af annarri stærðargráðu en þau sem þróuð hafa verið hér á landi hingað til. Þróun slíkra líkana er hins vegar í beinu framhaldi af þeirri vinnu sem þegar hefur farið fram — sömu undirstöður, sömu aðferðir og að stórum hluta sömu sérfræðingar koma að henni. Næstu skref í þróun íslenskra mállíkana eru því best komin í höndum þeirra sem byggt hafa þennan grunn.

Höfundar þessarar greinar starfa flestir við Gervigreindarsetur Háskólans í Reykjavík (CADIA), sem var stofnað fyrir rúmlega tveimur áratugum og hefur stundað rannsóknir á sviði gervigreindar alla tíð síðan, í máltækni og tengdum greinum. Rannsóknarhópar setursins hafa unnið að þróun íslenskrar máltækni og mállíkana og ýmsum öðrum verkefnum sem tengjast beint þeirri tækni sem hér um ræðir, jafnframt því að leggja grunn að næstu kynslóðum – og tegundum – gervigreindartækni. Þegar ráðherra talar um að tryggja sérfræðikunnáttu í gervigreind á Íslandi er rétt að hafa í huga að slík sérfræðiþekking er þegar til staðar — og hefur verið í uppbyggingu í rúma tvo áratugi. Það veldur okkur verulegum vonbrigðum að ekki hafi verið rætt við Gervigreindarsetur HR um undirbúning að gerð þess íslenska mállíkans sem ráðherra nefnir.

Þróun íslensks mállíkans og gervigreindar fyrir máltækni er að sjálfsögðu ekki lokið, enda í mörg horn að líta, heldur þvert á móti er hún rétt að byrja. Hér má m.a. nefna að beygingarkerfi íslenskunnar kallar á mikið magn þjálfunargagna til að þróa gott mállíkan með núverandi tækni, en vegna fámennis er framboð þjálfunargagna lítið í samanburði við mörg önnur tungumál. Því er ekki endilega hægt að nota sömu nálgun og fyrir tungumál með stærra gagnamengi. Þótt nýlegar rannsóknir hafi dregið úr vægi þessara hindrana gæti verið erfitt að ná sambærilegum árangri án sértækra nálgana. Að auki hafa mállíkön þróuð af erlendum aðilum ekki ratað í hendur íslenskra málhafa í eins miklum mæli og æskilegt væri — og þar skiptir nýsköpun á sviðinu miklu máli. Því færi betur á því að ráðuneytið og aðrar stofnanir ríkisins einbeittu sér að því að byggja upp og styrkja innlendar rannsóknir og þróun og hagnýta þekkingu og þjónustu sem þegar er í boði á íslenska markaðnum. Þá ættu þær jafnframt að leggja áherslu á opin notkunarleyfi í stað lokaðra lausna einkafyrirtækja.

Áform ráðherra um að borga erlendu stórfyrirtæki fyrir smíði íslensks mállíkans vekja hjá okkur alvarlegar áhyggjur, og það af fjórum ástæðum.

Í fyrsta lagi situr stór hluti ákvarðanavalds og þekkingar varðandi tæknina óhjákvæmilega föst erlendis, á fleiri en einn hátt. Ef erlent fyrirtæki smíðar líkanið verður Ísland háð þeim aðila í viðhaldi, uppfærslu og aðlögun þess. Þegar næsta kynslóð mállíkana kemur — og það gerist á nokkurra mánaða fresti — erum við aftur á byrjunarreit.

Í öðru lagi er spurning um leyfi og eignarhald. Ef niðurstaðan er lokað líkan undir sérlokun erlends fyrirtækis hefur Ísland ekki raunverulegt vald yfir tækninni. Opin leyfi eru forsenda þess að hægt sé að fínstilla, endurþjálfa og dreifa líkaninu án sérstaks leyfis.

Í þriðja lagi er innlend sérfræðiþekking þegar til staðar eins og bent hefur verið hér á að ofan, meðal annars rannsóknarhópar innan SÍM, þ.m.t. innan HR, HÍ, Vitvélastofnunar Íslands og Stofnunar Árna Magnússonar í íslenskum fræðum. Þá hafa íslensk máltæknifyrirtæki unnið að þróun mállíkana undanfarin ár. Að sneiða framhjá þessari þekkingu og kaupa beint frá erlendum aðila er ekki aðeins sóun á almannafé — heldur grefur beinlínis undan þeirri innlendu getu sem ráðherra segist vilja efla.

Í fjórða lagi er þetta í hreinni mótsögn við markmiðin sem ráðherra setur fram í eigin grein. Stafrænt fullveldi felst ekki í því að kaupa fullbúna lausn heldur í því að búa yfir þekkingu og getu til að þróa og viðhalda tækninni sjálf.

Alþjóðlegt samstarf skiptir að sjálfsögðu máli — og slíkt samstarf er þegar í fullum gangi, meðal annars í gegnum Nordic AI Partnership, New Nordics AI og Nordic AI Hub þar sem íslenskir rannsakendur og stofnanir geta unnið með norrænum samstarfsaðilum að opinni máltækni og gervigreind. Þá höfum við aðgang að evrópsku reikniafli í gegnum samstarf á borð við EuroHPC og AI Factory Antenna og ríkisstjórnin hefur gert vel í því að rækta alþjóðatengsl grasrótarinnar við erlenda samstarfsaðila. Leiðin til raunverulegs stafræns fullveldis liggur ekki í gegnum útvistunarsamning við eitt erlent fyrirtæki heldur í því að efla innlenda getu í krafti þess alþjóðlega samstarfs sem þegar er til staðar. Þannig yrði þekkingin til á Íslandi, líkönin yrðu opin og endurnýtanleg, og landið myndi öðlast raunverulega getu til að halda í við þá öru þróun sem á sér stað í gervigreind. Það er sjálfstæðisbarátta nútímans.

Við skorum á ráðherra að endurskoða þessi áform og beina fjármagninu þangað sem það skilar mestum árangri: til innlendra rannsóknarhópa og fyrirtækja sem vinna að opnum grunnlíkönum og þróa gervigreindarlausnir undir opnum hugbúnaðarleyfum.

  • Jón Guðnason, prófessor við Verkfræðideild Háskólans í Reykjavík
  • Hrafn Loftsson, dósent við Tölvunarfræðideild Háskólans í Reykjavík
  • Stefán Ólafsson, lektor við Tölvunarfræðideild Háskólans í Reykjavík
  • Kristinn R. Þórisson, prófessor við Tölvunarfræðideild Háskólans í Reykjavík
  • Hannes Högni Vilhjálmsson, prófessor við Tölvunarfræðideild Háskólans í Reykjavík
  • Henning Arnór Úlfarsson, deildarforseti Tölvunarfræðideildar Háskólans í Reykjavík



Skoðun

Sjá meira


×