Baiona (Lapurdi)

Hizkuntza gutxituak Adimen Artifizialaren parean sustatzeko engaiamendua irudikatu dute Baionan

Hizkuntza aniztasuna gaur egungo teknologietara hedatzea helburu duen Linguatec-IA proiektuari eskaini diote UIKren ikastaro bat Baionan. Euskara, aragoiera, katalana eta okzitanierari AAren munduan lekua bermatu nahi diote.

Hizkuntza gutxituak Adimen Artifizialaren parean sustatzeko engaiamendua irudikatu dute Baionan
Baionako arteen hirian izenpetu dute Hizkuntzara bideratutako Mugaz Gaindiko Bikaintasun Sarearen Adierazpena. EUSKAL IRRATIAK
Aimar Lopez Erasun
2026/07/01 17:46

Hizkuntza gutxituak AA Adimen Artifizialera egokitzeko erronka edo arazo bera atera da gaur Baionan aho ezberdinetatik: laginak txikiegia dira, eta hizkuntza handiekin lehiatzea zaila da. Pirinioen bi aldeetako hizkuntza gutxitu guztiei AAren erronketara egokitzeko tresnak eta baliabide ekonomikoak eman dizkie Europar Batasuneko Poctefa funtsei esker Linguatec-IA proiektuak. 2021etik heldu den urtera arte da martxan proiektua, eta hortaz, emaitza andana aurkezteko aukera dute jadaneko.

Adimen Artifiziala aipatzerakoan, gaur egun LLM edo Hizkuntza Eredu Handiak dira aipagai funtsean -ChatGPT, Claude eta antzekoak-. Horiek, datuak dituzte gibelean, eredu horiek ulertzeko moduko datuak; hots, ahots eta testu corpusak. Lleidako (Katalunia) unibertsitateko Helena Torresek argi laburbildu du erronka: “Daturik gabe, ez da Adimen Artifizialik”. Araneraren corpusak sortzen eta honekin AA ereduak elikatzen ari da Torres, 2.500 hiztun inguruko hizkuntzak corpus arrunt txikia zuelarik proiektuarekin hasi arte. Linguatec-IAri esker, araneraz idatziak ziren testu gehienak bildu dituzte, gehiago sortu, eta bereziki, hamalau bat oreneko ahots corpusa sortu dute. Honi esker, itzultzaileak garatu dituzte, eta ahots sintesia, transkripzio zerbitzua eta bertze batzuk prest izanen dituzte heldu diren urterako.

Okzitanieraren kasuan, bertze erronka nabarmen bat gehitzen zaio AAk hizkuntza behar bezala identifikatu eta erabiltzeari: euskarak bezala, dialekto andana dituen hizkuntza da. Okzitanieraren Kongresu Iraunkorreko zuzendari Benaset Dazéasek azaldu duenez, languedocera da AAk hobekien erabiltzen duena, eta eredu handiek haienganatua dute jadanik. Aldiz, gaskoierak, limousinerak edo proventzalak adibidez, gibelapen handia pairatzen dute. Lehen lana hiztegi historikoak erabiltzeko baimenak lortu, hiztegiak digitalizatu eta datu horiekin corpusak osatzea izan da.

ÒCTele okzitanierazko web-telebistaren zuzendari den Lionel Buannicek argi du Adimen Artifizialak hizkuntza gutxituetan ari diren hedabideentzat bidelagun behar duela. “Multilinguismoan” aliatua izatea nahi luke Buannicek: “Gaur egun, azpitituluei esker, Mantxaren eta Atlantikoaren bertze aldean ikusleak ditugu. Publikoa ohitua da ulertzen ez dituen hizkuntzetan eduki azpititulatuak ikusten, eta AAk azpititulatze lan horretan laguntzea nahi genuke”. Okzitanieran “epe laburrean” lortuko dutela badio, bretoieraz bertze egoera bat da. Izan ere, BreizhoWeb telebistaren sortzaile eta zuzendaria ere bada Lionel Buannic, eta askoz pesimistagoa da hizkuntza zeltikoaren egoeraz. Gaur egun eta 2006an hedabidea sortu zutenetik, eskuz egiten dute transkripzioa eta frantsesera itzulpena.

AAren inguruko obsesioa, ala ezinbertzeko ekimena?

2021 inguruan LLMak hedatu zirenetik egunero aditzen da Adimen Artifizialari buruzko berririk, eta berrikuntza teknologikoek ere asteroko erritmoa dute. Linguatec-IA proiektuaren eramaileentzat baina, ezinbertzekoa da gure hizkuntza gutxituak eredu hauetara moldatzea. Elhuyar fundazioaren parte den Orai NLP zentroko Aitzol Astigarraga informatikariak Andras Kornairen aipu bat erabili du horretarako: “Hizkuntzen %5 bakarrik dago eremu digitalean; gainontzeko %95 heriotzera kondenatua da”. Aipu hau 2013ko jardunaldi batean egin zuen, Astigarragak beraz, eremu digitalean egotearen egungo parekoa AAk elikatzea dela dio.

Horiek hala, Linguatec-IA proiektuarekin bazkide bakoitzak bere helburu propioak baditu ere - Elhuyar, Okzitanieraren kongresu iraunkorra, EHUren Hitz zentroa, Tolosako Jean Jaurès unibertsitatea, Perpinyàko Via Domitia unibertsitatea, Iker zentroa, Lleidako unibertsitatea eta Aragoiko gobernua dira partaideak- Elhuyarrek, proiektuaren gidari gisa, denen erabilerarako plataforma bat garatuko du. Honen bidez, euskara, katalana, aragoiera eta okzitanieraren hainbat dialekto automatikoki transkribatu, itzuli eta bikoizteko aukera izanen da, sarean eta segundo gutxian. Horrez gain baina, bazkide ezberdinen artean eta lau hizkuntzetan sortu duten corpus linguistikoa batu eta eskuragarri eginen dute. Egindako ikerketa guztiarekin gainera, LLM ereduak elikatzeko aukera ere izanen dute.

Interesgarri izanen zaizu