Käännetään rautalangasta -podcast, 14. jakso: Konekääntäminen ja tekoälysovellukset

Haastattelu: Toimittaja Juha Roiha

Puhujat: Tampereen yliopiston väitöskirjatutkija Riku Haapaniemi ja Itä-Suomen yliopiston post-doc-tutkija ja Tampereen yliopiston yliopisto-opettaja Mary Nurminen

Tuotanto: SKTL:n viestintäasiantuntija Maarit Laitinen 

Käsikirjoitus: Riku HaapaniemiSari HokkanenTuija KinnunenMaarit LaitinenMary Nurminen, Esa PenttiläJuha Roiha, Kristiina Taivalkoski-Shilov ja Gun-Viol Vik


[Kesto 32 min 29 s]

Konekääntäminen ja tekoälysovellukset kuten ChatGPT ovat viime aikoina olleet kovasti tapetilla. Miten ne muuttavat maailmaa ja minkälaisia eettisiä kysymyksiä niiden käyttämiseen liittyy? Entä miten konekääntäminen määritellään? Mitä tarkoittaa, kun tekoäly hallusinoi? 

Litterointi:

[tunnusmusiikkia] 

Juha Roiha: Tervetuloa taas kääntämään rautalangasta. Tämänkertainen aiheemme on konekääntäminen. Onko konekääntäminen kääntämistä, ja jos on, niin millä tavalla se on kääntämistä ja miten se vertautuu ihmisen tekemään käännökseen, ja jos se ei ole kääntämistä, niin miksi se ei ole kääntämistä? Minä olen Juha Roiha ja kanssani ovat keskustelemassa opettaja ja tutkija Mary Nurminen Tampereen yliopistosta ja Itä-Suomen yliopistosta. Tervetuloa.

Mary Nurminen: Kiitos, kiitos.

Juha Roiha: Ja myös väitöskirjatutkija Riku Haapaniemi Tampereen yliopistosta.

Riku Haapaniemi: Hei vaan.

Juha Roiha: Ensimmäisenä heitän teille eteen konekäännöksen. Oletteko te tyytyväisiä seuraavaan ChatGPT:n vastaukseen siitä, miten konekääntäminen eroaa ihmisen tekemästä kääntämisestä. Näin tämä Chat vastaa: ”Konekääntäminen on automaattista kääntämistä, jota ohjelmistot tekevät yleensä yhdistämällä yhden kielen sanoja toiseen. Konekääntäminen on nopeampaa ja halvempaa kuin ihmisen tekemä kääntäminen, mutta tarkkuus ja laatu eivät ole yhtä hyviä. Konekääntäjät eivät ymmärrä kielen kontekstia ja syntaksia ja he eivät voi tarkastella kielen kaunistusta ja konventioita, joten konekääntäminen antaa usein epätarkkoja tai vääriä lauseita. Ihmisen tekemä kääntäminen on huolellisemmin harkittua ja tarkasti tehty. Kääntäjät voivat tarkastella kontekstia ja ymmärtää sisältöä, joten he voivat tuottaa tarkkoja ja laadukkaita käännöksiä.”

Miltä tämä tuntuu, Mary?

Mary Nurminen: Se on aika ChatGPT:mäinen eli aika yleistasoista tekstiä. Muutamassa kohdassa sanoisin, että olen eri mieltä. Ensinnäkin, kun on mukana, että se yhdistää yhden kielen sanoja toiseen. Se on minusta vähän yksinkertaisesti sanottu ja voi tuottaa väärän kuvan, että tämä on niin kuin sanakirja, että tässä on yksi sana ja minä laitan tämän sanan sen sijaan. Näin se ei toimi. Se on paljon monimutkaisempi. 

Toinen on, että puhutaan konekääntäjistä, ja minä olen aika tarkka opiskelijoiden kanssa, että kone on käännin. Suomen kielessä on hyvä sana jo varattuna sille. Jos siitä puhutaan kääntäjänä… Ihminen on kääntäjä ja kone on käännin. Ne pitää erottaa.

Juha Roiha: Niin, se personoi turhaan tavallaan. Antaa…

Mary Nurminen: Joo, niin se tekee, mutta tässä tekstissä puhutaan myöhemmin kääntäjistä, ja me menemme sekaisin, että mistä nyt puhutaan. 

Kolmas asia on, että tässä lukijat eivät ymmärrä kielen kontekstia ja syntaksia. Kone ei ymmärrä kontekstia, mutta se käsittelee syntaksia aika hyvin tällä hetkellä, ja suomen kielessä myöskin. 

Juha Roiha: Eli tämä oli normaali ChatGPT:n vastaus, eli jonkun verran oikein ja jonkun verran väärin.

Mary Nurminen: Kyllä.

Juha Roiha: Riku? 

Riku Haapaniemi: Joo, minusta tuossa näkyy aika hyvin se periaate, jolla ChatGPT ja tällaiset kielimallit ylipäänsä tekstiä tuottavat. Ne ovat vähän sellaisia keskimääräisiä tuotoksia. Ne tuottavat tekstejä ja kieltä sillä tavalla, että ne analysoivat niille annettuja prompteja tai näitä syötteitä, niin kuin sinä olet laittanut sille tuon kysymyksen, ja sitten tuottaa todennäköisyyslaskennan kautta ikään kuin sellaisen todennäköisimmän vastauksen perustuen siihen kielidataan ja tekstimassaan, millä se on oppinut sen. Siltä tulee sellaisia keskimääräisiä vastauksia ja se, onko se oikein vai väärin, riippuu ihan siitä, minkälaista dataa sille on syötetty ja mitä siinä datassa on ollut. 

Juha Roiha: Ennen kuin voimme mennä vähän syvemmälle tuohon, meidän täytyy määritellä ihmisen ja koneen ero ja se, mitä kääntäminen on. Mistä me puhumme, kun me puhumme kääntämisestä? Mary?

Mary Nurminen: No tämä on hyvä kysymys. Sen takana on niin iso kysymys, että onko konekääntäminen kääntämistä, ja jos se on, niin miten se on samanlaista ja miten se eroaa ihmiskäännöksestä, ja jos se ei ole, niin pitääkö meidän muuttaa konseptiamme kääntämisestä, jotta se mahtuu siihen. 

Tämä koko aihe alkoi oikeastaan vuonna 2018, jolloin olin KäTussa, joka on meidän jokavuotinen konferenssimme, jota juuri vietettiin Turussa. Silloinkin konferenssi oli Turussa, ja sellainen henkilö kuin Félix do Carmo puhui ennen minua, ja minä puhuin hänen jälkeensä, ja meillä oli aika vastakkaiset puheet. Siitä syntyi keskustelu meidän välillemme. Myöhemmin samana vuonna oli toinen konferenssi ja sitten oli sähköpostikeskusteluja ja lopulta meillä oli viime vuonna isossa kansainvälisessä konferenssissa työpaja, jonka nimi oli ”Onko konekääntäminen kääntämistä?” Lisäksi on tulossa journaalin erikoisnumero, ja nyt se on johtanut tähän podcastiinkin. 

Mutta do Carmo sanoo, että sen sijaan, että pitäisi määritellä tai nimetä kääntämistä uudelleen, hän ehdottaa, että pitää nimetä konekäännös uudelleen. Hän ehdottaa sellaista kuin artificial translation, joka minusta on englanniksi vähän sama kuin machine translation, mutta suomeksi ”tekokäännös”. Minä tykästyin siihen, minusta se käy ihan hyvin.

[naurua]

Juha Roiha: Siinä on pieni vähättelevä sävy, eikö ole? Niin kuin tekonauru, tekoitku, tekokäännös.

Mary Nurminen: Niin, mutta ehkä se yhdistyy niin helposti tekoälyyn. Se on se, jonka me tunnemme ja josta me tiedämme niin paljon, että sitä vähättelyä ei ole mukana. Niin.

Juha Roiha: Riku?

Riku Haapaniemi: Tuo on ihan mielenkiintoinen ajatus tekokääntämisestä. Jossain määrin, minä sanoisin, voisi olla luontevampaa puhua suomeksi – nyt kun meillä suomessa on näitä kaikkia erinomaisia sanoja, kuten kääntäjä ja käännin, ja pystytään tekemään tämmöisiä eroja – ehkä voisi olla jossain määrin parempi puhua kääntymisestä kuin kääntämisestä jossain määrin, koneista puhuttaessa tai koneen tekstintuotantoprosesseista puhuttaessa, koska inhimillinen käännöstoiminta on nimenomaan kääntämistä. Se on aktiivista toimintaa. Se on tekstien tulkintaa ja niiden kohdekontekstien määrittelyä ja käyttötarkoitusten määrittelyä ja merkityksen rakentamista teksteistä ja merkityksen ilmaisemista tekstien kautta. 

Koneen tämä konekääntäminen, konekääntyminen on vähän erilaista siinä mielessä, että se on, niin kuin aikaisemmin sanoin, laskennallista toimintaa. Se on todennäköisyyksien laskemista kielen fragmenttien välillä eri kielissä, ja näiden tekstikokonaisuuksien ikään kuin kompiloimista näiden laskennallisten prosessien perusteella. Se on aika perustavanlaatuinen ero niiden välillä siinä mielessä.

Juha Roiha: Onko tuossa semmoinenkin ajatus, että jos kone ei tunnista jotakin sanaa, niin se ei lähde hakemaan sitä mistään, koska jos sillä ei ole yhteyttä, se ei voi hakea, mutta se päättelee todennäköisesti, mikä se sana on ja arvaa sen siitä kontekstista. 

Riku Haapaniemi: Tavallaan kyllä. Oikeastaan se ei käsittele sanoja edes sanoina, se käsittelee niitä – puhutaan tokeneista – kielifragmentteina, muutaman merkin jonona, jolla on jokin tietty suhde muihin merkkijonoihin koko valtavassa tekstimassassa, mikä sillä on käytettävissään. Se on tottunut näkemään fragmentteja yhteydessä muihin merkkijonoihin siinä koko valtavassa massassa, mikä sillä on tutkiskeltavanaan. Näiden fragmenttien välisten suhteiden perusteella se pystyy tuottamaan hyvin uskottavan näköisiä tekstejä. Mutta se prosessi, kun sitä vertaa siihen, miten ihminen tuottaa tekstiä merkitysten rakentamisen kautta ja merkitysten ilmaisemiseksi, niin koneella se on täysin laskennallinen prosessi ja ikään kuin vain kielellisen muodon toisintamista näiden laskennallisten prosessien ja todennäköisyyslaskennan perusteella.

Juha Roiha: Mary, kommentti?

Mary Nurminen: Fragmentoimisesta seuraa myös hallusinaatio, mitä tekoäly tekee usein. Se osaa pilkkoa sanoja ja etsiä todennäköisiä vastaavuuksia opetusdatastaan. Se tarkoittaa, että se voi entistä enemmän tuottaa onnistuneita käännöksiä, mutta myös ihan keksiä joitakin sanoja. Se kyllä keksii, eli se hallusinoi aika useinkin. Mutta jos tietää, mikä on hallusinoinnin takana, että siinä kone pilkkoo sanan ja etsii sitten siitä ensimmäisestä fragmentista jotain, niin siitä voi joskus päätellä, miten se on tullut johonkin tulokseen.

Juha Roiha: Minusta tällainen hallusinoiminen, kone joka tekee hallusinaatioita, on aika pelottava ajatus toisaalta. [naurua]

Mary Nurminen: Niin, niin. Joo. Mutta se on vain tekninen termi, mitä käytetään siitä.

Juha Roiha: Joo.

Mary Nurminen: He puhuvat myös ChatGPT:stä, että se hallusinoi. 

Juha Roiha: Mutta sillä voidaan siis tuottaa myös laadukkaita käännöksiä, kunhan se on ohjelmoitu tarpeeksi hyvin, eli sille on annettu riittävä määrä, kuten sanoit näitä tokeneita, tätä tietomassaa, mistä se pystyy, ei hallusinoimaan vaan keksimään ja löytämään oikeat ratkaisut ja vastaukset.

Riku Haapaniemi: Niin, tai tekoälyssä puhutaan mieluummin kouluttamisesta kuin ohjelmoinnista. Ne ovat hieman eri asioita. Kun ajatellaan tekoälyä tai näitä kielimalleja, niin niitä nimenomaan koulutetaan siten, että niille syötetään paljon tekstimassaa, josta ne voivat oppia kielen fragmenttien välisiä suhteita ja sitten sen perusteella tuottaa tekstejä. Sitten niitä myös aktiivisesti testaillaan, niitä sen tuotoksia, ja katsotaan, onko niistä mihinkään ja ovatko ne sitä, mitä halutaan. Sitten ohjataan ja painotetaan koulutusaineistoa sen mukaan, minkälaisia tuloksia mieluummin halutaan sen tuottavan.

Kuten me kaikki tiedämme ja kuten tuosta lukemastasi tekstipätkästä nähdään, niin onhan se ihan uskottavaa kieltä sinänsä ja onhan se ymmärrettävää sisältöä, mitä se tuottaa. Onhan se teknologiana hienoa ja tehokasta, ja uskottavaa tekstiä, mitä se tuottaa. Siitä huolimatta, että se on ihan erilainen prosessi kuin ihmisellä, se minkä kautta se niitä tekstejä tuottaa, se on minusta mielenkiintoista, että ne tuotteet sinällään ovat hyvinkin samankaltaisia sitten loppujen lopuksi, jossain määrin ja jossain määrin ei.

Juha Roiha: Missä määrin konekääntäminen on herättänyt hämmennystä akateemisissa piireissä ja yliopistolla? Suhtauduitteko te siihen alun perin, että no, tämä voisi olla hyvä yksi työkalu, vai nähdäänkö tämä jotenkin vallankumouksellisena, että tämä muuttaa kaiken ja että nyt meidän täytyy vaihtaa määritelmiä, että tämä vaikuttaa molempiin suuntiin ja apua?

Mary Nurminen: No, on kaksi tapaa käyttää konekäännintä, eli kääntäjät, ihmiskääntäjät käyttävät sitä työkaluna kääntämisen prosessissa, ja sitten tavalliset ihmiset käyttävät sitä työkaluna kommunikaation prosessissa. Kääntäjän prosessissa se on yksi työkalu, joka on uusi ja on tuonut aika paljon uutta, mutta se ei ole ensimmäinen, eli kaikenlaisia teknologioita on tullut ja on ollut sama prosessi, että alussa se on ollut vähän hämmentävää, mutta sitten loppujen lopuksi [uusi teknologia] integroidaan prosessiin ja kaikki on hyvin.

Mutta tämä toinen puoli, että miten ne muut käyttäjät käyttävät sitä, on minusta tuonut aika paljon hämmennystä, ja lukija on – yksi iso ero on, tai on monta isoa eroa, mutta yksi iso ero on, että lukija on niin paljon enemmän mukana. Se on mukana koko prosessissa. Eli ensimmäistä kertaa lukija tai käyttäjä päättää, mitä tekstejä käännetään ja mille kielille. Aikaisemmin, jos ei ollut paljon rahaa ja jos ei ollut tapaa saada äkkiä kääntäjää tai tulkkia mukaan, niin tavallisella ihmisellä ei ollut tällaista päätäntävaltaa tai toimijuutta. Joku jossakin firmassa päätti, että tämä teksti on tärkeä tälle ryhmälle ja tälle kielelle. Ovatko päätökset aina olleet oikeita vai vääriä, emme tiedä. Mutta tämä iso muutos on tullut, ja se minusta hämmentää aika paljonkin. 

Juha Roiha: Onko tämä tavallaan myös demokratisoivaa?

Mary Nurminen: Minusta se on. Juuri tämän takia, että on päätösvalta. 

Juha Roiha: Riku, kommenttia sinulta?

Riku Haapaniemi: Tämmöinen käännöstieteilijä kuin Lily Robert-Foley on mielestäni sanonut ihan osuvasti, että konekääntämisen tulemista voi pitää kääntämisen alalla ja käännöstieteen alalla samanlaisena muutoksena kuin oli muutos muotokuvamaalauksessa, kun valokuvaus yleistyi ja valokuvaaminen tuli laajemmin saataville. Se on minusta aika hyvä vertaus siinä mielessä, että sekä tässä teoreettisessa, määritelmällisessä puolessa, että tässä käyttäjäpuolessa, mistä Mary juuri puhui… Se on muutos, jonka myötä on tullut käytettäväksi työkalu, joka nopeuttaa ja joka tehostaa sellaista prosessia tosi paljon, mihin on aikaisemmin vaadittu paljon inhimillistä ammattitaitoa ja inhimillistä työpanosta. Kone pystyy nyt tekemään sen mekaanisesti hyvin nopeasti, hyvin tehokkaasti, hyvin halvalla ja saavuttaa jossain määrin, joihinkin tarpeisiin hyvin samanlaisia lopputuloksia, kuin mitä ihmisen työllä saavutetaan.

Mutta ihan niin kuin ei maalaustaidekaan ole mihinkään kadonnut, vaikka meillä on kaikilla taskuissa kamerat ja niillä räpsitään kuvia enemmän kuin koskaan. Maalaustaidetta on olemassa edelleen, sillä on yhteiskunnallinen rooli, ja kyllä minä näkisin, että käännöstieteellä ja kääntäjillä on yhteiskunnallinen rooli siitä huolimatta, että konekääntäminen yleistyy. Itseasiassa käännöstieteilijöillähän on… Meidän ammattitaidollammehan on valtavasti tilausta, mitä enemmän konekääntäminen yleistyy ja mitä enemmän tarvitaan tietoa kaikista sen eri käyttökohteista ja niistä toimintaperiaatteista, joilla se toimii.

Juha Roiha: Pitäisikö meidän sitten ajatella vaikka niin, että jos tätä kääntämistä katsotaan näin, ja jos me puhutaan tämä kyseisen ChatGPT:n käyttämisestä, niin onko konekääntäminen kääntämistä ollenkaan? Mitä meidän pitäisi siitä ajatella? Vai onko se niin kuin sanakirja, joka otetaan esille ja avuksi ja etsitään sieltä konteksteja ja merkityksiä ja oikaistaan joitakin mutkia, ettei tarvitse mennä nettiin tai tonkia [tuota], vaan kone tekee sen meidän puolestamme?

Mary Nurminen: Kyllä se minusta on kääntämistä, kuitenkin. 

Juha Roiha: Siis sekin on kääntämistä?

Mary Nurminen: Sekin on kääntämistä. Se tuottaa käännöksen eri lailla kuin ihminen, mutta kuitenkin se on kääntämistä. Kaikista eniten sanon, että se on kääntämistä sen takia, että jos kysytään vaikka, onko kauramaito maitoa, niin aika moni, ehkä maanviljelijä, saattaisi sanoa, ettei se ole, koska se on tuotettu eri lailla kuin maito yleensä tuotetaan. Jos katsotaan vain prosessia, niin voidaan katsoa, ettei se ollenkaan ole, mutta jos katsotaan, miten sitä käytetään juuri samalla tavalla kuin maitoa, niin siinä mielessä se on maitoa. 

Samalla tavalla konekäännöksiä käytetään yleensä lähes samalla tavalla kuin ihmiskäännöksiä, mutta minulla on sellainen vahva uskomus, että kuitenkin, vaikka se on kääntämistä ja ne ovat käännöksiä, niin ihmisten on hyvä olla aina tietoisia, jos he käyttävät raakakonekäännöksiä, jotka tulevat vaikka Google Translatesta eikä niitä ole kääntäjä jälkieditoinut. On tärkeä olla koko ajan tietoinen, että luetaan juuri sitä ja olla tietoisia siitä, että esimerkiksi virheet eivät ole mitään riskitekijöitä vaan ne ovat vääjäämättömyyksiä. Konekäännetyssä tekstissä on virheitä läpi tekstin, mutta jos sen pitää mielessä koko lukemisen ajan, niitä voi käyttää hyvänä käännöksenä.

Juha Roiha: Riku?

Riku Haapaniemi: Joo, minusta voisi, jos haluaa ajatella kysymystä, onko konekääntäminen kääntämistä tai olisiko hyödyllistä ajatella, että konekääntäminen ei olisi kääntämistä, niin… Semmoinen ero minusta on hyödyllistä ja ihan välttämätöntäkin tehdä, että konekääntäminen ei ole kääntämistä samalla tavalla kuin ihmiskääntäminen on kääntämistä. Siitä juuri johtuu tuo, mistä Marykin puhui, että kun lukee varsinkin raakaa konekäännöstä, on tärkeää tietää, että se on nimenomaan koneen tuottama teksti. Silloin pystyy ikään kuin tulemaan puoliväliin vastaan tekstiä ja, kun tiedostaa sen taustalla olevan erilaisen prosessin ja sen, että se on mekaanisesti, laskennallisesti tuotettu merkkijono, eikä samalla tavalla merkitystä ilmaiseva teksti kuin inhimillisesti tuotettu teksti on, niin pystyy ikään kuin lukemaan sen tekemien virheiden ja epätarkkuuksien ohi ja pystyy miettimään, että mitäköhän lähtöteksti olisi alun perin ollut ja mitä siinä on tarkoitettu. Eron tiedostaminen myös auttaa ihmisiä toimimaan konekäännösten ja konekääntimien kanssa paremmin.

Siinä on sellainen vaara, että kun ruvetaan tekemään tiukkoja kategorisointeja siitä, mikä on kääntämistä ja mikä ei ole kääntämistä, että me tulemme rajanneeksi joitakin kääntämisen kannalta olennaisia ilmiöitä meidän tieteellisen tutkimuskenttämme ulkopuolelle käännöstieteessä. Se on ihan fataali virhe, minkä teemme, jos tulemme rajanneeksi konekääntämisen ja konekääntimet käännöstieteen ulkopuolelle, koska sehän on ihan olennainen osa ja koko ajan yhä isompi osa käännöstoimintaa arjessa. Kyllä sen ehdottomasti täytyy olla sellainen ilmiö, johon meillä on työkaluja ja teorioita ja metodeja tutkia käännöstieteen sisällä ja osana kääntämisen kaikkia ilmiöitä.

Mary Nurminen: Saanko sanoa yhden asian? Olen nähnyt tutkimuksissani – minä tutkin nimenomaan ihmisiä, jotka käyttävät raakakonekäännöksiä jokapäiväisessä elämässään eivätkä kääntämisen prosessissa – niin olen nähnyt sen ilmiön, johon Riku viittasi ja jossa tullaan puoliväliin vastaan. [Konekäännöksen käyttäjät] ottavat sellaisia vastuita, mitkä yleensä olisivat kääntäjällä. Jos on hyvin tietoinen raakakonekäännöksen käyttäjä, niin ottaa näitä vastuita. He esimerkiksi tietävät, että tämä on riskialtista, ja pyrkivät käyttämään raakakonekäännöksiä vain sellaisissa konteksteissa, missä riskejä voidaan arvioida ja missä riski ei toteudu niin isona. 

Jos ihminen, joka käyttää raakakonekäännöksiä tietää aika paljon siitä aihepiiristä, josta teksti kertoo – tai genrestä – hänellä on valmiuksia tehdä juuri niin kuin Riku sanoi. Jos [käännöksessä] on joku aukko tai jotakin on jäänyt pois, koska on ollut virhettä, he voivat täydentää [käännöstä]. Yhtä tärkeää on se, että yleensä jos on virhe, siis faktavirhe, he huomaavat sen paljon nopeammin ja tehokkaammin, koska he tietävät, millainen tekstin pitäisi olla ja miten aihepiiri toimii. 

Juha Roiha: Te kumpikin viittasitte, ja erityisesti Mary viittasi siihen, että ongelmat saattavat tulla siinä, että kun tottumaton käyttäjä käyttää [konekäännöstä], hän tulkitsee tätä asiaa hieman eri tavalla. Tässä tullaan siis samaan ajatteluun, jossa puhutaan median käytöstä, ja siihen, mistä puhuttiin, kun netti tuli. Mikään ei ole niin tärkeää kuin lähdekritiikki ja se, että tietää mistä tieto on tullut, ja tässä tapauksessa tieto siitä, onko siellä ollut ihminen vai kone kääntäjänä ja vielä millä tavalla ohjelmoitu kone ja paljonko sillä koneella on ollut tietoa. Onko tulkintani jotenkin oikea?

Riku Haapaniemi: Tämä on ihan oikea tulkinta. Siis medialukutaidosta tietenkin puhutaan paljon, tekoälylukutaidosta puhutaan paljon ja myös käännöstieteen kentällä puhutaan konekäänninlukutaidosta. Marykin on sitä käsittääkseni tutkinut tai on ainakin puhunut tästä aiheesta.

On tärkeä asia, että lukija tai tekstin käyttäjä tai konekääntimen käyttäjä tietää, mikä se prosessi siellä taustalla on, ja tietää, minkälainen se teksti on, mitä se tuottaa, ja millä periaatteilla se on tuotettu. Silloin pystyy vähän niin kuin piru Raamattua lukemaan sitä [konekäännöstä]. Pystyy katsomaan sieltä ja tietää suurin piirtein, mitkä ovat ne yleisimmät virheet ehkä, tai ylipäätään ne periaatteet, millä se teksti on tehty ja muotoiltu, ja osaa sitten lukea vähän sitä tekstiä vastaan eikä ota sitä ikään kuin ihan niin annettuna tai niin totuutena.

Juha Roiha: Miten tosissaan ihmiset sitten ottavat konekäännöksen? 

Mary Nurminen: Mitä tarkoitat?

[naurahdus]

Juha Roiha: Miten tosissaan he nappaavat siitä kiinni?

Mary Nurminen: Aa, miten tosissaan. Minä olen ehkä tutkinut enemmän ihmisiä, jotka ovat niin sanottuja hyviä käyttäjiä, jotka ovat tosi tietoisia riskeistä ja kaikesta. Mutta on varmasti – koska tiedetään, että on vähintään miljardi ihmistä, jotka käyttävät raakakonekäännöksiä – ilman muuta on mukana paljon ihmisiä, jotka ehkä ottavat tosissaan. En tiedä. 

Jos ihmisen on pakko laittaa teksti johonkin työkaluun, niin hän tietää, että se [käännös] ei ole ihmisen tuottama. Mutta on myös firmoja ja organisaatioita, jotka ovat päättäneet leikkiä, että konekäännös on ihmiskäännös, mikä on aina virhe. Silloin ihminen ei välttämättä tiedä, että lukee raakakonekäännöksiä, ja tämä on vaarallinen tilanne. Mutta kaikista eniten se on sen organisaation virhe. He voivat käyttää sitä [konekäännöstä], mutta aina pitäisi ilmoittaa lukijalle, että tämä on raakakonekäännös.

Juha Roiha: Miten sitten tämä eettinen puoli, Mary ja Riku? Jos mietitään sitä, että kun kone tekee käännöksen, niin onko se puolueeton käännös, kun se on kerran vain kone, joka kääntää? No, jokuhan sen koneenkin on ohjelmoinut. Jos taas ajatellaan sitä, miten tämä menee siinä, että sukupuolten käsittely, sukupuolten määrittely, sukupuolittuminen yleensä, mikä on meidän on meidän tavallisten ihmisten eikä vain koneiden maailmassa olemassa oleva ilmiö, niin siirtyykö se sitten sinne, koska ihmisethän ne koneet ohjelmoi?

Riku Haapaniemi: Joo siis nämä ovat mielenkiintoisia kysymyksiä nämä eettiset kysymykset tekoälyn näkökulmasta. Niin kuin aikaisemmin sanoin, niin se tapa, jolla kone tuottaa tekstejä on todennäköisyyslaskentaa ja silloin saadaan tällaisia ikään kuin keskimääräisiä, tällaisia mediaanitekstejä. Sen koko valtavan tekstimassan, mikä sille on syötetty, niin sen perusteella laskettu keskimääräinen tuotos, minkä se tekoälyn kielimalli tuottaa. Tämä tarkoittaa sitä, että jos siellä tekstimassa, joka sille on syötetty, on esimerkiksi sukupuolittuneita ilmaisuja tai stereotypioita tai erilaisia rakenteita, jotka ovat olleet läsnä meidän yhteiskunnassamme, niin ne heijastuvat [koulutus]teksteissä ja sitten ne heijastuvat tekoälyn tai konekääntimen tuotoksissa. 

Juha Roiha: Mary?

Mary Nurminen: Lisäksi on muita eettisiä kysymyksiä. Esimerkiksi kuka omistaa sen datan, jolla koulutetaan koneita. Jos ihmiskääntäjät tuottavat sitä, kuten se enimmäkseen menee, niin onko heillä mitään oikeuksia dataan? Pitäisikö heille maksaa erityistä korvausta siitä, että heidän tekstinsä kouluttavat näitä koneita? Tällä hetkellä nämä ovat täysin avoimia kysymyksiä.

Sitten tämän vuoden KäTussa Kristiina Taivalkoski-Shilov puhui plenaaripuheessaan siitä, että kun koulutetaan joku malli, se vaatii valtavasti energiaa ja sähköä, ihan raakaa sähköä ja energiaa. Tämä on yksi eettinen kysymys. Kuinka paljon olemme valmiita käyttämään meidän väheneviä resurssejamme siihen, että koulutetaan taas uusi kielimalli tai käännin?

Minä yleensä tykkään tuoda esille myös positiivisia eettisiä kysymyksiä. Voidaanko käyttää konekäännöksiä siihen, että esimerkiksi, että ihmisillä olisi parempi pääsy teksteihin, jotka olisivat heille tärkeitä heidän elämässään? Voiko uusi asukas jossakin maassa päästä nopeammin mukaan yhteiskuntaan sillä, että he pääsevät heti lukemaan heille tärkeistä asioista?

Juha Roiha: Eli konekääntäminen voidaan jo nähdä… Tähän lopuksi voimme vielä pohtia sitä vanhaa kysymystä, että onko joku uhka vai mahdollisuus. Tämä sisältää tavallaan molemmat. Sinä sanoit, että niitä hyviä mahdollisuuksia… Juuri tämä, mitä käsittelimme jo aikaisemmin, Mary, tätä demokratisoitumista ja tavallaan tasa-arvoistumista ihmisten tekstinkäsittelyssä ja katsomisessa siihen ja pääsemisessä eri kieliin sisälle.

Mary Nurminen: Kyllä. Kyllä on mahdollisuuksia. Siinä oli muuten myös yksi eettinen kysymys vielä, joka on se, että tällä hetkellä niin sanotut isot kielet jyräävät tässä maailmassa. Ensimmäiset mallit tehtiin juuri näille – englanti, espanja, kiina, suomi, näille kielille ja sellaiset pienemmät kielet tai vähäresurssisemmat – puhutaan vähäresurssisista kielistä eli sellaisista, joilla ei ole hirveästi juuri sitä dataa, mitä tarvitaan, kun koulutetaan malleja – ja ehkä juuri nämä kielet olisivat tärkeitä juuri näissä kysymyksissä, missä voidaan edesauttaa tasa-arvoa. Paljon tehdään työtä sen eteen, että voidaan tuottaa malleja, jotka auttavat myös näitä pieniä kieliä.

Juha Roiha: Riku?

Riku Haapaniemi: Joo, ehdottomasti on yhteiskunnallisen osallistumisen ja tiedon saavutettavuuden kannalta hirvittävän hienoja mahdollisuuksia, mitä konekääntäminen, konekääntämisen yleistyminen tarjoaa. 

Minun osakseni jäi nyt puhua näistä uhkista myös ja olla pahana poliisina tässä lopuksi. On tässä uhkia tietenkin myös, ja yksi ihan oleellinen uhka minun mielestäni on, että jos näitä konekääntimiä ja tekoälyä ylipäätään ei käytetä… Siis jos niitä käytetään kritiikittömästi ja ymmärtämättä ja tiedostamatta sitä prosessia, mikä siellä taustalla on, ja [ymmärtämättä] juuri sitä eroa inhimillisen tekstintuotannon ja inhimillisen kääntämisen ja koneellisen tekstintuotannon ja koneellisen kääntämisen välillä, niin kyllä on vaara, että se typistää meidän ymmärrystämme siitä, mitä kieli on, mitä merkitys on, mitä kielen ymmärtäminen ja mitä kommunikointi on, ja minkälaisia erilaisia tapoja kokea maailmaa ylipäätään on. 

Hyvin ja tiedostavasti käytettynä ja harkiten käytettynä tekoäly on tosi hieno työkalu, joka toivottavasti muuttaa maailmaa paremmaksi monella tapaa, mutta sen kanssa pitää mielestäni olla myös varovainen ja tiedostava siitä, miten se toimii.

Juha Roiha: Kiitos, Riku Haapaniemi, ja kiitos, Mary Nurminen. Koneälyn ja kääntämisen keskustelun päätteeksi voisi vaikka todeta, että se on oppimista puolin ja toisin, niin koneelta kuin käyttäjältä, niin ihmiseltä kuin siltä työkalulta. Kiitoksia.