Ladataan
Pääaiheet 100 tuoreinta Satakunta Tähtijutut Urheilu Näköislehti Lukemisto Porilaine Kulttuuri

Näkymä lähitulevaisuudesta: Lapset skannaavat älypuhelimilla ymmärrettävään muotoon vanhempiensa käsialaa – Kone tunnistaa jo hyvin kaunokirjoitusta

Ihmisen käsialan tunnistaminen onnistuu tietokoneilta jo hyvin. Näin kertoo Kansallisarkiston ylitarkastaja Maria Kallio, joka on mukana käsinkirjoitetun tekstin tunnistamista selvittävässä hankkeessa. Koneoppimista ja neuroverkkoja käyttämällä on saatu hyviä tuloksia jopa aineistosta, jossa on paljon erilaisia vaihtuvia käsialoja. Teknologia on jo olemassa, vaikka se ei ole vielä levinnyt laajalle. –Tosi hankaliakin käsialoja pystytään tunnistamaan, vaikka ihmisestä epäselvältä näyttävä käsiala on vaikeaa myös koneelle. Kun on riittävästi esimerkkiaineistoa, hankalistakin käsialoista saa selvää. Kone saattaa joskus arvata paremmin kuin itse, Kallio kertoo. Koneen etu ihmiseen verrattuna ovat laajat tausta-aineistot tekstintunnistuksen apuna. Tekstintunnistamisessa tunnistetaan kokonaisia rivejä kerralla, ja kone pystyy hyödyntämään kokonaisia sanakirjoja. Esimerkiksi toiseen maailmansotaan liittyvän aineiston taustaksi voi luoda aiheeseen liittyvän sanakirjan. Kansallisarkisto on mukana Euroopan komission READ-hankkeessa, jossa kehitetään käsinkirjoitetun tekstin tunnistamista. Tekstejä on onnistuttu tunnistamaan keskiajalta nykypäivään useilla eri kielillä. Kansallisarkistossa on yli 70 miljoonaa digitoitua kuvaa arkiston aineistosta. Nyt tarkoituksena on tunnistaa nämä kuvatut käsinkirjoitetut tekstit koneen ymmärtämään muotoon, josta voi tehdä hakuja. –Suomen kieli asettaa omat haasteensa mille tahansa tekstintunnistusteknologialle, koska sijamuotoja on niin paljon. On vaikeaa saada tekstistä kieliopillisesti oikeaa ja ymmärrettävää, mutta olemme saaneet yllättävän hyviä tuloksia. Vaatii kuitenkin vielä paljon lisää malliaineistoa, että tekstiä pystytään tunnistamaan kunnolla ja myös julkaisemaan aineistoa asiakkaiden käyttöön, Kallio kertoo. Eri kieliä ongelmallisempaa tekstintunnistukselle ovat eri aikoina käytetyt erilaiset käsialat. Nuorimmat suomalaiset eivät enää osaa lukea kaunokirjoitusta, koska kaunokirjoituksen opetus kouluissa muuttui ensin tyyppikirjoitukseksi ja loppui sitten kokonaan. Pian ovat varmaan arkea älypuhelinsovellukset, jotka tunnistavat kaunokirjoitusta, ja muuttavat sen nuoremmille sukupolville ymmärrettävään muotoon. EU-hankkeessa kehitetty Transkribus-tutkimusalusta on ilmainen ja kaikkien ladattavissa. Se on kuitenkin tarkoitettu laajoihin aineistoihin, ja sen käyttö vaatii melkoisesti harrastuneisuutta. Valmiita tunnistusmalleja löytyy kotimaisista kielistä toistaiseksi vain 1800-luvun ruotsille, joten jos alustaa haluaa käyttää, se täytyy ensin kouluttaa tunnistamaan omaa aineistoa.