Suomenkieliset älykaiuttimet tulevat - mutta milloin?

#radioelämää-juttusarja, joulukuu 2020, teksti: Juhani Lassila

Älykaiuttimia ja muita äänikomennoilla toimivia laitteita käytetään maailmalla koko ajan enemmän ja enemmän, mutta Suomessa niiden käyttö on vielä hyvin marginaalista. Missä vaiheessa kehitystä aidosti mennään ja milloin voimme sanoa vaikkapa ”Alexa, avaa radio rock”? Asia ei ole niin yksioikoinen kuin voisi kuvitella ja suomenkielisen ääniohjauksen tuloa voi ennustaa laskukaavalla. Mainostajille audion vallankumous tuo uudenlaisia mahdollisuuksia.

Älykaiuttimien markkinat kasvavat kiihtyvällä tahdilla – tämän vuoden 15,6 miljardin dollarin markkinan ennustetaan nousevan 35,5 miljardiin dollariin vuoteen 2023 mennessä. Itse älykaiuttiminen lisäksi puheentunnistukseen ja luonnollisen kielen ymmärtämiseen liittyvien sovellusten ja teknisten ratkaisuiden määrä on lähivuosina räjähtämässä eli audion vallankumous on todella tapahtumassa.

Pelkästään Yhdysvalloissa noin kolmanneksessa kotitalouksista oli jo vuoden 2019 lopussa älykaiuttimia ja penetraation arvioidaan nousevan 75 prosenttiin vuoteen 2025 mennessä. Muualla maailmassa kehitys ei ole yhtä vauhdikasta johtuen pääasiassa ääniohjauksessa käytettävien kielien eri asemasta.

Radion ja musiikin kulutus vaikuttaa olevan älykaiuttiminen killer feature, vaikka niitä käytetään myös monenlaiseen muuhunkin. Audience Projectin Insights 2020 -tutkimuksen mukaan esimerkiksi Iso-Britanniassa 89 % käyttää älykaiutinta audion kuluttamiseen (radio + musiikki), 56 % kyselee säästä, liikenteestä tai muista ajankohtaisista aiheista, puolet käyttää kaiutinta herätyskellona ja 11 % tekee sen kautta nettiostoksia. Tutkimuksessa oli mukana myös lukuja Suomesta, mutta ne eivät ole lainkaan verrannollisia kielituen puuttumisesta johtuen.

Suomessa ollaan vasta alkutaipaleella

Puhekäyttöliittymiin liittyy voimakkaita odotuksia ja monet odottavat sille samanlaista läpimurtoa kuin kosketusnäytöille kävi ensimmäisen iPhonen tullessa markkinoille. Molempiin teknologioihin liittyy intuitiivisten eleiden hyödyntäminen ja teknologian antama välitön palaute ihmisen toimintaan.

Suomessa puhekäyttöliittymiä on jo hyödynnetty jonkin verran – esimerkiksi Radiot.fi-sovelluksessa radioaseman tai ohjelman voi määritellä äänikomennolla ja S-ryhmä on toteuttanut iPhonelle S-ostoslistan, jossa ostoslistan voi sanella erittäin vauhdikkaasti mobiilisovellukseen. Myös Kotipizza on kokeillut pitsan tilaamista Amazonin Alexasta, toistaiseksi englannin kielellä tietenkin.

Puheentunnistus jo lähes täydellistä

Puheentunnistukseen erikoistuneen Speechlyn perustaja ja teknologiajohtaja Hannes Heikinheimon mukaan ääniteknologioiden kehityksessä on käytännössä kaksi eri polkua, jotka ovat kehittyneet rinnakkain: puheentunnistus ja luonnollisen kielen ymmärtäminen (NLP – natural language processing).

”Puheentunnistus on edennyt näistä jonkin verran aikaisemmin. 2010-luvun alussa tapahtui iso muutos neuroverkkojen laskennassa lähinnä datan määrän ja prosessien kehittymisen myötä. Neuroverkoissa pystyttiin käsittelemään paljon enemmän dataa, josta syntyi tekoälyn vallankumous. Teknisesti tämä liittyy tietokoneiden kykyyn jäsentää ääntä ja puhetta. Käytännössä tietokone pystyy nyt ymmärtämään kieltä paremmin ja se pääsee jo monissa tapauksissa samalle tasolle ihmisen kanssa.”

Heikinheimon mukaan 4-5 vuotta sitten saatiin tuloksia, joissa tietokoneen kyky tuottaa transkriptiota oli jo yhtä tarkka kuin ihmisellä, jonka tarkkuus tosin ei ole koskaan täydellistä.

”Kyseessä on lopulta aika yksinkertainen tehtävä”, Heikinheimo muistuttaa.

Luonnollisen kielen ymmärtäminen taas tarkoittaa sitä mitä sanomisella tarkoitetaan tai viestitään. Tässä huomattavasti puheentunnistusta haastavammassa teknologiassa tapahtui Heikinheimon mukaan kvanttiloikka vuonna 2018, jonka jälkeen esimerkiksi Amazonin Alexa ja Google Home -palvelut kehittyivät huimasti.

”Tekoäly pystyy nyt kehittämään ja mallintamaan kieltä niin hyvin, että on vaikea erottaa mikä on aitoa ja mikä ei. Toki tässä tullaan äkkiä filosofisten kysymysten äärelle, kun aletaan pohtimaan mitä ymmärtäminen tarkoittaa”, Heikinheimo sanoo.

Ääniohjattavat teknologia-assistentit toimivat tänä päivänä erittäin hyvin yksinkertaisemmissa tehtävissä ja esimerkiksi kodin valojen säätäminen tai tietyn radiokanavan soittaminen toimivat täydellisesti. Monimutkaisemmissa tehtävissä tietokoneella pitää olla todella paljon tietoa. Esimerkiksi ravintolatilauksen tekemisessä ja ihmisten valintoihin reagoimisessa koneet alkavat jo olla erittäin hyviä.

”Ihmisten kommunikaatiosta iso osa on kuitenkin non-verbaalista ja pelkällä puheella ei pötkitä kovin pitkälle. Kasvokkain keskustelu on niin paljon rikkaampaa ja monimuotoisempaa kuin pelkkä puhe kun visuaalinen palaute on mukana. Itse uskon, että äänikomentojen yhdistäminen visuaalisuuteen on tulevaisuudessa kova juttu”, Heikinheimo huomauttaa.

Mainostajalle puhekäyttöliittyvät ovat luovuuden lähde

Puhekäyttöliittymät ja älykaiuttimet avaavat monessa mielessä mainostajalle uudenlaisia kiinnostavia mahdollisuuksia. Radiomainonnan gurun, australialaisen Ralph Van Dijkin mukaan brändien pitää muovata itseään monella tavalla tähän maailmaan sopivaksi. Niiden täytyy myös oppia hyödyntämään tehokkaasti entistä lyhyempiä mainospaikkoja ja sponsorointimahdollisuuksia.

”Mainostavan brändin pitää pystyä tunnistamaan parissa sekunnissa”, Van Dijk kommentoi ja jatkaa: ”Nyt viimeistään kannattaa alkaa suunnittelemaan erottuvaa audiologoa, brändiäänt tai brändianthemia audiomainonnan asiantuntijoiden avustuksella. Uskon, että peli muuttuu radikaalisti siinä vaiheessa kun brändit voivat olla mainonnassaan vuorovaikutuksessa kuulijan kanssa.”

Interaktiiviset mainokset ovatkin yksi tulevia kuumia mainonnan muotoja, ja niistä on viime vuosina jo nähty ensimmäisiä toteutuksia.

Kosmetiikkayhtiö NARS ja Spotify julkistivat tänä vuonna äänikomentoja hyödyntävän mainossarjan, jossa kuluttajat voivat pyytää tuotenäytteitä omaa ääntään käyttämällä.

Pandora taas on esitellyt äänellä ohjattavia mainoksia Yhdysvalloissa ja yhtiön slogan kuvailee tavoitteita hyvin: ”Voice is the new touch”. Lukuisat brändit, kuten Unilever ja Nestlé ovat hyödyntäneet tätä yksinkertaista ominaisuutta, jonka idea on yksinkertaisesti se, että musiikin kuuntelija päättää mainoksen alussa haluaako kuulla lisää vai ei ja vastaa mainokselle äänellään.

Taklattavia haasteita on toki paljon ja esimerkiksi hakutoimintojen hyödyntäminen ääniperustaisesti on erittäin haastavaa. Myös se, että isot alustapelurit kontrolloivat asioita ja dominoivat esimerkiksi hauissa voi olla tulevaisuudessa hyvin haastavaa.

Speechlyn Heikinheimo ohjeistaisikin brändejä kulkemaan omia polkujaan: ”Vallankumous ei tule siitä, että viedään puhe isoihin ekosysteemeihin vaan siitä, että puhe tulee brändien luokse. Näin brändi pystyy itse kontrolloimaan asioita.”

Milloin ne älykaiuttimet oikein tulevat Suomeen?

Amazon Echon tai Google Homen on arvioitu tulevan Suomeen jo jonkin aikaa ja tänäkin vuonna monet odottivat niitä joulumarkkinoille. Virallisesti yhtiöt eivät luonnollisesti kommentoi asiaa, mutta Heikinheimolla on tähän päättelykaava.

”Applen Sirin ensimmäinen englanninkielinen versio julkistettiin vuonna 2011 ja suomenkielinen versio tuli viisi vuotta sen jälkeen vuonna 2016. Suomen kieli kuuluu valtakielien jälkeen noin 30:n sakkiin, joten ottaa aikansa ennen kuin näin pienen kielen työ saadaan tehtyä. Google Home julkaistiin vuonna 2016 eli tämän matematiikan mukaan odottaisin julkaisuja 2020-luvun alkupuolella”, Heikinheimo laskee.

Mikä Speechly? Helsinkiläinen, puheentunnistusteknologiaan keskittyvä startupyritys Speechly kehittää teknologiaa, joka yhdistää puheentunnistuksen eli puheen muuttamisen tekstiksi ja tekstin ymmärtämisen eli merkityksen tunnistamisen.