Polski syntezator mowy może podbić świat

Komputery już nie bełkoczą jak maszyny, mówią ludzkim głosem. Kiedy w tym głosie zagrają emocje? Do tego czasu trójmiejska firma Ivo Software ma szansę stać się ważnym graczem na światowym rynku komputerowej syntezy mowy.

Głosem podzielił się maszyną jeden z trójmiejskich aktorów. Który - to tajemnica. Dawca głosu boi się, że jeśli zdradzi swą tożsamość, to komputer - a raczej ten, który będzie komputerem sterował - może podszyć się pod niego w niecnym celu. Np. nabluzgać komuś jego głosem przez telefon.

Oddawanie głosu nie jest prostą sprawą. "Kilkadziesiąt lat temu taką samą robotę spełnił zgrzybiały dziś i obłąkany Jakub. Oto uczucia i myśli, na których gruncie wzrasta przyszła kobieta i obywatelka" - czytał po kolei aktor w gdańskim studiu nagraniowym. Takich zdań - które nie łączą się w żadną logiczną całość, mimo że ani jedno słowo w tekście nie jest przypadkowe - musiał wypowiedzieć kilkadziesiąt tysięcy.

Potem głos aktora wzięli w swoje ręce informatycy gdyńskiej firmy Ivo Software. Odpowiednio przetworzony, pocięty i obrobiony zamienił się w głos programu komputerowego, który automatycznie przekształca tekst pisany na mowę ludzką. Program nazywa się Ivona, a głos ochrzczono imieniem Jacek. Powie (prawie) wszystko to, co mu się każe. Może przeczytać żądany tekst, artykuły ze stron internetowych, książkę elektroniczną lub posłużyć jako lektor w filmie.

Kiedy przemówią budynki

Już niedługo, wróżą eksperci, zmieni się sposób kontaktu człowieka z komputerem. Miejsce klikania myszką zajmą komendy głosowe rozumiane przez komputer, który ze swej strony będzie przemawiał do użytkownika. Wtedy komputerowa mowa nabierze ogromnego znaczenia. - To nie wszystko. Mówić będą do nas także wirtualni konsultanci w centrach obsługi klienta, wszechobecne urządzenia nawigacyjne, inteligentne budynki, auta czy sprzęt AGD - przewiduje Łukasz Osowski, 29-letni szef i współwłaściciel Ivo Software.

Wiele osób zapewne jeszcze pamięta pierwsze, wcale nie tak dawne, próby nauczenia komputerów ludzkiego języka. Metaliczna, nieco "żabia" mowa płynąca z głośniczków była od początku do końca wytwarzana przez maszynę. Wtedy komputer mówił naprawdę własnym głosem. Ale mówił niezrozumiale i śmiesznie.

Przełom nastąpił, gdy informatycy nauczyli się "wszczepiać" maszynie głos nagrany przez prawdziwego człowieka. Tak właśnie uczy się mówić Ivona. Nagrane zdania powinny być dobrane tak, by zawarte w nich głoski wyczerpywały wszelkie możliwe kombinacje dźwiękowe w danym języku i program mógł wypowiedzieć dowolny istniejący w nim wyraz. Każdej głosce programiści Ivo Software przypisują kilkadziesiąt parametrów - akcent, głoski i litery występujące przed i po danej głosce itp. Kiedy Ivona dostaje tekst do przeczytania, najpierw stara się go "zrozumieć" - szuka takich głosek, które byłyby najbliższe temu, jak przeczytałby dany tekst człowiek (bo inaczej brzmi np. głoska "pa" w wyrazie "kanapa" a inaczej w słowie "parasol"). Wszystko to musi dziać się w ułamkach sekundy.

Jądro syntezatora tkwi właśnie we właściwym wyborze głosek. Im lepiej program radzi sobie z tym zadaniem, tym bardziej naturalnie umie się wypowiedzieć. Ivona wypada w tej konkurencji dobrze. Ekipa informatyków pomorskiej spółki wygrała nawet ważny branżowy konkurs Blizzard Challenge, pokonując m.in. zespoły Nokii i Toshiby.

Prywatny lektor w komputerze

Gdy kilka lat temu Łukasz Osowski i jego kolega Michał Kaszczuk zakładali swą firmę, miejsce syntezatorów mowy było niemal wyłącznie na rynku rehabilitacyjnym - np. w oprogramowaniu służącym ludziom niewidomym lub słabo widzącym. To głęboka nisza, konkurencja była mała. - Potrafiliśmy stworzyć syntezator lepszy niż istniejące wówczas, więc wiedzieliśmy, że łatwo znajdziemy na tym rynku miejsce - opowiada Osowski - A potem, gdy zrobiliśmy Ivonę, uznaliśmy, że mamy produkt światowej klasy także na szerszy rynek - dla korporacji i klientów indywidualnych.

Spółka ulokowała się w Pomorskim Parku Naukowo-Technologicznym w Gdyni, który udostępnił tanio infrastrukturę i pomógł w promocji. W zeszłym roku Ivo Software zarobiła na czysto ok. 300 tys. zł przy 1,1 mln zł przychodów, a Osowski i Kaszczuk dostali nagrodę w konkursie "Przedsiębiorca roku" (w kategorii "nowy biznes") organizowanym przez Ernst & Young w partnerstwie z "Gazetą Wyborczą".

W tym roku przychody spółki mają przekroczyć 2 mln zł, przy czym rynek rehabilitacyjny daje jej już tylko jedną czwartą tej kwoty. Ivo Software podpisuje kontrakty w branży telekomunikacyjnej czy bankowej - z Ivony korzystają m.in.: Energa, Netia, Santander Bank, mPay, Gadu-Gadu czy Stoen.

Produkt Ivo Software działa też w serwisach internetowych z avatarami - np. na stronie ubezpieczyciela Ergo Hestia użycza głosu wirtualnemu doradcy ubezpieczeniowemu Hubertowi, który próbuje odpowiadać na zadawane pytania. Głos Ivony wykorzystuje też produkująca avatary firma Inteliwise (jej avatary działają m.in. na witrynie LOT-u czy na warszawskiej giełdzie).

Dodatkowo w tym roku gdyńska spółka weszła na rynek konsumencki - za niecałe 100 zł można kupić (w pudełku lub przez internet) program Expressivo, który po zainstalowaniu na komputerze odczytuje zadany mu tekst (pozwala go też zapisać w MP3). Po co komu taki program? - Sami najpierw mieliśmy problem z wymyśleniem zastosowań - uśmiecha się Osowski. Pierwszy pomysł - czytanie napisów do filmów - był raczej słaby. - Znacznie lepsze zastosowania to czytanie książek elektronicznych, szybkie uczenie dzięki jednoczesnemu czytaniu i słuchaniu tekstu oraz nauka języków. Taki program wyposażony w obcojęzyczny głos to w zasadzie prywatny native lector. Od razu wiadomo, jak przeczytać np. jakąś wypowiedź po angielsku. A w takich krajach jak np. Chiny, gdzie jest deficyt lektorów angielskiego, taka pomoc jest nieoceniona - mówi Osowski.

Rynek się rozgrzewa

Na razie w Polsce rynek syntezy głosu to wciąż jeszcze nisza - zaledwie 3-4 mln zł. Rynek światowy to (według różnych szacunków) kilkaset milionów dolarów. Karty na nim rozdaje notowana na Nasdaq amerykańska spółka Nuance - jej udział w rynku ocenia się na ok. 50 proc. W zeszłym roku na syntezie mowy zarobiła na czysto ok. 220 mln dol. Inni duzi gracze na świecie to włoskie Loquendo, belgijska Acapela i szwajcarski SVOX.

Amerykanie z Nuance rywalizują z Ivo także w Polsce - już w 2002 r. zaoferowali syntezator, który mówił w naturalny sposób po polsku. Polskojęzyczny syntezator oferuje także warszawska firma Atlix wyspecjalizowana w tyfloinformatyce, czyli informatyce dla niewidomych. Pierwszy syntezator stworzyła już na przełomie lat 80. i 90. XX wieku i nadal rozwija swą technologię. Właśnie wchodzi na rynek najnowsza wersja jej syntezatora - Speak 3. Jak mówi Janusz Mirowski z Atliksu, jest to jednak produkt głównie dla osób niewidomych. - Rynek rehabilitacyjny ma inne wymagania niż masowy. Niewidomi potrzebują bardzo szybkiego syntezatora, który nie spowalnia pracy komputera. Mniej istotne jest, czy mowa brzmi bardzo naturalnie lub czy głos jest ładny - mówi Mirowski. Badania nad syntezą mowy prowadzi też IBM. Microsoft i Apple szykują się, by w ich systemach operacyjnych (Windows i MacOS X) były zainstalowane bezpłatne syntezatory. Zdaniem Osowskiego jakość mowy Microsoftu odbiega znacznie od czołówki. - Ale tej firmy nie należy lekceważyć ze względu na jej potencjał badawczy i dystrybucyjny - przyznaje.

Branża jest dopiero w przededniu boomu - jak szacuje firma Electronics Industry Market Research, w 2010 r. rynek przetwarzania mowy będzie wart ok. 8 mld dol. Plan minimum dla Ivo Software to zdobycie w 2010 r. 1 proc. światowego rynku. Brzmi skromnie, ale to dokładnie taki sam udział, jaki Apple chce osiągnąć w przyszłym roku ze swoim iPhone'em w rynku komórek. Przy takim udziale Osowski ocenia przychody swojej firmy na ok. 10 mln dol.

Założyciele Ivo Software doszli ostatnio do wniosku, że wzrost spółki finansowany tylko z bieżących przychodów grozi przespaniem szansy. - Jeśli zdecydujemy się na przyspieszenie handlu i marketingu, mamy możliwość szybszego uzyskania znacznie większego udziału w światowym rynku. Ale do tego trzeba pieniędzy - mówi Osowski. Dlatego - choć początkowo odrzucali oferty inwestorów - zmienili zdanie. Chcą inwestora finansowego, który wyłożyłby pieniądze na rozwój spółki, zostawiając jednocześnie kontrolę nad nią w rękach założycieli. W dalszej, dwuletniej perspektywie spółka miałaby wejść na giełdę.

Ambicje wyjścia z niszy rehabilitycyjnej ma także Altlix. Janusz Mirowski: - Na pierwszym miejscu są dla nas klienci niewidomi i niedowidzący. Ale mamy plany stworzenia produktu także na rynek masowy, który coraz szybciej się rozwija.

- Bezdyskusyjnie synteza i rozpoznawanie mowy to dziś gorący temat. Z punktu widzenia inwestorów to bardzo ciekawa branża - mówi Tomasz Czechowicz, szef funduszu MCI inwestującego w branży nowych technologii.

Czekając na emocje

Program Ivona mówi na razie czterema głosami - Jacek i Ewa mówią po polsku, Jennifer - po angielsku a Carmen - po... rumuńsku, głosem znanej dziennikarki z Bukaresztu. Dlaczego Rumunia? - Bo tam nikt jeszcze nie zaoferował syntezatora mowy - tłumaczy Osowski. Pod koniec listopada przybędzie kolejny głos - dla Ivo będzie nagrywał lektor amerykański. Spółka pracuje także nad głosami hiszpańskim i rosyjskim.

- Musimy zdecydować, czy nowy anglojęzyczny głos ma mówić tak, jak czyta się wiadomości w telewizji, czy tak, jak czyta się książkę. To ma duże znaczenie. Np. Jacek mówi tak, jak czyta się krótkie, lekkie opowiadanie. Czasem trudno takim pogodnym głosem podawać np. newsy o jakiejś tragedii - mówi Osowski.

Ale ograniczenia są wciąż duże. Gdy sprawdzając zasób słownictwa programu Ivo Software, zaczynamy z ciekawości wpisywać wulgaryzmy, głośniczki komputerowe przeklinają, owszem, wyraźnie, ale strasznie beznamiętnie i sztywno. Jakoś tak nie po polsku.

- Kiedyś problemem było to, by komputer przemówił zrozumiale. Teraz strategicznym wyzwaniem dla naszej branży jest wyrażanie w mowie emocji, tzw. emotional speech - mówi Osowski. - Na razie nie ma pomysłu, jak to zrobić. Ale to tylko kwestia czasu.

***

Copyright © Agora SA