Materiał powstał we współpracy z AMAZON

Rozmowa z Rafałem Kuklińskim o historii Centrum Rozwoju Technologii Amazon w Gdańsku. O jego początkach, tworzonych technologiach, planach na przyszłość. O Alexie, syntezie mowy, chatbotowych trendach. A także o pracy dającej satysfakcję i możliwościach zatrudnienia się w Centrum, gdzie praca to pasja.  

W 2013 roku Amazon kupił polską firmę Ivona Software i na jej bazie powstało Centrum Rozwoju Technologii w Gdańsku.

Tak. Początki Centrum to kupno przez Amazon firmy Ivona Software, zajmującej się syntezą mowy.

Czy pracował Pan wtedy w Ivonie?

Byłem częścią 24 osobowego zespołu. Od razu uprzedzam ewentualne pytanie, nie jestem jednym z założycieli firmy.

Jak Pan myśli, co przeważyło za wyborem polskiej firmy?

Amazon szukał firmy, która będzie budowała syntezę mowy na najwyższym światowym poziomie i będzie w stanie wprowadzić tę usługę do ich produktów, między innymi Alexy. Moim zdaniem to nie tylko jakość technologii zdecydowała o wyborze Ivony, ale też kulturowe dopasowanie. Amazon poszukiwał firmy, która ma podobny do jego strategii sposób myślenia o produkcie, kliencie. Dla której praca to pasja. Był to jeden z czynników decydujących o wyborze Ivony.

Rozumiem, że po przejęciu Ivony Amazon nadal rozwija stworzoną przez nią technologię.

Tak. Własność technologii pozostała w rękach ludzi, którzy się na tym znają, w miejscu gdzie ona urosła. Wokół tego rdzennego zespołu zatrudniliśmy więcej pracowników. Obecnie zespół zajmujący się syntezą mowy liczy ponad 100 osób. Myślę, że inwestycja Amazona to kamień milowy w rozwoju syntezy mowy. Nastąpił raptowny wzrost wielkości zespołu i inwestycji. Synteza mowy przez ostanie 8 lat przeszła rewolucję technologiczną. Nie byłoby to możliwe, gdyby nie inwestycja i możliwości, które daje Amazon.

Jaką rewolucją przeszła Ivona, od czego zaczynaliście, na jakim etapie jesteście dzisiaj?

Gdy dołączałem do Ivony, zastanawiałem się, co będę tam robić? Już wtedy synteza mowy, dobrze funkcjonowała w wielu językach. A tymczasem pracuję prawie 10 lat i muszę powiedzieć, że się nie nudzę.

Kiedy rozpoczynała się przygoda z Amazonem, to byliśmy na etapie technologii, która nazywała się unit selection. Pomysł polegał na nagrywaniu bardzo dużej liczby zdań z konkretną osobą i dzieleniu tych nagrań na malutkie części, które nazywamy difonami. Z tych malutkich części budowaliśmy olbrzymią bazę danych głosu. Następnie system składał z difonów całe frazy, żeby stworzyć konkretne zdania, o które poprosi użytkownik. Technologia unit selection generowała naturalną mowę, ponieważ była złożona z nagrań ludzi. Jej słabością była natomiast mało ekspresyjna mowa. Ekspresja generowanej mowy zależała od tego jak nagrywamy, a ze względów technicznych nagrywaliśmy dość monotonie, bez wyrazu i emocji. Następnie zbudowaliśmy technologię, którą nazwaliśmy hybrid unit selection. Zaczynaliśmy ingerować w intonację mowy. Potem zbudowaliśmy technologię, którą nazwaliśmy Neural Text-to-Speech. Neural, dlatego że każdy element syntezy jest zbudowany w o poparciu o sieci neuronowe i uczenie maszynowe.  Czyli nie tylko przewidywanie, jaka powinna być intonacja, ale również później generowanie dźwięków jest tworzone przez sieci neuronowe.

Intonacja to nie wszystko, przecież każdy z nas mówi inaczej w zależności od sytuacji.  

Tak. Generowaliśmy naturalną mowę, ale wciąż wyuczoną na nagraniach, które były stonowane emocjonalnie. Postanowiliśmy  to zróżnicować, przecież każdy z nas mówi inaczej w zależność od okoliczności. Wiadomości w radiu podawane są inaczej niż np. ludzie między sobą rozmawiają na co dzień. Zaczęliśmy nagrywać wzory danych dla różnych styli mówienia, w zależności od okoliczności. W efekcie zbudowaliśmy style mowy inne do newsów, inne do długich tekstów, inne do konwersacji.

A co z emocjami …

To kolejny postęp w tej technologii. Jeszcze jeden element, który jest istotny w mowie i dobrze byłoby go zaaplikować w niektórych obszarach. Przecież w zależności od emocji mówimy inaczej. Ja, jako fan konkretnej drużyny sportowej, będę mówił o jej wynikach z  emocjonalnym zabarwieniem. Cieszę się, kiedy moja drużyna wygrywa, martwię się, jak przegrywa. Zbudowaliśmy emocjonalne style Alexy między innymi z myślą o sporcie. To kolejny etap ewolucji tej technologii. Tu jesteśmy dzisiaj. Widzimy jednak przestrzeń na kolejne rozwiązania.

Zdradzi nam Pan, czym jeszcze może zaskoczyć nas Alexa?

Przestrzeń, która nas interesuje to łączenie emocjonalnej mowy z różnymi stylami mówienia. Mamy wiele emocji, które można różnicować i budować, w zależności od różnych scenariuszy. Na naturalność ma wpływ także dobór słów, chcemy właśnie w ten obszar zainwestować. Pomyśleć, w jaki sposób można lepiej dobierać słowa, żeby formułować myśli, które są spójne z tym, co chcemy przekazać.

Obecnie Alexa mówi kilkunastoma głosami. Jaka jest zasada doboru barwy głosu dla Alexy?

Alexa ma pewną osobowość. Głos odzwierciedla wartości, które najbardziej cenimy w Amazon. Alexa ma być pomocna, błyskotliwa, zachowywać pewną nutkę pokory. Nie jest łatwo wybrać osobę, która pasuje do tych wszystkich elementów. Wybieraliśmy z bardzo dużej puli głosów, ale ostatecznego wyboru dokonali nasi klienci, to oni zdecydowali, kogo chcą słuchać.

Ok, przychodzę do domu, proszę Alexę o włączenie światła, puszczenie ulubionej muzyki etc., a jaką mogę mieć pewność, że te nasze rozmowy, to co się dzieje w domu jest bezpieczne?

Bezpieczeństwo danych już w momencie projektowania Alexy było priorytetowym elementem. Urządzenie Alexy składa się z zestawu: mikrofon i głośnik. Do aktywowania systemu potrzebne jest użycie słowa klucz (tzw. Wakeword). Wszystko, co się dzieje, do momentu wypowiedzenia słowa kluczowego dzieje się lokalnie na urządzeniu. W momencie, kiedy pojawia się słowo klucz, np. Alexa, zapalają się diody dookoła urządzenia, które sygnalizują – teraz słucham, możesz mówić. I to jest moment, kiedy Alexa zaczyna wysłać dane do chmury. Oczywiście zaszyfrowane. Jeśli nic się nie wydarzy, diody gasną, a Alexa czeka znów na słowo klucz.

Oczywiście, jest też możliwe, żeby urządzenie po prostu wyciszyć. Po wciśnięciu przycisku wyciszenia (ang. Mute) zapalają się czerwone diody i mikrofony zostają elektrycznie odłączone. Oznacza to, że nie ma możliwości zhakowania tego urządzenia przez sieć. Trzeba wejść z wkrętakiem do domu.

A co z danymi, które są wysłane do chmury?

Wszystkie dane, które wędrują do chmury są szyfrowane. Dodatkowo jest wiele opcji, które umożliwiają użytkownikowi kontrolowanie tego, co dzieje się z danymi w chmurze. Użytkownik może przejrzeć nagrania, wykasować jedno lub wszystkie.  Może wydać takie polecenie Alexie. Można także ustawić opcje kasowania danych np. po 3 miesiącach.

Kolejną funkcjonalnością z zakresu bezpieczeństwa jest „Alexa why did you do that” czyli próba dowiedzenia się: Alexa, czemu zrobiłaś dokładnie to, co zrobiłaś.  Idea jest taka, żeby użytkownik miał świadomość, dlaczego konkretna akcja została wykonana. Jaki był ciąg przyczynowo-skutkowy. Czyli znowu z obszaru budowania zaufania w to, że Alexa robi to, o co użytkownik poprosił, a nie to, co sobie sama wymyśliła.

Teraz z Alexą porozumiemy się także bez dostępu do internetu.

Wydaliśmy urządzanie Echo Plus, to taki domowy hub dla Smart-Home, w sytuacji braku internetu. Będąc w domu możemy sterować wszystkim domowymi urządzaniami bez potrzeby używania Internetu. 

Wykorzystaliśmy funkcjonalność Alexa Offline także na urządzeniach typu Fire TV. Teraz można bardzo szybko i sprawnie sterować interfejsem za pomocą głosu. Wszystko dzieje się natychmiast.

Słyszałam, że wiele firm produkujących samochody zgłasza chęć posiadania  Alexy na pokładzie.   

Tak. Są producenci samochodów, którzy są chętni, żeby mieć Alexę na pokładzie. Trwają rozmowy i uzgodnienia. Alexa offiline jest niezbędna, aby odpowiadać na żądania użytkownika w przypadku braku połączenia. Są również specjalne funkcjonalności, które każdy z producentów samochodów sam sobie generuje np.: sprawdzenia ilości paliwa, konwersacja z samochodem czy wzywanie pomocy. Te prace już trwają. Alexę na pokładzie będzie miało między innymi: Lamborghini, Ford, Audi, BMW, Toyota czy auta GM.

 Ale Alexę w aucie można mieć już dziś, za sprawą urządzenia – Echo Auto. Urządzenie można kupić, zamontować w samochodzie i prowadzić konwersacje z Alexą.

Wróćmy do Centrum Rozwoju Technologii, zajmuje się ono nie tylko syntezą mowy?

To prawda. Zespół TTS (syntezy mowy) był pierwszy, ale później zaczęły pojawiać się inne Amazanowe zespoły. Dziś w centrum w różnych obszarach pracuje 650 osób. Większość ludzi to Alexa, ale jest np. zespół, który zajmuje się technologią budowy serwisu w AWS: Amazon Polly.

Amazon Polly – opowie nam Pan coś więcej?

Lubię w Amazon to, że jesteśmy sobie sterem, żeglarzem, okrętem. W zasadzie nasza pomysłowość jest nieograniczona, możemy wpływać na bieg wydarzeń. Amazon Polly to jest efekt naszych prac w Gdańsku. Stwierdziliśmy, że skoro jesteśmy właścicielami technologii syntezy mowy, chcielibyśmy mieć serwis chmurowy, to czemu nie zbudować serwisu w Amazon Web Services (AWS). Napisaliśmy dokument, w którym przedstawiliśmy, dlaczego ma to sens. Dlaczego synteza mowy przyda się naszym klientom. Poszliśmy do szefa AWS, przedstawiliśmy naszą propozycję i uzyskaliśmy akceptację.  Zbudowaliśmy serwis w oparciu o technologię Ivony. Przemigrowaliśmy na niego klientów, którzy już z nami byli oraz zdobyliśmy mnóstwo nowych. Amazon Polly to dziś 30 języków i 57 głosów. Ostatnią funkcją, którą wydaliśmy jest możliwość tworzenia głosów dla firm reprezentujących ich markę. Zbudowaliśmy głos specjalnie dla KFC – głos pułkownika Harlanda Sandersa.

AWS, czyli …

AWS, czyli Amazon Web Services to jest taki zbiór cegiełek, z których można sobie zbudować rozwiązanie, a Amazon Polly jest jedną z tych cegiełek. I faktycznie nasi klienci mogą zbudować swoje własne rozwiązanie w oparciu o technologie głosowe, które im udostępniamy. Na przykład bank może zbudować swoje własne chmurowe centrum komunikacji.  Jedną cegiełką jest serwis, który nazywa się Amazon Connect, czyli centrum obsługi dostępne w AWS, drugą cegiełką jest Amazon Polly, bank łączy te cegiełki i ma . Może też dodać trzecią cegiełkę, która nazywa się Amazon Lex i zbudować chatbot, który prowadzi konwersację z klientem w sposób naturalny. Czyli zamiast przebijać się przez skomplikowany system „wybierz 1, jeśli twój problem to A”, to po prostu dzwonię i mówię, że mam problem z kontem bankowym, a centrum obsługi samo dokonuje wyboru opcji i podaje odpowiedź.

Chatbot to najnowszy trend w syntezie mowy.

Po interfejsach dotykowych wkraczamy w nową erę interfejsów głosowych.  Chatbot zaczyna być naturalnym kolejnym krokiem. Tutaj też inwestujemy dosyć intensywnie w to, żeby interakcja była jak najbardziej naturalna. Jest to następny etap w kierunku zbudowania perfekcyjnego interfejsu głosowego.

Ogłosiliśmy nawet na uczelniach konkurs Alexa Prize na najefektywniejszego chatbota. Zadanie polegało na tym, żeby stworzyć chatbota, który jest w stanie rozmawiać przez 20 minut lub dłużej z użytkownikiem. Nie jest to trywialne zadanie. Nikt jeszcze do tych 20 minut nie był w stanie dotrzeć. Główne zadanie polega na tym, żeby rozmowa toczyła się w naturalny sposób i żeby użytkownik miał ochotę ją kontynuować. To naprawdę trudne.  Chatbot musi mieć ogromną „wiedzę”, świadomość tego, czego może się spodziewać w pytaniach, wyczuwać sarkazm, podchwytliwe pytania czy weryfikować informacje. 

""

Foto: sukces.rp.pl

Rafał Kukliński – szef Centrum Rozwoju Technologii Amazon w Gdańsku.

Do końca roku zatrudnienie w centrum ma wzrosnąć o ponad 300 osób, kogo poszukujecie do pracy?

Przede wszystkim szukamy ludzi z pasją, którym zależy, aby zbudować coś wartościowego. Amazon ma swoje zasady przywództwa, które właściwie opisują charakter ludzi, jakich szukamy. Ludzi, którzy mają pasję dla produktu, poczucie odpowiedzialności za to, co budują. Nie boją się podjąć akcji i mają chęć do działania. Takie podejście w stylu „zajmę się czymś, mimo że nie jest w moim obszarze odpowiedzialności”.

To nas chyba wyróżnia.  Z moich doświadczeń i z rozmowy z kolegami wynika, że faktycznie Amazon jest unikalny pod tym względem. Do zasad przywództwa odwołujemy się w codziennych projektowych rozmowach, a nie tylko od święta.

Jakie doświadczenie, powinna mieć osoba składająca CV do pracy w Centrum?

Szukamy ludzi na naprawdę bardzo różne stanowiska.  Szukamy oczywiście programistów, w różnych technologiach C/C++, Java, Python.  Od niskopoziomowego programowania na urządzeniu, po tworzenie systemu w chmurze.  Poszukujemy tak zwanych system inżynierów albo devops, czyli ludzi, którzy zajmują się utrzymywaniem systemów chmurowych, ich odświeżaniem, aktualizowaniem, budowaniem floty w chmurze. Szukamy naukowców i inżynierów, którzy zajmują się machine learning, którzy mają wiedzę o tym, jak zastosować uczenie maszynowe na co dzień, jak używać istniejących algorytmów, ale także wiedzą, jakie nowe architektury sieci zaprojektować, aby rozwiązać konkretne zadanie. Dużo rozwiązań patentujemy, piszemy i publikujemy dokumenty na konferencje naukowe.  Poszukujemy lingwistów, czyli ludzi z szeroką wiedzą w konkretnych językach.  Poszukujemy audio inżynierów, który pracują z nami z dźwiękiem i są w stanie ten dźwięk analizować. No i oczywiście poszukujemy testerów oprogramowania.

Szukacie też pracowników wśród studentów na uczelniach. Kto może się do Was zgłosić? 

Jesteśmy bardzo elastyczni, gdyż chcemy zatrudniać najlepszych z najlepszych. Mamy różne sposoby zatrudniania i bardzo często je dostosowujemy do potrzeb kandydata.  Moja ulubiona historia, to historia pracownika, którego zatrudniliśmy po szkole średniej. Pomyślnie przeszedł przez wszystkie etapy procesu rekrutacyjnego i pomyśleliśmy, że bardzo chcemy go zatrudnić. Przez kilka lat pracował w oparciu o różne formy kontraktów. Teraz kończy studia, ale już jest jednym z najbardziej doświadczonych ludzi w zespole.

Przyjmujemy ludzi na wakacje, na okres trzymiesięczny. Umożliwiamy studentom praktyki. Zapewniamy możliwości pracy studentom, zatrudniając ich na jakąś część etatu, by mogli studiować i pracować. 

To pasja jest tym, czego szukamy u ludzi.

Podsumujmy, dlaczego warto dołączyć do Waszego zespołu?

Myślę, że warto do nas dołączyć z dwóch powodów. Po pierwsze, pracujemy z najnowszymi technologiami, mamy dostęp do nieograniczonych zasobów, żeby te technologie rozwijać i pracujemy nad problemami, które nie zostały jeszcze rozwiązane. Czyli można tak naprawdę budować od nowa, rozwiązywać zagadnienia, których nikt nie rozwiązał. Drugi powód słyszałem wielokrotnie na przestrzeni lat od osób pracujących z nami i był naprawde podnoszący na duchu – to, że praca w Amazon to okazja pracy z bardzo zdolnymi ludźmi. Czyli praca i nauka z najlepszymi, dająca dużą możliwość rozwoju i nabywania nowych doświadczeń nie tylko na rynku krajowym, ale także międzynarodowym.

Dziękuje za rozmowę.

Aktualne ogłoszenia z ofertami pracy w centrum rozwoju Amazon w Gdańsku: https://www.amazon.jobs/pl/locations/gdansk-poland

Materiał powstał we współpracy z AMAZON