Pasiklausykite, kaip moderniausias neurotinklas imituoja žmonių kalbą: atskirtumėte nuo gyvo žmogaus? (Audio)  ()

Britanijos kompanija Google DeepMind pristatė naują žmogaus kalbos sintezės algoritmą WaveNet. Jo veikimas paremtas neurotinklais, todėl balso imitacija realistiškesnė. Programą aprašantis kūrėjų straipsnis paskelbtas kompanijos interneto svetainėje.


Prisijunk prie technologijos.lt komandos!

Laisvas grafikas, uždarbis, daug įdomių veiklų. Patirtis nebūtina, reikia tik entuziazmo.

Sudomino? Užpildyk šią anketą!

Automatinėse teksto vertimo į garsą sistemose dažniausiai naudojami žmonių balso įrašai. Programa išskiria atskirus garsus ir, remdamasi įvedamais duomenimis, juos komponuoja, taip išgaudama gan natūralų skambesį — geras pavyzdys čia būtų Siri ar Google Assistant pagalbinės programos. Tačiau šis būdas – kompiliacinė sintezė – gan ribotas, nes norint sukurti naują kalbantį asistentą ar tiesiog pakeisti kalbos toną, reikia žmogaus, įrašančio į duomenų bazę visus įmanomus garsus.

Kompiliacinės balso sintezės pavyzdys:

Yra ir alternatyvus, parametrinės sintezės metodas, kai naudojamas visiškai kompiuteriu sugeneruotas balsas ir jam „gyvų“ balsų bibliotekos nereikia. Jis veikia pagal iš anksto nustatytus parametrus, atitinkančius gramatikos taisykles ir garsų tarimo principus. Tačiau taip gaunama gan „mašiniškai“ skambanti kalba.

Parametrinės balso sintezės pavyzdys:

WaveNet algoritmas garso bangos profilį po tašką generuoja, panaudodamas specialų neurotinklą. Jis buvo apmokomas diktoriaus balso įrašais, tačiau šios bazės garsų fragmentų sistema nenaudoja, o generuoja pati. Kurdami programą, programuotojai naudojo FCN (Fully convolutional network) tipo tinklą, kurios architektūrą įkvėpė rekurentinis neurotinklas PixelRNN ir konvoliucinis neurotinklas PixelCNN. Kiekvienas šio tinklo konvoliucinis sluoksnis turi nuosavą plėtimosi daugiklį, dėl kurio jo recepsinis laukas, t.y. informacijos dalis, kurią apdoroja neuronai, auga eksponentiškai. Iš esmės, programa tokiu būdu gali aprėpti daug laiko intervalų. Neurotinkle numatytas ir grįžtamasis ryšys, todėl kiekvienas mašininės kalbos garsas generuojamas, remiantis daugybe jau buvusių. Kaip rašo kūrėjai, WaveNet gali atsiminti 2–3 ankstesnes fonemas.

FCN neurotinklai mokėsi iš moters, kalbančios Šiaurės Amerikos anglų kalbos dialektu, garso įrašų, kurių bendra trukmė buvo 24,6 valandos. Tyrėjai taip pat panaudojo 34,8 val. mandarinų kinų kalbos audioįrašų. Siekdami suteikti į šnekamąją kalbą verčiamam tekstui tikroviškumo, programuotojai dar išmokė WaveNet atsižvelgti į lingvistines teksto ypatybes: žodžių lygyje, tai dažniausiai skiemenų skaičius žodyje ir kirčiuota balsė, sakinių lygyje — žodžių tvarka, jo ilgis ir tipas (tiesioginis, šaukiamasis ar klausiamasis).

Taip tyrėjai sukūrė programą, gan tikroviškai verčiančią rašytinį tekstą į kalbą. Programuotojai patikrino sistemos veikimo kokybę aklais tekstais, kuriuose prašė savanorių įvertinti sklambančių kalbos pavyzdžių tikroviškumą balais nuo 1 iki 5. WaveNet buvo įvertinta geriausiai iš visų aukščiau paminėtų kalbos sintezatorių, ir sumažino dirbtinės ir natūralios kalbos atotrūkį balais 50 procentų.

WaveNet programos kalbos sintezės pavyzdys:

Įdomu, kad WaveNet, remdamasi pradinių garso bangų forma, netgi be teksto gali savarankiškai sintezuoti žmogaus kalbą primenančius garsus. Tada programa remiasi tik spėjimais, kaip turi skambėti kiekvienas kitas garsas, remdamasi tuo, kaip skambėjo keli ankstesni garsai. Taip neurotinklas gali imituoti atskiro diktoriaus balso skambesį ir audio įrašo kokybę, o taip pat kalbančiojo kvėpavimą ir jo lūpų judesius. Eksperimento metu programa sugebėjo įtikinamai generuoti 109 žmonių kalbą. Šio bandymo metu įrašai skamba kaip reali kalba, tačiau neturinti prasmės.

WaveNet programos kalbos sintezė be duoto teksto:

DeepMind programuotojai dar išmokė sistemą, remiantis tuo pačiu principu svarankiškai kurti trumpas fortepijono muzikos kompozicijas, remiantis klasikinės muzikos analize. Taip programa pasirodė tinkama gan skirtingoms užduotims.

WaveNet programos susintetintos muzikos pavyzdys:

Pasak The Verge pranešimo, dabar WaveNet nenaudojama jokiame Google produkte, nes technologijai reikia didelių skaičiavimo pajėgumų. Tačiau ateityje kūrėjai tokios galimybės neatmeta.

Neseniai rusų programuotojas Mik Ketovpanaudojo neuroninį tinklą su grįžtamuoju ryšiu Ramzano Kadyrovo stiliaus pranešimų Twitter tinkle (tvitų) generavimui. Kurdamas generavimo sistemą, programuotojas naudojo char-RNN algoritmą, kurio pagrindu veikia DeepDrumpf sistema, kurianti tvitus, remdamasi kandidato į JAV prezidentus D. Trumpo debatų stenogramomis. Char-RNN veikia kaip teksto generatorius, kur kiekvienas tolesnis simbolis prognozuojamas, remiantis daugeliu ankstesnių — šis principas gan panašus į WaveNet veikimo principą.

Кристина Уласович
nplus1.ru

Pasidalinkite su draugais
Aut. teisės: www.technologijos.lt
(26)
(2)
(24)

Komentarai ()