Umelá inte­li­gen­cia od Google už komu­ni­kuje ako bežný člo­vek

Timotej Vančo / 15. september 2016 / Tech a inovácie

Raz to muselo prísť. Budúc­nosť sa blíži a Google patrí medzi tých naj­väč­ších ino­vá­to­rov.

Určite si už nie­kedy zablú­dil na You­Tube pri poze­raní videí aj na roz­prá­va­jú­cich robo­tov alebo prog­ramy, ktoré čítali text a mali trošku robo­tický hlas. Samoz­rejme, že každý z nás rátal s tým, že raz sa budeme môcť roz­prá­vať s robo­tom a jeho hlas a spá­ja­nie slov bude iden­tický tomu ľud­skému, ale že to bude už teraz?

Vo svete sa nachá­dza nový uchá­dzač o miesto naj­lep­šie komu­ni­ku­jú­ceho robota/programu s člo­ve­kom. Za jeho vývo­jom stoja bri­lantné mozgy z Deep­Mind. Google pred­sta­vil pred pár dňami prog­ram – Wave­Net. Tento prog­ram posúva vpred hla­sovú syn­tézu hlasu posta­venú na hlbo­kých neuró­no­vých sie­ťach.

deep-learning

Foto: clickode.com

Google Voice Search bolo istý čas pohá­ňané prog­ra­mami, ako sú naprí­klad poro­zu­me­nie hla­so­vým vzor­kám. Avšak syn­te­ti­zo­va­nie aspoň časti z týchto vzo­riek sa uká­zalo, ako cel­kom veľký prob­lém. Jedna z naj­zná­mej­ších metód komu­ni­ká­cie bola dote­raz TTS metóda (text-to-spe­ech). Spája frag­menty dopredu naho­vo­re­nej reči dokopy.

Hlav­nou nevý­ho­dou tejto metódy je, že nemôže meniť frag­menty reči za niečo nové, čo má za násle­dok „robo­tický“ hlas. Ďal­šia metóda je para­met­rické TTS, kto­rej reč pre­chá­dza cez voko­kó­der a pro­du­kuje ešte menej pri­ro­dzený hlas.

Google Wave­Net pou­žíva úplne iný štýl.

blogpost-fig2-anim-160908-r01

Foto: sciencealert.com

Namiesto jed­no­du­chej ana­lýzy zvuku je nový spô­sob posta­vený na učení a poro­zu­mení daného frag­mentu reči. Fun­guje na prin­cípe hĺb­ko­vého uče­nia neuró­no­vých sietí, ktoré spra­via naj­me­nej 16 000 kom­bi­ná­cií za sekundu. Týmto spô­so­bom môže Wave­Net vytvá­rať vlastné audio vzorky. Tieto vzorky si naozaj môže vytvá­rať bez aké­ho­koľ­vek zásahu ľud­skej ruky. Wave­Net pou­žíva šta­tis­tiky využi­tia slov a ich skla­da­nie vo vetách, a preto vie pred­po­ve­dať, čo bude nasle­do­vať ďal­šie.

Môžeš si vypo­čuť ukážky z pôvod­ných kom­po­zí­cií. Naj­pô­so­bi­vej­šia časť je prav­de­po­dobne syn­téza reči, bez aké­ho­koľ­vek pre­doš­lého vstupu. V prí­pade TTS, bolo vždy potrebné zadať aký­koľ­vek vstup, ktorý má prog­ram pre­čí­tať. Wave­Net je schopný komu­ni­ko­vať bez pred­tým poža­do­va­ného vstupu. Je ale pravda, že výsle­dok je len reťa­zec nezmy­sel­ných zvy­kov, ale tie tak­tiež obsa­hujú pohyb úst alebo dýcha­nie. Tento sys­tém má veľkú budúc­nosť a časom sa možno bude pou­ží­vať v kaž­dom robo­tovi, až kým nespo­známe či za dve­rami stojí člo­vek alebo robot.

Zdroj článku: sciencealert.comZdroj titul­nej foto­gra­fie: sciencealert.com

Pridať komentár (0)