Ume­lá inte­li­gen­cia od Goog­le už komu­ni­ku­je ako bež­ný člo­vek

Timotej Vančo / 15. septembra 2016 / Tech a inovácie

Raz to muse­lo prí­sť. Budúc­nosť sa blí­ži a Goog­le pat­rí medzi tých naj­väč­ších ino­vá­to­rov.

Urči­te si už nie­ke­dy zablú­dil na You­Tu­be pri poze­ra­ní videí aj na roz­prá­va­jú­cich robo­tov ale­bo prog­ra­my, kto­ré číta­li text a mali troš­ku robo­tic­ký hlas. Samoz­rej­me, že kaž­dý z nás rátal s tým, že raz sa bude­me môcť roz­prá­vať s robo­tom a jeho hlas a spá­ja­nie slov bude iden­tic­ký tomu ľud­ské­mu, ale že to bude už teraz?

Vo sve­te sa nachá­dza nový uchá­dzač o mies­to naj­lep­šie komu­ni­ku­jú­ce­ho robota/programu s člo­ve­kom. Za jeho vývo­jom sto­ja bri­lant­né moz­gy z Deep­Mind. Goog­le pred­sta­vil pred pár dňa­mi prog­ram – Wave­Net. Ten­to prog­ram posú­va vpred hla­so­vú syn­té­zu hla­su posta­ve­nú na hlbo­kých neuró­no­vých sie­ťach.

deep-learning

Foto: clickode.com

Goog­le Voice Search bolo istý čas pohá­ňa­né prog­ra­ma­mi, ako sú naprí­klad poro­zu­me­nie hla­so­vým vzor­kám. Avšak syn­te­ti­zo­va­nie aspoň čas­ti z tých­to vzo­riek sa uká­za­lo, ako cel­kom veľ­ký prob­lém. Jed­na z naj­zná­mej­ších metód komu­ni­ká­cie bola dote­raz TTS metó­da (text-to-spe­ech). Spá­ja frag­men­ty dopre­du naho­vo­re­nej reči doko­py.

Hlav­nou nevý­ho­dou tej­to metó­dy je, že nemô­že meniť frag­men­ty reči za nie­čo nové, čo má za násle­dok „robo­tic­ký“ hlas. Ďal­šia metó­da je para­met­ric­ké TTS, kto­rej reč pre­chá­dza cez voko­kó­der a pro­du­ku­je ešte menej pri­ro­dze­ný hlas.

Goog­le Wave­Net pou­ží­va úpl­ne iný štýl.

blogpost-fig2-anim-160908-r01

Foto: sciencealert.com

Namies­to jed­no­du­chej ana­lý­zy zvu­ku je nový spô­sob posta­ve­ný na uče­ní a poro­zu­me­ní dané­ho frag­men­tu reči. Fun­gu­je na prin­cí­pe hĺb­ko­vé­ho uče­nia neuró­no­vých sie­tí, kto­ré spra­via naj­me­nej 16 000 kom­bi­ná­cií za sekun­du. Tým­to spô­so­bom môže Wave­Net vytvá­rať vlast­né audio vzor­ky. Tie­to vzor­ky si naozaj môže vytvá­rať bez aké­ho­koľ­vek zása­hu ľud­skej ruky. Wave­Net pou­ží­va šta­tis­ti­ky využi­tia slov a ich skla­da­nie vo vetách, a pre­to vie pred­po­ve­dať, čo bude nasle­do­vať ďal­šie.

Môžeš si vypo­čuť ukáž­ky z pôvod­ných kom­po­zí­cií. Naj­pô­so­bi­vej­šia časť je prav­de­po­dob­ne syn­té­za reči, bez aké­ho­koľ­vek pre­doš­lé­ho vstu­pu. V prí­pa­de TTS, bolo vždy potreb­né zadať aký­koľ­vek vstup, kto­rý má prog­ram pre­čí­tať. Wave­Net je schop­ný komu­ni­ko­vať bez pred­tým poža­do­va­né­ho vstu­pu. Je ale prav­da, že výsle­dok je len reťa­zec nezmy­sel­ných zvy­kov, ale tie tak­tiež obsa­hu­jú pohyb úst ale­bo dýcha­nie. Ten­to sys­tém má veľ­kú budúc­nosť a časom sa mož­no bude pou­ží­vať v kaž­dom robo­to­vi, až kým nespo­zná­me či za dve­ra­mi sto­jí člo­vek ale­bo robot.

Zdroj člán­ku: sciencealert.comZdroj titul­nej foto­gra­fie: sciencealert.com

Pridať komentár (0)