Meniť hovorené slovo na text alebo text na hovorené slovo nie je žiadny technologický zázrak a dnes to zvládne každý smartfón. Múdre hlavy z Massachusettského technologického inštitútu sa pustili do náročnejšej výzvy a rozhodli sa naučiť stroj zostaviť tvár človeka podľa nahrávky jeho hlasu.
Teoretické základy pre algoritmus s veľavravným názvom Speech2Face boli položené už v roku 2019, uvádza Petapixel. Speech2Face si počas svojho „tréningu“ naštudoval milióny videí z YouTube. Analyzoval pri tom ľudské tváre a hlasy. Takto získané informácie teraz dokáže využiť pri rekonštrukcii tvári podľa hlasu.
Silné a slabé stránky
Zaujímavé je, že proces strojového učenia bol úplne automatizovaný a výskumníci nemuseli manuálne nahrávať žiadne dáta. Algoritmus z tohto masívneho súboru dát dokázal zistiť, ako súvisia jednotlivé vlastnosti hlasu s charakteristikami jeho majiteľa – ako napríklad vek či pohlavie. Vďaka testom sa zistilo, že čím dlhšia je nahrávka hlasu, tým presnejší bude vytvorený obraz.
Žiaľ, algoritmus sa dá ľahko zmiasť niekoľkými očividnými spôsobmi. Napríklad mladí chlapci, ktorým ešte nezmutoval hlas, sú niekedy mylne identifikovaní ako ženy. Pokiaľ osoba ázijského pôvodu nehovorí ázijským jazykom, zvyšuje to šancu, že bude považovaná za Európana.
Využitie
Speech2Face nie je vytvorený len pre srandu. Ako sa bude táto technológia rozvíjať, môže si nájsť viaceré praktické využitia. Výskumníci hovoria napríklad o tom, že bezpečnostné zložky by ju mohli využiť pri vytvorení podobizne podozrivého v prípade, že majú k dispozícii len jeho hlas.
Ako ďalší spôsob využitia sa javí tvorba akýchsi virtuálnych avatarov pre telekonferencie. Technológia tiež umožní rôznym telefonickým operátorom „vidieť“ pred sebou zákazníka, s ktorým práve volajú.