В «Microsoft» разработали нейросеть, способную копировать голос любого человека
Узнав конкретный голос, «VALL-E» может синтезировать аудиозапись того, как человек говорит что-либо, стараясь сохранить его эмоциональный тон. Сама технология представляет из себя нейронную языковую модель, в основе которой лежит «EnCodec».
С его помощью «VALL-E» разделяет голоса человека на отдельные компоненты.
Эти компоненты, так называемые «лексемы», нейросеть сопоставляет с соответствующими голосами в своих обучающих данных для создания новых фраз за пределами первоначального трёхсекундного образца.
Помимо сохранения вокального тембра и эмоционального тона говорящего, «VALL-E» также может имитировать «акустическое окружение» сэмпла аудио. Например, если сэмпл взят из телефонного звонка, аудиовыход будет имитировать акустические и частотные свойства телефонного звонка в его синтезированном выходе.
13 января, 22:52
87
Пентагон тайно купил секретное оружие, которое может быть причиной загадочного «гаванского синдрома»
11 января, 23:29
161
Великобритания намерена произвести для Украины новые баллистические ракеты, способные поражать цели на расстоянии более 480 км, - Daily Mail
11 января, 20:16
154
Новая система ПРО Arrow-3, развернутая в Германии, не готова к перехвату ракеты "Орешник", - Die Welt
11 января, 19:08
74

