Вы не вспоминали, для чего Гугл ИИ? Для чего все эти победы в го, опыты с прозой и синтетической музыкой? Уж само собой разумеется не для имиджа. История безжалостна к благородным изобретателям, печальной памяти Xerox PARC — тому пример. И Google, другими словами, простите Alphabet, на эти грабли наступать точно не планирует. У каждого её проекта в обязательном порядке имеется приземлённая, прагматическая цель. К примеру, в наше время летом она сказала, что, натравив собственную, тренированную на аркадах нейросеть, на управление дата-центрами, сэкономила миллионы долларов на электричестве — и в общем «отбила» приобретение ИИ-стартапа DeepMind, за что несколько лет назад дала $600 млн. Такая вот она, высокая наука большого бизнеса.
К счастью, кроме того прикрыв основной испытательный полигон, Гугл Labs, гугловцы не стали принуждать собственных учёных производить, образно выражаясь, сковородки. И иногда нам, заинтересованным наблюдателям, перепадают приятные находки, коммерческая сокровище которых не очевидна. Весной это была победа над человеком в го (благодарю DeepMind). А пару дней назад всё та же команда сказала, что научила машину сказать людской голосом практически так же прекрасно, как сам человек.
Тут, но, стоит сходу послушать. По причине того, что на мой персональный вкус, новый синтезатор говорит не просто на голову лучше всех механических прошлых, конечно прекрасно, как человек: обращение его не просто информативна — она приятна для уха! И это очень многое обещает в возможности.
Как этого добились? Решив задачу нестандартно. До сих пор голос синтезировался двумя методами. Один: «наговорить на ленту» множество фраз, а позже вынудить машину порезать их на фонемы и слова и научить медлено сливать. Так, например, «говорят» Siri и Android. Второй метод — параметрический: необходимо разработать программу (вокодер), синтезирующую фонемы, и вынудить её «проговаривать» текст. Оба метода относительно легко программируются и требуют относительно маленьких вычислительных ресурсов, из-за чего и употребляются обширно. К сожалению, уровень качества для того чтобы синтеза не радует: голос при всём жажде не спутаешь с человеческим, потому что звучит он отрывисто, без выраженной интонации, неизменно одинаково, ну и по большому счету неестественно.
А гугловцы, повторюсь, пошли вторым путём. Они вынудили нейросеть синтезировать голос практически по «пикселям», звуковым квантам, с частотой 16 кГц. Другими словами никаких фонем, а тем более слов, тут нет: машина практически рисует сырую звуковую волну, как имела возможность бы рисовать синусоиду, к примеру. А дабы она знала, что необходимо рисовать, её предварительно натренировали на фонотеке, содержавшей записи много человек, сказавших пара дней.
В следствии WaveNet — так назвали синтезатор либо модель, «придуманную» мозгом DeepMind для синтеза голоса — способна не просто говорить, а копировать особенности и интонации речи любого из собственных тренеров — такие, например, как причмокивание губами либо перевод дыхания. Её возможно вынудить проговаривать текст с различным выражением, голосом мужским либо женским, на различных языках, а также изобрести личный неповторимый голос.
Уровень качества имитации так высоко, что средняя оценка, выставленная за натуральность группой слушателей, только мало, в десятых долях, уступает оценке голоса живого человека (по 5-балльной шкале, при том, что кроме того человек 5 баллов не набирает). И последствия рисуются очень нетривиальные и далеко идущие.
Коммерциализация таковой автомобили — дело, само собой разумеется, не одного дня. До тех пор пока ещё, дабы зачитать текст с страницы, WaveNet требует всей вычислительной мощи гугловского ИИ. В противном случае говоря, на телефоне её не запустишь. Со временем, но, модель точно упростят, подогнав под запросы широкого рынка. Но увлекательнее не гадать, в то время, когда это произойдёт, а попытаться очертить возможность, отталкиваясь от самого того факта, что машина обучилась сказать неотличимо от человека. Чем и кому это угрожает, чем и кому способно оказать помощь? Не считая тех очевидных миллионов несчастных, каковые, в следствии травм либо заболеваний, лишены собственного голоса и до тех пор пока вынуждены сказать голосами синтетическими и однообразными — и пожилой дядька Стивен Хокинг, и маленькая девочка.
Так вот на прицеле в первую очередь актёры. Спрос на «верные» голоса в масс-медиа велик. Голос подчёркивает изюминке персонажа либо продукта. Но сейчас, вместо того, дабы искать самый приближенный к желанному идеалу вариант среди людей, режиссёры смогут голосовую модель, совершенно верно удовлетворяющую нескольким параметрам, у Гугл. И WaveNet прочтёт текст с нужной интонацией, ритмом, громкостью, верно с первого раза и максимально приятно для слушателя.
Из этого прямо направляться вариант появления неестественных голосов, каковые будут звучать приятнее натуральных. Красота — парадоксальная вещь: мы довольно часто вычисляем прекрасным то, чего природа создать не смогла. Так из-за чего и голосу не быть таким же? Соответственно и , и реализовывающие телефонные звонки, а также, возможно, деловые переговоры (через Сеть либо с переводчиком), будут озвучиваться не человеком, а машиной. Уверен, кто-нибудь из фантастов эту тему уже прорабатывал. Посоветуете?
Потом, новую модель, само собой разумеется, возьмут на вооружение мошенники всех сортов — от чистых уголовников до заседающих в штабах политических кандидатов. Представьте себе, как быстро способна поменять расстановку сил в предвыборной гонке «случайно утекшая запись» телефонного беседы двух политиков, обсуждающих что-нибудь противозаконное. Для обывателя синтезированные голоса через наложенные помехи будут звучать неотличимо от оригиналов. Но кроме того и специалисты — смогут ли выяснить, что запись сфальсифицирована, что голоса ненастоящие? Найдутся ли в речи, синтезированной «попиксельно», хоть какие-нибудь зацепки, свидетельствующие о подделке? В случае если весьма интересно, имеете возможность попытаться собственные силы прямо на данный момент — Гугл опубликовала достаточное количество синтетических фонограмм.
Наконец, что весьма интересно и нежданно, WaveNet возможно вынудить трудиться «задом наперёд» и не только для голоса. Она, к примеру, способна обучаться, а позже генерировать очень занимательные (по крайней мере на взгляд непрофессионала: было бы весьма интересно услышать вывод людей с соответствующим образованием) музыкальные пассажи. А «развернув» её, как утверждают авторы, возьмём беспрецедентно качественную совокупность распознавания речи. То и второе до тех пор пока только забавные «побочные эффекты». Но какова же мощь главной разработке, в случае если кроме того её незапланированные особенности таят угрозу для людей творческих профессий!
P.S. В статье использованы графические работы DeepMind, Ashley Rose.