Главная Вводить Новшества Новый искусственный интеллект Google для преобразования текста в речь настолько хорош, что мы держим пари, что вы не можете сказать это от реального человека

Новый искусственный интеллект Google для преобразования текста в речь настолько хорош, что мы держим пари, что вы не можете сказать это от реального человека

Ваш гороскоп на завтра

Можете ли вы отличить компьютерную речь, созданную искусственным интеллектом, от реального живого человека? Может, ты всегда думал, что сможешь. Возможно, вам нравятся Алекса и Сири, но вы считаете, что никогда не перепутаете их с настоящей женщиной.

Скоро все станет намного интереснее. Инженеры Google усердно трудились над созданием системы преобразования текста в речь под названием Такотрон 2 . Согласно бумага они опубликовали в этом месяце, система сначала создает спектрограмму текста, визуальное представление того, как должна звучать речь. Это изображение пропускается через существующий алгоритм Google WaveNet, который использует изображение для создания чрезвычайно естественной человеческой речи.

Мелисса Бенойст дата рождения

Используя этот метод, исследователи сообщают: «Наша модель достигает среднего показателя мнения (MOS) 4,53, сравнимого с MOS 4,58 для профессионально записанной речи». (Средняя оценка мнения - это телекоммуникационный термин, который измеряет, насколько реалистично звучит что-то.)

Как показывают образцы звука Google, Tacotron 2 может определять из контекста разницу между существительным «пустыня» и глаголом «пустыня», а также существительным «присутствует» и глаголом «присутствует» и соответственно изменять свое произношение. Он может делать акцент на словах, написанных с заглавной буквы, и применять правильное склонение, задавая вопрос, а не делая заявление.

И он может генерировать текст, который звучит так похоже на человеческую речь, что трудно или невозможно различить разницу. Если вы хотите узнать, насколько это сложно, перейдите в Google страница аудио образцов , и прокрутите вниз до последнего набора образцов, озаглавленного «Такотрон 2 или человек?» Там вы найдете Tacotron 2 и настоящего человека, каждый из которых говорит такие предложения, как: «Эта девушка сняла видео о губной помаде из« Звездных войн ».

СПОЙЛЕР ПРЕДУПРЕЖДЕНИЕ: чтобы проверить себя, послушайте образцы и угадайте, что есть что, прежде чем читать оставшуюся часть этой колонки.

Итак, какие образцы являются преобразователями текста в речь, а какие - настоящим человеческим голосом? Инженеры Google ничего не говорят, но они оставили очень важную подсказку. Каждый из примеров файла .wav имеет имя, содержащее термин 'gen' или 'gt'. Основываясь на документе, весьма вероятно, что «gen» означает речь, генерируемую Tacotron 2, а «gt» - настоящую человеческую речь. («GT», вероятно, означает «истина», термин машинного обучения, который в основном означает «настоящая сделка».)

Предполагая, что это правильно, вот ответы на тест:

кто такой дэниел тош тоже женат

«Эта девушка сняла видео о губной помаде из« Звездных войн »».

Пример 1: Настоящий человек

Образец 2: Такотрон 2

«Она получила степень доктора социологии в Колумбийском университете».

Образец 1: Такотрон 2

Пример 2: Настоящий человек

«Джордж Вашингтон был первым президентом Соединенных Штатов».

Образец 1: Такотрон 2

Пример 2: Настоящий человек

Эвелин Лозада, дата рождения

«Я слишком занят для романтики».

Пример 1: Настоящий человек

Образец 2: Такотрон 2

Сколько у вас получилось? И вы действительно могли заметить разницу, или вам просто нужно было угадать?