Исследовательская лаборатория OpenAI из Сан-Франциско (США), которая специализируется на разработке искусственного интеллекта, представила новый успешный проект. Он получил название «Jukebox» (Музыкальный автомат) и предназначен для дотошного изучения и последующего воспроизведения голосов и манеры исполнения реальных певцов. Обучение началось с творчества Синатры и Элвиса и Jukebox показал потрясающие результаты.
Jukebox работает как синтетический дуэт композитора и певца-исполнителя, что разительно отличает его от живых музыкантов. С одной стороны, он безошибочно сочетает ноты и звуки, с другой – все еще допускает нелепые ошибки, «заблуждается» в том, как правильно воспроизвести отдельные фрагменты. Потому что ИИ сам пишет музыку с нуля и сам же поет слова, в качестве исходных данных ему дают только текст, который еще нужно проанализировать и понять, как это петь.
Тексты создаются другим искусственным интеллектом, специальной языковой моделью, под редакцией живых участников OpenAI. Они примерно соответствуют творчеству выбранных исполнителей – Jukebox прошел обучение на 1,2 млн отдельных композиций. Особенность этого ИИ в том, что при прослушивании песни он дробит ее на три уровня. На первом это предельно сжатый битрейт, просто мелодия и расположение слов. Два следующих уровня добавляют детализацию и специфические особенности исполнения конкретных музыкантов и певцов.
Когда Jukebox начинает моделировать песню, он идет тем же путем. Сначала выстраивает «каркас», а затем насыщает его деталям до нужного уровня. Как именно это происходит, решает только сам ИИ, чем и объясняется все еще высокая вероятность ошибок. Но там, где Jukebox поет удачно, даже опытный слушатель вряд ли заподозрит подвох, разве что он наизусть знает творчество того же Синатры и твердо уверен, что такой песни тот никогда не пел. Однако это не мешает делать эксперименты из серии «А что, если бы оперному певцу начала прошлого века поручили бы перепеть свежий поп-хит?». Примеры творчества искусственного интеллекта можно послушать на сайте проекта.
Источник: techcult.ru