Synthesizer V Pro (Synth V) (2 онлайн)

dr-music

Well-Known Member
8 Апр 2007
2.623
5.610
113
Moscow
Synthesizer V Pro (Synth V) — голосовой синтезатор японского производителя, построенный на AI (обучающихся моделях). Человеческий певец приходит в студию, поёт много-много песен, по возможностям и умению — на разных языках. Потом машина всё напетое уцифровывает всего в несколько сотен мегабайт. И дальше с голосами можно делать очень многое: вписывать свой текст, менять громкость, форманты, вибрацию, портаменто.

Основные ресурсы:
https://dreamtonics.com/ — сайт и магазин производителя синтезатора;
https://forum.synthesizerv.com/ — полуофициальный форум;
Ветка на vi-control;
Обучающие ролики на youtube;
Eclipsed Sounds — ещё один производитель голосов для Synth V.

Что хотелось бы видеть в этой теме. Удачные примеры работ. Обучающие ролики. Результаты своих поисков и экспериментов. Ссылки, помогающие приобретающим сэкономить, промо-коды, распродажи. Новости от производителей голосовых баз данных (называть эти продукты библиотеками не совсем верно).

Что и кого не хотелось бы видеть в этой теме. Обсуждение общих вопросов применения AI в музыке — для этого есть темы во флейме. Неудачные примеры криворуких имитаторов. Пошляков с шутками за триста про резиновых баб. Вообще, досужие сетования на то, что всё это неживое — синтетический оркестр в кино все потребляют, на изжогу не жалуются, а тем временем первый коммерческий альбом с песнями, спетыми искусственными голосами, уже вышел в Японии.

Пара примеров. Я предпочитаю примеры голосов без навороченного аккомпанемента (ритм-группы), чтобы всё было слышно. Такие примеры редки на сайтах производителей голосовых баз данных, приходится их искать по ютубу и форумам.

Synthesizer V Natalie: Amazing Grace 2023 (a cappella), автор мокапа — Mizuki Tachibana. Насколько я понимаю, почти все голоса здесь — Natalie.



В следующем примере все голоса, кроме ведущего, сняты (забиты) местами довольно неаккуратно, прежде всего ритмически, но это здесь не принципиально. Можно сравнить с оригиналом, откуда и взята картинка. Здесь пять разных голосов: Solaria, Cong Zheng, Kevin, Xuan Yu, Asterian.



Понятно, что копировать хорошие образцы живых коллективов гораздо-гораздо проще, чем с нуля прописать голос в новой песне. Та же самая проблема, что и с симфоническими имитациями: известный дирижёр много-много поработал с высокопрофессиональным оркестром, сделал запись в хорошем зале или студии, а потом умельцы подобрали сэмплы под отработанную кем-то фразировку, баланс, темпы. Не без воровства процесс, и я сейчас не про соблюдение копирайта, а о создании себе имени на этом некоторыми синтетическими аранжировщиками. Но как шаг к освоению технологии — почему бы и нет.
======

Существует две версии синтезатора, обычная и Про. Первая бесплатна, но по части редакции не даёт делать практически ничего. У неё есть и лицензионные ограничения: нельзя использовать коммерчески и следует обязательно указывать везде используемые голоса и название программы. Большинство голосов можно скачать бесплатно и работать с ними в бесплатной версии. Но поскольку сделать толком ничего нельзя в таком комплекте, дальше мы будем обсуждать только версию Про ($ 89.00).

В русскоязычном пространстве работающих с этими голосовыми БД мало, их практически не видно. И я долго сомневался, стоит ли открывать тему. Однако предстоящие изменения в возможностях Synth V (компании всего-то года три-четыре), новый обещанный функционал заставляют уделить ему внимание. У Synth V есть бета-программа, записаться в бета-тестеры может любой желающий. Я этого не делаю, поскольку нельзя в одной системе иметь и бета-, и рабочую версию, а я только осваиваюсь. Однако вот о чём я прочитал и что увидел. В последних бетах появилась возможность
— напеть своим (возможно, дурным) голосом фразу в нужном ощущении темпа, что лучше, чем рисовать мышкой ноты, пытаясь это ощущение угадать;
— после дать синтезатору проанализировать напетое; синтезатор а) распознает все ноты (уже отлично справляется), б) распознает все флуктуации и вибрации, здесь можно выбрать, оставить ли свои или отдать на усмотрение Synth V, в) распознает все фонемы, согласные и гласные (пока это работает так себе, в стадии доведения до ума);
— после анализа можно подставить любой из голосов, имеющихся в наличии и далее работать с ним «обычным» образом — менять ноты, стретчить, менять форманты, вибрацию, портаменто, громкость, и т. п.

И самое многообещающее: грядёт поддержка ARA-технологии (в Кубейсе 12 и 13 прямая, в Лоджике через бридж), что на порядок облегчит работу с голосами. В самом начале пути Synth V был в стэнд-элон версии, и гонять из него в DAW и обратно сэмплы было тем ещё наслаждением.

Немного непривычно смотреть ролики, в которых основной язык японский, а английский — так, какой-то периферийный. Нате вам титры, и не жалуйтесь.
О предстоящих нововведениях в версии 1.11.0:



Продолжение следует (немного лайфхаков ради неупущенной выгоды).
 
Последнее редактирование:

dr-music

Well-Known Member
8 Апр 2007
2.623
5.610
113
Moscow
О проблеме языков. Синтезатор японский, в Японии и Китае бум с этими голосами, количество голосов с поддержкой только этих языков (их фонетики) исчисляется десятками, если не сотнями. Качество очень разное, некоторыми голосами только роботов и изображать. (Пластмасса в роли пластмассы, ага.) И продаются эти голоса на сайтах, где ни одной европейской буквы-то не найдёшь.
Основной интерес европейцев и американцев направлен к тем голосам, которые обучались и на английских песнях. На форумах нередко обсуждают качество английского произношения, которое мне, русскому, не оценить никогда.

Что важно, так это то, что такими голосами мы, русскоговорящие, всё же как-то можем управлять. Вписывать нужный текст латиницей нам доступно. А вписывать иероглифы? Ну, тем, кто умеет, искренние пожелания удачи. Я уже не научусь.
Текст можно вписывать и фонемами, вот довольно старая (свежую не искал) картинка с набором английских фонем. Но насколько удобно использовать фонетический ввод, пока не знаю.

240081


Не, понятно, что забить для бэк вокала тупс-тупс, дабу-дабу или ла-ла-ла получится с любым голосом, но нам же этого мало.

И ещё к вопросу о языках. Понятно, что нужна родная фонетика. Но я уже видел песенки на польском и финском языках, сделанными из английского. Сам оценить, конечно, не могу, но носителям языка результат нравился.

Кстати, БД (базы данных) с голосами не нечто однажды сделанное, они тоже дорабатываются и апдейтятся по мере развития Synth V. Наличие апдейтов как самого синтезатора, так и установленных в системе голосов проверяется прямо из GUI синтезатора.

=============
Переходим к покупкам и экономиям. На самом сайте Dreamtonics скидок нет и не было. Разве что в первую покупку можно с небольшим дисконтом купить сам Synth V Pro в комплекте с любым одним голосом. Но посмотрим другие пути.

Есть такой японский сайт https://www.dlsite.com. Крупный магазин по продаже манго, аниме и картинок для взрослых. На этом сайте совсем немного англоговорящих голосов, но зато цены на треть ниже, и это ещё до применения купонов. На сегодняшний день я вижу там сам Synthesizer V Studio PRO и три голоса: Natalie, Kevin и NineZero. Если есть готовность к покупке и продуман способ оплаты, то у вас есть примерно сутки с момента регистрации на получение дополнительной нехилой скидки. Регистрируемся, при регистрации вводим промокод (купон новичка) DLsiteWelcome30 . 30% скидки у нас уже есть, но она быстро сгорит (толи за сутки, то ли за двое-трое суток). Это вроде как купон на первую покупку. Можно положить в корзину хоть все голоса вместе с синтезатором, ограничений на количество товаров в первой покупке нет. Но и это ещё не всё.
При регистрации сайт накидал в аккаунт ещё несколько десятков купонов, их можно найти здесь: подвести мышь к слову Account в правом верхнем углу и выбрать Coupon Management. Большинство из этих купонов ни на что не годны, а вот синий купон на 30% — годится. У меня он был вторым сверху, его надо будет применить уже при оплате. Денежный результат: Synth V и все три голоса на сайте Dreamtonics обошлись бы примерно в $320, а здесь — в 163 евро (при оплате с евровой карточки).

Важно-1: на этом сайте не насчитывается VAT (налог).
Важно-2: этот сайт не присылает ссылки для скачивания, серийные номера и отчёты по финансовым операциям. Ссылки и серийные номера находятся в личном кабинете, и я бы их безопасности ради скопировал и сохранил в надёжном месте.


============

Ещё одна пока работающая экономия. Сайт https://www.eclipsedsounds.com/, я упоминал его в начале предыдущего поста. Это независимый производитель голосовых БД. У него всего три голоса на витрине, но на каждый стоит обратить внимание.
Solaria — одно из лучших сопрано из всех.
Asterian — практически единственный настоящий бас. Если писать многоголосные акапеллы или изображать хор, то без него будет трудно. Специфический голос, не без этого, но поскольку единственный в своём регистре...
Saros — первый на рынке голос, обученный и на испанском языке. Испанский язык пока в доработке, поэтому этот голос пока чуть дешевле. Для целей изобразить русский текст испанский подходит гораздо лучше английского.

А теперь о деньгах. Если положить в корзину два или все три голоса, то скидка от магазина будет 10%. Вроде об этом нигде на сайте не написано. А ещё в сети нашёлся промо код ESBNAMM2023 — пока работает (сегодня проверено), из стоимости покупки трёх голосов вычлись $70. Важно: этот магазин 30$ sales tax таки добавил. Итого за три голоса сняли $198 (182 евро).

Пока всё.
 
Последнее редактирование:

dr-music

Well-Known Member
8 Апр 2007
2.623
5.610
113
Moscow
1) В догонку к предыдущему. Если кто будет покупать на https://www.dlsite.com, то в аккаунте серийные номера будут выглядеть как-то так (личное зачёркнуто):

240086


Настоящим является только первый номер, его надо вводить. Во второй строке — какой-то код для связи с поддержкой. Что в третьей строке, онлайн-переводчики с японского внятно объяснить не могут, хотя внешне похоже на правильный серийный номер.

2) Во многих установщиках голосовых БД есть только файл *.svpk (например, saros-installer-v100.svpk). Ничего страшного: после установки Synth V этот тип файла OS связывает с синтезатором и установка проходит под управлением самого Synth V. Файл одинаков для Win, Mac и Linux.

3) Из ночной переписки. Мой визави реагирует на имя певца Saros:

240087
 
Последнее редактирование:
  • Like
Реакции: Landre

Dmitry Stepin

In trance me trust
12 Янв 2004
15.411
11.417
113
40
Москва
t.me
Интересно, а можно ли такой же фокус провернуть с музыкальными инструментами, а не голосом? Что может помешать сделать подобную скрипку или флейту, или ещё что-то? Звучит же очень круто, если ухо на голосе не чувствует подвоха, то и на музыкальном инструменте не должно. Где наши нейроскрипки и прочее?
 
  • Like
Реакции: kronos61 и Furqat

PianoIst

Well-Known Member
19 Май 2010
4.103
4.156
113
29
Kirchberg, kreis Zwickau
soundcloud.com
Где наши нейроскрипки и прочее?
А мы в плане технологий (сэмплирование, в первую очередь) ‒ вообще динозавры. У меня была идея пробовать библиотеку сэмплов делать не детерминированной, а статистической. С оффлайн-рендерингом (подбором нужных фраз и подгонкой по громкостям и питч-шифту на месте). И то, это была идея на уровне того, что лингвисты (и поисковики) делали в начале нулевых.

Но, конечно, нейросети тут сильно поменяют правила игры.

По сабжу ‒ клёво, что. Но лично пока не заинтересовался, т.к. именно голос, как раз, как правило, ‒ наименьшая из проблем. Хорошие певцы есть везде.
 
  • Like
Реакции: dr-music

dr-music

Well-Known Member
8 Апр 2007
2.623
5.610
113
Moscow
@Dmitry Stepin,
Кстати, я, кажется, последний, кто ещё не шутил на тему... Тогда и Артурию ведь можно! Все восемь пил, которыми она сук пилит, и всё это туда, туда, в нейроджунгли :)
 
Последнее редактирование:
  • Haha
Реакции: Landre и ESSE

deplexer

Well-Known Member
9 Янв 2012
4.000
2.592
113
50
Москва
Synthesizer V Natalie: Amazing Grace 2023 (a cappella), автор мокапа — Mizuki Tachibana. Насколько я понимаю, почти все голоса здесь — Natalie.
Особенно понравились титры в начале. "Аранжировка и программирование вокала Мизуки Тачибана" )
21 век наступил.
 
  • Like
Реакции: dr-music

dr-music

Well-Known Member
8 Апр 2007
2.623
5.610
113
Moscow
Но лично пока не заинтересовался, т.к. именно голос, как раз, как правило, ‒ наименьшая из проблем. Хорошие певцы есть везде.
Сколько-то лет назад один из оркестровых форумчан (его никнейм и настоящее имя я помню, но сейчас неважно) всё рассказывал, насколько легко в Японии у него получилось с работой, с заказами, как просто он выехал туда. А потом оказалось, что у него жена японка!
А у тебя жена — сопрано. Конечно, в твоём окружении «хорошие певцы есть везде» :) Шучу, шучу.

Мне в последние годы всё время хоры хочется писать, и я это делаю. Но сэмплерные хоры бесят и не помогают в работе от слова совсем. Количество усилий, требуемое для получения результата, который меня всё равно не устраивает, не стоит программерской возни. Решил попробовать с голосами, подкопил денежку целевым образом. Не догоню, так хоть согреюсь. В смысле, если не пойдёт процесс, так хоть технологию изучу. Ну, и микс с живыми домашними голосами для меня вполне возможен, и сэмплерные хоры можно подмешивать. Есть поле для экспериментов.
 

dr-music

Well-Known Member
8 Апр 2007
2.623
5.610
113
Moscow
Песня, спетая на 25 языках, по фразе на язык. Русский — на 2'40". Cong Zheng (Цон Чжен) AI Database — в тех.паспорте у этой певицы только китайский. Cсылка на youtube.

=====
Asterian AI (английский в анамнезе) — на испанском да под старый ч/б кинофильм. Приколисты!

 
  • Like
Реакции: Greev и Landre

Landre

Well-Known Member
20 Авг 2007
1.754
1.134
113
52
Ростов-на-Дону
soundcloud.com
@Gerain9, спасибо за перевод)). Хоть Вы нормально русский знаете)

P.S. "подвластны мне мороз и лёд ну что за дивный дар". Ума не приложу, как Вы это услышали.
 

Gerain9

Well-Known Member
16 Окт 2006
2.857
2.029
113
Татарстан
Так он из не русского сделан. Естественно не айс. Появится если русская база- огонь будет...
 
  • Like
Реакции: Landre

dr-music

Well-Known Member
8 Апр 2007
2.623
5.610
113
Moscow
А, стоп, я не тот ролик смотрел)).
Правильный ролик дал в виде ссылки, потому что он на сторонних сайтах всё равно не проигрывается, хозяин так пожелал. Так что тут немного моя вина ;-]

Ролик в целом сделан «на отвали», имхо, но свою функцию выполняет. Однако и с фонемами, а не только с вокальной интонацией, тоже надо работать, и иногда достаточно кропотливо. Например, если мы хотим получить «ля», а не «la», мы должны вписать ещё одну гласную — lia. А чтобы Synth V не распределял гласные по ноте по своему усмотрению (т.е. примерно пополам), ноту нужно разрезать на две — для li и для а, и первую из них сделать очень короткой. Насколько короткой — только в процессе поймёшь. И вот этой кропотливости требуется вагон и тележка.
Тут примерно как с физмодными скрипками (SWAM и т.п.) — не настолько они сами по себе непохожи на настоящие-живые, насколько аранжировщики не справляются с управлением и насколько у аранжировщиков ложные или неточные представления о живой скрипке.

===
Вангую появление кучи «иностранных» певцов и певиц, внезапно возжелавших петь на русском песнюхи никому не известных авторов :)
 
  • Like
Реакции: Landre

Gerain9

Well-Known Member
16 Окт 2006
2.857
2.029
113
Татарстан
Вангую появление кучи «иностранных» певцов и певиц, внезапно возжелавших петь на русском песнюхи никому не известных авторов
Маме и скат утопят весь мир в своём творчестве. Мировые серверы взорвутся и наступит Армагеддон.
 

dr-music

Well-Known Member
8 Апр 2007
2.623
5.610
113
Moscow
Маме и скат утопят весь мир в своём
Этот потоп я гденьть в горах с женой пересижу, а сам буду писать хоровую музыку литургического содержания. Вот только китайский табор хор дособеру, и вперёд!

А если чуть серьёзней, то хор или большой ансамбль — не такая уж недостижимая штука. У всех AI голосов можно менять форманты. В не столь уж малых пределах голос сохраняет естественность и уж точно может быть использован для вторых-третьих нот в аккорде.
«Испанский» ролик выше — как раз пример работы с формантами. Во всех других демо Asterian — бас, причём театральный, выпуклый, и сам я бы его в этом ролике не опознал.

А ещё где-то в сети проводится конкурс лучших работ с использованием этого голоса (google: Asterian competition).
А ещё этот дядька (из которого Asterian'а изготовили) рекламы озвучивает: https://www.thatbassvoice.com/. Послушайте аудио-нарезку под названием Characters. Англоговорящие, кстати, в его дикции, попавшей в Asterian AI, однозначно опознают дикцию чёрного (no to racism), хотя и не все знают, чей голос взят.
 
Последнее редактирование:
  • Like
Реакции: Landre

dr-music

Well-Known Member
8 Апр 2007
2.623
5.610
113
Moscow
SynthV имеет межъязыковую (interlingual) модель, позволяющую (в теории) писать текст на любом языке. Если язык официально поддерживается, то это означает, что все или большинство фонем этого языка можно использовать. Поддерживаемые языки дотачиваются как в самом SynthV, так и в голосовых базах данных. Сейчас вот над испанским работают, улучшают долгое испанское rr и т.п.. Однако язык, который был родным для артиста, остаётся важным для языковых пуристов: понятно, что близкое к идеальному произношение можно получить только от носителя языка.

Новый голос от артистки из Японии, из популярного сейчас девчачьего коллектива. (Новых голосов два, ROSE и POPY, но демку второго пока не нашёл.) Новый голос — и новые лицензионные ограничения. Японцы жёстко запретили коммерческое использование голоса на любых стриминговых платформах, кроме двух японских (TuneCore Japan and BIG UP!). Эти платформы могут быть недоступны из других локаций как для авторов, так и для слушателей. Новаторский подход, да, требует осмысления. Вообще, интересно наблюдать, как вместе с новыми технологиями приходят и юридические ограничения, которые наверняка будут подкреплены и силовым блоком (средствами шпионажа, отслеживания и наказания нарушителей).

SynthV ROSE AI. Нотка с гроулом примерно на 3'02" очень неплоха.

 
Последнее редактирование:

dr-music

Well-Known Member
8 Апр 2007
2.623
5.610
113
Moscow
Не SynthV, но вот так фейковый (AI) Джонни Кэш (Johnny Cash) исполняет песенку «Barbie Girl» группы Aqua.

I'm a Barbie girl in the Barbie world
Life in plastic, it's fantastic
You can brush my hair, undress me everywhere
Come on, Barbie, let's go party
I'm a Barbie girl in the Barbie world

 

dr-music

Well-Known Member
8 Апр 2007
2.623
5.610
113
Moscow
Cubase и бета-версия SynthV с последними нововведениями. Нужно включить субтитры и выбрать автоматический перевод на английский (не знаю, переводит ли на русский).



Интересно и, прямо скажем, несколько контринтуитивно, что для использования ARA-технологии можно, если не планируется расшифровка живого вокала, поставить вообще любой аудио-файл, он никогда не звучит и, по сути, только позволяет ARA-функционалу работать и задаёт длину группы (фразы). А нотки и фонемы можно рисовать любые в пределах длины файла.

В шесть утра я, ещё до просмотра ролика, догадался, как этот Ара работает, а файл у меня был подгружен вообще не вокальный (первый попавшийся — минус песенки «33 коровы», недавно монтировал для танцевального кружка). Ну, SynthV мне его распознал, конечно, хотя в фонограмме ни голоса, ни мелодии, ни фонем и в помине не было. Он-то распознал, а вот я то ли оказался в дурке с утра пораньше, то ли ко мне завезли Шарикова сразу после очеловечивающей операции в клинике Преображенского. Слушать с осторожностью...



====================
Этот артефакт с Саросом надо заслушать чем-то. Позволю себе небольшой

Кажется, мне всегда больше нравилась многоголосная или хотя бы диалоговая музыка. Вроде того, что исполняет шведская The Real Group из первого поста. Не то чтобы мне хотелось подвергнуть романтических героев-одиночек принудительной коллективизации, но последние лет двадцать такие музыки, даже при симпатии, требуют от меня сочувствия скорее социального, а не художественного рода.

В сложном вокальном многоголосии были свои подвижники, одного из которых хотел бы упомянуть. Пока ищешь инфу по SynthV, попадается интересное. Аранжировщиков, вообще-то, никогда не помнят, и даже не всегда известно, какие именно работы делал тот или иной аранжировщик, история сохраняет только то, что такой-то такой-то сотрудничал с коллективом Икс или артистом Игрек. Джин Пьюрлинг (Gene Puerling) — сам певец и вокальный аранжировщик, среди прочих, работал с известными у нас американскими коллективами «Take 6» и «Manhattan Transfer». Кстати, он не особо-то знал джазовую гармонию, и сам признавался, что не ведает, как записать цифровкой тот или иной аккорд. Всё подбирал по слуху. Самые известные его работы относятся к 1960-м годам.

В США, тому я сам свидетель, на улице иногда можно встретить человек 6-10 студентов, вышедших на улицу подработать пением такого рода музыки (очень многоголосно, а в аккордах очень многотерцово). В России такого ни близко нет, ни вдалеке, у нас всё по-прежнему... литературоцентрично.

В первом видео — нарезка из аранжировок Пьюрлинга, второе видео я размещаю, чтобы показать самого Джина: дядька в очках с тёмной бородкой и крючковатым носом — это он.





А в третьем видео — битловская «Blackbird» в исполнении The Real Group (аранжировка Андерса Эденрота, он же солист).

 

Вложения

dr-music

Well-Known Member
8 Апр 2007
2.623
5.610
113
Moscow
1) Магазин основного сайта Dreamtonics — выявленные особенности.

— Есть голоса, которые продаются только в этом магазине. Но если они продаются где-то ещё, то там точно будет дешевле.
— Скидок не бывает, и есть только один бандл — сам SynthV + один любой голос на выбор. Понятно, что второй раз таким предложением воспользоваться не получится. Все промо-коды, что находятся в интернете, нерабочие.
— Цены в магазине указаны без налога (!). Самый дорогой голос, Weina ($129), обойдётся при покупке из Евросоюза ещё дороже, в €147,35 (€ 25,57 tax). Неприятно.
— Магазин не даёт ничего купить то ли при российском почтовом адресе в Account Details, то ли при российском имэйле (пробовали yandex). Поменяли и то, и то — заработало, а что именно для магазина важно, выяснять не стали. VPN, впрочем, не требуется. Отказ идёт на самом последнем этапе, без объяснения причин.

241653


====
2) Один из недавно появившихся голосов —SAROS. Бум использования AI голосов пока только в Азии, а там большинство любители Манги. Найти более-менее прозрачный, не забитый барабанами и не замутнённый реверберацией образец голоса не просто. Такой, чтобы были слышны и достоинства, и недостатки. (Оригинал песенки, там голос другого характера.)

 

vinnipooh1988

Well-Known Member
14 Апр 2021
767
496
63
35
РФ
Послушал, отлично! Если где-то мельком услышать - никогда бы не подумал, что поёт машина.
 
  • Like
Реакции: Landre

dr-music

Well-Known Member
8 Апр 2007
2.623
5.610
113
Moscow
До детей добрались...

Производитель голосов просит всех продюсеров не использовать эти детские голоса для аморальных (в любом возможном смысле) вещей. Соблюдается ли сиё, этого я проконтролировать не могу, но в японо-китайских интернетах достаточно каверов третьесортных взрослых песен и каких-то совсем дебильных мультяшных пропевок. Успели наклепать, голоса вышли всего полгода назад...

Голос Yun Quan (девочка, $79). Интересного демо не нашёл, поэтому просто демонстрация вокальных модов. (Интересно, что в природе есть ещё довольно унылый рэпер Yun Quan. Спросить бы, как он отнёсся к появлению электронной тёзки лет шести...)




Голос Lin Lai (мальчик, $79).




Дуэт Yun Quan и Lin Lai. Начиная с 3'40" хор из 15 взрослых AI-голосов (слышно, что все поют скопированный материал). 4'18" — снова детский дуэт.

 
Последнее редактирование:
  • Like
Реакции: Alex Astero и Landre

dr-music

Well-Known Member
8 Апр 2007
2.623
5.610
113
Moscow
Обучение на пользователях, немного рэпа и джазовая шутка-нанайка

1) Reinforcement Learning with Human Feedback (RLHF) — обучение с обратной связью от пользователя. В версии SynthV 1.7.0 (июль 2022) была введена функция генерации нескольких вариантов фразы с возможностью пользователя выбрать наилучший вариант. Постепенно локальная машина обучается на предпочтениях пользователя, информация об этом собирается, отсылается производителю, и в новых версиях голосов сумма мнений всех пользователей учитывается. Информация из этого видео. Это как бы второй уровень обучения после основного (на основе студийной записи).
В SynthV при апдейте голосов сохраняются и предыдущие версии, благо места они занимают немного. С новой версией голоса старая аранжировка может звучать чуть по-другому, поэтому производитель не советует удалять предыдущие версии.

2) Немного рэпа. Интересно было бы поковырять чей-нибудь файлик с таким рэпом. Эти кривые (в основном, нисходящие) в нижней части экрана достойны культурологического и физиологического реверс-инжиниринга — типа, нафига, в какой степени и с какой целью читающие пацанчики так регулярно понижают интонацию.



3) Джазовая шутка-нанайка — автор написал совершенно безумную AI-голосовую импровизацию на джазовый стандарт «All The Things You Are» (см., например, в исполнении Эллы Фитцджеральд). Импровизация насамделе довольно тупая и отквантизованная. Но из-за слогового безумия, сильно завышенного темпа и отсутствия аккомпанемента звучит очень смешно. Хохмы ради автор ещё и разместил под роликом текст (слоговую мешанину) — «для желающих подпеть». Импровизация идёт быстро, и я не то, что подпеть, я даже следить за текстом не успевал. А попытался подыграть тему — у меня получилось раза с двадцатого, всё время сбивался с ритма. Кто хочет попробовать, нотки и текст в помощь, под спойлерами. Импровизация идёт ровными восьмыми (хотя иногда на быструю восьмую приходится два, а то и три слога), поэтому текст я переформатировал по строке (по 8 слогов) на такт.

doo wop skiddly bee shoo bee doo nscoo
bee doo bee bop doo bee doo shooby doo
wop ba da ba da doo ya doo
bee bop a lula scoo bee doop bop
shoo wop be bop a lula doo wop
skiddly bee shoo bee doo nscoo bee doo
bee bop doo bee doo-shooby doo wop ba
da ba da doo ya doo bee bop

a lula scoo bee doop bop shoo wop
be bop a lula doo bop a doo
skoobly do doo dat dat doo ah dee
be doo be doo doo doodoo skoobly bee
doo wop skiddly bee shoo bee doo scoo
bee doo bee bop doo bee doo-shooby doo
wop ba da ba da doo ya doo
bee bop a lula scoo bee doop bop

shoo wop be bop a lula doo bop
a doo skoobly do doo dat dat doo
ah dee be doo be doo doo doo-doo
skoobly bee doo wop skiddly bee shoo bee
doo nscoo bee doo bee bop doo bee
doo-shooby doo wop ba da ba da doo
ya doo bee bop a lula scoo bee
doop bop shoo wop be bop a lula

doo bop a doo skoobly do doo dat
dat doo ah dee be doo be doo
doo doodoo skoobly bee doo wop skiddly bee
shoo bee doo nscoo bee doo bee bop
doo bee doo-shooby doo wop ba da ba
da doo ya doo bee bop a lula
scoo bee doop bop shoo wop be bop
a lula doo bop a doo skoobly do

doo dat dat doo ah dee be doo
be doo doo doodoo skoobly bee doo wop
skiddly bee shoo bee doo nscoo bee doo
bee bop doo_ bee_

241836


241837



 
  • Like
Реакции: Landre и Alex Astero

Arlekin

فلاديمير
23 Июн 2008
6.865
10.581
113
rmmedia.ru
поставить вообще любой аудио-файл
Правильно ли я понял, что "скормив" вокальный файл (например, не важно чьей песни) и прописав свой текст, получим свою песню типа спетую, например, неважно кем?

Если это так, тогда точно "соседи, вешайтесь, подонки". :Dle46:
 

Сейчас онлайн (Пользователей: 0, Гостей: 2)