Компания Sesame, занимающаяся разработкой искусственного интеллекта, выпустила базовую модель, на которой основан Maya — впечатляюще реалистичный голосовой помощник. Модель, размер которой составляет 1 миллиард параметров, находится под лицензией Apache 2.0, что означает, что ее можно использовать в коммерческих целях с небольшими ограничениями. Названная CSM-1B, модель генерирует «аудиокоды RVQ» из текстовых и аудиовходов, согласно описанию Sesame на платформе разработки AI Hugging Face.
RVQ относится к «остаточной векторной квантизации», технике кодирования звука в дискретные токены, называемые кодами. RVQ используется в ряде последних аудиотехнологий AI, включая SoundStream от Google и Encodec от Meta*.
CSM-1B использует модель из семейства Llama компании Meta в качестве основы в паре с аудиокомпонентом «декодера». Sesame утверждает, что Maya работает на основе тонко настроенного варианта CSM.
«Модель с открытым исходным кодом — это базовая модель генерации», — пишет Sesame в репозиториях CSM-1B Hugging Face и GitHub.
«Она способна воспроизводить множество голосов, но не была настроена на какой-либо конкретный голос. Модель имеет некоторую способность к неанглийским языкам из-за загрязнения данных в обучающем наборе, но, скорее всего, с ними она справится не очень хорошо ».
Неясно, какие данные Sesame использовал для обучения CSM-1B. Компания не сообщила.
Стоит отметить, что у модели нет реальных гарантий, о которых можно было бы говорить. Sesame имеет систему чести и просто призывает разработчиков и пользователей не использовать модель для имитации голоса человека без его согласия, создания вводящего в заблуждение контента, такого как фейковые новости, или участия в «вредных» или «злонамеренных» действиях.
Я попробовал демо на Hugging Face, и клонирование моего голоса заняло меньше минуты. После этого было легко генерировать речь, какую только душа пожелает, в том числе на спорные темы.
Недавно Consumer Reports предупредил, что многие популярные на рынке инструменты клонирования голоса на базе искусственного интеллекта не имеют «значимых» мер защиты от мошенничества или злоупотреблений.
Sesame, соучредителем которой является один из создателей Oculus Брендан Айриб, в конце февраля стала вирусной благодаря своему помощнику-технологу, который близок к зачистке территории зловещей долины. Майя и другой помощник Sesame, Майлз, делают вдохи и говорят с запинками, и их можно прерывать во время разговора, как и в голосовом режиме OpenAI.
Sesame привлекла нераскрытую сумму капитала от Andreessen Horowitz, Spark Capital и Matrix Partners. Помимо разработки технологии голосового помощника, компания заявляет, что она разрабатывает прототип очков AI, предназначенных для ношения в течение всего дня, которые будут оснащены ее индивидуальными моделями.