Поиск и генерация аудио-сэмплов

Внутренний корпоративный продукт. Текст или картинка на входе — качественный звук на выходе.

«Опишите звук словами — и мы его создадим. Покажите картинку — и мы услышим, что на ней происходит.» — концепция продукта

О проекте

Вам нужен звук дождя для видео. Или шум океана. Или что-то совершенно уникальное, чего еще не существует. Где его взять? Искать в библиотеках звуков, платить за лицензии? Записывать самому, тратя время и деньги на оборудование? Платить звукорежиссеру за каждый сэмпл?

Наш внутренний продукт решает эту задачу иначе: вы описываете звук словами — мы его генерируем. Вы показываете картинку — мы создаем звук, который ей подходит. Все через простой API, без сложных настроек и технических деталей. Просто опишите, что нужно, и получите результат.

Продукт уже работает и активно используется в наших проектах. Результат часто попадает в точку с первого раза — не нужно подбирать параметры, не нужно объяснять технические детали. Система понимает естественный язык и создает то, что вы описали.

Галерея (wide)

Как это работает

Принцип простой: подключаетесь к API один раз, настраиваете интеграцию, и дальше просто отправляете описание — текст на естественном языке или изображение. Получаете аудио-сэмпл различной длины, в зависимости от запроса. Высокое качество звука, различные форматы экспорта, метаданные о сгенерированном звуке — все это работает автоматически.

Система понимает описания вроде «тихий дождь в лесу, капли падают на листья» и создает именно такой звук. Показываете фото океана — получаете звук волн, который подходит именно этой картинке. API использует REST архитектуру и возвращает результаты в формате JSON — просто отправляете запрос и получаете файл.

Два изображения (block two)

Применение

Этот инструмент находит применение в самых разных сферах. Для создания звукового оформления видео, подкастов, презентаций — любой контент нуждается в звуке, и теперь его можно получить за секунды. Для генерации фоновой музыки — уникальные композиции под ваши проекты, без лицензионных проблем и долгих переговоров с правообладателями.

Для прототипирования аудио-идей — быстро проверьте концепцию, прежде чем вкладываться в полноценное производство. Для создания уникальных звуковых эффектов — звуки, которых еще не существует, для игр, фильмов, инсталляций. Все это становится доступным через простой API, без необходимости разбираться в сложных инструментах звукозаписи.

Три изображения (block three)

Технологии

Проект использует собственные модели генерации, обученные на больших датасетах. API для интеграции позволяет простое подключение к любому проекту — один раз настроили, дальше просто используете. Высокая скорость генерации означает результаты за секунды. И постоянное улучшение качества и разнообразия — система становится лучше с каждым использованием.

Широкое изображение

Технологии генерации

Статус проекта

Это бизнес-сервис, который работает и активно используется внутри компании в разных проектах. Даже с учётом того, что сейчас многие модели, которые генерируют видео, уже могут генерировать его со звуком, отдельный сервис для генерации звуков по запросу — это очень даже прикольная инициатива.

Пока мы не планируем выводить его "наружу" как публичный сервис, но если есть интерес — пишите. Мы рассматриваем варианты пилотов с внешними командами, если формат и границы подходят.

Моделирование пространства

Оцифровка пространств и измерение объёмов сыпучих материалов. LiDAR, компьютерное зрение, 3D Gaussian Splatting для складов, предприятий и логистики.

→