音频样本搜索和生成

一款内部企业产品。输入文字或图像 —— 输出高质量声音。

「用文字描述声音 —— 我们就能创造它。给我们一张图片 —— 我们就能听见里面发生的事情。」 —— 产品理念

关于项目

你需要为视频配上雨声。或海浪声。或某种完全独特、尚不存在的声音。从哪里获得?到声音库里搜索并支付授权费?自己录制,把时间和金钱花在设备上?为每一个样本付钱给音效工程师? 我们的内部产品用另一种方式解决这个任务:你用文字描述声音 —— 我们为你生成;你给一张图片 —— 我们创造与之相配的声音。一切都通过简洁的 API 完成,没有繁琐的设置,也没有技术细节。只需描述你需要什么,就能获得结果。该产品已在运行,并在我们的各个项目中被积极使用。结果常常一次就命中 —— 无需调参,无需解释技术细节。系统理解自然语言,并创造出你所描述的内容。

图库 (wide)

如何运作

原理很简单:你与 API 完成一次对接,配置好集成,之后只需发送描述 —— 自然语言文本或一张图像。你会获得不同长度的音频样本,取决于请求内容。高音质、多种导出格式、关于所生成声音的元数据 —— 这一切都是自动完成的。系统能理解诸如「森林里安静的雨声,雨滴落在树叶上」这样的描述,并创造出正合此意的声音。给它一张海洋的照片 —— 你会得到正与这张图像相配的海浪声。API 采用 REST 架构,并以 JSON 格式返回结果 —— 只需发送请求就能获得文件。

两张图像 (block two)

应用场景

这个工具在各种各样的领域找到用武之地。为视频、播客、演示文稿创作声音设计 —— 任何内容都需要声音,现在只需数秒即可获得。用于生成背景音乐 —— 为你的项目量身定制的独特作品,免去授权烦恼和与权利人漫长的谈判。用于对音频创意做原型验证 —— 在投入完整制作之前,快速检验一个概念。用于创作独特的音效 —— 尚不存在的声音,用于游戏、电影、装置艺术。所有这些都通过简洁的 API 变得可及,无需掌握复杂的录音工具。

三张图像 (block three)

技术

项目使用我们自研的生成模型,在大型数据集上训练。集成 API 允许简单接入任何项目 —— 配置一次,之后只管使用。高生成速度意味着秒级出结果。并且质量与多样性持续改进 —— 系统在每一次使用中变得更好。

宽幅图像

生成技术

项目状态

这是一项业务服务,正在运行并在公司内部的各个项目中被积极使用。即便考虑到如今许多生成视频的模型已经能够连同声音一起生成,一个专门按需生成声音的服务仍然是一件非常有意思的尝试。目前我们还没有计划把它作为公共服务「放到外部」。如果有兴趣 —— 欢迎联系我们。当形式与边界合适时,我们会考虑与外部团队合作的试点方案。

下一个

空间建模

使用LiDAR技术数字化空间。用于消防安全、仓库物流和业务分析的3D模型。

→