オーディオサンプル検索と生成

社内向けの企業プロダクトです。入力はテキストまたは画像 —— 出力は高品質なサウンドです。

プロジェクトプレビュー
オーディオ生成
サウンドの創造

「音を言葉で説明してください —— 私たちがそれを作り出します。画像を見せてください —— 私たちがそこで起きていることを聴き取ります。」 —— プロダクトのコンセプト

プロジェクトについて

動画に雨の音が必要。あるいは海のざわめき。あるいはまだ存在しない、まったく独自の何か。どこで手に入れますか。サウンドライブラリを探し、ライセンス料を払いますか。自分で録音し、時間と機材費を費やしますか。サンプルごとにサウンドエンジニアに支払いますか。 私たちの社内プロダクトはこの課題を別のアプローチで解きます。音を言葉で説明すれば —— 私たちが生成します。画像を見せれば —— それにふさわしい音を作り出します。すべてはシンプルなAPI経由で、複雑な設定や技術的な詳細はありません。必要なものを説明するだけで、結果を受け取れます。 プロダクトはすでに稼働しており、私たちのプロジェクトで活発に使われています。結果は最初の試みで的を射ることが多く —— パラメータを調整する必要も、技術的な詳細を説明する必要もありません。システムは自然言語を理解し、あなたが説明したものを作り出します。

ギャラリー (wide)

Gallery image 1
生成
Gallery image 2
処理

仕組み

原理はシンプルです。APIに一度だけ接続し、統合を設定すれば、あとは説明を送るだけ —— 自然言語のテキスト、あるいは画像です。リクエストに応じてさまざまな長さのオーディオサンプルを受け取れます。高い音質、各種のエクスポート形式、生成された音に関するメタデータ —— これらはすべて自動で動作します。 システムは「森の中の静かな雨、葉に落ちる雫」といった説明を理解し、まさにそのような音を作り出します。海の写真を見せれば —— その画像にぴったり合う波の音を受け取れます。APIはRESTアーキテクチャを用い、結果をJSON形式で返します —— リクエストを送るだけでファイルが得られます。

2枚の画像 (block two)

入力データ
出力結果

用途

このツールは多岐にわたる分野で用途を見いだします。動画、ポッドキャスト、プレゼンテーションの音響演出を作るため —— あらゆるコンテンツには音が必要で、今はそれを数秒で手に入れられます。BGMの生成のため —— あなたのプロジェクトに合わせた唯一無二の楽曲を、ライセンスの心配や権利者との長い交渉抜きで。 オーディオのアイデアのプロトタイピングのため —— 本格的な制作に投資する前に、コンセプトを素早く検証できます。唯一無二の効果音の制作のため —— まだ存在しない音を、ゲーム、映画、インスタレーションのために。これらすべてがシンプルなAPIを通じて手の届くものとなり、複雑な録音ツールを習得する必要はありません。

3枚の画像 (block three)

動画
ポッドキャスト
ゲーム

技術

プロジェクトは大規模データセットで学習した自社の生成モデルを用いています。統合用のAPIによって、あらゆるプロジェクトへのシンプルな接続が可能です —— 一度設定すれば、あとは使うだけ。高い生成速度は、数秒で結果が得られることを意味します。そして品質と多様性の継続的な向上 —— システムは使うたびに良くなっていきます。

ワイド画像

生成技術

プロジェクトのステータス

これはビジネスサービスであり、社内の様々なプロジェクトで稼働し活用されています。動画を生成する多くのモデルがすでに音声付きで生成できるようになっている現状を踏まえても、オンデマンドで音を生成する独立したサービスは、とても面白い取り組みであり続けています。 今のところ、これを公開サービスとして「外へ」出す計画はありません。関心があれば —— ぜひご連絡ください。形式と範囲が合う場合には、外部チームとのパイロット案を検討しています。

次へ
空間モデリング

空間モデリング

LiDAR技術を使用した空間のデジタル化。火災安全、倉庫ロジスティクス、ビジネス分析のための3Dモデル。