오디오 샘플 검색 및 생성

사내용 기업 제품입니다. 입력은 텍스트 또는 이미지 — 출력은 고품질 사운드입니다.

「소리를 말로 설명해 주세요 — 저희가 그것을 만들어 드립니다. 그림을 보여 주세요 — 저희가 그 안에서 일어나는 일을 들어 드립니다.」 — 제품 컨셉

프로젝트 소개

영상에 쓸 빗소리가 필요합니다. 또는 바다의 소음. 또는 아직 존재하지 않는 완전히 독특한 무언가. 어디서 얻을까요? 사운드 라이브러리를 뒤지며 라이선스를 지불하나요? 직접 녹음하며 장비에 시간과 돈을 들이나요? 샘플마다 사운드 엔지니어에게 비용을 지불하나요? 저희의 사내 제품은 이 과제를 다른 방식으로 해결합니다: 말로 소리를 설명하면 — 저희가 생성합니다. 그림을 보여 주시면 — 거기에 어울리는 소리를 만들어 드립니다. 모든 것이 단순한 API를 통해 이루어지며, 복잡한 설정이나 기술적 세부사항은 없습니다. 필요한 것을 설명하기만 하면 결과를 받을 수 있습니다. 제품은 이미 작동 중이며 저희 프로젝트 전반에서 적극적으로 사용되고 있습니다. 결과는 흔히 첫 시도에 정확히 들어맞습니다 — 파라미터를 맞출 필요도, 기술 세부사항을 설명할 필요도 없습니다. 시스템은 자연어를 이해하고 여러분이 설명한 것을 만들어 냅니다.

갤러리 (wide)

작동 방식

원리는 단순합니다: API에 한 번 연결해 통합을 구성하면, 그 다음부터는 설명만 보내면 됩니다 — 자연어 텍스트 또는 이미지. 요청에 따라 다양한 길이의 오디오 샘플을 받습니다. 높은 사운드 품질, 다양한 내보내기 포맷, 생성된 사운드에 대한 메타데이터 — 이 모든 것이 자동으로 동작합니다. 시스템은 "숲속의 고요한 비, 나뭇잎 위로 떨어지는 빗방울"과 같은 설명을 이해하고 바로 그런 소리를 만들어 냅니다. 바다 사진을 보여 주면 — 그 이미지에 정확히 어울리는 파도 소리를 받게 됩니다. API는 REST 아키텍처를 사용하며 결과를 JSON 형식으로 반환합니다 — 요청을 보내기만 하면 파일을 받습니다.

두 개의 이미지 (block two)

활용

이 도구는 가장 다양한 분야에서 쓰임새를 찾습니다. 영상, 팟캐스트, 프레젠테이션의 사운드 디자인을 만드는 데 — 모든 콘텐츠에는 소리가 필요하며, 이제 그것을 몇 초 만에 얻을 수 있습니다. 배경 음악 생성을 위해 — 라이선스 문제와 권리자들과의 긴 협상에서 자유로운, 여러분의 프로젝트에 맞춘 독특한 작품들을. 오디오 아이디어의 프로토타이핑을 위해 — 전면 제작에 투자하기 전에 개념을 빠르게 검증하십시오. 독특한 음향 효과의 제작을 위해 — 아직 존재하지 않는 소리들을, 게임, 영화, 설치 작품을 위해. 이 모든 것이 단순한 API를 통해 접근 가능해지며, 복잡한 녹음 도구들을 익힐 필요가 없습니다.

세 개의 이미지 (block three)

기술

프로젝트는 대규모 데이터셋으로 학습된 자체 생성 모델을 사용합니다. 통합용 API는 어떠한 프로젝트에도 단순한 연결을 허용합니다 — 한 번 설정하면 이후에는 그저 사용하면 됩니다. 높은 생성 속도는 몇 초 만의 결과를 의미합니다. 그리고 품질과 다양성의 지속적인 향상 — 시스템은 사용할 때마다 더 좋아집니다.

와이드 이미지

생성 기술

프로젝트 상태

이것은 작동하며 사내의 다양한 프로젝트에서 적극적으로 활용되고 있는 비즈니스 서비스입니다. 지금 영상 생성 모델들 중 많은 것이 이미 소리까지 함께 생성할 수 있게 되었다는 점을 감안하더라도, 요청에 따라 소리를 생성하는 전용 서비스는 여전히 매우 멋진 시도로 남아 있습니다. 당분간 이를 공공 서비스로서 "외부로" 내놓을 계획은 없습니다. 관심이 있다면 — 연락 주십시오. 형식과 경계가 맞을 때, 외부 팀과의 파일럿 방안을 검토하고 있습니다.

공간 모델링

LiDAR 기술을 사용한 공간 디지털화. 화재 안전, 창고 물류 및 비즈니스 분석을 위한 3D 모델.

→