Google DeepMind의 이 새로운 V2A 도구는 AI 제작 영화 퍼즐의 마지막 조각이 될 수 있습니다.

Google DeepMind의 이 새로운 V2A 도구는 AI 제작 영화 퍼즐의 마지막 조각이 될 수 있습니다.

최초의 AI 생성 비디오가 공개되었을 때, 비디오 생성 AI 도구가 그렇게 짧은 기간에 이렇게 발전할 것이라고는 아무도 짐작하지 못했을 것입니다. 하지만 오늘날 Synthesia와 Luma AI의 Dream Machine과 같이 사용자가 고품질의 놀라울 정도로 자세한 비디오를 생성할 수 있는 수많은 플랫폼이 있습니다. 그럼에도 불구하고 이러한 도구가 주류가 되는 것을 막는 몇 가지 과제가 여전히 있습니다.

그리고 아마도 가장 큰 것은 오디오 생성 프로세스일 것입니다. 대부분의 비디오 생성 플랫폼은 양질의 비디오를 생성할 수 있지만, 대부분은 오디오가 없는 무음 비디오입니다. 오디오가 있더라도 일반적으로 별도로 추가되며 사용자의 기대에 미치지 못합니다.

예를 들어, Luma AI의 Dream Machine 페이지를 방문하면 매우 인상적인 비디오를 볼 수 있지만, 그에 수반되는 사운드는 매우 일반적이고 품질이 낮습니다. 하지만 이는 Google의 새로운 비디오-오디오(V2A) 기술로 바뀔 수 있습니다.

이를 통해 대중에게 고품질의 영상 오디오 생성이 가능해질 전망이며, 마침내 적절한 사운드트랙과 오디오가 적용된 AI 생성 영화를 제작할 수 있게 될 가능성이 있으며, 현재 제작 중인 모든 AI 생성 영상을 능가할 것입니다.

AI가 생성한 오디오

https://www.youtube.com/watch?v=VYjZlF6m3nQ

구글 딥마인드의 비디오-오디오 연구란 무엇인가요?

Google DeepMind가 개발한 V2A(Video-to-Audio) 기술은 AI 생성 비디오용 사운드트랙을 생성하도록 설계되었습니다. 이 기술을 사용하면 자연어 프롬프트와 비디오 픽셀을 결합하여 비디오에서 발생하는 모든 작업에 대한 사운드를 생성함으로써 비디오와 오디오를 동시에 생성할 수 있습니다.

이 기술은 Veo와 같은 비디오를 생성하는 데 사용되는 AI 모델과 결합될 수 있으며, 비디오와 일치하는 극적인 악보와 함께 현실적인 대화와 음향 효과를 만드는 데 도움이 될 수 있습니다. 더 중요한 것은 새로운 V2A 기술이 AI를 사용하여 생성된 비디오에만 국한되지 않고 기존 방식으로 제작된 비디오의 사운드트랙을 생성하는 데에도 사용할 수 있다는 것입니다. 따라서 무성 영화, 보관 자료 등에 사용할 수 있습니다.

V2A 기술을 사용하면 사용자는 비디오에 대한 무제한 사운드트랙을 생성할 수 있으며 긍정적 및 부정적 프롬프트를 사용하여 사운드 생성 프로세스를 안내하고 필요한 사운드를 쉽게 얻을 수도 있습니다. 또한 이를 통해 더 많은 유연성을 얻을 수 있으므로 다양한 출력을 실험하고 특정 비디오에 가장 적합한 것을 찾을 수 있습니다.

물속에서 맥박을 치는 해파리의 오디오 샘플. 출처: Google

https://www.youtube.com/watch?v=9Q0-t8D9XFI

V2A 기술은 어떻게 작동하나요?

Google에 따르면, 이 회사는 확산 기반 및 자기 회귀 기술을 실험했고 전자가 사운드 제작에 가장 적합하다는 것을 발견했습니다. 매우 사실적인 사운드를 만들어내고 비디오를 압축 형식으로 인코딩하여 작동합니다.

그 후, 확산 모델을 사용하여 자연어 프롬프트와 비디오에 의존하여 비디오에서 무작위 노이즈를 분리합니다. 프롬프트는 비디오와 완벽하게 동기화된 사실적인 오디오를 생성하는 데 도움이 됩니다. 그 후 오디오를 디코딩한 다음 오디오 파형으로 변환하여 비디오와 병합합니다.

Google의 DeepMind는 AI를 훈련하기 위해 더 많은 정보를 제공했으며, 이를 통해 사용자는 오디오 생성 프로세스를 필요한 사운드로 안내하고 플랫폼이 더 높은 품질의 오디오를 생성할 수 있습니다. 이러한 정보에는 음성 대화 사본과 AI가 생성한 주석이 있는 자세한 사운드 설명이 포함되었습니다.

V2A 기술은 이러한 정보를 바탕으로 훈련을 받아 다양한 시각적 장면을 특정 오디오 이벤트와 연관시킬 수 있습니다.

V2A 기술의 작동. 출처: Google

앞으로 무슨 일이 일어날까요?

DeepMind의 V2A 기술은 항상 텍스트 프롬프트가 필요하지 않고 비디오 픽셀을 이해할 수 있기 때문에 다른 V2A 솔루션보다 훨씬 더 나은 성능을 발휘합니다. 사운드 출력도 비디오와 수동으로 정렬할 필요가 없습니다. 그러나 여전히 기술에는 몇 가지 한계가 있으며, Google은 추가 연구를 통해 이를 극복하고자 합니다.

예를 들어 생성되는 오디오의 품질은 입력으로 사용되는 비디오의 품질에 따라 달라집니다. 영상에 왜곡이나 아티팩트가 있는 경우, AI 모델은 훈련에 포함되지 않기 때문에 이를 이해하지 못하고 결과적으로 오디오 품질이 저하됩니다.

또한, 인간의 음성이 있는 비디오의 경우, 이 회사는 입술 동기화를 개선하기 위해 노력하고 있습니다. V2A 기술은 입력된 대본을 사용하여 음성을 생성한 다음 비디오의 캐릭터의 입술 움직임과 정렬하려고 합니다. 그러나 비디오가 대본에 의존하지 않는 경우 오디오와 입술 움직임 사이에 불일치가 발생합니다.

더 나은 오디오 생성 기능을 통해 AI 모델은 인상적일 뿐만 아니라 사운드도 뛰어난 비디오를 생성할 수 있습니다. 구글은 또한 AI를 사용해 생성된 모든 콘텐츠에 워터마크를 표시하는 SynthID와 V2A 기술을 통합하고 있다. 이를 통해 오용을 방지하고 완벽한 안전을 보장할 수 있습니다.

또한 이 회사는 V2A 기술을 대중에 공개하기 전에 엄격하게 테스트할 것이라고 밝혔습니다. 지금까지 Google이 보여주고 미래에 대해 약속한 바에 따르면, 이 기술은 AI가 생성한 비디오의 오디오 생성에 있어 주요 진전으로 자리 잡고 있습니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다