Google은 ChatGPT의 고급 음성 모드에 대한 회사의 답변인 Gemini Live를 출시합니다.

Google의 Made by Google 이벤트가 공식적으로 종료되었으며, 회사는 자사의 플래그십 Pixel 시리즈 스마트폰의 최신 라인업을 출시했습니다. 지난 몇 주 동안 이 제품에 대한 소문이 난무했고 많은 소문이 마침내 현실로 바뀌었습니다. 게다가 예상대로 이 이벤트에서는 AI에 대한 언급이 몇 번 이상 있었습니다. 사실 꽤 많았습니다.

AI 중에서도 가장 중요한 발표는 Gemini Live의 출시였습니다. Google은 올해 초 I/O 컨퍼런스에서 Gemini Live를 발표했습니다. 마침내 영어로 Android의 Gemini Advanced 구독자에게 출시되고 있으며, 더 많은 언어와 iOS(Google 앱을 통해)로 출시될 예정입니다.

Gemini Live를 통해 Gemini는 이제 더 자연스러운 양방향 대화를 할 수 있습니다. 자연스러운 대화에서처럼 응답 중간에 중단할 수도 있습니다. Android에서 Gemini 앱으로 이동하여 챗봇과 대화할 수 있습니다.

이는 ChatGPT Plus 사용자를 대상으로 제한된 알파로 출시 중인 ChatGPT 앱의 고급 음성 모드 경험과 유사합니다. Google은 처음으로 더 광범위한 출시를 시작함으로써 릴리스 타임라인에서 OpenAI보다 앞서 나갔습니다.

Gemini Live는 핸즈프리로 사용할 수도 있으므로 백그라운드에서 Gemini와 통화하거나 휴대전화가 잠겨 있을 때도 통화할 수 있습니다. 대화를 중간에 남겨두고 나중에 다시 볼 수도 있습니다.

Google은 Gemini Live에 10가지 새로운 음성을 추가하여 AI와의 대화가 더욱 진짜처럼 느껴지도록 했습니다. 자신에게 어울리는 음성과 톤을 선택할 수 있습니다.

특히, Gemini Live는 앱에서 사용 가능한 10가지 음성 외의 다른 음성을 시뮬레이션할 수 없습니다. 아마도 저작권 문제를 피하기 위해서일 것입니다. ChatGPT-4o도 같은 정책을 따릅니다. Gemini Live가 ChatGPT-4o의 음성 모드와 다른 부분이 하나 있습니다. 전자는 사용자의 톤에서 감정을 이해할 수 없는데, OpenAI가 챗봇을 시연했을 때 할 수 있는 일입니다.

게다가, Google이 I/O 컨퍼런스에서 시연했던 Gemini Live의 한 가지 기능은 출시 시점에 사용할 수 없습니다. 네, 멀티모달 입력에 대해 이야기하고 있습니다. 그것이 무엇인지 모르더라도 걱정하지 마세요. 요약하자면, 멀티모달 입력을 통해 Gemini Live는 휴대폰 카메라(사진과 비디오 모두)에서 실시간으로 입력을 받고 질문에 답하거나 가리키는 물체를 식별하는 데 도움을 줄 수 있습니다. 예를 들어, DJ 장비를 가리키고 부품 이름을 식별하도록 요청할 수도 있고, 화면을 가리키고 코드의 특정 부품이 무엇을 하는지 물어볼 수도 있습니다.

하지만 멀티모달 기능은 현재로선 지연되고 있으며, Google은 올해 말에 출시될 것이라고만 말했을 뿐 구체적인 내용은 없습니다. 흥미롭게도 ChatGPT-4o의 Advanced Voice Mode도 비슷한 기능을 제공할 예정이지만, 제한된 알파 출시와 함께 출시되지 않았습니다.

특히, Gemini Live는 Google이 Project Astra를 실현하기 위해 나아가는 한 단계입니다.

챗봇과 대화하는 것은 때로는 무언가를 타이핑하는 것보다 훨씬 더 편리합니다. 특히 무언가를 브레인스토밍하고 싶을 때 더욱 그렇습니다. 그리고 Gemini Live를 사용하면 대화가 훨씬 더 매끄럽게 진행될 수 있습니다. 또는 Made by Google 이벤트의 라이브 데모가 어떤 지표가 된다면, 충분히 매끄럽습니다. (챗봇은 라이브 데모 중에 환각을 겪었고 “중간에 있는 Gemini를 방해” 기능을 테스트할 때 약간의 마찰이 있었습니다.) 실제 세계에서 어떻게 되는지 봅시다. 오늘부터 시작하여 앞으로 몇 주 동안 Pixel, Samsung 또는 기타 Android 기기에서 Gemini Live를 테스트할 준비를 하세요.