Google은 최근 여러 가지 업그레이드와 새로운 모델을 포함하여 Gemini AI 모델에 대한 수많은 업데이트를 발표했습니다. 이 중 특히 주목을 받은 것은 영상과 음성 기능을 갖춘 멀티모달 AI 모델인 제미니 라이브(Gemini Live)였다.
지난 2월 Bard가 Gemini로 이름이 변경된 이후 AI 모델은 Android 기기에서 Google Assistant를 대체하는 역할을 해왔습니다. 그러나 현재 할 수 있는 작업은 상당히 제한되어 있습니다. Gemini Live를 통해 Google은 더욱 강력하고 다재다능한 AI 모델을 제공하여 이러한 변화를 목표로 하고 있습니다.
제미니 라이브란 무엇인가요?
사용자에게 향상된 AI 경험을 제공하고 OpenAI의 GPT-4o 향상된 ChatGPT를 활용하기 위해 Google은 최근 I/O 개발자 컨퍼런스에서 Gemini Live를 발표했습니다. Gemini Live를 사용하면 사용자는 음성은 물론 영상을 통해 실시간으로 자연스럽고 개인화된 대화를 나눌 수 있습니다.
새로운 AI 모델은 일상 생활에서 다양한 유형의 입력을 사용하여 지원을 제공할 수 있는 범용 AI 도우미를 구축하려는 검색 대기업의 시도인 Google 프로젝트 Astra의 일부입니다. 예를 들어 Gemini Live는 텍스트, 스마트폰 카메라의 영상, 음성을 사용하여 질문에 답할 수 있습니다.
Google에 따르면 새로운 자연어 모델은 사용자가 문제를 해결하고 다양한 작업을 수행하는 데 도움이 될 뿐만 아니라 상호 작용 중에도 완전히 자연스러운 느낌을 줍니다. 사용자는 전화기의 음성 아이콘을 탭하여 Gemini Live를 시작할 수 있으며, 오디오 파형 효과와 함께 AI가 전체 화면에 표시됩니다.
그러면 실제 개인 비서와 마찬가지로 AI와 대화할 수 있습니다. 업그레이드된 AI 모델이 어떻게 도움이 될 수 있는지 보여주는 훌륭한 예는 면접 준비에 도움을 요청할 때입니다. Gemini Live는 귀하가 강조할 수 있는 기술을 제안하고 대중 연설 팁 등을 제공합니다.
특징
Gemini Live에는 Google Assistant, Apple의 Siri 또는 Amazon의 Alexa보다 훨씬 더 나은 AI 도우미가 되는 몇 가지 기능이 포함되어 있습니다.
양방향 음성 대화
Gemini Live를 사용하면 대화가 가능하고 인간과 같은 음성 응답을 제공하여 매력적이고 직관적인 대화를 할 수 있습니다. 예를 들어, 날씨에 대해 물어보면 정확하고 간결한 업데이트를 제공합니다.
스마트 어시스턴트 기능
AI 모델은 스마트 비서 역할을 하며 이메일 정보 요약, 캘린더 업데이트 등의 작업을 수행할 수 있습니다. 예를 들어, 콘서트 전단지 사진을 찍으면 Gemini가 해당 이벤트를 캘린더에 추가합니다.
시각적 기능
Gemini Live는 스마트폰의 카메라를 사용하여 실시간으로 동영상을 캡처할 수 있습니다. 이를 통해 객체를 식별하고 객체에 관한 질문에 답할 수 있습니다. 예를 들어, 스마트폰 카메라를 스피커에 대고 Gemini에게 식별을 요청하면 그것이 무엇인지 알려주고 제조사와 모델까지 식별합니다.
Gemini Live는 어떻게 운영되나요?
Project Astra는 음성 및 시각적 입력을 결합하여 AI 모델을 쉽게 이해할 수 있습니다. 그런 다음 정보에 반응하고 필요한 지원을 제공할 수 있습니다. OpenAI의 GPT-4o 기반 ChatGPT와 마찬가지로 Gemini Live는 다중 모드 AI이며 입력으로 텍스트에만 의존하지 않습니다.
Gemini Live는 원래 초기 릴리스에서 데이터를 수집하고 분석하기 위해 음성 입력을 사용하지만, 더 나은 이해와 상호 작용을 위해 프레임별로 비디오를 분류하여 비디오를 처리하고 분석하도록 앞으로 몇 달 안에 업그레이드될 예정입니다.
AI는 다양한 사용자가 말하는 속도에 적응할 수 있으며, 설명을 요청하거나 추가 정보를 제공하기 위해 AI를 중단할 수도 있습니다. 인간의 대화를 모방하는 능력은 더욱 매력적인 상호 작용을 제공할 수 있습니다. 따라서 마치 인간 비서와 마찬가지로 앞뒤로 대화를 나눌 수 있습니다. 또한 AI의 10가지 다양한 음성 중에서 선택할 수 있습니다.
GPT-4o 대. 제미니 라이브
GPT-4o와 Gemini Live는 모두 다중 모드 AI 모델이지만, 현재로서는 둘 다 공개적으로 사용할 수 없기 때문에 어느 것이 실제 생활에서 더 나은 성능을 발휘하는지 확인하기 어렵습니다.
그러나 ChatGPT와 달리 Gemini Live는 Google Veo 및 Imagen 3와 같은 다른 AI 모델을 사용하여 비디오 및 이미지 형식의 출력을 제공합니다. 그럼에도 불구하고 OpenAI와 Google이 선보인 데모에서는 ChatGPT가 더 자연스러워 보였고 새로운 GPT-4o 모델은 음성 톤을 통해 인간의 감정을 감지하고 시뮬레이션할 수도 있었습니다.
또한 적어도 현재 상태에서는 Gemini Live가 할 수 없는 응답 방식에 적응할 수 있습니다.
쌍둥이 자리 라이브 가용성
Gemini Live는 AI 챗봇의 유료 버전인 Gemini Advanced 가입자에게 제공됩니다. 앞으로 몇 달 안에 출시될 예정이며 연말까지 널리 출시될 것으로 예상됩니다.
Google 메시지와 같은 앱은 Gemini Live를 최대한 활용하여 사용자가 메시징 앱 내에서 AI와 직접 상호 작용할 수 있게 해줍니다.
Gemini Live는 Google AI 챗봇의 다음 주요 업그레이드일 수 있으며 OpenAI의 ChatGPT와 같은 경쟁업체에 맞서기 위해 필요한 것일 수도 있습니다. 다중 모드 기능과 강력한 음성 기능을 갖춘 업그레이드된 모델은 Google이 다양하고 안정적인 디지털 비서를 성공적으로 제공하는 데 도움이 될 수 있습니다.
현재 Google은 유료 가입자에게 새로운 AI 모델을 제공할 것이라고 발표했습니다. 이로 인해 Google 사용자 기반의 큰 부분을 차지하는 무료 사용자는 제외되지만 Google이 입장을 바꾸고 Gemini Live의 가용성을 확장하기로 결정하기를 바랍니다.
답글 남기기