ChatGPT용 OpenAI의 최신 Spring 업데이트를 간절히 기다리고 회사가 GPT-5를 출시하기를 바랐다면 그 점에서 실망하게 될 것입니다. 그러나 OpenAI가 대신 출시한 것은 이를 보완하는 것 이상일 것입니다.
회사는 최근 최신 주력 모델인 GPT-4o를 공개했는데, 이는 인간 혁신의 걸작입니다. GPT-4o의 ‘o’는 “omni”를 의미하며 ChatGPT의 최신 편재 기능에 대한 적절한 고개를 끄덕입니다. GPT-4 모델에 비해 지능과 추론 부분은 크게 개선되지 않았지만 새로운 모델은 속도와 다중 모드가 크게 향상되었습니다.
무슨 뜻이에요? GPT-4o는 텍스트, 음성, 비전 전반에 걸쳐 향상된 기능을 제공합니다. 이미지를 더 잘 이해하고 토론할 수 있습니다. 하지만 이 업데이트의 가장 흥미로운 부분은 오디오 및 비디오를 통해 실시간으로 대화할 수 있는 기능으로, 인간과 기계 상호 작용의 미래를 안내합니다. 우리 대부분은 공상 과학과 같은 AI와의 상호 작용을 상상만 했습니다. 하지만 여기에 있고 스릴이 넘칩니다.
OpenAI의 CTO인 Mira Murati는 두 명의 연구 리더와 함께 GPT-40의 새로운 기능을 선보였습니다.
음성 모델은 놀라운 개성과 음색을 갖추고 있어 AI와 상호 작용하고 있다는 사실을 (잠시 동안) 잊게 만들 수 있습니다. 정말 흥미롭습니다. 반응이 훨씬 자연스러워졌고 심지어 사람처럼 웃기도 하고 얼굴을 붉히는 척도 하더군요.
데모에서는 또한 ChatGPT가 명시적으로 질문할 때 표시할 수 있는 감정의 범위를 강조했습니다. 이야기를 설명하는 동안 ChatGPT는 목소리에 더 많은 감정과 드라마를 흡수하고 로봇 사운드로 전환하고 심지어 뮤지컬에 나오는 것처럼 노래를 부르기도 했습니다. 모두 원활하게.
많은 사용자들은 이 목소리가 영화 ‘Her’에 나오는 스칼렛 요한슨의 AI를 연상시킨다고 말하지만, 특히 과거 ChatGPT의 목소리와 똑같습니다. 모든 차이점은 음조의 변화와 잘 배치된 웃음에서 비롯됩니다.
화면의 콘텐츠를 보고 반응하는 기능과 결합하면 정말 놀랍습니다. 새로운 보기 기능을 통해 ChatGPT는 선형 방정식과 같은 내용을 이해할 수 있을 뿐만 아니라 카메라를 사용하여 주변 환경과 사람 얼굴에 나타나는 감정을 해석하는 데 매우 효과적인 작업을 수행했습니다. 이제 가위바위보를 하고 ChatGPT에게 심판이 되어달라고 요청할 수도 있고, ChatGPT에 한 단계 더 나아가 복장을 비평하도록 요청하여 인터뷰 준비를 할 수도 있습니다.
전반적으로 그 효과는 놀랍고 화상 통화를 통해 실제 사람과 상호 작용하고 있다고 거의 믿게 만듭니다(상대방이 항상 카메라를 꺼둔 경우).
https://www.youtube.com/watch?v=DQacCB9tDaw
보이스 모델(Voice Model)도 현재 사용 가능한 모델보다 전반적으로 더 좋습니다. 대화는 중간에 중단할 수 있는 자연스러운 대화처럼 흐르며, 여러 목소리와 배경 소음, 목소리 톤을 이해하고 구별할 수 있습니다.
기술 수준에서 GPT-4o는 지금까지 전사, 지능, 텍스트 음성 변환이라는 세 가지 모델이 필요했던 모든 작업을 기본적으로 수행할 수 있기 때문입니다. 이러한 개선 사항은 이전 모델의 지연 시간 대신 사용자에게 더욱 몰입감 있고 협업적인 경험을 제공합니다.
GPT-4o에 대한 액세스는 이미 웹 앱의 Plus 사용자뿐만 아니라 무료 사용자에게도 출시되기 시작했지만 GPT-4o의 새로운 음성 모드는 앞으로 몇 주 안에 ChatGPT Plus 사용자에게만 알파 버전으로 출시될 예정입니다. 새로운 macOS ChatGPT 앱도 출시되고 있으며 ChatGPT Plus 사용자부터 시작하여 반복적으로 액세스가 출시됩니다.
데모는 매우 인상적이었지만, 모델이 최종 출시되었을 때 실제 응용 프로그램이 원활하게 작동할지는 지켜봐야 할 것입니다.
답글 남기기