ChatGPT의 음성 모드는 프롬프트 없이 음성을 시뮬레이션할 수 있습니다.

OpenAI는 ChatGPT-4o용 고급 음성 모드가 소수의 ChatGPT Plus 사용자를 대상으로 알파 버전으로 출시된 직후, GPT-4o 모델용 시스템 카드를 출시했습니다.

OpenAI는 5월 초에 고급 음성 모드 없이 모델을 출시하기 전에 외부 레드팀 구성원으로 구성된 팀을 활용하여 모델의 위험에 접근하고(이는 AI 모델의 일반적 관행임) 시스템 카드에 결과를 게시했습니다.

OpenAI가 발견한 위험 중 하나는 무단 음성 생성입니다. GPT-4o는 읽기 팀원과 대화하는 동안 그들의 목소리를 복제하고 사용자가 그러한 요청을 하지 않았는데도 레드 팀원의 목소리와 비슷한 소리로 말하기 시작했습니다. OpenAI가 공유한 오디오 클립에서 GPT-4o는 NO!라고 소리치고 레드 팀원의 목소리와 비슷한 목소리로 출력을 계속하는 것이 들립니다.

OpenAI는 GPT-4o에 대해 미리 승인된 특정 음성만 허용함으로써 이런 일이 발생하지 않도록 보호 장치를 마련했습니다. ChatGPT-4o에서 생성된 모든 음성 출력은 기본 음성으로 시스템 메시지의 음성 샘플과 일치합니다.

그리고 위험을 최소화하기 위해 모델은 의도치 않은 음성 생성이 감지되면 대화를 중단하도록 지시받습니다. 음성 출력 분류기는 영어에서 0.96, 비영어에서 0.95의 정밀도를 가지고 있습니다(이것이 ChatGPT-4o가 비영어 대화에서 음성 요청을 과도하게 거부하는 이유입니다).

하지만 System Card의 결과는 짧은 샘플로 누군가의 목소리를 시뮬레이션할 수 있고 해당 샘플에 대한 광범위한 훈련이 필요 없는 AI 챗봇을 만드는 데 관련된 복잡성을 보여줍니다. 음성 복제는 누군가를 사칭하고 사기를 저지르는 데 사용될 수 있습니다. 하지만 OpenAI는 인증되지 않은 음성 생성의 위험이 최소라는 것을 발견했습니다.

보안 조치로 인해 사칭 및 사기에 사용될 위험을 제쳐두더라도, 기계와 대화할 때 기계가 갑자기 당신의 목소리로 말을 걸면 여전히 상당히 불안할 것입니다. X의 어떤 데이터 과학자는 이를 “Black Mirror의 다음 시즌 줄거리”라고 불렀고, 확실히 그렇게 느껴집니다. X의 다른 사용자는 ChatGPT-4o 알파에서 자신에게 일어났다고 주장하지만, 그것이 사실인지 아닌지는 알 수 없습니다.

그래도 다음에 ChatGPT-4o와 대화할 때 그런 일이 일어날 가능성이 있습니다. 그리고 이건 공익광고입니다. 그런 일이 일어나도 당황하지 말고, 너무 당황하지 마세요.

회사가 이 모델에서 발견한 다른 위험 중 대부분은 낮은 범주에 배치했습니다. 여기에는 사이버 보안, 생물학적 위협 및 모델 자율성이 포함됩니다. 그러나 설득의 경우 위험이 중간 수준이라고 밝혔습니다. 즉, GPT-4o가 생성한 일부 글쓰기 샘플은 사람들의 의견을 흔드는 데 인간이 쓴 텍스트보다 더 설득력이 있는 것으로 입증되었습니다.