Anthropic에서 출시한 Claude 3.5 Sonnet: 새롭고 인상적인 AI 모델

최근 Anthropic은 선두 모델인 Claude 3.5 Sonnet에 대한 개선 사항을 출시했는데, Computer Use 및 Analysis 도구와 같은 다른 주목할 만한 업데이트로 인해 레이더에 잡히지 않았을 수 있습니다. 그러나 업데이트된 Claude 3.5 Sonnet은 몇 가지 주목할 만한 개선 사항을 도입했습니다.

Computer Use는 상당한 진전을 나타내지만, 사용자 사이에서는 여전히 채택이 제한적입니다. 이는 주로 초기 개발 단계에 있으며 완전한 신뢰성이 부족하기 때문입니다. 또한 접근성이 API 사용으로 제한되어 더 광범위한 청중이 접근하기 어렵습니다.

대조적으로, 새로운 Claude 3.5 Sonnet은 즉시 사용할 수 있으며 상당히 향상된 성능을 제공합니다. 그렇다면 이 업데이트된 3.5 Sonnet을 차별화하는 것은 정확히 무엇일까요?

Anthropic의 보고서는 최신 Claude 3.5 Sonnet이 이전 모델과 업계 벤치마크에서 많은 경쟁자에 비해 현저한 개선을 보였다고 강조합니다. 에이전트 코딩과 도구 사용의 발전은 특히 인상적입니다. 예를 들어, SWE-벤치 검증에서 에이전트 코딩 정확도가 33.4%에서 49%로 증가했고, TAU-벤치 테스트에서 에이전트 도구 사용의 경우 소매 부문에서 51.0%에서 69.2%로, 항공 부문에서 22.8%에서 46.0%로 증가했습니다. 주목할 점은 이러한 개선이 이전 모델과 동일한 비용과 속도로 달성되었다는 것입니다.

평가 결과, 일부 사용자가 명칭 혼란으로 인해 3.6 소네트라고 부르는 클로드 3.5 소네트(신형)는 코딩, 추론, 창의적 글쓰기 능력 측면에서 특히 눈에 띄는 발전을 보여줍니다.

이전에 코딩에서 최고 성과자 중 한 명으로 인정받았던 Claude는 이 업데이트로 상당한 진전을 이루었으며, 이제 단일 답변 내에서 매우 복잡한 문제를 해결할 수 있습니다. 또한 이전 오류를 수정하는 기능도 개선되었습니다.

사용자들은 새로운 Claude 3.5 Sonnet이 훨씬 더 빠른 응답을 제공하며, 성능이 눈에 띄게 저하되었던 이전 버전에서의 불만 사항을 해소한다는 것을 알게 될 것입니다.

클로드는 또한 추론 기술을 개량하여 OpenAI의 모델 o1과 비교했습니다. 복잡한 추론 작업에서는 o1과 맞먹지 못할 수 있지만, 더 간단한 추론 과제에서는 여전히 유능합니다.

클로드의 추론에 대한 흥미로운 테스트를 위해, How many words are in your response to this prompt?. 라고 질문해 보세요. 주목할 점은, 변압기 아키텍처 모델은 후속 단어를 예측해야 하기 때문에 종종 이러한 프롬프트에 어려움을 겪습니다. 그러나 이 프롬프트는 모델이 사전에 전략을 수립하도록 장려합니다.

OpenAI의 o1 모델은 이 프롬프트를 효과적으로 처리하는 데 뛰어납니다. 새로운 Claude 3.5 Sonnet은 o1의 능숙도에는 미치지 못하지만 이전 버전의 Claude를 크게 능가합니다. 이전에는 Claude가 교육받은 추측을 했을 수 있지만 이제는 모든 단어를 동등하게 고려하지 않고도 단어를 정확하게 세려고 시도합니다. 궁극적으로 Claude의 답변이 옳다고 간주되는지 여부는 개인의 해석에 따라 달라집니다.

Let me count the words in my response to your question: This (1) is (2) my (3) first (4) response (5) to (6) your (7) prompt (8). There are 8 words in my response up to this point. Note that I did not count the words after the period since those were explaining my counting process rather than being part of my direct response to your question.

제공된 사례에 따르면, 일부 사용자는 클로드가 자신의 응답을 정확하게 고려한 단어를 세었다고 주장할 수 있습니다. 이는 후속 단어가 추론 과정을 자세히 설명하기 때문에 답변의 일부가 아니라는 점을 명확히 합니다. 일부는 “질문에 대한 내 응답에서 단어를 세어 보겠습니다”라는 서두 문구의 생략을 간과할 수 있지만, 다른 사람들은 다르게 볼 수 있습니다. 궁극적으로 이는 개인적인 판단의 문제가 됩니다.

그럼에도 불구하고, 이 사례는 새로운 클로드 3.5 소네트가 실제로 추론 능력을 향상시켰다는 것을 보여줍니다. 이제 생각 과정을 표현하거나, 더 많은 시간이 필요할 때 “생각해 보고, 기다려”라고 말할 수 있습니다. 이는 o1과 다소 비슷합니다. 가끔은 “다시 생각해 볼게요”라고 말하며 스스로를 바로잡을 수도 있습니다.

이러한 미래지향적인 능력은 또한 클로드의 창의적 글쓰기 기술을 강화했습니다. 미래를 생각하는 능력으로 일관된 아크, 예고 요소, 매혹적인 캐릭터를 특징으로 하는 확장된 서사를 만들어낼 수 있습니다.

또한 분석 성능에서 상당한 진전이 이루어졌습니다. Claude는 이제 Anthropic의 가장 광범위한 모델인 Claude 3 Opus와 OpenAI의 o1 mini와 분석과 관련하여 긴밀하게 경쟁합니다.

요약하자면, 최신 업데이트는 여러 측면에서 주목할 만한 진전을 이루었습니다. 새로운 코딩 기능은 많은 주목을 받았습니다. 그러나 Claude의 현재 제한 사항은 사용 제한으로, ChatGPT에 비해 Pro 사용자에게도 상당히 더 제한적입니다.

원천