최근에 저는 Claude의 새로운 3.5 Sonnet 모델을 시도했는데, 이는 Anthropic의 가장 강력한 AI 모델이며, 이 회사는 OpenAI의 ChatGPT와 같은 경쟁자보다 성능이 우수하다고 주장합니다. 이는 대담한 주장이며, Anthropic은 꽤 인상적인 벤치마크로 이를 뒷받침하고 있습니다.
새로운 모델은 또한 비전 기능을 갖추고 있어 이미지와 문서를 제공하고 정보를 추출할 수 있습니다. 그리고 유머와 같은 감정을 더 잘 이해하면서도 훨씬 빠릅니다. 이러한 모든 요소로 인해 Claude 3.5는 멀티모달 AI 모델인 새로운 GPT-40 기반 ChatGPT의 주요 경쟁자가 되었습니다.
Sonnet과 마찬가지로 ChatGPT-40은 텍스트 기반 입력 외에도 시각 기반 입력을 사용하여 응답을 제공할 수 있습니다. 문제 해결에 똑같이 뛰어나고 유사한 대화 기능을 보유하고 있습니다. 두 새로운 모델이 기능과 성능 면에서 서로 매우 가깝기 때문에 모든 사람이 궁금해하는 질문은 두 모델 중 어느 것이 더 나은가입니다. 이에 답하기 위해 두 모델을 자세히 비교하기로 했습니다.
문서에서 정보 추출
AI 도구는 종종 PDF 파일과 같은 문서에서 정보를 추출한 다음 요약하는 데 사용됩니다. 그래서 저는 먼저 두 모델 중 어느 것이 더 효과적으로 이를 수행할 수 있는지 확인하기로 했습니다. 이를 위해 얼마 전에 작성한 루핑 스퀘어에 대한 PDF 문서를 준비하여 ChatGPT와 Claude에 업로드했습니다.
그런 다음, 저는 그들에게 프롬프트를 주었습니다 summarize this document and provide me with the most important points discussed in it.
. 제가 발견한 것은 다음과 같습니다. 새로운 Claude 모델은 ChatGPT보다 훨씬 빨랐고 제가 요청을 제출하자마자 바로 응답을 생성하기 시작했습니다. 또한 프롬프트를 더 면밀히 따라가며 번호가 매겨진 목록에 중요한 요점을 나열했습니다. 시간이 부족하고 문서에 무엇이 들어 있는지 훑어보고 싶다면 이것이 필요합니다.
하지만 클로드보다 느렸음에도 불구하고, 이 경우 ChatGPT의 응답을 선호했습니다. 문서에서 가장 중요한 요점을 나열했을 뿐만 아니라 정의와 중요성, 계산 등과 같은 여러 섹션으로 나누었습니다.
문서에서 논의된 주제의 특정 측면에 대한 구체적인 정보를 찾아야 하는 경우 ChatGPT의 작업 방식이 더 유용한 듯합니다. 모든 요점을 살펴볼 필요가 없고 필요한 섹션만 볼 수 있습니다. 정보는 살펴보고 소화하기 쉬운 방식으로 제공됩니다.
비전 기능 테스트
Claude 3.5와 ChatGPT-40의 주요 하이라이트 중 하나는 시각적 입력을 사용하고 그에 따라 정보를 제공하는 기능이므로, 다음으로 손으로 쓴 지침을 필사한 후 따르도록 요청하여 테스트하기로 했습니다. AI 모델에게 이솝의 ‘개미와 귀뚜라미’와 비슷한 짧은 시를 쓰도록 요청했습니다.
글로 구체적으로 명시하지는 않았지만, 시에서 영감을 받았지만 다른 캐릭터가 있는 결과물을 원했습니다. 클로드는 먼저 제 손으로 쓴 요청을 확인해 달라고 한 다음 진행했습니다. 결과는 꽤 좋았고, 원래 시와 매우 비슷했지만 캐릭터는 같았습니다. AI 챗봇은 시를 다 쓴 후에 다른 접근 방식이나 시에 대한 수정이 필요한지 물었습니다.
ChatGPT는 내 요청을 확인하도록 요구하지 않았지만 즉시 완료했습니다. 쓴 시 역시 매우 인상적이었고, 원래 작품의 개미와 귀뚜라미를 벌과 나비로 바꾸었는데, 클로드는 그렇게 하지 않았습니다. 저는 또한 ChatGPT의 버전이 더 시적이라고 생각했습니다.
따라서 필사에서는 결과에 약간의 차이가 있지만 둘 다 이미지가 선명하지 않더라도 손으로 쓴 텍스트와 인쇄된 텍스트를 매우 잘 해독하고 이해할 수 있습니다. 이러한 강력한 비전 기능은 이러한 도구를 사용하여 그래프와 차트에서 정보를 수집할 수 있으므로 수학 작업에 적합합니다.
이미지 설명: 두 모델 모두 이미지에서 정보를 추출할 수 있기 때문에 저도 시도해 보아야 했습니다. 저는 Claude와 ChatGPT에 열대 섬 이미지를 제공하고 설명해 달라고 요청했습니다. 보시다시피 Claude는 이미지에 대한 생생한 설명을 제공하며 전경과 배경의 각 요소를 매우 명확하게 설명하는데, 제가 알아차리지 못한 요소도 포함됩니다.
클로드가 이미지를 설명하기 위해 선택한 문구와 단어도 더욱 강렬하게 느껴졌고, 이미지에 정의를 내렸습니다. 색상과 조명을 잘 설명하고 이미지가 만들어내는 전체적인 평온함과 안정감을 잘 전달합니다.
ChatGPT의 경우 결과는 더 복잡했는데, 이미지를 설명할 수는 있지만 Claude만큼 잘 설명하지는 못했습니다. OpenAI의 모델은 실수를 하는 경향이 있어 존재하지 않는 요소를 추가하는데, 이는 여전히 환각을 볼 수 있음을 보여줍니다. 또한 원래는 묘사한 내용 대신 제목을 기준으로 이미지를 설명하려고 했지만, 여러 번 시도한 끝에 마침내 제대로 설명했습니다.
그때도, 제가 받은 설명은 클로드의 답변에 비하면 턱없이 부족했습니다. 이는 GPT-40의 비전 기능이 OpenAI가 출시 당시 선보인 가장 큰 하이라이트 중 하나였기 때문에 매우 놀라운 일이었습니다.
콘텐츠 생성 및 편집
다음으로, 어떤 모델이 콘텐츠 생성에서 더 나은 성과를 보이는지 알아보려고 했습니다. 그들이 어떻게 수행하는지 명확하게 알아보기 위해, 실제 사실과 데이터가 필요한 콘텐츠와 AI 모델의 창의성에 의존하는 허구의 콘텐츠를 생성하기로 했습니다.
먼저, 저는 Claude와 ChatGPT에 다양한 안드로이드 스킨에 대한 자세한 기사를 제공해 달라고 요청했습니다. 많은 사람이 알고 싶어 하지만 매우 주관적인 주제이고, 각 개인이 선호하는 것이 있기 때문입니다. 저는 스마트폰 Can you write a detailed article on the different Android skins, such as OneUI, MIUI, ColorOS, etc.?
과 함께 보내는 시간이 얼마나 되는지에 따라 모델의 정확도와 각 스킨에 대한 정보 제공량을 알아보고 싶었습니다.
평소처럼 클로드는 응답을 제공하는 데 더 빨랐습니다. 안드로이드 스킨이 무엇인지 설명하는 개요를 제공했는데, 좋았지만, 그런 다음 단순히 각 스킨을 제공하는 기능과 함께 요점 목록으로 나열했습니다. 제가 프롬프트에서 ‘상세한 기사’라고 구체적으로 언급했음에도 불구하고 모델이 이 결과를 제공했다는 점을 명심하세요.
반면 ChatGPT는 기사에 더 인상적인 제목을 만들고 간략한 소개를 포함했습니다. 그 후, 각 스킨을 개별 섹션으로 설명하면서 각각을 개요, 주요 기능, 장점, 단점으로 나누었습니다.
이것은 보다 포괄적인 정보를 제공할 뿐만 아니라, 서로 다른 스킨을 어떻게 비교하는지 정확히 알려줍니다. 마지막으로, 적절한 결론으로 기사를 마쳤습니다. ChatGPT가 언급한 스킨의 수는 클로드가 나열한 것보다 적었지만, 여기서는 양보다 질이 더 중요합니다.
이 경우 ChatGPT가 Claude보다 더 나은 성과를 냈지만, 이전 테스트에서 발견했듯이 후자도 좋은 콘텐츠를 생성할 수 있습니다. 주제나 프롬프트를 표현하는 방식에 따라 달라질 수 있습니다. 그래서 두 모델에 다른 프롬프트를 주었고, 이번에는 프롬프트를 사용했습니다. Write a humorous story about a penguin that wants to fly but ends up getting entangled into funny situations when it attempts to do so.
또한 모델이 유머를 얼마나 잘 이해하고 전달할 수 있는지 볼 수 있는 기회도 제공했습니다.
이번에는 두 모델이 정말 유쾌한 이야기를 만들어내면서 결과가 매우 비슷했습니다. 두 이야기 모두 아이러니와 신체적 코미디와 같은 공통적인 요소가 있었습니다. 허구에서는 개인적 선호도가 강력한 요소이며, 전반적으로 클로드의 산출물이 약간 더 나은 것으로 생각했는데, 특히 유머를 만들어내기 위해 단어를 다루는 방식이 좋았습니다.
하지만 앞서 언급했듯이 ChatGPT의 스토리도 읽기에 재미있었고 클로드의 스토리보다 약간 길었습니다. 결말도 더 건전했습니다. 따라서 클로드와 ChatGPT 모두 제 지시에 따라 유머러스한 요소를 포함하면서도 좋은 허구적 콘텐츠를 만들어낼 수 있었습니다.
콘텐츠 편집: 콘텐츠 생성은 프로세스의 일부에 불과합니다. AI 모델이 콘텐츠와 관련하여 무엇을 할 수 있는지 진정으로 알아내려면 콘텐츠 편집 기능도 테스트해야 하는데, 제가 진행한 것이 바로 그것입니다. 이를 위해 저는 Claude와 ChatGPT에 소셜 커머스에 대한 텍스트를 제공하고 그들에게 프롬프트를 제공했습니다.Can you expand this article while also proofreading and improving it?
기사를 개선할 때, 클로드는 서론으로 시작하여 소셜 커머스의 진화에 대해 쓰고, 마지막으로 다른 섹션으로 이어가며 적절하다고 생각되는 대로 각 섹션을 확장했습니다. 이 모델은 또한 가독성을 개선하기 위해 필요하다고 생각되는 곳에 번호가 매겨진 목록과 요점을 사용했습니다.
ChatGPT의 응답은 이전 응답과 유사했는데, 콘텐츠를 여러 하위 제목으로 여러 섹션으로 나누었습니다. 목록을 사용하지 않고 정보를 문단 형태로 유지했습니다. 변경 및 개선 사항에 관해서는 Claude가 ChatGPT보다 기사에 더 큰 변경을 가했지만 최종 결과도 훨씬 더 좋았습니다. 궁극적으로 Sonnet의 편집 기능이 더 강력하고 내 워크플로에 훨씬 더 적합하다는 것을 알게 되었습니다.
코딩 능력
AI 모델을 비교하려면 코딩 능력을 포함하지 않고는 안 됩니다. Claude는 프로그래머가 더 나은 코드를 빠르고 쉽게 작성할 수 있도록 특별히 개발되었지만, 새로운 GPT-40 기반 ChatGPT도 코딩에 관해서는 얕잡아 볼 것이 아닙니다.
코드 생성 능력을 테스트하기 위해 Claude와 ChatGPT에게 둘 다 Generate code for a simple game that can help beginners learn programming.
Python으로 코드를 작성했지만 Claude는 예상대로 코드 생성을 더 빨리 완료했습니다. 화면 오른쪽에 전체 코드를 표시하고 왼쪽에는 함수와 변수와 같은 요소를 설명했습니다.
클로드의 답변에서 제가 가장 마음에 들었던 점은 코드로 바로 이동할 수 있는 버튼이 있어서 쉽게 확인할 수 있다는 것입니다. 게다가 챗봇은 코드를 실행하는 데 필요한 요구 사항을 알려주었고, 지침도 함께 제공했습니다. 코드 자체는 이해하기 매우 쉬웠고 제가 테스트했을 때도 완벽하게 잘 실행되었습니다.
ChatGPT의 응답으로 돌아와서, 제가 요청한 대로 간단하면서도 기능적인 코드를 생성할 수도 있었습니다. 코드 아래에서 챗봇은 게임을 실행하는 데 필요한 단계와 코드가 다루는 개념을 제공하여 초보자가 이해하기 쉽게 만들었습니다. 전반적으로 이 경우 두 모델의 결과는 매우 유사했지만, 클로드는 더 많은 요소를 설명했고 코드의 모든 부분을 자세히 설명해 달라고 요청할 수 있는 옵션이 있었습니다.
수학적 능력
마지막으로, 저는 Claude와 ChatGPT에게 수학 문제를 풀어서 얼마나 잘 했는지, 그리고 어느 쪽이 더 빠른지 알아보았습니다. 문제에는 대수 방정식이 포함되었지만 특별히 어렵지는 않았습니다. 두 모델 모두 첫 번째 단계에서 무엇을 해야 하는지 설명하는 것으로 시작했지만, 그들의 접근 방식은 달랐습니다. Claude는 방정식을 확장했고 궁극적으로 문제를 완전히 풀려면 그래픽 계산기나 컴퓨터 대수 시스템을 사용해야 한다고 말했습니다.
그렇긴 하지만, 그것은 문제에 대한 잠재적 해결책의 수를 명시했습니다. 반면에 ChatGPT는 문제를 완전히 해결했고, 그것에 대한 모든 가능한 해결책을 제공했습니다. 이것은 수학적 능력에 관한 한 ChatGPT-4o가 Sonnet보다 앞서 있다는 것을 나타냅니다.
최종 판결 – Claude Sonnet 3.5 또는 ChatGPT-4o: 누가 이겼을까요?
Claude 3.5와 ChatGPT-4o 중에서 선택하는 건 쉽지 않지만, 궁극적으로는 하나만이 승자가 될 수 있고, 저에게는 새로운 Sonnet 모델이 최고입니다. ChatGPT보다 훨씬 빠를 뿐만 아니라 더 정확한 답변을 제공합니다. 특히 이미지를 잘 설명하고 이미지와 관련된 작업을 수행하는 방식이 마음에 들었습니다.
클로드는 또한 제가 그것을 사용하는 동안 한 번도 환각을 보지 않았는데, 이는 그것의 또 다른 장점이며, 그것의 반응은 전반적으로 제 지시에 더 가까웠습니다. 제가 자세한 내용을 원했던 한 가지 사례에서 제가 기대했던 대로 작동하지 않았지만, 그것을 사용하여 원하는 정보를 얻는 것이 일반적으로 더 쉬웠고 덜 힘들었습니다.
Claude 3.5 Sonnet과 ChatGPT-40을 모두 사용해 본 결과, 둘 다 성능이 매우 비슷한 매우 뛰어난 AI 모델이라는 것을 알게 되었습니다. Sonnet이 일부 작업을 더 잘 수행하는 반면, ChatGPT는 다른 작업에서 더 나은 결과를 제공합니다. 어느 것이 더 나은지는 개별 사용 사례에 따라 결정된다는 점을 이해해야 합니다.
또한, 두 무료 모델은 할 수 있는 일이 제한적입니다. 따라서 두 AI를 정기적으로 사용하려면 최상의 결과를 위해 유료 구독을 권장합니다.
답글 남기기