클로드 3 vs GPT-4 vs 제미나이 전격 비교, 코딩 실력부터 가격까지!

3월 4일 공개된 앤트로픽의 클로드 3가 강력한 OCR 및 이미지 정보 처리로 구글의 제미나이와 오픈AI의 GPT를 위협하고 있습니다. Claude3, Gemini, GPT-4 세 모델을 비교해보고 각 모델의 특징과 코딩 실력, 가격 정보를 알려드리겠습니다.

클로드 3 vs GPT-4 vs 제미나이 전격 비교, 코딩 실력부터 가격까지!
Photo by Jacob Mindak / Unsplash

오늘은 얼마 전 출시된 앤트로픽의 클로드3, 구글의 제미나이 울트라, 오픈AI의 GPT-4를 비교해 보겠습니다. 과연 GPT-4를 뛰어넘는 성능의 모델이 빠르게 확산되고 있는 것일까요?

생성AI 관련 핵심 요약은 지난 뉴스레터 보기에서 보실 수 있습니다.
알찬 AI 정보 계속 업데이트 하겠습니다. 올거나이즈 뉴스레터 구독 많이 소개해 주세요. 


1. 앤트로픽 "클로드 3가 GPT-4 성능을 뛰어넘었다" 주장!

Anthropic은 3월 4일, 지능, 속도, 비용 효율성의 균형을 통해 기업 고객의 다양한 요구를 충족하도록 설계된 AI 모델 Claude 3 시리즈를 공개했습니다. 라인업에는 고급 Opus, 중급 Sonnet, 곧 출시될 경제적 모델 Haiku가 포함됩니다.

앤트로픽 CEO Amodei는 Opus가 다양한 벤치마크에서 GPT-4 , GPT-3.5 및 Gemini Ultra 와 같은 최고의 AI 모델보다 성능이 뛰어나다고 설명했습니다. 수학적 추론을 위한 GSM-8k 및 전문가 수준 지식을 위한 MMLU와 같은 학문적 벤치마크에서도 1위를 했다고 합니다.

위의 차트 Q&A를 보시면, 클로드 3 하이쿠 모델이 GPT-4V나 제미나이보다 뛰어난 것을 보실 수 있습니다.
클로드 3은 멀티 모달 입력이 가능해, 텍스트, 이미지, PDF 등을 이해할 수 있습니다. GPT-4보다 더 많은 데이터(한 번에 약 150,000단어(200k 컨텍스트 창))를 처리할 수 있으며, 99% 정확도가 넘는 향상된 메모리 기억도 제공됩니다.

클로드 3의 특징을 정리해보겠습니다.

  • 향상된 분석, 예측, 콘텐츠 생성 및 다국어 커뮤니케이션 가능
  • 새로운 비전 기능, 차트 및 다이어그램 등 다양한 시각적 형식을 처리
  • 복잡한 다중 모드 분석 수행 위해 하위 에이전트 활용
  • 프롬프트를 거부할 가능성 적고, 향상된 정확성과 회상 능력

2. 클로드 3 vs GPT-4 vs 제미나이, 비교해 보자!


1) 세 모델의 강점 및 한계 비교

가장 뛰어난 성능을 보여줬던 GPT-4에 대응해, 클로드 3가 OCR과 시각적 데이터 해석에 대한 강점을 내세우고 있습니다. 제미나이는 클로드 3 이전에 비전 작업에서 우위를 보이다 이제 클로드 3와 경쟁해야 하는 상황이네요.

시각적 이미지 성능이 점점 중요해지는 이유는, 엔터프라이즈에서 AI를 사용할 때 복잡한 표나 차트, 다이어그램 등을 해석해서 AI 에이전트로서의 역할을 하길 기대하기 때문입니다.

  • Claude 3  
    • 강점: OCR(광학 문자 인식), 복잡한 쿼리에 대한 미묘한 이해, 벤치마크 성능 향상, 이미지 속 번호판 번호 등 정확하게 시각 인식, 한번에 최대 20개 이미지 분석
    • 한계: 낮은 해상도 이미지 분석 부족, 이미지 속 기상 조건 등 미묘한 디테일 감지 부족, 2023년 8월 이전의 데이터로 학습, 최신 웹 검색 불가
    • 앤트로픽의 주장: 코딩 및 OCR에서 챗GPT 및 제미나이보다 성능 뛰어남(벤치마크)
       
  • GPT-4
    • 강점: 광범위한 지식 기반의 강력한 대화 기능, 쓰기, 요약, 질문 답변을 포함한 광범위한 텍스트 기반 응용 프로그램의 탁월한 성능, 사용자 친화적
    • 한계: 특정 기술 벤치마크 뒤처짐, 컨텍스트 창이 클로드보다 적음
       
  • Gemini 1.0 Ultra 
    • 강점: 비전 작업과 일반 AI 기능에서 강력한 성능 
    • 한계: OCR 영역에서 경쟁우위 낮아짐, 클로드3과 경쟁

2) 세 모델의 코딩 성능 비교

코파일럿을 비롯해 LLM을 코딩 작업에서 사용하는 것은 점점 당연해지고 있는데요.
코딩 작업에서는 정확한 결과물도 중요하지만, 코딩 스타일을 잘 구현하는 것도 중요합니다. 상세한 프로그래밍 작업을 이해하고, 맥락에 맞게 실행할 수 있어야 개발자에게 큰 도움이 됩니다. 

  • Claude 3 
    - 복잡한 쿼리, OCR 및 이미지 추론과 같은 전문 작업을 처리하는 데 있어 상당한 발전 
    - Haiku, Sonnet, Opus 계층화로 사용자는 간단한 쿼리부터 복잡한 분석까지 특정 요구 사항에 가장 적합한 모델 선택 가능
     
  • GPT-4 
    - 상세한 토론에 참여하고, 광범위한 질문에 답하고, 인간과 같은 텍스트를 생성할 수 있는 대화형 AI를 만드는 데 탁월 
     
  • Gemini 
    - 텍스트와 시각적 정보 혼합 처리의 경쟁 우위. 
    - Claude 3과 시각 정보 처리에서 경쟁하며, 더 깊은 상황별 이해와 정확성 개선 예정

3) 비용과 접근성

  • Claude 3 (각각 백만 입력 토큰당, 백만 출력 토큰당 가격)
    - Opus: $15 / $75
    - Sonnet: $3/ $15
    - Haiku: $0.25/ $1.25
     
  • GPT-4 
    - GPT-4 터보: $10 / $30
    - GPT-4: $30 / $60

3. 이제 어떤 LLM을 사용해야 할까?

클로드 3은 멀티 입력(이미지 등)은 가능하지만, 멀티 출력을 하지는 않습니다. 텍스트 대신 이미지 등을 생성하지 않는다는 의미인데요. 얼마 전 제미나이에서 이미지 생성시 오류, 환각이 있었던 점을 반영한 것이 아닌가 합니다.

하지만 앞서 말씀드린 것처럼 기업의 AI 사용에서는 점점 더 복잡한 표, 차트, 다이어그램 등을 PDF에서 불러와서 해석하고, 고도화된 결과물을 만들어내는 것이 중요해지고 있습니다.

그런 측면에서 OCR의 강점을 보이는 제미나이와 클로드 3의 경쟁이 기대됩니다.


B2B AI 솔루션은 업무 현장에서 LLM을 복합적으로 결합해 문제를 해결하고, 정교하고 정확한 결과물을 만들기 위한 방향으로 진화하고 있는데요. 
기업 내 문서의 복잡한 표에서 답을 잘 찾는 기술은 올거나이즈가 오픈AI의 리트리버보다 더 잘하고 있는 영역입니다.

다양한 LLM을 우리 회사 업무에 맞게 선택해서 사용할 수 있고, 100여 개의 업무 자동화 툴을 한번에 바로 사용할 수 있는 올거나이즈의 알리 LLM 앱 마켓도 풀스택 AI 툴을 향해 진화하고 있습니다.

AI 네이티브 워크플로 툴이 궁금하시다면, 올거나이즈에 문의하세요!