GPT-4가 챗GPT를 능가한 세 가지 방법=멀티 모달+긴 토큰+💬

GPT-4는 챗GPT에 비해 멀티 모달, 길어진 토큰, 그리고 SYSTEM을 통한 정교해진 명령어 입력이 세 가지 큰 특징인데요. 이미지가 입력이 되고, 토큰이 길어지면 어떤 것까지 가능하게 될까요? 기업의 비즈니스에 영향을 미칠 애플리케이션이 폭발적으로 등장할 예정입니다.

GPT-4가 챗GPT를 능가한 세 가지 방법=멀티 모달+긴 토큰+💬
Photo by Jonathan Kemper / Unsplash

많은 사람의 기대를 모은 GPT-4가 3월 15일 출시되었습니다.

이전 버전과 가장 크게 달라진 점은 멀티 모달입니다. 텍스트 뿐만 아니라 이미지를 입력할 수 있습니다. 출력은 텍스트로만 가능합니다. 세션 당 토큰도 길어졌고, SYSTEM에서 답변 성격을 더 정교하게 만들 수 있습니다. 

오픈AI에서 공개한 데모 라이브 영상, GPT-4 논문에서 함께 보면 좋을 내용을 세 가지로 추렸습니다. 멀티 모달, 개선점, 한계점입니다.

챗GPT, GPT-3.5 관련 핵심 요약은 지난 뉴스레터 보기에서 보실 수 있습니다.

알찬 AI 정보 계속 업데이트 하겠습니다. 주위에 올거나이즈 뉴스레터 구독 많이 소개해 주세요. 


[멀티 모달 1] 손으로 끄적인 낙서를 바로 웹사이트로? 
이미지 OCR+α

데모 영상에서 많은 사람들이 놀라워한 내용은 그렉 브록맨 오픈AI 사장이 손으로 쓴 웹사이트 아이디어를 사진으로 찍어서 입력하자, 웹사이트로 바로 만들어주는 부분이었습니다. 정확히는 웹사이트의 HTML 코드를 제작해준 것이죠.

GPT 4 demo
GPT 4 demo

손글씨에서 웹사이트의 제목, 버튼으로 표현해야 할 부분, 버튼을 누르면 실행되어야 할 부분 등을 인식해서 만들어줬다는 것이 대단하게 느껴졌습니다.

이미지에서 텍스트를 추출하는 것은 지금까지의 수많은 OCR 솔루션에서 가능했던 일입니다.
텍스트 작성자, 기획자의 의도를 파악해서 텍스트의 강조 및 제목 표시, 동작해야 하는 부분까지 제대로 작동하는 개발 코드로 만들어내는 것을 한번에 해내는 것이 쉬운 일은 아니죠.
하지만 의도를 정말 파악하고 이해했다라고 말하기보다는 위와 같은 텍스트의 패턴(제목 표시, 버튼 표시)을 잘 학습해서 답을 내는 것을 잘 하고 있다고 이해하시면 좋을 것 같습니다.

패턴을 파악하면 그 다음은 무엇이 가능할까요?
이미지 인식+α가 GPT4의 멀티모달의 핵심입니다.
오픈AI는 시각장애인과 봉사자를 연결하는 '비마이아이즈'앱과의 협업 사례에서 좀 더 구체적인 사례를 보여줬는데요.
기존의 '비마이아이즈'앱은 시각 장애인이 제품을 구매할 때나 공항에서 길을 찾을 때, 자원봉사자들이 이미지를 보고 입력해주는 형식이었습니다.

Be my eyes

GPT-4 기반 가상 봉사자를 사용하면, 사진으로 찍은 옷들을 보면서 어떻게 매칭하면 좋을지 조언을 해주고, 식물 상태를 찍으면 물을 어떻게 주면 더 좋을지 알려줍니다. 냉장고 안을 찍으면, 그 안의 재료들로 어떤 요리를 하면 좋을지 추천해주고요.

비마이아이즈 CTO는 대화 형식과 결합된 GPT-4의 더 나은 분석 능력이 다른 모델과의 차이점이라고 말합니다. 시각 장애인에게 웹페이지를 한줄 한줄 읽어주는 다른 솔루션과 달리 GPT-4는 한번에 웹페이지를 요약해서 알려줄 수 있어 유용하죠. 생성형AI가 잘하는 정보의 요약 및 종합 기능이 빛을 발하는 사례입니다. 

Be My Eyes
Be My Eyes uses GPT-4 to transform visual accessibility.

[멀티 모달 2] 이 사진이 왜 웃긴지 설명해봐?
이미지 OCR+후속 질문

GPT-4에 이미지 입력이 가능해졌다는 것은 어떤 의미일까요?
텍스트와 사진이 포함된 문서, 다이어그램, 스크린샷 등 다양한 형태의 이미지를 입력할 수 있고, 이전 GPT 모델에서처럼 예시를 보여주면서 답을 이끌어낸다든가, 프롬프트 엔지니어링을 통해 원하는 답에 가까워지는 일이 가능해집니다.

이전의 이미지 입력과 차별화된 예시로 "이 사진이 왜 웃긴지 설명해봐"라는 예시를 보여주고 있는데요.
이렇게 간단해 보이는 일을 하려면, 이미지의 내용(그림과 텍스트 모두)을 파악해야 하고, 내용들의 배치가 어떻게 다른지 비교해야 하고, "웃기다"라는 정의에 부합하는 설명을 생성해 내야 합니다. 우리들의 머리 속에서는 몇 초 안에 직관적으로 되는 일이지만, AI 모델이 하기에 쉬운 일은 아닙니다. 이런 학습 데이터를 어떻게 어디서 모아서, 어떤 방식으로 패턴을 파악하게 할 것인가 생각해보면 정말 쉽지 않죠.

GPT 4

이미지를 파악한 뒤, 후속 질문까지 이어질 수 있기 때문에 차트와 다이어그램을 파악해서 할 수 있는 일이 많아집니다.
아래와 같은 차트를 입력하고, "조지아와 서아시아의 평균 일일 육류 소비량의 합은 얼마입니까? 답하기 전에 단계별 추론을 제공하십시오"라고 명령하면, 단계별 추론 방법과 79.84g(조지아) + 69.62g(서아시아) = 149.46g이라고 답합니다.

GPT-4는 다이어그램, 차트, 문서, 인포그래픽 등을 파악하는데 꽤나 높은 벤치마크 성능을 보여주고 있습니다. 텍스트 전용 입출력만 가능했던 이전 버전에 비해, 일종의 눈이 생긴 것이라고 볼 수 있죠.
그림이 포함된 물리 문제도 잘 풀고, 논문의 이미지 파일을 올려도 요약을 잘합니다. 보고서 파악 및 요약, 새로운 요약 보고서 작성 등에 있어서 더 많은 활용 방법이 생겨날 것으로 보입니다.

[개선점] 훨씬 더 길게 입력하고, 더 정교하게 명령하고

기존 챗GPT는 세션당 최대 토큰이 4,096개였습니다. 최대 약 8천 단어 정도죠. GPT-4는 8배 많은 32,768 토큰까지 가능합니다. 아직은 8,192 토큰이고 향후 업데이트 예정입니다. 3만 개가 넘는 토큰이라는 건 약 50페이지, 단편소설도 가능한 분량입니다.

데모 영상을 보면 사이트 내용을 전체 선택-복사-붙여넣기한 다음 이 중에서 어떤 것을 요약, 수정하라고 지시합니다. 굳이 사람이 애를 써서 필요한 부분만 복사하기 위해 찾을 필요가 없어진 거죠. 

세션당 처리할 수 있는 토큰이 많아진다는 건, 일종의 AI의 기억과도 연관이 됩니다.
챗GPT를 사용하게 되었을 때 많은 분들이 놀란 것이, 후속 질문이 가능하다는 것이었는데요. 후속 질문이란 앞서 했던 질문과 답을 기억하고 있어야 가능하죠. 이렇게 앞서 했던 질문과 답, 맥락을 더 길게 기억하고 연결할 수 있다는 이야기입니다. 범용 인공지능(AGI)에 한발 더 가까워졌다고도 볼 수 있을 것 같습니다.

아래 보시면, GPT-4는 SYSTEM이라는 입력창이 별도로 있습니다. GPT-3.5 터보 때부터 생긴 창인데요. 지금까지 챗GPT를 쓸 때 더 나은 답을 얻기 위해서 프롬프트에 넣던 여러가지 조건이 있었습니다. 네가 면접관이라고 생각해라, 어떤 형태로 답을 하라는 등의 내용이었는데요. 지난 뉴스레터에서 설명한 적 있는 프롬프트 엔지니어링을, 시스템에 넣으면 되는 형태로 바뀌었습니다. 아무래도 시스템에 있는 항목과 프롬프트를 AI 모델이 명확하게 구분해서 생각할 수 있으니, 더 정교하게 답을 얻을 수 있는 장치입니다.

GPT-4의 정확도는 얼마나 올라갔을까요? 각종 시험을 GPT-4가 치르도록 해봤더니, GPT-3.5 모델보다 더 좋은 성적을 거뒀네요. 미국 모의 변호사 시험은 상위 10% 수준의 성적을 거두기도 했고요. 한국어 정확도도 77%로 GPT-3.5 영어(70.1%)보다 더 높아졌지만, 여전히 영어로 입력하는 게 더 결과가 좋습니다. GPT-4 영어는 85.5%까지 올라갔네요.

오픈AI는 GPT-4의 API 가격도 바로 밝혔습니다. 8K 컨텍스트는 프롬프트 토큰 1천개당 $0.03, 완료 토큰(답변이라고 보시면 됩니다) 1천개당 $0.06입니다. 32K 컨텍스트는 프롬프트 토큰 1천개당 $0.06, 완료 토큰 1천개당 $0.12입니다. 이전과 다르게 답변 토큰에 별도로 가격을 부여하네요.

[한계] 여전한 거짓말, 부족한 산수 능력

생성형 AI인 GPT 모델의 핵심은 다음 토큰에 무엇이 올지 예측하는 능력입니다. 수없이 많은 패턴을 학습해서 다음에 올 말이 어떤 것이 확률이 높을지 제안해주는 것인데요. 그렇기 때문에 여전히 사실이 아닌 답을 지어낼 가능성이 있습니다. 

오픈AI는 지난 6개월간 더 안전하고, 더 질문에 부합하는 답을 내놓는 모델을 만들기 위해 노력했다고 합니다. 내부 평가에서는 GPT-3.5보다 40% 더 사실에 입각한 답을 내놓을 가능성이 높다고 하네요. 

아래 그래프를 보시면 이전 버전 모델보다 GPT-4가 전반적으로 성능이 좋아진 가운데, 다른 분야보다도 역사와 수학 부분에서 점수가 높아진 것을 보실 수 있습니다. 챗GPT에서 가장 많이 안 좋은 평가를 받은 부분이 수학과 역사인데요. 밈이 된 세종대왕 맥북 던짐 사건 같은 경우처럼, 역사적 사실이 아닌데도 지어내는 답변들이 많았죠. 간단한 곱셈도 틀린 답을 하는 경우가 많았고요.
오픈AI가 챗GPT 공개 후 부각된 부분들을 조금 더 신경써서 모델을 학습시킨 것은 아닌가 하는 가설을 세워봅니다.

왜 이렇게 간단한 셈도 틀리고, 억지 역사를 만들어내는가에 대해 생각해보면, 챗GPT가 대화에 특화된 모델이라서 그런 것이 아닐까 싶습니다.

AI 모델이 생각하는 대화라는 건 모른다고 해서 입을 꾹 다물고 있기보다는 어떻게든 말을 이어가는 것일 수 있죠. 사람은 모를 때 모른다는 표정을 짓거나, 여러가지 몸짓으로 현재 감정을 표현할 수 있지만 텍스트로만 입출력을 이어가는 AI는 그럴 수 없죠.

수학의 경우도 AI 모델이 수학의 원리를 이해한다기보다는, 이 숫자들과 기호 다음에 어떤 것이 나올지를 예측해서 답을 하는 형태이다보니 틀린 답이 많이 나올 듯합니다. 그래서 GPT-4에 나온 수학 관련 예시를 보면 "단계별로 추론해 답을 하라(Think step-by-step.)"는 프롬프트를 넣는 경우가 많습니다. 무조건 입을 열어 대화를 하는 게 아니라, 한 단계씩 엑스축과 와이축을 정의하고, 축을 어떻게 함께봐야하는지 이해하는 식으로 차근차근 대답을 해보라고 지시하는 것이죠.

GPT-4에 이미지 입력이 가능해진 만큼 프롬프트를 더 다양하게 확장할 방법도 많아질 것 같습니다. GPT-4의 한계 안에서 어떻게 일을 더 잘할 수 있을지에 대한 고민도 커지는데요.
기업에서 GPT를 어떻게 사용하면 좋을지, 올거나이즈와 함께 고민해 보시죠.