Homepage Main

0.1%의 패러미터만으로 GPT-3 를 능가하기

"이번 작업을 통해 패러미터 수가 수백, 수천분의 1 밖에 되지 않는 언어 모델만으로도 GPT-3 와 유사한 성능을 낼 수 있다는 것을 보여주었다" #AI #GPT-3 #딥러닝

Allganize Korea

2020년 10월 28일 • 4 min read

올거나이즈는 최근 Pattern-Exploiting Training (PET) 에 대해 논의하는 자리를 가졌는데요, 이는 LMU Munich 의 연구가 Timo Schick 와 Hinrich Schutze 가 개발한 자연어 처리(NLP) 모델의 딥러닝 학습 기술입니다. 아래는 arXiv 에 기고한 그들의 논문 일부입니다.

(번역) "이번 작업을 통해 패러미터 수가 수백, 수천분의 1 밖에 되지 않는 언어 모델만으로도 GPT-3 와 유사한 성능을 낼 수 있다는 것을 보여주었다. 이는 텍스트 입력을 과업 설명을 포함하는 클로즈 스타일 질문으로 변환하고 그라디언트 기반 최적화와 병행함으로서 가능했으며, 언레이블 데이터를 활용하여 더욱 개선하였다"

(원문) "In this work, we show that performance similar to GPT-3 can be obtained with language models whose parameter count is several orders of magnitude smaller. This is achieved by converting textual inputs into cloze questions that contain some form of task description, combined with gradient-based optimization; additionally exploiting unlabeled data gives further improvements."

GPT-3 는 분명 AI 업계의 가장 혁신적인 결과물 중 하나이며, 사용처에 한계가 없어 보입니다. 다만 문제는 트레이닝입니다. 패러미터란 AI 모델을 조정하고 수정하는 데 사용되는 변수인데요, 더 많은 패러미터로 AI 모델을 훈련할수록 당연히 그 결과는 더 좋아집니다. GPT-3 모델의 트레이닝에는 1,750억개의 패러미터와 22개의 그래픽 프로세서가 사용되었고, 이는 대략 460만에서 1,200만 달러까지 소요될 수 있는 작업입니다.

위 연구가들은 GPT-3 보다 훨씬 효율적인 대안 트랜스포머 NLP 모델을 제안했습니다. 이 모델은 SuperGLUE 벤치마킹 테스트에서 단 2억 2,300만 개의 패러미터만으로 GPT-3 모델의 퍼포먼스를 능가했는데요, GPT-3 에 사용된 패러미터 수에 비하면 놀라울 정도로 적은 수입니다.

Performance of ALBERT with PET/iPET and GPT-3 on SuperGLUE for 32 training examples. ALBERT with PET/iPET outperforms GPT-3 even though it has three orders of magnitude fewer parameters.

연구팀은 PET 방식을 간단하게 사전 훈련된 ALBERT 모델과 결합하여 PET 가 pattern-verbalizer 쌍 (PVPs) 을 클로즈 스타일 질문들로 변환하고, 서로 다른 모델들의 조합을 훈련시켜 재공식화할수 있도록 하였습니다.

Application of a PVP p = (P, v) for recognizing textual entailment: An input x = (x1, x2) is converted into a cloze question P(x); qp(y | x) for each input is derived from the probability of v(y) being a plausible choice for the masked position.

PET / iPET가 GPT-3가 사용한 패러미터의 0.1% 만 사용하고도 SuperGLUE의 특정한 퍼포먼스 벤치마킹에서 GPT-3를 능가하였다는 것은 분명 주목할만 한 일입니다. 이것이 이 시스템이 다른 과업에서도 GPT-3 를 능가할 수 있다는 것을 뜻하지는 않으나, AI 연구가들이 보다 부담없는 환경에서 다양한 시도를 해 볼 수 있는 길을 열어준다는 것은 분명해 보입니다.

Schick 와 Schütze 는 그들의 PET 코드와 FewGLUE 데이터셋을 GitHub에 오픈소스로 공개하였습니다. 더 자세한 내용이 궁금하시다면 올거나이즈의 PET / iPET 관련 세미나를 아래에서 확인하실 수 있습니다.

올거나이즈의 AI 팀은 AI 의 한계를 더욱 넓혀나가고자 저희와 함께하실 분들을 구하고 있습니다. AI 의 미래에 대한 열정을 가지고 계신 분이라면 jobs@allganize.ai 로 언제든 연락 부탁드립니다!

올거나이즈는 기업을 위한 자연어 이해 AI 솔루션을 제공합니다.