오픈AI의 GPT-3 이해하기
Why GPT-3 is the best and worst of AI right now
오픈AI의 GPT-3 이해하기
※ 이 글은 GPT 새로운 버전에 대한 이해를 돕기 위하여 2021년 3월 8일 실린 ‘AI의 명암을 모두 담은 소우주, GPT-3’의 핵심내용을 각색하여 작성되었습니다
딥마인드(DeepMind)의 알파고(AlphaGo)나 IBM의 체스 AI 딥블루(DeepBlue) 이후로 GPT-3만큼 대중의 상상력을 자극하며 관심을 사로잡은 AI는 없었을 것이다.
샌프란시스코에 본사를 둔 인공지능 연구소 오픈AI가 제작한 ‘대형언어모델(large language model)’ GPT-3는 딥러닝(deep learning)을 이용하는 알고리즘으로, 책이나 인터넷에 있는 수많은 텍스트를 학습하여 단어와 구절을 연결해 텍스트를 생성한다. 2020년에 처음 출시됐을 때 GTP-3가 인간의 글을 무서울 정도로 실제에 가깝게 모방하자 많은 이들은 드디어 진정한 기계지능(machine intelligence)으로 향하는 문이 열렸다고 생각했다.
GPT-3는 마치 인간이 쓴 것처럼 보이는 복잡한 문장을 만들어낼 수 있다. GPT-3가 만들어내는 글에는 문화적 맥락도 포함되어 있으며, 과학자들이 실제로 보였을 법한 그럴듯한 반응도 들어있다. 이런 식으로 언어를 사용할 수 있는 기계가 중요한 이유에는 몇 가지가 있다. 우선 언어는 일상 세계를 이해하는 데 필수적이다. 인간이 의사소통을 하거나 생각을 나누고 개념을 설명할 때 언어를 사용하기 때문이다. 따라서 언어를 완벽하게 익힌 AI는 언어를 학습하는 과정에서 세상을 더 제대로 이해하는 법도 습득할 수 있을 것이다.
대형언어모델은 또한 다양한 분야에서 실용적으로 활용될 수 있다. 대형언어모델을 이용하면 더 유창하게 대화할 수 있는 챗봇을 만들 수 있고, 문장이나 구절 몇 개만 주어지면 어떤 것에 관해서든 기사와 이야기를 만들어낼 수 있으며, 텍스트를 요약하거나 질문에 답을 하는 것도 가능하다. GPT-3를 이용하는 사람들은 이미 GPT-3를 이용해 창업 아이디어를 만드는 툴부터 던전을 배경으로 AI가 자유롭게 시나리오를 만드는 텍스트 어드벤처 게임에 이르기까지 수십 개의 다양한 앱을 만들고 있다.
GPT-3가 2020년에 등장한 유일한 대형언어모델은 아니다. 마이크로소프트, 구글, 페이스북(현 메타)도 자체적인 대형언어모델을 발표했다. 그러나 GPT-3는 2021년 초까지 발표된 언어모델 중 가장 성능이 뛰어난 모델이었다. 또한 GPT-3는 팬픽션, 철학적 논쟁, 심지어 프로그래밍 코드까지 어떤 텍스트든 작성할 수 있을 것처럼 보인다. 2020년 여름에 사람들이 GPT-3를 테스트하기 시작하면서 소셜미디어에는 GPT-3의 다재다능한 능력을 보여주는 수많은 사례들이 쏟아졌다. 심지어 GPT-3를 최초의 인공일반지능(artificial general intelligence)이라고 할 수 있는지에 관한 논쟁이 불붙기도 했다.
그러나 그 의문에 대한 답은 ‘아니오’이다. 매우 그럴듯한 텍스트를 생성할 수 있기는 하지만, GPT-3가 기존의 AI와 다른 새로운 알고리즘은 아니다. GPT-3는 ‘규모를 키우면 무엇이든 할 수 있다’는 것을 보여주고 있을 뿐이다. GPT-3를 만들기 위해서 오픈AI는 GPT-3의 이전 모델인 GPT-2를 만들 때 사용했던 것과 동일한 방법과 알고리즘을 거의 그대로 사용했다. 차이점이 있다면 GPT-3가 GPT-2보다 훨씬 방대한 신경망(neural network)을 가지고 있으며, 훨씬 거대한 학습 데이터를 사용했다는 점일 것이다. GPT-3는 1,750억 개의 파라미터(parameter)를 가지고 있는데, GPT-2의 파라미터가 15억 개였던 것과 비교하면 엄청난 차이다. GPT-3는 학습할 때도 훨씬 많은 데이터를 사용했다.
GPT-2 이전에는 딥러닝을 사용하는 언어모델을 학습시킬 때 일반적으로 두 가지 과정을 거쳤다. 우선 언어에 관한 기본적인 이해를 위해 범용적인 데이터 세트를 사용해 학습했고, 그러고 나서 텍스트 이해나 번역 같은 특정한 작업에 맞춘 작은 데이터 세트로 학습했다. 그러다가 GPT-2가 등장하면서, 규모가 더 큰 모델을 더 많은 데이터로 학습시키면 첫 번째 과정만 거치더라도 전반적으로 좋은 결과를 낼 수 있다는 것이 드러났다. 그런 이유로 오픈AI는 GPT-3를 만들 때 모델의 규모와 학습 데이터 크기를 더 키우기로 했고, 그때까지 출시된 모든 언어모델 중에 가장 큰 모델을 만들어냈다.
그러나 GPT-3가 모두의 관심을 사로잡았던 뛰어난 결과물만 만들어내는 것은 아니다. 사실 GPT-3는 수백 단어가 넘어가는 텍스트에서는 같은 말을 반복하거나 모순되는 말을 할 때가 많고, 어이없는 실수를 하기도 한다. 화려한 언변 속에 우둔함을 감추고 있는 GPT-3로 완벽한 텍스트를 생성하기 위해서는 보통 여러 번 시도해야 한다.
또한 GPT-3의 놀라운 성능은 점점 더 커지고 있는 AI의 문제점도 드러내고 있다. 이러한 언어모델을 구동하는 데 필요한 엄청난 전력 소비는 기후변화에도 그다지 이롭지 않다. 덴마크 코펜하겐대학의 연구팀은 GPT-3가 화석연료로만 전력을 공급하는 데이터센터에서 학습했다면, GPT-3를 학습시킬 때 자동차로 달까지 왕복하는 것과 비슷한 수준의 온실가스가 발생했을 것이라고 추정한다. 또한 일부 전문가들은 GPT-3를 학습시키는 데 최소 1,000만 달러가 필요했을 것으로 추산하는데, 이러한 학습 비용은 가장 연구비가 많은 연구소 몇 곳을 제외하면 나머지 모든 연구소에서 감당할 수 없는 수준이다. 대부분의 연구소에서 최신 연구를 수행할 때 필요한 비용의 범위를 훨씬 뛰어넘는 금액이기 때문이다.
오픈AI는 GPT-3를 학습하는 데 하루에 수천 페타플롭스(petaflop/s-day) 정도의 컴퓨팅 파워가 소모됐다고 밝혔다. 여기서 ‘일일 페타플롭스(petaflot/s-day)’란 하루 동안 1초당 1015 또는 1,000조 번의 신경망 연산을 수행할 때 필요한 전력량을 나타내는 단위이다. 엄청난 전력을 소모하는 GPT-3에 반해, GPT-2가 소모한 전력량은 수십 일일 페타플롭스에 불과했다.
엄청난 전력 소모 외에 또 다른 문제는 GPT-3가 온라인에서 찾아낸 수많은 가짜 정보와 편견을 그대로 학습해서 언제든지 그것들을 재생산한다는 것이다. GPT-3를 개발한 팀은 논문에서 해당 기술에 대해 설명하며, “인터넷으로 학습한 모델들은 인터넷의 크기만큼 방대한 편향을 가지고 있다”고 밝히기도 했다.
GPT-3가 생성한 텍스트는 사람이 작성한 것처럼 보이기 때문에 사람들에게 쉽게 믿음을 줄 수 있다. 이로 인해 GPT-3를 비롯해 사람처럼 언어를 작성하는 모든 언어모델들에 ‘사용자 주의(User beware)’ 스티커 같은 안전 경고 표시를 해서 사람들에게 그들이 지금 인간이 아니라 소프트웨어와 대화하고 있다는 것을 알려야 한다고 주장하는 이들도 있다.
몇 달 전에 누군가가 레딧(Reddit)에 GPT-3로 만든 봇을 풀어놓았다. 이 봇은 정체가 드러나기 전까지 며칠에 걸쳐 수백 개의 댓글을 남기고 수십 명의 레딧 이용자들과 소통했다. 봇이 레딧에서 행한 대부분의 활동은 무해했으나, 자살에 관한 글에 맥락을 전혀 파악하지 못한채 부적절한 댓글을 달기도 했다.
이러한 한계에도 불구하고 GPT-3는 ‘클수록 좋다’고 믿는 이들의 생각을 어느 정도는 증명하고 있다. GPT-3 같은 대형 모델들은 컴퓨팅 파워와 데이터가 커지면 커질수록 큰 발전을 이룰 수 있다는 것을 보여주며 미래에 대한 기대감을 키우고 있다. GPT-4가 어떤 모습일지는 아직 알 수 없지만, 미래에는 챗봇이 대화 주제에 대해 더 폭넓게 이해하면서 더 길고 일관성 있는 텍스트를 만들어낼 수 있게 될지도 모른다.
그러나 언어는 세상을 이해하고 세상과 소통하는 여러 방법 중 하나일 뿐이다. 차세대 언어모델은 이미지 인식 같은 다른 기술을 통합할 것이다. 오픈AI는 이미 언어를 사용해 이미지를 이해하고 이미지를 사용해 언어를 이해하는 AI들을 이용해 GPT-3를 이런 방향으로 발전시키고 있다.