OpenAI o1 - 추론하는 LLM
- Minwu Kim
- 2024년 9월 15일
- 4분 분량
최종 수정일: 10월 3일
OpenAI o1 발표는 근래 내 도파민이 가장 뿜뿜한 사건이 아닐까 싶다. 이틀 동안 새벽 늦게까지 자료를 찾아보기도 하고, 직접 가지고 놀아보기도 했다. 호들갑일지도 모르겠다만, 어쩌면 인류역사에 가장 중요한 순간을 목도하고 있는 것이 아닐까 싶었다. 설렘과 두려움을 같이 품은 채 o1에 대한 내 생각을 조금 정리해본다.
하나. o1의 중요성
나는 o1의 출시가 OpenAI가 가장 처음에 내놓은 챗봇인 ChatGPT 3.5 이후 가장 임팩트가 있는 발전이라고 생각한다. GPT4는 파라미터를 늘려 성능을 개선했고, 4o는 멀티모달리티를 구현했다. 이 두가지 역시 중요한 발전 방향이지만, o1이 제시하는 방향성, 즉 "추론능력"에 대한 탐구는 보다 근본적이며, AGI에 다다르는 문제에 있어, 앞선 두가지보다 훨씬 중요하다고 생각한다.
왜 o1이 근본적으로 중요한가를 설명하기에 앞서, 왜 4와 4o이 근본적인 문제를 해결하고 있지 않은가를 살펴보고자 한다.
일단 GPT4를 보자. GPT4의 방항성은 파라미터 갯수를 늘리는 vertical scaling이다. 좀 더 쉽게 말해 "더 많은 데이터와 더 큰 모델을 때려박으면 뭐라도 나오겠지!" 하는 사고 방식이다. 그리고 이러한 방식으로 실제로 꽤 좋은 성능 개선을 이뤄냈다. 하지만 현재 이는 병목 현상을 맞이 하고 있다.
첫째로는 데이터의 양과 질이다. 본질적으로 대형 모델의 능력은 모두 훈련 데이터에서 비롯된다. 특정 능력을 반영하는 훈련 데이터가 많을수록 해당 능력이 강해진다. 언어 능력은 말할 것도 없이, 어떤 사전 훈련 데이터에도 언어의 어휘 및 문법 요소가 상당히 포함되어 있다. 따라서 훈련 데이터에서 언어 능력을 반영하는 데이터의 비율이 가장 크다. 이는 대형 모델의 언어 능력이 가장 강한 이유이기도 하다. 하지만 현재 온라인의 텍스트 데이터를 사실 상당부분 소진이 되었으며, 그 탓에 지금은 합성 데이터로 추가 훈련을 시키고 있다. 이런 데이터는 분명 질적으로 떨어질 수 밖에 없다 (아닐 수도 있다. 언어의 차원에서 interpolation이라는 것을 정의하기란 상당히 어려운 일이다).
둘째로, 단순히 양과 질을 넘어, "world knowledge의 포화" 문제가 있다. 분명히 데이터 양이 많을수록 world knowledge가 더 많이 포함되며, Scaling Law는 데이터에서 세계 지식이 얼마나 포함되어 있는지를 나타낸다. 하지만 여기에는 한 가지 문제가 있다. 대형 모델이 더 많은 데이터를 접할수록 새로운 데이터에 포함된 새로운 지식의 비율이 낮아진다. 많은 지식을 이미 이전 데이터에서 봤기 때문이다. 그래서 데이터 규모가 커질수록 새로운 지식을 만날 확률이 낮아지고, 세계 지식 측면에서 world knowledge가 둔화되는 현상이 나타난다.
셋째로, 현실적인 문제이다. 여기서 OpenAI의 재무상태표를 일일이 까지는 않겠지만, 비용 문제가 크다. 그래서 알트만이 9경 투자니 뭐니 하고 있는 것이기도 하다. GPT4를 만드는데에도 천문학적인 돈이 들었는데, 나아가 GPT 5,6을 만들면 정말이지 감당하기 어려운 비용이 나갈 것이다.
그 다음은 4o의 방향성을 보자. 4o의 방향성은 서로 다른 모달리티를 어떻게 통합하는가의 문제이다. 하지만 이는 모델의 지능 향상에 크게 기여하지는 않을 것으로 보인다. 4o의 문제는 모델의 지능이 충분히 높지 않아서 복잡한 작업을 처리할 수 없다는 점이다. 이미지나 비디오와 같은 새로운 모달리티 데이터를 통해 지능을 대폭 향상시키는 것은 거의 불가능하며, 비록 더 다양한 멀티모달의 활용이 가능하겠지만, 이는 대규모 모델의 외부 세계에 대한 "인식" 능력을 보완하는 것이지, 근본적인 "인지" 능력을 향상시키는 것은 아니다.
대규모 모델의 "인지" 능력을 향상시키기 위해서는 결국 "언어"에 대한 인지능력을 개선해야 한다. 언어야 말로 세상을 이해하고 사고할 수 있는 근본적인 도구이기 때문이다 (이는 LLM에 대한 내 개인적인 철학이긴 한데, 구체적인 설명은 비트겐슈타인 그림이론을 참고하시길 바란다). 그리고 o1은 추론능력을 향상 시키는 쪽으로 AGI로 가는 새로운 방향성을 제시했다.
둘. o1의 핵심 아이디어.
OpenAI o1이 제시하는 방법론은 사실 간단하다. 바로 Chain of Thoughts(CoT)이다. CoT는 복잡한 문제를 여러 subtasks로 일일이 해결하는 divide and conquer 방식이며, 대규모 모델이 복잡한 논리 문제를 해결할 수 있게 도와준다. 그리고 이는 이미 활발히 연구가 되고 있는 분야였다. 하지만 o1이 기존 CoT와는 다른 점이 두가지 있는데, 아래와 같다:
첫째, o1은 CoT를 자동화 한다. o1 이전의 경우는 주로 사람의 CoT에 대한 프롬프트를 작성했다. 하지만 o1 같은 경우, 알파고에도 자주 사용되었던 Monte Carlo Tree Search를 통해, 가장 정답을 맞출 수 있을 것 같은 쪽으로 chain을 직접 그려나간다. 이러한 방식은 사람이 더 이상 복잡한 프롬프트를 직접 작성할 필요가 없게 만든다. 워크플로우 마저 자동화가 되는 것이다. 곱씹어 보면 꽤나 소름이 돋는 부분이다.
둘째, 멀티에이전트 방식이 아니다. Agentic workflow는 학계와 업계에서 개념적으로 뜨겁지만 실용화는 잘 되지 못하고 있다. 문제는 이것이 중첩확률이기 때문이다. 만약 복잡한 태스크를 10단계로 나눈다고 해도, 각 단계의 정확도가 95%에 이른다고 해도, 그 모든 것이 성공할 확률은 60프로 남짓이다. 하지만 o1 self-play를 통해 하나의 모델로 inference가 이뤄진다 (아마도). 이러한 방향성이라면, agent도 다시금 개화할지도 모를 일이겠다.
셋. 기계가 추론을 한다는 것.
종전의 LLM은 autoregressive한 방식으로 답변 생성을 했다. 앞에 주어진 토큰 배열이 있으면, 그에 맞춰 다음 토큰을 유추하는 방식이다. 사람으로 치면 벡스페이스 없이 타자를 치는 것과 같다. 그 탓에 할루시네이션이나, 퇴고할 수 없다는 문제 등이 존재했다.
하지만 o1은 다르다. 직접 문제를 인식하고, 해부하고, 여러 subtask로 쪼개고, 가설을 검증하고, 답을 유추해낸다. 이 모든 과정이 인간의 사고과정과 매우 흡사하다. 현재 서비스로 제공되고 있는 것은 o1 preview 모델로, 추론 시간을 약 30초로 제한하고 있는데, 이에 더 많은 시간, 더 큰 context window, 그리고 더 memGPT와 같이 장단기 기억까지 추가한다면, 정말로 인류가 풀지 못했던 난제를 풀 수 있지 않을까 하는 생각도 든다.
추가로, 현재 학계는 학습(training)보다 추론(inference)에 컴퓨팅 리소스를 더 투입하자는 것이 트렌드이다. 당장 o1도 그렇고, 이번주만 해도 관련 페이퍼를 두개나 보았다: https://arxiv.org/abs/2408.03314 https://arxiv.org/abs/2407.21787. 심지어 소형모델을 가져다 추론에 힘을 써도 충분히 좋은 능력이 나온다는 것이 입증이 되고 있는 중이다 (아 물론, 내가 이 쪽 분야를 연구해서 좀 편향이 있는 걸지도 모른다)
넷. OpenAI의 미래.
사실 이런 거국적인 담론에서 일개 회사의 명운 얘기를 하는 것은 다소 보잘 것 없어보이지만, 그럼에도 이곳은 나름 증시 분석글들을 계속해서 써온 곳이니 하나 남겨 본다.
OpenAI는 항상 업계에서 선도적인 역할을 해왔다. "이러한 방향성이 가능하다"는 것을 가장 먼저 증명한 예가 많다. ChatGPT, DALL-E, GPT-4, Sora, GPT-4o, 그리고 이번 o1 등이 그 사례다. 그리고 그 이후 다른 후발주자들이 열심히 따라가면서, 때로는 OpenAI를 추월하기도 한다. 대표적인 예가 Sora다. 만약 OpenAI가 경쟁사 견제를 위해 Sora를 선보이지 않았다면, 사람들은 이 방향이 이렇게 멀리 나아갈 수 있다는 사실을 깨닫지 못했을 것이다. 그러나 그 가능성을 깨달은 이후, 하나의 방향에 집중하여 자원을 투입하면 OpenAI를 넘어서는 것이 가능해진다. 현재 해외 및 국내의 여러 비디오 생성 모델이 Sora보다 더 나은 성과를 내고 있을 가능성도 있으며, Sora는 여전히 개발 중이다. 개인적인 느낌으론, OpenAI는 너무 많은 방향에 관심을 두고, 자원을 온전히 집중하지 못하고 있다는 생각이 든다. 이로 인해 이 회사가 누적된 피로감을 느끼고 있지 않나 생각이 들기도 한다.
o1은 또 다시 사람들에게 가능성을 제시해주었으며, 곧 후발주자들이 빠르게 따라올 것이다. 비록 구체적인 방법론은 공유된 바가 없지만, 큰 방향성은 명확하기에, 수개월 내로 몇몇 기업들이 기술을 이해하고 따라잡을 것이며, 또 OpenAI를 추월할 수도 있다 (물론 샘알트만에 몇 주 뒤에 또 큰 거 온다고 입을 터시긴 한다만). . 또한 이 방향은 리소스 소모가 그리 크지 않아 보이며, 알고리즘과 데이터 쪽에 더 초점을 맞출 가능성이 크다. 데이터 규모도 그리 크지 않을 것으로 보여 비용이 비교적 적게 드는 방향으로 보인다. 고로 OpenAI는 기술적 해자를 크게 쌓지 못할 가능성이 크다고 조심스레 생각해본다.
댓글