top of page

DeepSeek R1

  • 작성자 사진: Minwu Kim
    Minwu Kim
  • 1월 26일
  • 2분 분량

최종 수정일: 2월 3일


(업데이트: 스몰 모델로도 가능한걸로 나옴. https://hkust-nlp.notion.site/simplerl-reason 이건 우리 랩도 충분히 할 듯.)



ree

미친 것 같다. 제로투원 모먼트이다. 그냥 GRPO로 훈련 시켰더니 어느 순간 부터 자기가 알아서 혼자 '아하' 모먼트를 생성했다는 것이다.


무슨 MCTS니 PRM이니, 그런거 다 필요 없고 강화학습으로 단순한 outcome/sparse 리워드만 지정해주면 된다는 것이다. 역시 튜닝의 끝은 순정, 大道至简이다.


저게 다 사실이라면 앞으로 이 바닥의 해자는 더 줄어들 것 같다. 레시피도 다 줬는데, 네이버나 카카오도 좀 정신차리고 후딱 만들었으면 좋겠다.


양질의 데이터가 중요하다? 그래서 유저 데이터 많이 갖고 있는 구글 마소 메타 같은 플랫폼 기업이 AI도 잘할 것이다? 어쩌면 아닐지도 모르겠다. 충분히 똑똑한 base model이 있고, 그걸 강화학습으로 튜닝하면 양질의 데이터를 거의 무한정 뽑아낼 수 있다는 것이며, 그게 가능하면 단순한 SFT로도 distillation이 가능하다. 데이터도 데이터지만, 그냥 GPU 많은게 장땡일수도.


개인적으로 재귀적 학습에 다소 회의적이었다. 그냥 언어와 지능에 대한 내 직감상 그건 어렵지 않을까 했던 것이다. 하지만 이제는 잘 모르겠다.


LLM의 지능의 어퍼바운드는 인간지능이라고 여겼건만, 이제는 아닐지도 모르겠다. 물론 "리워드"를 주려면, 그 정답을 알고 있어야 하고, 정답을 알려면, 결국 인간이 아는 문제로 훈련시켜야 한다. 하지만 어느 시점에 LLM이 스스로 새로운 추론 방법을 깨달아 버린다면 어떨까. 인간 이상의 지능을 갖게 되지 않을까? 잘 모르겠지만 요즘 연금술 마냥 다 되는 LLM판을 보면 그런 생각도 아주 허무맹랑하지는 않은 것 같다. 아니, 오히려 그럴 가능성이 더 높을 것 같다.


아무튼, 진짜 요즘 발전속도가 무서울 정도이다.



기존 진행하던 웜업용 연구가 생각보다 훨씬 시간이 많이 걸렸다. 그거 하느라 논문을 열심히 팔로업을 안 했는데, 그새 뒤처진 것 같다.


9월에 o1이 출시가 된 이후 이 바닥의 큰 흐름은 누가 o1을 최대한 빠르게 구현하는가였다. 가장 많은 추측이 오간것은 MCTS + PRM + Synthetic data쪽 방향성이었다. 아무리도 2023년도 lvsbs 페이퍼가 있기도 했고, 도대체 어쩌다 그런지는 모르겠지만 여론이 다 그런 식이었다. 나도 조사라고 해봤자 트위터 뒤져보는 것 뿐이니, 뭐 어쩌겠나. 나도 그런 줄 알았고, 유관 논문도 많이 나왔다.


하지만 이상하게 성능은 다 고만고만 했다. 그리고 그 문제의식은 이미 꽤 널리 퍼지고 있었다. 이번 R1전에 STILL2 논문이 12월 말에 올라왔다. 난 그걸 이제서야 본거고.


그리고 연말 동안 내 논문 쓰느라 손 놓고 있었는데, 지금 와서 돌이켜보니 “어쩌면 o1은 새로운 시스템이 아닌 여전히 하나의 llm모델이다“라는 추측이 붉어졌고, 지금 와서 안 사실인데, noam brown이 애초에 대놓고 그렇다고 트윗을 날린 것이었다. 거기에 정형원님도 mit세미나에서 힌트를 꽤 주기도 했다. 지금 와서야 그 의미를 알게 된 것 뿐.


계속 같은 얘기를 하고 있는 것 같은데, 아무튼 너무 정보력이 후달린다는 생각이 든다. 우리 랩은 다 이 쪽 분야의 초짜들이고, 어째 랩 연구 방향은 교수님까지 다 내 입만 보고 있는 것 같다. 그만큼 내 책임이 막중한데, 보다 효율적으로 트렌드를 놓치지 않는 방안을 모색해야겠다.


그런 의미에서, 노엄브라운이 다음 패러다임을 multi-agent로 간략히 언급한 걸 봤는데, 한 번 생각을 해봐야 할지도. 만약 멀티에이전트가 오퍼레이터가 아닌 리즈닝 연구의 방향성이라면, 그건 도대체 무슨 의미일까. (업데이트: deep research?? 영상에서 end-to-end RL이라 했으니, cooperative MARL일수도?)



연구의 아이디어는 상당수 직관에 의존한다. 말로 설명하긴 복잡한데 "아마 이러면 될 거 같다"라고 생각하면, 거의 반타작은 들어맞는 것 같다. 최소 이 분야는 그런 것 같다. 나보다 훨씬 뛰어난 직관을 지닌 일리야 서츠케버가 했던 말들을 곱씹어보면 거의 대부분 옳았다.


앞으로 연구를 할 때, 그 바를 보다 낮추고 도전적인 가섷을 세워야겠다. 요즘 거의 연금술의 세상을 살아가고 있는듯 하다. 파다 보면 대박이 생각보다 쉽게 나올지도 모르겠다.


일주일 전에 삽질 얘기를 하며 푸념을 했는데, 그저 더 많은 삽질을 하는 수 밖에 없다. 그게 올바른 연구 자세다. 그러다 보면 진짜 왕건이가 나오는거다.


그나저나 이제 이런 뉴스를 보고 투자 말고 연구 생각을 하는 나를 보니 감회가 새롭기도 하다.

 
 
 

댓글


bottom of page