이 바닥에서 어떻게 잘 나갈까.

2023년 12월 3일
4분 분량

최종 수정일: 2024년 2월 26일

하려는 일이 데이터 과학이다 보니 이 시장의 미래에 대해 자주 생각하게 된다.

데이터과학의 미래는 밝다. 다음 산업혁명의 키는 단언컨대 AI이다. 하지만 데이터과학 인재 시장의 미래는 그만큼 밝지는 않다. 그 이유는 데이터 과학자의 진입장벽이 점점 낮아지고 있기 때문이다.

데이터 과학자의 필수 소양은 대략 3가지로 볼 수 있다. 수학, 프로그래밍, 그리고 도메인 지식이다. 일단 수학에 대한 지식은 학부 수준의 통계, 선형대수, 미적분 정도면 웬만한 일을 하는데 큰 무리가 없다 (요즘은 인과추론이 갑자기 핫해지는 것 같긴 한데, 그 얘기는 일단 넘어가자). 별천지의 수학은 모델을 개발하는 소수 이학 박사들의 일이다. 프로그래밍은 더 쉽다. 모든 것이 패키지화되고 간소화되고 있다. 심지어 요즘 텐서플로우나 파이토치를 넘어 FastAI, AutoML 같은 것으로 더더욱 쉬워지고 있다. 마지막은 도메인 지식인데, 이 부분은 조금 애매하다. 도메인 지식은 수학과 프로그래밍에 비해 테크니컬 한 요소가 많이 적다. 도메인 지식을 보유한 데이터 과학자가 살아남을 수도 있고, 아니면 수학이나 프로그래밍에 대한 요구사항이 너무 낮아져 데이터 과학자 같은 건 필요 없어질 수도 있을 것 같다.

너무 돈돈 거리기는 싫지만, 자본주의 시장에서 돈의 흐름을 따라가면 많은 것이 설명된다. 데이터 과학의 리더는 구글, 메타, 마소, 엔비디아 같은 소수 빅테크이다. 그들이 핵심적인 기술을 대다수 보유하고 있다. 그것이 그들의 가장 큰 경쟁력인데, 어째서 그들은 무료로 딥러닝 강의를 제공하는 것일까. 왜냐, 직접 모델을 개발해 판매하는 것보다 클라우드를 파는 것이 훨씬 돈이 되기 때문이다. 더 많은 사람들이 GCP나 AWS나 Azure나 DGX를 쓰는 것이 그들에게 있어 가장 돈을 버는 길이다. 그냥 하는 소리가 아니라 사업보고서 보면 다 나온다. 물론 OpenAI는 직접 모델을 판매하는 경우이긴 한데, 이들의 목표 역시 자신들의 API로 생태계를 구축하는 것이기 때문에 이 맥락을 크게 벗어나진 않는다고 본다.

이러한 이유로, 데이터과학에 대한 진입장벽은 점점 더 낮아질 것이다. 당장 요즘 ChatGPT API만 봐도 초등학생들도 갖고 놀 수 있을 만큼 쉽게 만들어 놓았다. 파이토치도 레이어 숫자들 몇 개만 지정해주면 잘 돌아간다. 그리고 웬만한 기업은 그런 빅테크들이 만들어 놓은 프레임워크보다 높은 성능의 것을 못 만들어 낼 것이다. 그렇다면 기업들도 굳이 몇 억 씩 태워가면서 데이터과학자를 고용할 필요도 없을 것이다.

이렇듯, 데이터과학 업계가 개화한다고 해서 데이터과학자의 미래도 장밋빛이 되는 것은 아닐 것이다. 이 바닥에서 살아남는 방법은 이 정도로 몇 가지 있다고 본다.

첫째로, 모델을 직접 개발하고 튜닝할 수 있는 그런 수준을 갖추는 것이다. 수학, 프로그래밍, 도메인 지식이라는 뼈대로 본다면, 수학에 대한 능력치를 높이는 것이다. 이 길로 가려면 수학이나 통계, 내지는 컴퓨터과학 박사를 해야 할 것이다. 그리고 수리적인 감각이 뛰어나야 할 것이다. 자기 비하 없이 객관적으로 판단했을 때 내 수학적 재능으로는 어려울 것이라고 본다. 내 친구 지미 같은 똑똑한 친구들을 수학으로 이길 자신이 없다. 물론 그럴수록 부족한 수학공부를 더 열심히 해야겠지만, 내가 수학공부를 하는 것은 내 장점 살리기보단 단점 메꾸기라고 본다.

둘째는 프로그래밍 실력을 키우는 것이다. 업계에서 머신러닝 프로젝트의 파이프라인을 보면, 모델을 돌리고 분석하는 일은 5% 남짓이다. 데이터를 모으고, 정제하고, 들여다보고, 모델을 배포하는것이 나머지 95%를 차지한다. 이는 어찌 보면 데이터 분석보다는 엔지니어링에 가까운 일이다. 가치 있는 사람이 되려면 남들이 못하는 걸 하거나 남들이 하기 싫어하는 것을 해야 한다. 수학이 전자라면 엔지니어링은 후자로 봐도 될 것 같다. 조금 도전적으로 생각했을 때 나중 가선 모든 것을 AI가 해주고, 사람이 할 일은 그 데이터를 적재적소에 옮기는 일 밖에 없게 될 것이다. 그 말은 즉슨 소프트웨어 개발 실력을 늘리는 것이 핵심이라는 것이다. 특히 생성형 AI의 시대로 오면서 이런 경향은 더 심해지는 것 같다. Discriminative model 같은 경우는 모델을 이해하고자 통계적인 지식이 많이 필요하지만, generative model 분야는 "그거 돌려보니까 잘 되네"라는 식의 다분히 empirical 한 접근법을 취한다. 그렇다 보니 수학적인 지식 없이 개발만 하면 그만이다. 현재 교수님 밑에서 LLM간의 소통을 시키는 multi-agent 관련 프로젝트를 하고 있는데, 그걸 여실히 체감하고 잇다. 내가 하는 일은 agent 간 통신 프로토콜을 구현해야 하는 일인데, 다분히 소프트웨어 개발 쪽에 치우친 업무이다. 연구를 하면서 수학을 다룬 적이 거의 없다. 아무튼, 프로그래밍 실력을 갖추는 것이 두 번째이며, 나에겐 수학 실력을 기르는 것보다는 쉬운 것 같다. 유일하게 걸리는 점이라면 내가 개발을 그렇게 좋아하진 않는다는 것. 하지만 또 못해먹을 정도는 아닌지라, 그럭저럭 해 낼 수 있지 않을까 싶다.

셋째는 도메인 지식이다. 데이터과학은 결국 응용학문인지라, 특정 도메인과 융합이 될 때 가장 시너지를 입게 될 것이다. 하나의 도메인에 지식을 갖춘다면 충분히 경쟁력이 있으리라고 본다. 도메인 지식은 수학이나 프로그래밍과 달리 보다 소프트하고 직관이 많이 필요한 영역이다. 개인적으로는 내가 수학적 머리보단 문과적인 사고력이 좀 더 쓸만 하다고 보는지라, 이 쪽에서 나름의 경쟁력이 있지 않을까 싶다. 하지만 도메인 지식과 사고력은 수학이나 프로그래밍과 달리 수치화가 안 되고 추상적인지라, 내 실력을 과연 어떻게 늘릴 수 있을지에 대한 고민이 있다. (그리고 무엇보다 요즘 나 자신이 헛똑똑이 같다는 자기 의심에 빠져있는지라... 자신감을 좀 많이 잃었다.)

정리해 보니, 내가 추구하는 것은 2와 3쪽에 있는데, 사실 가장 가치 있는 것은 1인 것 같다. 원래 어려울수록 가치 있는 법이다. 다만 낭만보다는 최적이 밥을 먹여주는지라, 현실적으로 2와 3의 승률이 높아보인다.

얘기를 이어가니 자연스레 석박사에 대한 생각으로 이어진다. 이런 방향성으로 보았을 때, 박사는 일단 선택지에서 제해도 될 것 같다. 2와 3은 학계보다 업계에서 훨씬 더 빨리 습득할 수 있는 것이니 말이다. 2와 3의 노선을 타는데 박사를 하는 것은 다소 헛발질이다. 다만 1에 대한 기본 소양마저 부족하지 않나 싶어 공부가 조금 더 필요하다는 생각이 들기도 한다. 그래서 진지하게 미국 석사를 고민해 봤는데 (미국 취업 생각이 있기도 했고), 생각할수록 아닌 것 같다. 미국 석사 커리큘럼을 보니, 정말 뭐 별게 없다. 논문을 내야 졸업하는 한국 석사와 달리 미국 석사는 다분히 취업 사관학교의 형태인지라 논문 없이 수업만 들으면 졸업하는 구조이다. 학부 5, 6학년으로 봐도 될 것 같다. 그 수업이 생각보다 별 대단할 것이 없다. 돈 2억 태우며 수업 들을 바에는 하루빨리 실전에서 굴러보면서 퇴근하고 온라인 공부로 부족한 하드스킬을 채워 넣는 게 낫겠다는 판단이다.

이리 생각하니 방향성이 보다 확실해졌다. 졸업하고는 바로 취업전선에 뛰어들어야겠다. 그리고 공부에 온전히 몰두할 수 있는 시기는 당분간은 학부가 마지막일테니, 마지막 학기도 어려운 수업으로 꽉꽉 채워 넣어야겠다. 쉬운 수업으로 좀 바꿀까 고민이었는데, 적어보니 확실해졌다. 남들이 석사에서 들을 수업 최대한 학부에서 당겨 놓아야겠다.

Minwu Kim

이 바닥에서 어떻게 잘 나갈까.

댓글