top of page

엔비디아와 이모저모

  • 작성자 사진: Minwu Kim
    Minwu Kim
  • 2024년 2월 17일
  • 5분 분량

최종 수정일: 2024년 5월 9일

여전히 증시보단 머신러닝/통계 공부를 훨씬 많이 하고 있다. 그래서 오늘도 AI 이야기이다. 엔비디아를 중심으로 테크업계 판도를 간략하게 훑어본다.



1. 엔비디아의 독점력, 그리고 이에서 벗어나고자 하는 움직임들


엔비디아가 올해 한 달 반 가량에만 50% 넘게 쏘았다. 황회장님 입꼬리가 내려갈 새가 없다.


엔비디아 주가가 고공행진 하는 이유는 누구나 알테지만, 구태여 다시 한 번 간략히 설명해보겠다. 요즘 핫한 생성형 AI 기술들은 모두 딥러닝, 혹은 뉴럴네트워크에 기반한 것이다. 그리고 딥러닝은 무지막지한 양의 단순한 덧셈뺄셈을 필요로 한다. 그걸 잘 할 수 있는 것이 바로 GPU이다. GPU는 간단한 연산을 병렬처리하기 때문이다. 최근에 LLM과 같이 초대규모 모델들이 하나 둘 성과를 나타내면서 GPU의 수요가 폭증하고 있다. 그리고 GPU 시장에선 엔비디아가 압도적인 기술적 해자를 보이고 있다. 비록 AMD같은 회사도 분발하고 있긴 하지만, 엔비디아의 대체제가 되기엔 다소 부족해보인다. 실제로 테크업계는 엔비디아 GPU 품귀현상에 시달리고 있다. 신제품 같은 경우 발주 후 배송까지 1년이나 걸린다고 하며, 실리콘밸리에선 어느 회사가 H100을 손에 넣었는지가 가장 큰 가십거리라고 한다. 알트만이나 머스크가 엔비디아 그래픽카드를 받겠다고 발품을 판다는 뉴스도 종종 나오기도 했다. 이렇듯 해당 시장에서 엔비디아가 독점력을 행사하며 AI붐의 수혜를 고스란히 받고 있다.


샌프란시스코 골드러쉬에서 돈을 만진 사람은 광부들이 아닌, 그 뒤에서 광부들 청바지를 팔던 리바이스였다는 것은 유명한 일화다. 이번 AI 골드러쉬에선 엔비디아가 리바이스, GPU가 청바지라고 보면 될 것 같다.


독점기업이 가장 무서운 것은 가격 전가력이다. 지금 엔비디아가 욕먹는 문제도 가격을 너무 높게 책정한다는 점, 그리고 가격 유지를 위해 물량 조절을 한다는 점이다. 지금 AI 기술 발전에 있어 GPU가 가장 좁은 병목이라고 해도 과언이 아니다.


사실 이 패악질이 적당한 수준이면 기업들도 그냥 엔비디아 제품을 사다 쓰면 그만일 것이다. 하지만 ChatGPT를 비롯한 대규모 생성형 모델이 요하는 계산량이 과다해졌고, 앞으로는 더 심해질 예정이다. 그래서 빅테크 기업들은 다른 방안을 강구하고 있다. 그 중 하나가 바로 독자적인 칩 개발이다. 구글 같은 경우 자사에서 개발한 TPU를 사용하고 있으며, 테슬라 역시 자사의 슈퍼컴퓨터 Dojo를 만들었다. 그 외에도 많은 회사들에서 엔비디아를 벗어나고자 자신들만의 AI accelerator를 만들고 있다.




2. NPU로의 전환


여기서 NPU가 무엇인지 조금 설명해보고자 한다. NPU는 Neural Processing Unit의 약자로, 오로지 뉴럴네트워크/딥러닝를 위한 쓴 프로세싱유닛이다. 본래 컴퓨터 화면 렌더링을 위해 개발 되었던 GPU에서 한 층 더 딥러닝에만 최적화 된 것이라고 볼 수 있겠다. 구글의 TPU 는 Tensor Processing Unit인데, 이 역시 NPU의 일종이다.


NPU의 경쟁력은 커스터마이징에 있다. NPU는 특정 알고리즘에 최적화 할 수 있다. 딥러닝 쪽에 여러가지 알고리즘이 많다. 이미지 쪽에는 CNN이 있고, 시계열 분석에는 LSTM이 있고, 저걸 다 쌈싸먹는 트랜스포머가 있고, 이 외에도 여러가지가 있다 (저 알고리즘들이 뭔지 몰라도 된다). 그리고 NPU는 이런 알고리즘 하나하나에 최적화 시킬 수 있다. NPU는 GPU에 비해 전력소비가 적고, 데이터센터에 공간 점유도 적고, 때때론 연산 능력도 GPU보다 빠르다.


NPU와 GPU 간의 선택은 최적화와 범용성 간의 trade off라고 볼 수 있다. 그리고 여태까진 NPU보다는 GPU가 더 환영받아왔다. 여러가지 알고리즘이 쏟아져 나왔고, 그것들을 하나 하나 써가며 기민하게 움직였어야 했다. 그래서 모든 것을 수용하는 GPU를 선택하는 것이 불가피 했다. 하지만 대규모 생성형 모델의 시대로 오면서 얘기가 달라지고 있다. 이런 대형모델들은 학습과 추론 모두 막대한 비용이 든다. 비용절감을 하지 않으면 살아남을 수 없는 지경에 이르렀다. 당장 OpenAI만 해도 매일 몇십억을 태워가며 컴퓨팅 파워를 소진하고 있다. 지금에서야 캐쉬버닝으로 간신히 버티고 있지만, 앞으로 Sora 같은 서비스를 비롯해 수요가 더더욱 높아진다면 버티기 힘들 것이다.


고로 NPU로의 전환은 필연적인 수순으로 보인다. 어찌보면 ChatGPT같은 대규모 모델이 타기업들에게 엔비디아를 벗어나야한다는 경종을 울린 것이라고 볼 수 있다.


추가적으로, 앞으로 모든 AI의 빅플레이어들은 NPU를 비롯한 최적화를 이뤄나갈 것으로 보인다. 현재 대다수 기업들은 "GPT가 좋다니까 고대로 들고오자", "DGX는 A100 4장 까는게 국룰이지", 이런 식의 최적과는 거리가 먼 방식을 채택 중이다. 하지만 이대로 가다간, 앞서 설명했듯, 비용이 감당되지 않을 것이다. 고로 최적화는 불가피하다. 지구에서 이걸 제일 잘하고 있는 기업이 바로 테슬라이다. AI를 사용할 서비스가 정의되고 - 그에 맞춰 알고리즘을 최적화 하고 - 그에 맞춰 데이터센터와 하드웨어 등 인프라를 최적화하는 것이다. 테슬라가 직접 데이터센터를 짓고 Dojo 슈퍼컴퓨터를 만드는 이유가 다 최적화에 있는 것이다.



3. 엔비디아의 독점력


그럼 나중 가서 AI하는 회사들은 NPU만 쓰는 것 아닐까, 엔비디아 GPU를 안 쓰는 것 아닐까, 장기적으로 엔비디아 주가 떨어지는 것 아닌가, 할 수도 있겠다. 하지만 나도 아는 걸 황회장님 같은 능력자들이 모를리가 없다. 어련히 다 알아서 준비하고 대응하고 하고 있다.


첫째로, NPU로의 최적화가 생각보다 쉬운 일이 아니다. 고로 엔비디아의 지위는 쉽게 무너지지 않을 것으로 보인다. 특히 모델 학습 분야에서 그렇다. 모델 학습은 함수 f(x)를 구하는 과정이고, 모델 추론은 f(x)에 특정 x값을 넣고 그 값을 뱉는 과정이다. ChatGPT를 예시로 들자면, ChatGPT에게 오만 텍스트 데이터를 넣고 돌리는 것이 학습이고, 우리가 ChatGPT와 대화할 때 답을 주는 과정이 추론이다. 학습이 훨씬 많은 연산이 필요하고, 들어가는 알고리즘도 훨씬 복잡하다. AI 기술이 발전할수록 다양한 알고리즘이 필요할 것이고, 이에 대해 일일이 최적화 하는 것은 아주 비효율적이다.


다만 추론 쪽에서는 엔비디아에 대한 수요는 꽤 빠르게 줄어들 것이라고 본다. 이에 대한 두가지로 볼 수 있을 것 같다: 첫째로는 클라우드 사업이다. 많은 테크기업들이 AI 서비스를 제공 중인데, 대다수가 AWS나 Azure나 GCP 같은 클라우드에 자신들의 추론엔진을 띄운다. 현재까지는 아마존이나 마소는 엔비디아의 칩을 구입해 자사 클라우드 소비자들의 수요를 감당해왔는데, 앞으로 수요가 늘어날 경우 이들 역시 비용절감을 위해 자사의 칩으로 대체해야 할 것이다. 둘째는 온디바이스 칩 등 경량화 모델의 수요 증가이다. 당장 최근에 공개된 갤럭시 S24에 소형 LLM이 탑재가 되었는데, 클라우드 대신 온디바이스 NPU로 돌아간다. 그리고 그 NPU 칩은 당연히 삼성이 자체개발한 칩이다. 이렇듯, 경량화 된 AI서비스가 점차 보편화 되고 최적화 되면, 성능 좋은 엔비디아의 GPU에 대한 수요는 떨어질 것이라고 본다.


둘째로, 엔비디아의 CUDA 생태계의 경쟁력이다. CUDA는 자사 GPU를 사용하기 위한 API, 내지는 플랫폼이다. 이게 뭔 소리인지 모르겠다면, 그냥 여태 엔비디아 GPU 썼던 사람은 CUDA라는 것을 써야했다는 것이다. 그렇기에 비-엔비디아 진영으로 넘어가기 어려운 부분이 많다. 개발자들은 코드 리펙토링이 얼마나 힘들고 귀찮은지 잘 알 것이다. 애플 쓰던 사람이 삼성 기기 못 사는 것과 같은 맥락이다. 실제로 NPU로의 전환은 가장 savvy한 테크기업이 아닌 정부기관 같은 곳에서 많이 이뤄지고 있다고 한다. 가장 savvy한 곳에 CUDA기반의 레거시가 가장 많이 쌓였기 때문이다.


셋째로, 엔비디아도 커스텀 칩 사업부를 만들었다. 고작 나흘 전에 나온 따끈따끈한 소식이다. 이제 엔비디아는 고성능 GPU뿐만이 아니라 남의 회사에 최적화 된 칩까지 직접 만들어주겠다는 얘기이다. 이 시장은 마벨과 브로드컴이 주름잡던 시장이었는데, 엔비디아가 이 판을 어떻게 헤집을지도 주목할 부분이다.


넷째로, 엔비디아도 데이터센터 개발 중에 있다. 여기서 엔비디아의 클라우드 서비스인 DGX를 간략히 설명하고자 한다. 엔비디아의 GPU를 사용하려면 직접 칩을 구입하는 방법도 있지만, 돈을 내고 엔비디아의 클라우드로 원격으로 그들의 GPU를 사용하는 방법도 있다. 이 클라우드 GPU서비스가 바로 DGX다. 하지만 여태껏 DGX는 그동안 엔비디아는 자체 구축한 클라우드 데이터센터가 아니라, MS나 구글, 오라클 등 파트너십을 체결한 클라우드 업체의 인프라를 빌려 DGX 클라우드를 제공해 왔다. 그러나, 앞서 얘기했듯, 현재 저 클라우드 회사들 역시 자사칩을 개발 중이다, 이대로 간다면 엔비디아는 DGX 사업을 빼앗기게 될 것이다. 고로 엔비디아 자체 데이터센터를 짓고 그 포션으로 지키려고 들 것이다. 특히 타사의 클라우드 GPU를 사용하려면 호환성 문제가 있을텐데, DGX는 CUDA 생태계 안에서 돌아갈 것이 때문에, 클라우드 분야에서도 엔비디아의 경쟁력은 높을 것이라고 생각한다.


아무튼, 이러한 여러가지 이유로 AI 시장에서 엔비디아의 입지는 꽤나 탄탄할 것이라고 생각한다. (아 물론, 그래서 엔비디아 주가가 고평가 된 것이라 아니라는 소리는 아니다. 엔비디아 가치평가 관련해선 일타강사 다모다란 선생님의 글을 확인하는 것이 좋을 것이다. https://aswathdamodaran.blogspot.com/2023/06/ais-winners-losers-and-wannabes-nvidia.html )



4. AI 시장을 바라보는 프레임워크


월가아재님에게 또 빨대 꽂아본다.


2년 전에 쓴 2편에서 "시장을 바라보는 틀"에 대해 얘기했었다. 기초적인 뼈대가 있어야만 그 위에 살점을 붙여나가며 그림을 완성시킬 수 있다. AI 시장도 이러한 틀을 갖고서 접근한다면 훨씬 더 체계적인 분석이 가능하리라 생각한다.



AI 시장의 틀은 아래와 같은 AI 개발의 요소들로 보면 될 것 같다:

1. AI 알고리즘

2. 데이터 수집

3. 데이터 저장

4. 연산을 위한 하드웨어

5. 연산을 위한 에너지

6. AI 서비스 배포를 위한 클라우드 및 네트워크.


이러한 골자로 시장을 본다면 AI 산업이 어떻게 돌아가는지, 병목은 무엇인지 등이 쉽게 파악 가능 할 것이다.

예시를 하나 들어보자. 저 골자 안에 머스크의 모든 회사를 다 집어 넣을 수 있다.


1. AI 알고리즘: xAI

2. 데이터 수집: 트위터 - 텍스트 데이터, 테슬라 - 주행 영상 데이터, 뉴럴링크 - 뇌파데이터.

3. 데이터 저장: 테슬라 - 데이터센터.

4. 하드웨어: 테슬라 - Dojo.

5. 에너지: 솔라시티

6. 네트워크: 스페이스 X & 스타링크


보링컴퍼니 빼고 다 들어간다.


머스크 뿐만 아니라, 이 바닥의 모든 큰 손들이 인피니티 스톤을 모아가듯 저 요소들을 하나 둘 수집해가고 있다. 샘알트만이 지금 9천조원이라는 말도 안 되는 금액을 유치하려 하는데, 그 돈이 쓰이는 곳들도 저 골자에서 벗어나지 않을 것이라고 본다. 아무튼, 이러한 프레임워크가 있다면 파편 같이 흩어진 뉴스쪼가리들을 하나로 연결지을 수 있게 될 것이라고 생각한다.

 
 
 

댓글


bottom of page