ChatGPT와 그림이론

2023년 11월 16일
4분 분량

아직 정리되지 않은 생각이지만, 꽤 남겨봄직 한 것 같아 적어본다.

1. AGI와 언어에 대해

요즘 인공지능은 대충 아래와 같이 3종류로 나눌 수 있다:

- 컴퓨터 비전: 이미지, 영상 처리 관련 인공지능 기술을 의미한다.

- 자연어 처리: 사람 언어에 대한 인공지능 기술을 의미한다.

- 오디오 처리: 음성에 대한 인공지능 기술을 의미한다.

세 분야 모두 발전속도가 무서울 정도로 빠르다. AI는 시각, 청각, 그리고 언어까지 빠르게 정복해나가고 있다. 심지어 그 사이를 넘나드는 멀티모달 기술까지 발전하고 있다. 이를테면 글을 이미지로 바꿔준다든가, 이미지의 내용을 글로 설명한다든가 하는 식으로 말이다.

이런 생각이 들었다: AGI, 즉 인간의 지능을 초월하는 인공지능을 이루는 데에 있어, 세 가지 기술 중 어떤 기술이 가장 중요할까? 시각이 중요할까, 청각이 중요할까, 아님 언어가 중요할까. 나는 언어라고 생각한다. 왜냐, 언어야말로 인간이 세상을 이해하는 가장 근본적인 도구라고 생각하기 때문이다.

2. 비트겐슈타인의 그림이론

이를 설명하는데 비트겐슈타인의 그림이론만큼 좋은 게 없는 것 같다. 그림이론에 따르면 "세계의 구조와 언어의 구조는 동일하다". 아주 간단한 예시를 들어보자. 이런 교통사고에 대한 뉴스가 있다고 해보자 (그냥 막 지어낸 거다):

지난 월요일 오후, 서울 강남구에서 교통사고가 발생했습니다. 경찰에 따르면, 사고는 한 승용차가 1차선에서 다른 차량을 추월하는 과정에서 시작되었습니다. 추월을 시도한 차량이 갑작스럽게 급정거를 하면서 뒤따르던 차량이 충돌을 피하지 못했습니다. 이 사고로 인해 두 차량 모두 심각한 손상을 입었으나 다행히 인명피해는 없었습니다. 운전자들은 경미한 부상을 입고 현장에서 응급처치를 받았습니다.

우리는 사고 현장을 보지도 듣지도 못했지만 대충 상황을 파악할 수 있다. 언어가 교통사고 현장을 그려내기 때문이다.

반대로 우리가 사고영상만 보고, 이런 텍스트를 읽지 못해도 사고상황을 파악할 수 있다. 그럼 "언어는 세상을 이해하는 도구"라는 말은 틀린 게 아니냐는 소리를 할 수도 있겠다. 하지만 그 논리는 여전히 무너지지 않는다. 우리가 영상을 사고로 인식하는 것은, 차량이 충돌하는 모습을 보았는 것이고, "차량이 충돌했다"는 사실은 언어 외에 다른 방식으로 규정할 수 없다. 설령 내가 머릿속에서 그 사고현장을 떠올릴 때 대놓고 "차량이 충돌했다" 이 7글자의 텍스트를 떠올리지는 않지만, 내재의식에서 "언어"라는 도구 없이는 사고할 수 없는 것은 분명하다. (내가 지금 무슨 말을 하려는지 대충이라도 감이 오시려나 모르겠다. 나도 제대로 알지 못해서 제대로 설명을 못하는 것이다. 개떡 같이 말해도 찰떡 같이 알아듣기를 바라는 마음으로 일단 휘갈기고 본다.)

한 발짝 더 나아가서 "세계의 구조"와 "언어의 구조"가 어떻게 동일한지 조금 더 살펴보도록 하자. (철학박사이신 김필영 님께서 훨씬 잘 설명하신 영상이 있으니 관심 있으시면 이 영상을 시청하시는 것을 추천드린다) https://www.youtube.com/watch?v=wNyv84wu_xM&ab_channel=5%EB%B6%84%EB%9A%9D%EB%94%B1%EC%B2%A0%ED%95%99

저 영상에서 따온 스크린 샷이다.

세계의 구조는 아래와 같다:

- 일단 가장 작은 단위로 "대상"이 있다. 이를테면 액자, 사각형, 벽, 등등이 있겠다. 언어의 구조에서 이와 대칭되는 개념은 "이름"이다.

- 여러 대상이 합쳐져"사태"를 만든다. "액자가 사각형이다", 혹은 "벽은 파랗다" 등등이 있겠다. 언어의 구조에서 이와 대칭되는 개념은 "요소명제"다.

- 여러 사태가 합쳐져 "사실"을 만든다. "사각형 액자가 파란색 벽에 걸려있다"가 예시가 될 수 있겠다. 언어의 구조에서 이와 대칭되는 개념은 "복합명제"이다.

- 사실들이 합쳐져 "세계"를 만든다. 세계는 언어와 동위가 된다.

이 이론이라면 "세계"란 "사각형 액자가 파란색 벽에 걸려있다", "킹사이즈 침대가 방 오른쪽 구석에 박혀있다"... 등의 총합이다. 나도 여기까지 쓰는데 아직도 아리까리하다. 하지만 "뭔 느낌인지 대충 알겠다" 정도면 일단 내 생각을 이해하는데 큰 어려움은 없을 것이다. 이해가 영 안 된다면 이 예시를 생각해 보는 것도 좋다:

방금 전 내가 이런 얘기를 했다:

가장 작은 단위로 "대상"이 있다. 이를테면 액자, 사각형, 벽, 등등이 있겠다. 언어의 구조에서 이와 대칭되는 개념은 "이름"이다.

곱씹어보면 상당히 재밌는 부분이 있다. "액자", "사각형" 같은 대상들을 묘사하는데 나는 언어를 사용했다. 언어 없이는 달리 표현을 할 방법이 없다. 종전에 내가 "언어는 생각을 하는 도구"라고 했다. 보아라, 우리는 언어 없이 겨우 대상을 인식하는 일조차 할 수가 없다.

그래서 언어란 세상을 이해하는 도구이며, 나아가 세계의 구조와 언어의 구조는 동일하다는 말이 나오는 것이다.

3. LLM Multi-agent로 살펴보는 그림이론의 의미.

최근에 되게 재미있는 논문을 봤다: https://arxiv.org/pdf/2304.03442.pdf

스탠포드 연구진이 발표한 Generative Agents: Interactive Simulacra of Human Behavior라는 논문인데, 내용이 상당히 흥미롭다. (갑분 국뽕이지만, 이 논문 제 1저자가 박준성이라는 한국 분이다. 한국어 인터뷰도 있으니 관심 있으신 분은 확인해보셔도 좋다: https://www.youtube.com/watch?v=awhxweWXCRM&t=5497s&ab_channel=SELECTSTAR)

내용은 대충 이렇다: 위와 같은 게임세계에 여러 npc를 만든다. npc 마다 ChatGPT 같은 LLM 모델을 하나 들고 있다. 그 npc들을 게임 환경에 자유롭게 방생을 시켜놓았더니 이웃들끼리 친해지기도 하고, 연애를 하기도 하고, 심지어 시장선거까지 하고 있다는 것이었다. 이와 같이 llm 에이전트들에게 역할 부여를 하고, 자기들끼리 서로 소통하게 하는 연구들이 아주 활발하게 진행되고 있다 (ChatDev, Autogen 등등등).

물론 llm끼리 붙여놓고 대화하는 것도 재밌지만, 내 이목을 끌었던 것은 주위 환경과의 상호작용 부분이었다 (논문에 3.2. Environment Interaction 부분이다). 이 논문에선 주위에서 벌어진 모든 일을 자연어로 명시해서 npc에게 알려준다. 이를테면 이런 식이다: npc가 게임세계에서 책상에 다가갔다고 해보자. 그럼 시스템이 npc 대충 이런 메시지를 알려준다: "책상은 아무도 사용하고 있지 않으며, 위에는 랩탑과 종이들이 놓여있다". 아래 이미지를 보면, 이런 자질구레한 일들이 모두 npc에게 기록이 되어있다.

놀랍지 않은가. Npc들은 "언어"라는 형태로 세상을 인식한다. 그리고 그림이론에 따르면 이는 사람이 세상을 인식하는 것과 다를 것이 없다.

GPTeam이라는 프로젝트로 가면 이것의 의미가 더 뚜렷하게 나타난다. https://blog.langchain.dev/gpteam-a-multi-agent-simulation/

GPTeam은 저 논문과 달리 시각적인 게임화면조차 없다. 위는 GPTeam에서 World, 즉 "세상"을 설정하는 방식이다. "Jest Jockeys"라는 세계에 쇼핑몰과 공원, 이 두 가지 장소가 있다. 그리고 마티, 레베카 리카르도 등의 npc들이 있다. 이렇게 설정하고 시작하면 아래와 같은 화면을 볼 수가 있다:

Npc들이 화면에서 돌아다니는 그림 같은 건 나오지 않는다. 오로지 언어만으로 저 "Jest Jockeys"라는 시뮬레이션 세상에서 벌어지는 모든 일들이 표현되고 있다. 그리고 저것만 읽어도 우리는 무슨 일이 벌어지고 있는지 알 수 있다. 다시 한번 비트겐슈타인의 말을 곱씹게 된다: "언어의 구조와 세상의 구조는 동일하다".

이 모든 것들이 시사하는 바가 무엇일까. 언어를 이해한다는 것은 세상을 이해한다는 것이며, 기계가 언어를 이해했다는 것은 어떤 측면에서 세상을 이해한다는 의미가 될지도 모르겠다. Stable Diffusion이 딥페이크 이미지를 만든다고 해서 인간이 될 수는 없다. 알파고가 바둑을 잘 둔다고 해서 인간이 될 수는 없다. 하지만 ChatGPT와 같이 "언어"를 이해한다면 인간이 될 수 있다고 할 수 있지 않을까.

물론 이 이야기를 이어가려면 인간만이 가진 고유한 가치들에 대한 얘기를 빼놓을 수 없을 것이다. 이를테면 창의성이라든가, 감정이라든가 말이다. "언어"의 성질에 대해서도 더 얘기를 할 필요가 있을 것이다. 당장 비트겐슈타인만 해도 후기철학에선 그림이론을 부정하고 맥락이란 개념을 들고온다. 하지만 거기까지 가는 건 피곤하니 일단 오늘은 여기까지만 하고 멈춰야겠다 : )

Minwu Kim

ChatGPT와 그림이론

댓글