ㅍㅍㅅㅅ

파운데이션 모델이란?

박명근 — Wed, 30 Apr 2025 03:32:08 +0000

파운데이션 모델은 방대한 양의 일반 데이터로 학습된 강력한 인공 지능(AI)의 유형으로, 광범위한 작업을 처리할 수 있습니다. OpenAI의 GPT(Generative Pre-trained Transformer) 시리즈나 Google의 BERT (Bidirectional Encoder Representations from Transformers)와 같은 파운데이션 모델은 인터넷의 다양한 소스에서 일반적인 언어 패턴과 지식을 수집하도록 설계되었습니다. 그런 다음 이러한 모델을 소규모의 작업별 데이터 세트에 맞게 파인튜닝하여 텍스트 분류, 요약, 번역, 질문 답변 등과 같은 작업을 수행할 수 있습니다. 이러한 파인튜닝을 통해 새로운 AI 애플리케이션을 더 빠르고 저렴하게 개발할 수 있습니다.

파운데이션 모델과 그 내부 작동 방식과 학습 과정, 그리고 실제 적용 사례에 대해 자세히 소개하도록 하겠습니다.

출처: XENOSTACK

파운데이션 모델은 어떻게 작동되는가?

GPT나 BERT와 같은 트랜스포머 아키텍처 기반 모델과 같은 파운데이션 모델은 다양한 데이터 세트에 대한 광범위한 사전 학습과 특정 작업에 대한 파인튜닝을 통해 작동됩니다. 다음은 이러한 모델이 어떻게 작동되는지에 대해 소개하도록 하겠습니다.

사전 훈련(Pre-Training)

데이터 수집(Data Collection): 파운데이션 모델은 책, 웹사이트, 기사를 비롯한 다양한 텍스트 소스로부터 대규모의 다양한 데이터 세트를 학습하게 됩니다. 이를 통해 모델은 다양한 언어 패턴, 스타일 및 정보를 학습할 수 있습니다.
학습 목표(Learning Objectives): 사전 훈련 과정에서 모델은 일반적으로 텍스트의 다른 부분이 주어지면 그 부분을 예측하도록 훈련되는데요, 예를 들어, GPT의 경우 모델은 이전 단어가 주어지면 문장의 다음 단어를 예측하게 됩니다 (자동 회귀 훈련(Autoregressive Training)이라고 알려진 프로세스). 반면에 BERT는 입력의 일부 단어가 무작위로 마스킹되고, 모델은 마스킹되지 않은 다른 단어가 제공하는 문맥을 기반으로 이러한 마스킹된 단어를 예측하는 방법을 학습하는 마스크 언어 모델 접근 방식을 사용합니다.
모델 아키텍처(Model Architecture): 이 모델에 사용되는 트랜스포머 아키텍처는 셀프 어텐션(Self-attention) 메커니즘에 크게 의존하게 됩니다. 이를 통해 모델은 문장이나 문서에서 단어의 위치에 관계없이 각 단어의 중요도를 평가하여 문맥과 단어 간의 관계를 효과적으로 이해할 수 있습니다.

파인튜닝(Fine-Tuning)

작업별 특화된 데이터(Task-Specific Data): 사전 학습 후, 더 작은 작업별로 특화된 데이터 세트로 모델을 파인튜닝할 수 있습니다. 예를 들어, 감정 분석 작업의 경우 감정으로 레이블이 지정된 텍스트 샘플의 데이터 세트에 대해 모델을 파인튜닝할 수 있습니다.
모델 조정(Adjusting the Model:): 파인튜닝 중에 특정 작업에서 더 나은 성능을 발휘하도록 전체 모델 또는 일부가 약간 조정될 수 있습니다. 이 과정에는 모델을 더 훈련시키는 작업이 포함되지만, 위 경우에는 감정 분류나 질문에 대한 답변과 같은 작업별 목표를 염두에 두고 진행됩니다.
전문화(Specialization): 이 단계에서는 사전 학습 중에 습득한 일반적인 능력을 특정 작업 또는 도메인의 특정 요구 사항과 뉘앙스에 맞게 조정하여 동일한 작업에 대해 처음부터 모델을 학습하는 것에 비해 성능을 크게 향상시킵니다.

배포(Deployment)

사용 배포(Deployment for Use): 파인튜닝이 완료되면 가상 비서와 챗봇부터 시작해서 자동 번역, 콘텐츠 생성 도구에 이르기까지 다양한 애플리케이션에 파운데이션 모델을 배포할 수 있습니다.

파운데이션 모델의 유형과 예시

파운데이션 모델은 아키텍처, 훈련 목표와 애플리케이션이 매우 다양하며, 각 모델은 학습과 데이터와의 상호 작용의 다양한 측면을 활용하도록 맞춤화되어 있습니다. 다음은 다양한 유형의 파운데이션 모델에 대한 자세한 설명입니다.

자동 회귀 모델(Autoregressive Model)

GPT 시리즈(GPT-2, GPT-3, GPT-4)와 XLNet과 같은 자동 회귀 모델은 이전의 모든 단어가 주어진 시퀀스에서 다음 단어를 예측하는 훈련 방식을 사용합니다. 이 훈련 방법을 통해 이러한 모델은 일관성 있고 맥락에 맞는 텍스트를 생성할 수 있으며, 이는 특히 창의적인 글쓰기, 챗봇과 개인화된 고객 서비스 상호 작용에 유용합니다.

오토인코딩 모델(Autoencoding Models)

BERT와 RoBERTa를 포함한 오토인코딩 모델은 일반적으로 훈련 중에 모델에서 임의의 토큰을 숨기는 마스크드 언어 모델링(Masked Language Modeling)이라는 기술을 사용하여 먼저 입력을 손상시켜 입력을 이해하고 재구성하도록 훈련합니다. 그런 다음 모델은 문맥만을 기반으로 누락된 단어를 예측하는 방법을 학습합니다. 이러한 능력은 언어 구조를 이해하고 텍스트 분류, 개체 인식, 질문 답변과 같은 애플리케이션을 이해하는 데 매우 효과적입니다.

인코더-디코더 모델(Encoder-Decoder Models)

T5 (Text-to-Text Transfer Transformer) 및 BART와 같은 인코더-디코더 모델은 입력 텍스트를 출력 텍스트로 변환할 수 있는 다목적 툴입니다. 이러한 모델은 입력 시퀀스를 잠재 공간으로 인코딩한 다음 출력 시퀀스로 디코딩하는 방법을 학습하여 요약, 번역, 텍스트 수정과 같은 복잡한 작업을 처리하는 데 특히 능숙합니다. 이러한 학습에는 다양한 텍스트 to 텍스트 변환 작업이 포함되는 경우가 많기 때문에 여러 도메인에 걸쳐 폭넓게 적용할 수 있습니다.

멀티모달 모델(Multimodal Models)

CLIP(OpenAI의)와 DALL-E와 같은 멀티모달 모델은 텍스트와 이미지 등 다양한 데이터 유형에 걸쳐 있는 콘텐츠를 처리하고 생성하도록 설계되었습니다. 이러한 모델은 멀티모달 콘텐츠를 이해하고 생성함으로써 이미지 캡션, 텍스트 기반 이미지 검색, 텍스트 설명에서 이미지 생성 등 이미지와 텍스트 설명 간의 관계를 해석하는 작업에 매우 유용하게 활용됩니다.

검색 증강 모델(Retrieval-Augmented Models)

검색 증강 모델(예: RETRO (Retrieval-Enhanced Transformer))은 외부 지식 검색 프로세스를 통합하여 기존 언어 모델의 기능을 향상시키게 됩니다. 이 접근 방식을 사용하면 예측 단계에서 모델이 대규모 데이터베이스나 말뭉치에서 관련 데이터를 가져와 더 많은 정보를 바탕으로 정확한 결과를 도출할 수 있습니다. 이 모델은 특히 질문 답변이나 콘텐츠 검증과 같이 사실에 대한 정확성과 깊이가 필요한 애플리케이션에 효과적입니다.

시퀀스 투 시컨스 모델(Sequence-to-Sequence Models)

Google의 트랜스포머나 Facebook의 BART와 같은 시퀀스 투 시퀀스 (seq2seq) 모델은 입력 시퀀스를 밀접하게 관련된 출력 시퀀스로 변환해야 하는 작업을 처리합니다. 이러한 모델은 전체 콘텐츠 또는 그 의미를 정확하게 파악하여 다른 형태로 전달해야 하는 기계 번역이나 문서 요약의 기초가 됩니다.

이같이 각 유형의 파운데이션 모델은 각각의 고유한 학습이나 운영 설계 덕분에 특정 작업에 고유하게 적합합니다. 다음 섹션에서는 몇 가지 사용 사례를 통해 파운데이션 모델의 기능에 대해 자세히 살펴보겠습니다.

파운데이션 모델의 활용 사례

파운데이션 모델은 대규모 데이터 세트에서 학습할 수 있는 적응성과 역량으로 다양한 산업을 변화시키고 있습니다. 다음은 몇 가지 흥미로운 예시입니다:

자연어 처리(NLP): 파운데이션 모델은 많은 NLP 애플리케이션의 근간이 되는데요, 기계 번역을 구동하여 여러 언어 간에 원활한 커뮤니케이션을 가능하게 합니다. 또한 감정 분석(텍스트의 감정적 어조 이해)이나 챗봇 개발과 같은 작업에서 인간과 컴퓨터 간의 보다 자연스러운 상호 작용을 위해 사용할 수도 있습니다.
콘텐츠 제작(Content Creation): 파운데이션 모델은 시와 대본에서 마케팅 카피에 이르기까지 다양한 텍스트를 창작하여 콘텐츠 제작자와 마케터를 지원할 수 있습니다.
이미지 및 비디오 분석(Image and Video Analysis): 시각적 영역에서 파운데이션 모델은 이미지 및 비디오 분석에 탁월합니다. 보안 카메라의 물체 감지, 의사를 돕기 위한 의료 이미지 분석, 영화에서 사실적인 특수 효과를 생성하는 등의 작업에 사용할 수 있습니다.
과학적 발견(Scientific Discovery): 이 모델은 대규모 데이터 세트를 분석하여 기존 방법으로는 놓칠 수 있는 패턴과 관계를 파악함으로써 과학적 연구를 가속화할 수 있습니다. 이러한 기능은 신약 개발, 재료 과학 또는 기후 변화 연구에 도움이 될 수 있습니다.
자동화(Automation): 파운데이션 모델은 문서 요약이나 데이터 입력과 같은 반복적인 작업을 자동화하여 더 복잡한 작업을 위한 시간을 확보할 수 있습니다.

이는 파운데이션 모델의 활용 사례 중 일부에 불과하며, 연구자들이 새로운 가능성을 모색함에 따라 잠재적인 응용 분야는 지속적으로 확장되고 있습니다. 파운데이션 모델은 다양한 산업과 일상생활을 변화시킬 수 있는 엄청난 가능성을 지니고 있습니다.

파운데이션 모델 훈련 방법

파운데이션 모델 훈련은 상당한 컴퓨팅 리소스와 전문 지식이 필요한 복잡한 작업입니다. 주요 단계를 간단하게 아래와 같이 소개합니다.

데이터 수집과 준비(Data Collection and Preparation): 그 기반은 데이터를 기반으로 합니다. 원하는 작업과 관련된 방대한 양의 레이블이 지정되지 않은 데이터가 수집됩니다. 이러한 데이터는 거대 언어 모델 (LLM)의 경우 텍스트, 컴퓨터 비전 모델의 경우에는 이미지, 그리고 멀티모달 모델의 경우 텍스트와 이미지들의 조합일 수 있습니다. 데이터의 품질과 일관성을 보장하기 위해 데이터를 정리하고 전처리하는 것이 매우 중요합니다.
모델 아키텍처와 선택(Model Architecture and Selection): 선택하는 파운데이션 모델 유형은 데이터와 작업에 따라 다릅니다. 일단 선택하면 모델 아키텍처는 대규모 데이터 집합을 효과적으로 처리하도록 파이뉸됩니다.
자기 주도 학습(Self-Supervised Learning): 바로 여기서 마법이 일어납니다. 레이블이 지정된 데이터를 사용하는 지도 학습과 달리 파운데이션 모델은 자기 지도 학습 기법을 활용합니다. 이 경우에는 모델 자체가 레이블이 지정되지 않은 데이터에서 작업과 레이블을 생성하여 학습하게 되는데요, 여기에는 텍스트 데이터의 시퀀스에서 다음 단어를 예측하거나 이미지에서 누락된 부분을 식별하는 등의 작업이 포함됩니다.
훈련과 최적화(Training and Optimization): 모델은 GPU 또는 TPU와 같은 강력한 컴퓨팅 리소스를 사용하여 준비된 데이터에 대해 학습됩니다. 모델 크기와 데이터 세트의 복잡성에 따라 이 훈련 과정은 며칠 또는 몇 주가 걸릴 수 있는데요, 모델의 성능을 최적화하기 위해 Gradient descent과 같은 기법이 사용됩니다.
평가와 향상(Evaluation and Refinement): 학습 후에는 벤치마크 데이터 세트나 특정 작업에서 모델의 성능을 평가합니다. 결과가 이상적이지 않은 경우, 하이퍼파라미터를 조정하거나 품질 개선을 위해 데이터 준비 단계로 돌아가 모델을 더욱 세분화할 수 있습니다.

파운데이션 모델을 훈련하는 것은 지속적인 과정이라는 점에 유의해야 합니다. 연구원들은 모델 성능과 성숙도를 향상시키기 위해 데이터 처리, 모델 아키텍처, 자기 지도 학습 작업에 대한 새로운 기술을 끊임없이 탐구하고 있습니다.

파운데이션 모델의 장점

파운데이션 모델은 다양한 영역에서 널리 채택되고 사용되는 데 기여하는 상당한 이점을 제공합니다. 몇 가지 주요 장점을 자세히 살펴보세요:

다용도성과 적응성(Versatility and Adaptability): 기존의 좁게 초점을 맞춘 AI 모델과 달리 파운데이션 모델은 다용도로 사용할 수 있습니다. 해당 도메인(텍스트, 이미지 등) 내에서 다양한 작업에 맞게 미세 조정할 수 있으며, 심지어 멀티모달 모델의 경우 여러 도메인에 걸쳐 조정할 수도 있습니다. 이러한 유연성은 각 특정 작업에 대해 처음부터 새 모델을 구축하는 것에 비해 시간과 리소스를 절약할 수 있습니다.
효율성과 비용 효율성(Efficiency and Cost-Effectiveness): 사전 학습된 파운데이션 모델은 개발자에게 확실한 출발점을 제공합니다. 특정 작업에 맞게 모델을 미세 조정하는 것이 완전히 새로운 모델을 처음부터 학습시키는 것보다 더 빠르고 계산 비용이 적게 드는 경우가 많습니다. 이러한 효율성은 비용 절감과 개발 주기 단축으로 이어집니다.
향상된 성능(Improved Performance): 파운데이션 모델은 대량의 데이터 세트에 대한 대규모 학습으로 인해 다양한 작업에서 기존 모델보다 뛰어난 성능을 발휘하는 경우가 많습니다. 기계 번역, 이미지 인식 또는 텍스트 요약 작업에서 더 높은 정확도를 달성할 수 있습니다.
AI의 민주화(Democratization of AI): 사전 학습된 파운데이션 모델을 사용할 수 있으므로 AI 개발의 진입 장벽이 낮아집니다. 대규모 컴퓨팅 리소스에 액세스할 수 없는 소규모 기업이나 연구원도 이러한 모델을 활용하여 혁신적인 AI 애플리케이션을 개발할 수 있습니다.
과학적 발견의 가속화(Acceleration of Scientific Discovery): 파운데이션 모델은 방대한 과학 데이터 세트를 분석하여 기존 방법으로는 놓칠 수 있는 숨겨진 패턴과 그 관계를 발견할 수 있습니다. 이 기능은 신약 개발, 재료 과학 또는 기후 변화 연구와 같은 분야에서 과학적 진보를 크게 가속화할 수 있습니다.

파운데이션 모델이 맞닥뜨린 과제

파운데이션 모델은 뛰어난 기능에도 불구하고 전 세계 연구자들이 적극적으로 해결하기 위해 노력하고 있는 몇 가지 과제를 안고 있습니다. 다음은 몇 가지 주요 과제들입니다.

데이터 편향성과 공정성(Data Bias and Fairness): 파운데이션 모델은 학습된 기존 데이터에 존재했던 편향성을 그대로 이어받을 수 있습니다. 이로 인해 차별적이거나 불공정한 결과가 나올 수 있는데요, 이러한 편향성을 완화하려면 신중한 데이터 선택, 큐레이션, 보다 공정한 학습 알고리즘 개발이 필요합니다.
설명 가능성과 해석 가능성(Explainability and Interpretability): 파운데이션 모델이 어떻게 결과물에 도달하는지 이해하는 것은 어려울 수 있습니다. 이러한 투명성 부족은 잠재적인 오류나 편견을 식별하고 해결하기 어렵게 만듭니다. 이러한 모델을 보다 해석하기 쉽게 만드는 방법을 개발하기 위한 연구가 진행 중입니다.
연산 리소스(Computational Resources): 파운데이션 모델을 훈련하고 실행하려면 GPU나 TPU와 같은 상당한 연산 능력과 리소스가 필요합니다. 따라서 이러한 인프라에 액세스할 수 없는 소규모 기업이나 연구자에게는 접근성이 제한될 수 있습니다.
보안과 개인 정보 관련 이슈(Security and Privacy Concerns): 파운데이션 모델을 학습하는 데 사용되는 방대한 양의 데이터는 데이터 유츌에 대한 보안과 개인정보 보호 문제를 야기합니다. 악의적인 공격자는 학습 데이터나 모델 자체의 취약점을 악용할 수 있습니다. 강력한 보안 조치와 책임감 있는 데이터 처리 관행을 보장하는 것이 중요합니다.
환경 영향(Environmental Impact): 이러한 모델을 훈련하는 데는 상당한 양의 에너지가 소모될 수 있습니다. 보다 에너지 효율적인 훈련 방법을 개발하고 재생 가능한 에너지원을 사용하는 것은 파운데이션 모델을 지속 가능하게 배포하기 위한 중요한 고려 사항입니다.

출처: NVIDIA 블로그

결론

파운데이션 모델은 AI 기능의 획기적인 도약을 가져다줍니다. 다용도성, 효율성, 방대한 양의 데이터를 통한 학습 능력은 다양한 산업과 일상생활을 변화시킬 차세대 지능형 애플리케이션의 기반을 닦고 있습니다.

원문: Digital Marketing Curation

이 필자의 다른 글 읽기

언어 인공지능 앞에서 제기되는 철학적 물음들

김재인 — Wed, 15 Mar 2023 03:37:14 +0000

※ 아래는 2023년 3월 2일, 코트(KOTE) 포트락 강연의 후반부를 정리한 글입니다.

1.

앞에서는 언어 생성 인공지능 ChatGPT하고 번역 인공지능 DeepL, 이렇게 언어 인공지능 두 개를 실제 이것저것 해보면서 알아보았습니다. 그럼 여기까지 살피고 나서, 이제 이런 기술에서 출발하는 몇 가지 질문을 보도록 하겠습니다. 사실 하나하나가 우리가 좀 따져봐야 할 내용들인 것 같아요.

우선, 언어가 도대체 뭐냐? 요약이라는 게 뭐냐? 이런 물음에서 시작해 보겠습니다. ChatGPT는 답변은 물론 요약도 잘해줍니다. 한 5천 단어 정도의 신문 기사를 넣었더니 10줄 정도로 요약해 주더라고요. 근데 도대체 요약한다는 게 무슨 뜻일까요? ChatGPT를 살펴보니까, 키워드에 해당하는 것들을 그냥 얼버무려서 우리한테 전달해주더라고요. 따라서 그 키워드 안에 들어있는 ‘내용’에 대해서는 우리에게 알려준 바가 별로 없는 것 같아요.

말하자면 이런 겁니다. 오늘 제가 말씀드린 강의 내용 1시간 분량을 텍스트로 넣어주고 요약하라고 시키면, ‘연사(Speaker)는 ChatGPT 같은 언어 생성 인공지능과 DeepL 같은 언어 번역 인공지능에 대해 흥미로운 이야기를 했다’, 이렇게 끝내요. 이 요약을 들은 사람이 얻어들을 수 있는 정보라는 게 별로 없는 거죠. 이런 경우가 굉장히 많더라고요.

따라서 인공지능이 해주는 요약이라는 건 이를테면 우리가 전체 글을 읽어야 할지 말아야 할지를 대충 걸러주는 역할, 마치 논문 맨 앞에 있는 초록(Abstract) 정도 역할을 하는구나, 따라서 이 문서 또는 이 글에서 우리가 얻어갈 수 있는 게 있는지 없는지를 점검하는 정도 수준으로 ChatGPT가 작업하는구나, 하고 생각할 수 있습니다. 인공지능의 요약 작업이란 그런 수준에서 받아들여야 한다고 생각합니다.

2.

다음에, 이해(Understanding)라는 게 뭐냐? 이건 되게 어려운 주제입니다. 우리가 어떤 언어적인 내용을 이해한다는 게 무슨 뜻일까요? 굉장히 철학적인 질문입니다. 도대체 기계가 이해한다는 게, 인간의 언어를 이해한다는 게 무슨 말일까요?

이런 질문과도 연결됩니다. 과연 ChatGPT가 내용을 이해한 걸까요? 이해하고 답변한 걸까요? DeepL은 이해하고 번역한 걸까요? 우리가 물어볼 수 있습니다. 책 한 권 분량의 주제입니다. 그런데 보통 강의에서는 ‘책 한 권 분량의 주제’라고 말하고 강의를 마칩니다. 그냥 넘어가는 거예요. 근데 저는 철학을 하니까 그냥 넘어가면 안 되겠죠. 도대체 여기서 진행되는 일이 무엇일까요?

기계가 이해하느냐, 라는 문제를 보죠. 1950년에 인공지능을 개념적으로 발명한 앨런 튜링(Alan Turing)이 비슷한 질문을 던졌어요. 기계가 생각할 수 있을까? 이 질문에 대해 우리가 ‘생각’이나 ‘이해’ 같은 말을 사전을 찾아서 답할 수도 있습니다. 네이버 국어사전을 한번 보겠습니다. 사전을 찾아보면 이런 식으로 나옵니다.

사리를 분별하여 해석함.

깨달아 앎. 또는 잘 알아서 받아들임.

남의 사정을 잘 헤아려 너그러이 받아들임.

[철학] 문화를 마음의 표현이라는 각도에서 그 뜻을 파악함. 딜타이의 용어이다.

이게 사전에 나와 있는 정의입니다. ‘이해’의 의미가 이해되나요? 이걸 통해 우리가 이해라는 말을 이해하지는 못합니다.

앨런 튜링은 그래서 사람들에게 물어봐서 제일 많은 답이 나온 걸 그 말의 뜻으로 이해하자고 생각하기도 했습니다. 가령 갤럽 여론조사, 그러니까 다수결로 뜻과 의미를 정하자는 거죠. 그런데 그건 좀 어리석은 짓이죠. 왜냐하면 다수결이 항상 맞는 게 아니기 때문입니다.

앨런 튜링(1912~1954), 잉글랜드의 수학자이자 암호학자, 논리학자, 컴퓨터과학자

그래서 튜링은 이렇게 제안합니다. 튜링이 ‘이미테이션 게임’이라고 부른 겁니다. 커튼을 치고 저 편에 누군가가 있는데 타자기로 친 쪽지로 질문과 답을 주고받는 거예요. 오늘날로 말하면 채팅입니다. 우리가 반대편에 있는 어떤 존재와 5분 정도 캐물어 가며 대화하고 나서… 여기서 캐묻는다는 점이 중요합니다. 튜링은 ‘심문한다(interrogate)’라는 표현을 쓰거든요.

심문이라는 건 검사가 혐의자에게 캐묻는 행위, 아니면 법정에서 증인한테 판사나 검사나 변호사가 묻는 것과 같은 일이예요. 이런 식으로 5분 정도 심층 대화를 나눈 후에 저쪽이 인간인 것 같다, 한 70% 확률로 그렇게 생각된다, 이렇게 되면 그냥 인간으로 칠 수밖에 없다는 겁니다. 이미테이션은 ‘인간을 흉내 낸다’는 뜻입니다. 나중에 튜링이 죽고 나서 그걸 ‘튜링 검사(Turing test)’라고 불렀습니다.

이제 이렇게 물어볼 수 있어요. 그렇다면 ChatGPT가 의미를 이해한 거냐? 왜냐하면 아까 본 것처럼 우리가 ChatGPT에게 질문했어요. 철학 공부를 어떻게 시작하면 좋을까? 근데 답변을 읽고 나면 ChatGPT가 내 말을 잘 알아듣고 심지어 어떤 혜안을 갖고서 그걸 나한테 알려주는구나, 라는 마치 사람과 대화하는 것 같은 느낌을 줘요. 물론 아닐 때도 있다는 걸 확인했습니다만, 그런 느낌을 줄 때가 더 많다면, 한 70%는 그렇다고 한다면, ChatGPT가 이해했다고 쳐줄 수 있다는 거죠.

이게 튜링의 아이디어였고, 굉장히 오랫동안 지금까지도 논란거리입니다. 그래서 ChatGPT가 튜링 테스트를 통과했느냐 아니냐를 놓고 철학자, 언어학자, 컴퓨터 공학학자가 따지고 있는 중이지요. 사실 철학에 관한 질문을 하면 어지간한 사람은, 여기 인사동에서 길가는 분을 붙잡고 물어보면, 대개는 그런 거 답을 못해요. 그런 거치고, ChatGPT가 훨씬 더 인간에 가까운 게 아니냐 얘기할 수도 있다는 거죠.

3.

존 설(John Searle)이라는 미국의 철학자가 있습니다. 이 사람은 ChatGPT가 튜링 검사를 통과해서 그럴듯하게 얘기하더라도 그건 이해한 게 아니라고 주장합니다. 그러면서 중국어 방(Chinese room)이라는 사고 실험을 합니다. 중국어 방에 대해 ChatGPT 한테 물어보겠습니다.

존 설의 중국어 방 실험을 설명해줘.

통신 문제 때문인지 답변이 느리네요. 그럼 제가 설명드리죠. 어떤 방이 있고, 안에는 미국인이 있어요. 영어밖에 모르는 이 사람이 바깥에 있는 중국인과 대화를 나누는 상황을 가정한 거예요. 바깥에 있는 사람과 중국어로 타자된 한자로 필담을 나누는 거죠.

중국어 문장을 집어넣어 주면 그 안에 있는 미국인은 영어로 된 매뉴얼을 보고 사전 찾을 때처럼 이 글자는 몇 페이지 어디 어디에 나와 있고 거기에 대해서는 이러이러하게 답변하라고 써 있어서, 그에 맞게 출력해서 밖으로 내보냅니다. 대화가 이루어지는 상황인 거죠. 밖에 있는 사람은 저 안에 있는 사람이 중국어를 이해한다고 생각하게 되겠지요.

중국어 방(chinese room) 실험 / 출처: Voegelin view

바로 그런 거대한 중국어 방이 ChatGPT 인 거예요. 뭔가 이해하는 것처럼 우리와 대화를 주고받잖아요. 그러니까 ChatGPT는 편의상 튜링 검사를 통과했다고 쳐줄 수 있는 지점이 있습니다. 가끔 엉뚱한 얘기도 하지만 꽤 잘 얘기하니까요. 만일 그렇다면 ChatGPT 가 중국어를 이해한 걸까요? 존 설은 ChatGPT는 중국어를 이해한 게 아니라고 얘기합니다. 왜냐하면 방 안에 있는 미국인은 규칙대로 그냥 처리했을 뿐이니까요.

영어로 Syntax, 우리말로 ‘통사론’ 혹은 ‘구문론’이라고 합니다. 문법대로 그냥 처리했을 뿐이라는 거예요. 이처럼 설과 튜링의 대결은 지금도 팽팽하다고 볼 수 있습니다. 설은 ChatGPT는 기계일 뿐이고, 문법대로 즉 프로그램대로 처리하는 것일 뿐 이해한 건 아니라는 겁니다.

4.

근데 저는 6년쯤 전에 쓴 『인공지능의 시대, 인간을 다시 묻다』에서도 주장했던 것처럼, 튜링이 더 현실적인 게 아닌가 합니다. 왜 그러냐?

가령 이것도 또 하나의 사고 실험인데요, 지금 이 방에서 우리는 모두 한국어로 말하고 있어요. 그런데 사실 3분의 1은 나노 로봇입니다. 아주 정교하게 만들었고, 인공지능이 탑재되어 있어요. 다른 3분의 1은 사실 높은 지능이 있는 외계인인데 인간처럼 분장했어요. 영화 속 트랜스포머 있죠? 나머지 3분의 1만 한국 사람입니다. 우리가 자유롭게 섞여서 대화하고 있을 때, 이 상황에서 과연 인간과 로봇과 외계인을 구분할 수 있을까요? 구분할 수 없죠. 절대로 구별하지 못합니다.

그러니까 튜링처럼 대화를 나눠서 식별하는 접근 말고는 다른 접근 경로가 없습니다. 튜링의 검사, 이미테이션 게임, 얼마나 흉내를 잘 내는지를 판별하는 게임이 유일한 접근 방법이라고 할 수밖에 없다는 겁니다. 그렇게 치면 ChatGPT는 튜링에 의하면 언어를 이해하고 인간처럼 생각하는 존재라고 답할 수밖에 없는 거죠.

이 지점에서 한 단계 더 들어가 볼 수 있습니다. 뭐냐 하면, 우리가 ‘생각’이나 ‘이해’ 같은 문제를 다룰 때 어려운 지점이 있어요. ‘나’에 대해서는 생각하고 있다는 걸 거의 확신합니다. 나는 생각하고 있고, 어떤 내용을 이해하고 있거나, ‘적어도 50%는 이해하고 있다’고 자각하고 있어요. 그걸 의식하고 있습니다.

근데 남에 대해, 나 말고 다른 외부 존재에 대해서는 확인할 길이 없습니다. 이게 중요해요. 나는 1인칭적 존재인데 타인은 3인칭적인 존재예요. 따라서 저 사람의 머릿속으로 들어가지 않는 한 그 사람이 이해하는지 혹은 생각하는지 알 수가 없습니다. 확인할 길이 1도 없어요.

사실 이렇게 얘기하는 사람도 있어요. 누구의 머리를 뜯어보면 사람처럼 뇌가 있고 따라서 생각한다고 확인할 수 있다는 거예요. 사실은 그것조차도 정교한 나노 로봇이거나 외계인일 수 있습니다. 사실은 여기 계신 이번 코트 포트락 축제의 운영위원장 이지성 감독님이 외계인이었어요. 그래서 ‘부라보콘’ 같은 훌륭한 광고를 만들 수 있었던 거예요. 이건 지구인이 할 수 있는 그런 창작의 산물이 아니니까요. 하지만 외계인인지 인간인지 확인할 수 없습니다. 객관적으로 검증할 수 없어요.

그래서 의미를 이해했느냐 혹은 생각하고 있냐, 라는 주제는 항상 논쟁거리가 될 수밖에 없습니다. ChatGPT의 등장, 혹은 DeepL이나 구글 번역 아니면 파파고의 등장은 이런 질문을, 즉 인간이 뭐냐, 도대체 인간이 생각하고 이해한다는 게 뭐냐를 계속 묻게끔 하는 철학적인 문제 상황을 불러옵니다.

작가 macrovector 출처 Freepik

5.

이제 한 단계 더 파고들어 보겠습니다. 이런 번역 인공지능이나 언어 생성 인공지능에서 확인할 수 있는 건, 좀 더 세부적인 내용으로 한 걸음 더 들어가면 오역이나 잘못된 정보가 확인된다는 것을 한 번 더 주목할 필요가 있습니다.

예를 들면 아까 지적한 것처럼 제가 철학을 전공했기 때문에 소크라테스가 글을 쓰지 않았다는 걸 압니다. 전문 분야마다 해당 전문 지식과 전문가가 있고, 그 지식에 비추어서 어떤 내용이 실제로 그런지 분별하고 판별하고 평가할 수 있는 지점이 있기 마련입니다.

ChatGPT를 둘러싸고 흥미로운 점은, 자기가 잘 아는 분야에 대해서는 얘가 완전 바보라고 얘기하고 잘 모르는 분야에 대해서는 이거 엄청나다고 말하는 경우가 많더라고요. 그런 것들을 보면, 자기 전문 분야의 지식(domain knowledge), 자기가 기왕에 습득한 전문 지식이 언어 생성이나 언어 번역과 관련해서 평가의 중요한 잣대 역할을 한다는 것이 확인되는 면이 있습니다. 다시 말하면 ‘평균적인’ 수준의 문장을 번역하거나 정보를 생성하는 일에는 별 문제를 제기하지 않지만, 평균에서 벗어나 있는 ‘변칙(abnormal, anomaly)’에 대해서는 ChatGPT가 잘 모른다고 지적하게 되는 겁니다.

변칙이라는 건 오랜 학습과 경험 속에서 얻게 된 ‘평균에서 먼 지식’입니다. 인간한테 변칙이라는 건 도대체 무엇일까요? 인간 사고의 중심에 있는 어떤 평균적이고 보편적인 것 말고, 예외적이고 뭔가 난데없고 그리고 수적으로 보면 너무 사례가 드문, 그렇게 ‘보통과 평균’ 바깥에 존재하는, 경계 바깥쪽에 존재하는 것, 그래서 기존의 것을 넘어서는 인간 활동과 관련되는 것이 아닐까요?

그러니까 가령 어떤 중심이 있고, 중심이라는 건 중요하다는 뜻이 아니고 평균적으로 빈도가 많은 곳인데요, 점점 중심에서 바깥으로 갈수록 예외가 되고 뭔가 특이한 게 되고 변칙이 되는데, 그 정체는 바로 인간이 평균적으로 습득해 놓은 지식과 지혜, 즉 우리의 유산(legacy)을 넘어선 어떤 지점들입니다. 넘어섰다는 건 두 가지 의미를 가질 수 있습니다.

첫 번째는 엉뚱하고 삐딱하다는 뜻일 수 있고, 두 번째는 기존에 없던 뭔가로 한 단계 도약했다는 뜻일 수 있습니다. 후자를 창조적 혹은 창의적이라고 합니다. 영어로 creative죠. 중심은 ‘고인 물’입니다. 그러니까 옛날에 누군가가 했던 것들이 안정적으로 자리 잡고 있는 상태입니다. 현재 안에 있는 과거형이에요. 인간이 그걸 넘어서서 뭔가 다르고 더 재밌는 것을 추구해 찾아내고 만들어내는 활동을 하고 있다는 게 ‘의미 이해’나 ‘생각’의 본질을 고려할 때 중요하게 생각해야 할 지점이라고 봅니다. 현재 안의 미래라고 할까요?

작가 starline 출처 Freepik

철학자 니체(Friedrich Nietzsche)는 인간을 규정할 때 가장 중요한 특징으로 ‘자기 자신을 넘어서는 존재’라는 점을 지적합니다. 이게 ‘초인(Übermensch)’의 의미와 관련됩니다. 인간이되 자기를 넘어서는 존재로서의 인간, 영어로 하면 overcome oneself가 인간의 본질이라는 겁니다. 그러니까 인간은 고인 물, 아까 말씀드린 중간 지대, 평균 지대에 멈춰 있지 않고 바깥쪽으로 가서 뭔가 새로운 걸 보태는, 그러니까 유산에 뭔가 창조적인 내용물들을 보태는, 계속 그렇게 보태 갑니다. 그런 활동이 인간의 본질이라고 니체는 규정한 겁니다. 이게 왜 중요할까요?

인간의 사고 활동, 생각 활동이라는 게 일이라고 한다면, 남들이 하지 않았던, 보통은 인간이 하고 있지 않은 활동을 하는 게 결국 생각과 이해 같은 말들의 진정한 의미 아닐까요? 과학과 예술과 철학과 그 밖에 온갖 종류의 발명과 창조 작업이 일어나는 그 지점이 유산의 바깥 쪽이고 이와 관련된 활동이 생각과 이해인 것이지, 안쪽, 즉 유산에 머무는 것들이 생각과 이해의 본질은 아니지 않겠냐, 하는 생각을 해보게 됩니다. 결국 인간이 무엇인지 묻게 되는 거죠.

평균적인 것들은 우리가 되풀이하는 일종의 반복이죠. 그게 아니라 평균을 넘어 평균이 아닌 영역을 자꾸 찾아서 끌고 들어와 사람들에게 소개하는 그런 부류의 활동을 인간의 생각과 이해 같은 활동의 진정한 의미라고 주장해볼 수 있지 않을까요? 이런 생각을 해보게 됩니다.

6.

기묘한 상황입니다. 그러니까 인간이 만든 최고의 발명품 중 하나인 인공지능을 통해 인간이 무엇인지 한 번 더 발견하는 상황이 아닌가 합니다. 언어를 단순히 정보를 주고받는 수단으로 생각하지 말자는 거죠. 최소한 기계 번역이나 ChatGPT 같은 언어 생성 인공지능은 언어를 확정적인 의미로 보고, 서로 전달되는 정보 형태로 존재한다고 여기지만, 사실은 그 이상이 아닐까요?

기계는 언어를 정보 교환의 수준에서 다루지만, 이 지점을 넘어 뭔가 더 창조적인 활동에 수반하는 것으로서 걸러져서 흔적을 남기는 것이 언어의 더 본질적인 측면이 아닐까요? 따라서 본래적인 언어는 기계 수준 언어의 바깥쪽에 있다고까지 생각해 볼 수 있습니다.

한 마디 더 콘서트면 같은 장소라면, 그런 것들이 사실은 인간이 집단 존재(collective beings)로서 살아가는 본질이 드러나는 지점이라고 할 수도 있습니다. 그러니까 우리가 단지 어떤 정보를 얻는 것, 가령 오늘 코트에서 포트락 축제가 열린다는 정도의 정보를 주고받는 거는 함께 살아가는 존재로서의 인간 또는 인류 전체를 한 묶음으로 묶을 수 있는 측면의 아주 일부에 불과하다는 것입니다. 서로 새로운 걸 찾아서 그걸 인간의 공동 저장소(pool)에다가 계속 넣어주는 존재라는 점이 중요합니다.

또는 뭐랄까, 인간에게는 서로의 삶을 강요하는, ‘너 이렇게 해야 해’라고 계속 요청하는, 언어와 비언어를 합해서 뭔가 행동을 요구하는 면모가 있는데, 의미를 서로 주고받는 수준을 넘어 작동하는 측면도 중요합니다(사실 비언어의 대표적인 게 예술이죠). 그래서 그런 점들까지도 활성화되는 지점까지 생각해봐야 하는 게 아닌가 합니다.

7,

그래서 마지막으로 도대체 뭘 학습해야 할지도 많이 질문하게 돼요. 어떤 사람들은 이 질문을 회사에서 필요로 하는 능력과 연관 지으면서 유치한 질문이라고 얘기하기도 해요. 그런데 인공지능이라는, 새로우면서도 인간보다 많은 부분에서 뛰어난 활동을 할 수 있는 기계가 등장한 이상 그걸 활용해서 더 인간다운 삶을 살고 또는 더 나은 삶을 살 수 있기 위해 어떤 능력을 길러야 하느냐고 물으면서 접근한다면 단순히 업무 능력을 키워서 회사에서 일 잘하겠다는 수준의 질문으로 떨어지지는 않을 것 같아요.

여기서 놈 촘스키(Noam Chomsky)라는 미국의 언어학자를 잠깐 언급하겠습니다. ChatGPT는 작년 2022년 11월 30일에 출시됐어요. 미국에서 한 달 반 정도 논의된 시점인 1월 중순에 촘스키가 인터뷰를 합니다. 거기서 가장 먼저 제기된 질문인데요, 학생들이 ChatGPT 이용해서 보고서 써내는 문제를 제일 중요한 이슈로 다뤘습니다.

촘스키는 ChatGPT를 “첨단 기술 표절(High-Tech plagiarism)”이라고 단언했어요. 첨단 기술을 활용해서 하는 표절이라는 거죠. 이 말의 요점이 뭘까요? 인공지능을 통해 보고서를 대충 생성해서 제출하고 일종의 표절과 커닝 같은 짓을 하는 상황이 개탄스럽다는 거였습니다. 전에는 카피 킬러 같은 표절 잡아내는 프로그램들이 있었는데, ChatGPT가 만든 건 적발하기 힘들다, 우리 교수들이 좀 많이 곤란하다는 취지의 말이었습니다. (나머지 내용은 더 정리해서 나중에 페이스북 같은 데 공개하겠습니다. 아직 한국에서는 공유가 안 된 것 같아요.)

에이브러햄 노엄 촘스키(1928~) 현대 언어학의 아버지로 묘사되기도 한다.

작년 겨울방학 직전에 ChatGPT가 나왔기 때문에 슬슬 소문이 확산하면서 올해 1월, 2월 이렇게 지나면서 한국의 교수들도 비슷한 사안을 고민하게 됐습니다. 그러자 보고서 쓸 때 ChatGPT를 허용할 거냐 말 거냐, 학생들이 숙제하고 공부할 때 ChatGPT를 금지할 거냐 말 거냐, 인터넷 끊고 시험을 치르거나 보고서를 교실에 모여서 쓰게 하거나, 등등 여러 가지 얘기가 나왔고, 최근에는 그거 어쩔 수 없다, 막을 수 없으니까 활용하되 활용했다는 걸 명기해라, 이런 얘기까지 나오고 있습니다. 오늘 3월 2일이니까 다 개학했죠. 대부분 학교가 ChatGPT를 문제로 보는데, 사실 촘스키가 제기한 ‘하이테크 표절’이라는 논점에서 벗어나지 않은 것 같아요.

저는 이게 굉장히 불만입니다. 학생들이 ChatGPT를 이용해서 에세이를 쓰고 보고서를 낸다는 게 도대체 무슨 의미일까요? 고등교육에서 에세이 과제를 낸다는 게 도대체 무슨 의미일까요? 이런 것들을 교육 전반의 차원에서 검토하지 않고 있어요. 표절 문제를 최우선으로 걱정하고 있다는 게 한심하게 보입니다. 대학은 개인의 여러 역량을 키워주고 훈련시켜주는 곳이고, 대학을 졸업하고 사회에 나가서 그 능력을 발휘해서, 도구의 도움을 받으며 자기 혼자 뭔가를 처리해야 하는데, 학술 영역이건 비즈니스 분야이건 간에 ‘혼자 뭘 하려고 할 때’ 활용할 수 있는 능력을 길러주는 게 핵심 아닐까요?

그런데 이 문제를 고민하지 않고, 표절해서 또는 남의 답안지를 베껴서 좋은 학점을 받게 되는 게 큰 문제라는 식으로 논점을 좁게 가져가니까 제가 불만을 느끼는 겁니다. 물론 윤리도 중요합니다. 하지만 더 큰 쟁점이 있습니다. 이 지점에서 진짜로 물어봐야 하는 건 결국 대학에서 배워야 하는 능력이라는 게 무엇이냐 아닐까요? 교수들이 이 능력을 키워주는 문제에 대해 별 고민이 없고 대안도 없다면, 도대체 대학의 존재의 의미는 무엇이고, 나아가 교육의 의미는 무엇인지 물어봐야 하지 않을까요?

지금 시점에 교육 제도 전반을 다시 물어야 합니다. 교육과 학습의 본질을 물어야 합니다. 그런데 이런 얘기들은 거의 논의가 안 되고 있는 것 같습니다. 아마도 그런 논의를 하는 사람들이 주로 대학 교수인데 자기들도 답이 없고, 또 그런 문제 자꾸 제기하면 생계에 위협이 될 것 같은 느낌이 들기도 하고, 해서가 아닐까 추정합니다.

에세이를 쓴다는 게 무슨 의미일까요? 글쓰기의 핵심이 무엇일까요? 글쓰기의 전 과정에서 무슨 일이 일어나는 걸까요? 필요한 정보를 수집하고, 요약하고 정리하고, 거기에 자기 생각을 보태고 빚어내서 자기 글로 결과물을 만드는 이 전반적인 과정의 의미가 무엇일까요? 그리고 그 과정 속에서 훈련되는 일의 핵심이 무엇일까요? 체득이라는 게 뭘까요? 이 지점을 건들지 않으면 안 됩니다. 단지 그럴싸한 결과물을 내는 게 중요한 건 아닙니다.

근데 교수들은 단지 이걸 평가하는 일, 그러니까 사람이 정말 순수하게 노력해서 쓴 글과 인공지능이 만들어준 글을 구별하지 못할까 봐 겁나는 거 아닐까요? 레포트를 제출하라는 숙제의 본질이 그런 걸까요? 자기 전문 분야라는 게 분명히 있고, 대학 교수는 특히 더 그러한데, 전문 분야에서 아주 세밀한 뉘앙스를 찾아내는 능력을 갖추고 있어야 되는데, 인공지능은 분명 계속 실수하니까 그런 실수를 찾아내야 하는데 그 일에 교수들이 자신감이 없는 게 아닐까요? 뭘 가르쳐야 하는지 자기도 모르겠다는 것 아닐까요?

글쓰기라는 걸 단순히 어떤 내용을 담은 보고서 작성 수준으로 이해할 게 아니라, 생각의 훈련, 즉 자기 생각을 벼리고 잘 키우는 훈련이라고, 그래서 아까 말씀드렸던 인류 유산의 외곽 지대에 있는 문제들에 자꾸 도전할 수 있게 해주는 정신의 근력과 체력을 길러주는 그런 종류의 활동이라고 봐야 하지 않을까요? 인간의 생각과 사고의 본질이 그런 것들에 자꾸 도전하고 넘어가는 거라고 치면, 그 부분을 훈련하는 게 교육의 본질이어야 하지 않을까요?

현대의 교육은 그걸 못하고 있고, 동시에 인공지능이 등장하면서 그동안 못해왔다는 게 들통나서 두려워진 상황이 되어버린 게 아닐까요? 해당 분야의 전문가만이 알아챌 수 있는 뉘앙스나 새롭고 더 좋은 점을 분별하는 ‘감식안’을 키우는 게 중요한 것 아닐까요?

예술적 안목도 비슷한 뜻일 테고, 비평 감각(critical sense)이란 말도 마찬가지일 겁니다. 이런 걸 길러주는 게 교육의 핵심이어야 하지 않을까요? 웹진X의 동료 편집 위원 민경진 PSB 대표의 말을 빌리면 이렇습니다.

‘건축은 건물을 짓는 거고, 감리는 제대로 지었는지를 확인하는 겁니다. 그런데 인공지능은 건축가지 감리사가 아닙니다. 우리에게 필요한 건 감리사입니다.’

인공지능이 만들었건 인간이 만들었건 간에, 아니면 과거에 만든 것이건 다른 지역에서 온 것이건 간에, 생산물을 변별하고 분별하고 감식하는 예술가적 혜안 같은 능력을 기르는 일이 교육에서 목표로 삼아야 할 지향점이 아닐까 합니다.

8. 마무리하며

마지막으로 영국의 정치인 윈스턴 처칠(Winston Churchill)이 한 말을 소개하겠습니다. 이 양반이 20세기 초반에 영국건축협회를 상대로 연설한 게 인상적입니다(1924년). 처칠은 이런 말을 했습니다.

우리는 건물을 짓는다. 그다음에는 건물이 우리를 짓는다.
We shape our buildings and then they shape us.

처칠이 잘 얘기했고, 그다음엔 마셜 매클루언(Marshall McLuhan), 그 후에 들뢰즈(Gilles Deleuze)가 잘 파악했듯ㅇ 인간과 기술은 결국 서로가 서로를 계속 형성하는 방식으로 공진화(共進化)하는 관계를 맺는 과정 속에 있습니다.

기왕 이렇게 인공지능 세상에 들어온 이상, 인공지능 기술이 인간을 어떻게 좀 더 향상시키게 할 수 있을지 모색해야 합니다. 결국 인간이 잘하고 있고 잘할 수 있고 잘 해왔던 측면을 강화하는 형태로 가는 게 교육이어야 하고, 그게 하나의 돌파구일 수 있지 않을까 생각하게 됩니다. 자기를 넘어서는 그런 활동 말입니다.