티스토리 뷰

1. NLP, 지도학습, 자기지도학습

NLP (자연어처리 , Natural Language Processing) 란 컴퓨터와 같은 기계가 인간의 언어를 분석하고 이해해 처리하는 인공지능의 주요 분야 중 하나이다. 

Source: Nora Ambroz from aliz.ai

인간의 언어와 기계의 언어는 조금도 비슷하지 않다.

요즘 화두인 ChatGPT로 인간의 언어인 "hello"를 기계가 이해하는 언어(아스키코드)로 변환해달라고 요구했더니 아래와 같이 답변했다.

인공지능 연구는 70여 년이 넘었지만 요즘 들어 기하급수적으로 연구 속도가 빨라진 데는 '자기지도학습(self-supervised learning)' 대두되면서부터이다.

 

몇 년 전만 해도 사실상 모든 딥러닝 기반 NLP 신경망은 '지도학습(supervised learning)'을 이용해 언어를 배웠다.

 

지도학습이란 인공지능이 학습할 때 각 훈련 입력값에 대해 올바른 출력값이 주어져야 한다는 뜻이다.

인공지능은 한 쌍의 분류된 데이터인 입력값과 올바른 출력값을 받고, 그 후 특정 입력값에 해당하는 올바른 출력값을 제시하는 법을 배운다. 즉, 데이터는 인공지능이 스스로 학습하는 데 필요한 단서를 제공하기 위해 인간의 목적에 맞게 분류(labeling)되어야 한다. 세상에 존재하는 모든 언어 데이터 세트를 목적에 맞게 분류하는 것은 엄청난 시간과 비용이 드는 일이다.

 

 

그러나 자기지도학습 방식이 출현하면서 방대한 데이터 분류 작업이 필요치 않게되면서 앞서 언급된 문제를 극복하게 된다. 이 방식은 자연어 연구를 위해 컴퓨터로 처리하고 분석할 수 있도록 언어의 표본을 체계적으로 추출한 집합인 코퍼스(corpus)를 학습함으로써 선행 발화가 후행 발화로 변환되는 확률을 계산해 대화를 생성해 낸다.

 

우리가 무언가를 찾고자 인터넷에서 검색할 때, 단어를 입력했을 때 관련되어 보여주는 자동완성 기능이 그 예다.

 

2. GPT-3 모델

자기지도학습 방식의 한층 강화된 딥러닝 모델이 GPT-3다. 

GPT-3 모델은 지금까지 가장 뛰어난 자연어처리 기반 인공지능으로 2020년 일론 머스크 등이 설립한 OpenAI 연구소에서 출시됐다. 세계에서 가장 강력한 슈퍼컴퓨터 가운데 하나를 이용하는 GPT-3는 45테라 바이트가 넘는 텍스트를 가지고 학습했으며 현재도 기하급수적으로 빠르게 강화되고 있다. 

 

 

GPT-3는 상상할 수 있는 거의 모든 개념을 포함할 만큼 방대한 훈련 데이터를 가지고 훈련을 거친 후 1.750억 개의 매개변수를 가진 모델이다. 따라서 어떤 문구를 보여줘도 그 뒤에 어떤 단어들이 와야 하는지 안다. 

 

GPT-3의 능력은 매우 다양해 다양한 분야에 맞게 조정해 사용하는 전이학습(Transfer learning)도 가능하다. 비유하자면 아이가 일상적인 대화에서 나 중에 시, 역사 등과 같이 좀 더 특화된 언어 영역으로 넘어가는 것에 비유할 수 있다. 

 

모든 게 만능처럼 보이지만 GPT-3의 단점도 있다.

인간은 우리가 무엇을 알고 무엇을 모르는지 잘 알지만  GPT-3는 그렇지 않다. 이 결함 때문에 일종의 '가짜 뉴스'를 만들어 낼 수도 있다. 

사실 출력값의 뛰어난 예시들 중 대부분은 말도 안 되는 출력값이 꽤 많이 포함된 수많은 시험 결과 중에서 선정된 것이다. GPT-3는 자신이 무엇을 모르는지 모른다는 걸 드러낸다.

 

또 인간에게서 나온 데이터를 너무 많이 학습하기 때문에 안타깝게도 인간의 편향, 편견과 악의까지도 흡수하게 되는 치명적 약점이 있다. 

 

 

GPT-3의 잠재력 가운데 가장 흥미진진한 측면은 NLP 응용프로그램을 위한 플랫폼 역할을 할 수 있다는 것이다.

많은 사람들이 GPT-3가 출시된 후 어플리케이션을 개발했는데, 예로들면 역사 인물과 대화할 수 있는 챗봇이 있다. 이는 마치 윈도우와 안드로이드 같은 플랫폼처럼 여러명의 개발자가 더 많은 사용자를 끌여 어플리케이션을 만드는 선순환을 만들어낼 수 있도록 기반을 제공하는 것이다.