새로운 AI의 시작,HyperCLOVA

새로운 AI의 시작, HyperCLOVA

5월25일 2시, Naver의 CLOVA팀은 Naver AI Now채널을 통해 HyperCLOVA를 발표했다.

블로그의 HyperCLOVA시리즈는 해당 발표들을 간략히 글로 옮겨 정리한 것이다.

Naver AI Now 채널 에서 해당 영상들을 다시 볼 수 있고, 모든 출처와 저작권은 NaverCLOVA에 있다.

들어가기

2020년, OpenAI는 초 거대 NLP(natural language processing)모델인 GPT-3 model을 발표했다. Transformer 아키텍쳐를 이용한 GPT-3 model은 엄청난 성능을 보여주었고 세계로 하여금 놀라움과 동시에 여러가지 의구심, 궁금증을 만들어 냈다.

Naver AI Lab은 지난 시간동안 이러한 의구심과 궁금증에 대해 연구하고 해결을해가면서 동시에 엄청난 가능성을 발견했다고 말한다.

이러한 가능성들의 실현과 추가적인 여러가지 이유로 Naver는 HyperCLOVA라는 최초의 한국어 초 거대 모델을 개발했다. (이유는 이후의 글 HyperCLOVA 한국어 모델글에서 자세히 다룬다.)

HyperCLOVA란?

HyperCLOVA는 최초의 한국어 초거대 모델이다.

clova_1

초 거대 모델이라는 점을 거듭 강조하는 이유는 HyperCLOVA가 약 5600억토큰(어휘 집합)을 학습했기 때문이다. 이는 한국어 기준 GPT-3의 6500배, 기존의 네이버 모델 대비 3000배에 달하는 규모다.

또한 데이터가 엄청나게 커진 만큼 이 데이터들을 모델에 학습시키기 위해 국내 최고 수준인 700PF급 슈퍼컴퓨터를 구축했다고 한다. 이러한 슈퍼 컴퓨팅 인프라를 어떻게 구축했는지는 HyperCLOVA를 위한 슈퍼 컴퓨팅 인프라 에서 확인할 수 있고, 따로 글로는 다루지 않을 예정이다.

이러한 환경에서의 학습으로, 점진적으로 모델 규모를 향샹시키고 있고 현재는 204B(bilion)의 모델을 학습중이라고 한다. (이는 기존 네이버 모델 대비 600배의 규모)

Naver는 어떻게 이렇게 큰 초거대 모델을 만들 수 있었을까?

Naver에서 나오는 막대한 데이터와 슈퍼 컴퓨팅 환경만으로 초 거대 모델을 개발할 수 있는 것이 아니다. 가장 중요한 역할을 한것은 Unsupervised Learning(비지도 학습)이다. 기존의 사람에 의한 데이터 라벨링의 한계를 비지도학습으로 넘었기에 엄청난 규모의 데이터로 초 거대 모델을 구축할 수 있었다.

clova_2

모델이 큰게 뭐가 좋을까?

모델의 크기에 있어서, 최근 발표된 Scaling Laws에 따르면 인공지능 모델의 성능은 데이터 양, 연산의 규모, 모델의 파라미터 수가 서로에게 병목되지 않는다는 가정하에 무한히 향상될 수 있다고 한다. (자세한 내용은 HyperCLOVA 한국어 모델 글에서 확인할 수 있다.)

더불어 기존의 인공지능 방법론으로는 상상하지 못할 능력이나 수 개월 걸릴 업무를 단 몇분만에 확인할 수 있는 등의 결과가 있었다.

이어서 HyperCLOVA를 개발하면서 만들어진 결과물을 간단히 소개한다.

결과1.맥락을 이해하는 자연스러운 대화

clova_3

HyperCLOVA의 결과중 첫번째는 맥락을 이해하는 자연스러운 대화이다.

초거대 규모의 학습으로 인해, HyperCLOVA는 특정한 분야의 대답을 하기 위해 별도의 데이터셋으로 추가적인 학습이 필요가 없다.

이전 질문/응답에 대하여 다음 대답을 결정하고, 대화에 대한 사용자의 만족도를 인지하며 반응하는 등 기존의 딱딱하다고 느낄 수 있는 AI의 말투에서 벗어난 모습을 보인다.

특히 대화를 20회 이상 주고 받아도 앞선 내용이나 대화의 맥락을 파악하는 능력이 매우 뛰어나다. 사용자가 문장의 구성을 완벽하게 만들어서 의도를 전달하지 않아도 편하게 이야기를 이어나갈 수 있다.

결과2. 창작을 도와주는 글쓰기

clova_4

엄청난 규모의 한국어 학습을 통해 HyperCLOVA는 문장 생성에서도 차별적인 성능을 보인다.

HyperCLOVA를 이용해 네이버 쇼핑에서 상품의 이름, 속성, 설명을 읽고 그에 맞는 상품 소개 문구를 생성하게 하는 작업을 수행했다.

그 결과, 신조어와 축약어를 활용한 문구도 잘 만들어내는 것을 확인했다. 이러한 문구가 실제 서비스에 적용 가능성을 테스트해봤을때 무려 노출 적합도 99%라는 인상적인 결과를 냈다.

결과3. 정보 요약

HyperCLOVA가 어떠한 글을 읽고 요약을 했을때 기존 모델과 대비해 내용의 적합도와 글의 자연스러움에서 훨씬 높은 수준의 결과물을 만들어 내는것을 확인했다.

이것은 정보가 흘러넘치는 현 시대에서 우리가 시간을 절약하고 효율적으로 정보를 탐색하게 도와줄 것이다.

결과4. 데이터 생성

데이터 생성은 개인적으로 제일 인상깊었던 항목이다.

사람이 직접 학습에 필요한 데이터를 만들지 않아도, AI가 만든 문장을 필터링 하는 것만으로도 AI모델을 만들고 발전시킬 수 있게 되는 전환이 가능할 것으로 보인다고 한다. (이 내용 또한 HyperCLOVA 한국어 모델 글에서 자세히 다룬다. )

마무리

HyperCLOVA에서 가장 주목할점은, HyperCLOVA를 이용함으로 인해 AI의 사용과 그 활용이 훨씬 빠르고 쉬워진다는 점이다.

학습 단계에서 이미 초 거대 데이터를 섭렵했기 때문에 추후에는 간단한 설명과 예시를 보여주는 것만으로도 AI를 만들고, 동작시킬 수 있다. 즉 딥러닝 엔지니어가 아니더라도 누구나 모델을 만들고 사용할 수 있게 만든다.(HyperCLOVA Studio(영상) 에서 본 내용을 다룬다.)

연관글

새로운 AI의 시작, HyperCLOVA

HyperCLOVA 한국어 모델(1)

HyperCLOVA 한국어 모델(2)

HyperCLOVA 한국어 모델(3)

HyperClOVA의 활용-데이터 증강