본문 바로가기
인공지능(AI)

AI가 칼럼 작성하고 사람과 대화할 수 있는 비결

by 아담스미스 2022. 4. 9.
728x90
반응형

AI가 칼럼 작성하고 사람과 대화할 수 있는 비결은?

 

트랜스포머 모델, AI 언어 모델에 혁신 가져와
서로 떨어져 있는 데이터 의미 이해할 수 있어
과학·헬스케어 등 다양한 AI 산업 혁신 이끌어
트랜스포머 많을수록 성능↑...초거대 AI 등장

AI가 사람과 자연스럽게 대화를 할 수 있는 수준으로 발전하고 있다. (사진=셔터스톡)

인공지능(AI)이 칼럼을 쓰고 사람과 대화하는 시대가 됐다. 오픈AI가 개발한 초거대 AI 'GPT-3'는 2020년 9월 영국 가디언에 'AI와 일자리'란 주제로 칼럼을 썼다. AI를 두뇌로 탑재한 가상인간이 사람과 대화하는 기술도 많이 보급됐다. 준비된 답변만 하던 챗봇이 사람과 자유로운 소통이 가능한 모델로 발전했다. 통신사의 AI 상담원이나 은행의 AI 뱅커 등의 대표 사례다.

이처럼 AI가 칼럼을 쓰고 사람과 대화할 수 있었던 비결은 '트랜스포머'에 있다. 영화에서 많이 본 차가 사람으로 변하는 트랜스포머가 아니다. 문장 속 단어와 같은 순차 데이터 내의 관계를 추적해 맥락과 의미를 학습하는 신경망을 의미한다. 2017년 구글 논문에서 처음 등장했다. 

이 트랜스포머 모델은 수학적 기법을 응용해 서로 떨어져 있는 데이터의 의미를 감지한다. 문장 관계에 따라 의미가 달라지는 부분까지 찾아낼 수 있다. 예를 들어 '우리 아이는 빨간색 운동화를 좋아한다. 그래서 그것이 다 닳을 때까지 신었다.'라는 문장에서 '그것'은 빨간색 운동화를 뜻한다. 글의 문맥을 이해하면 그것의 존재가 빨간색 운동화라는 것을 쉽게 찾아낼 수 있다. 하지만 AI는 다르다. AI 학습에 사용했던 테스트 태스크 모델은 문맥 이해를 하지 못해 그것의 존재를 찾아내지 못했다. 데이터를 순차적으로 이해하는 재귀신경망(RNN: Recurrent Neural Network) 역시 마찬가지였다.

트랜스포머는 기존 한계를 깨뜨린 새로운 학습 모델이다. 데이터의 관계를 추적해 맥락과 의미를 학습하기 때문에 각 단어의 숨겨진 의미를 찾아낼 수 있다. 트랜스포머의 등장 전에는 맥락을 이해하는 AI를 개발하기 위해선 라벨링된 대규모 데이터 세트로 신경망을 훈련해야 했다. 그만큼 시간과 비용이 많이 소비됐다. 트랜스포머는 대규모 데이터를 라벨링할 필요가 없어 시간과 비용을 아낄 수 있는 장점이 있다.

트랜스포머, 다양한 산업에 변화 이끌어

트랜스포머는 언어에만 국한돼 사용되지 않는다. 텍스트를 비롯해 순차적인 이미지, 비디오 데이터를 사용하는 애플리케이션은 무엇이든 트랜스포머 모델이 될 수 있다.

알파고를 개발한 딥마인드(DeepMind)는 트랜스포머를 헬스케어 분야에 사용하고 있다. 딥마인드는 자체 개발한 트랜스포머인 '알파폴드2'를 생명체 빌딩 블록에 해당하는 단백질 연구를 개선하는 데 사용 중이다. 이 모델은 아미노산 사슬을 문자줄처럼 처리하는 기술을 통해 단백질이 접히는 방식을 설명하고 신약 발견 속도를 높이고 있다.
 
코로나19 백신 회사로 유명한 아스트라제네카(AstraZeneca)는 지난해 엔비디아와 함께 신약 개발용 트랜스포머인 '메가몰바트(MegaMolBART)'를 구축했다. 이 모델은 라벨링되지 않은 엔비디아 메가트론(Megatron)을 사용해 훈련됐다. 올라 잉크비스트(Ola Engkvist) 아스트라제네카 책임자는 "AI 언어 모델이 문장 속 단어들의 관계를 학습하는 것처럼 분자 구조 데이터로 훈련된 신경망이 실제 분자 속 원자들의 관계를 학습할 수 있게 하는 것이 우리의 목표"라고 밝힌 바 있다.

트랜스포머 발전이 이끈 초거대 AI 시대

트랜스포머는 초거대 AI 발전에도 영향을 끼쳤다. 연구자들은 트랜스포머를 활용하며 그 규모가 클수록 성능이 좋아진다는 사실을 발견했다. 파라미터(매개변수)가 많을수록 더 많은 데이터를 처리해 AI 성능을 높일 수 있다는 것을 찾아낸 것.

일례로 AI와 생물학 접목 연구를 진행하는 뮌헨공과대학교 소속 로스트랩(Rostlab) 연구진은 자연어처리(NLP)를 활용해 단백질을 연구하며 더 높은 성능을 위해 파라미터가 높은 모델로 시스템을 변경했다. 기존에는 9000만 개 매개변수를 가진 RNN 모델을 사용했지만 지금은 5억 6700만 개 파라미터를 가진 트랜스포머 모델을 사용 중이다. 모델 변경에만 18개월이 걸렸다.

로스트랩 연구진에 따르면 라벨링된 샘플 없이 훈련을 진행한 언어 모델이 단백질 시퀀스의 신호를 포착한다. (사진=엔비디아)

파라미터가 많을수록 성능이 좋아진다는 발견은 초거대 AI 시대를 이끌었다. 오픈AI는 GPT(Generative Pretrained Transformer)를 통해 대규모 모델의 우수함을 증명했다. 최신 버전인 GPT-3는 1750억 개의 파라미터를 갖추고 있다. 기존 GPT-2(15억 개)보다 약 117배 많은 양이다. 영국 가디언에 칼럼을 쓴 AI가 바로 이 GPT-3다. 

국내에 선보인 초거대 AI 모델도 많은 파라미터를 보유하고 있다. LG AI연구원이 개발한 '엑사원'은 약 3000억 개의 파라미터를 보유하고 있다. 엑사원은 최근 의상 디자인 패턴을 생성하기도 했다. 이 디자인은 최근 열린 뉴욕 패션위크에 소개됐다. 국내에 많이 알려진 네이버의 하이퍼클로바는 2040억 개의 파라미터를 갖추고 있다. 

엔비디아와 마이크로소프트는 지난해 11월 5300억 개의 파라미터를 가진 MT-NLG(Megatron-Turing Natural Language Generation) 모델을 발표했다. 이 모델은 새로운 프레임워크인 엔비디아 네모(NeMo) 메가트론과 함께 공개됐다. 

이 모델은 지난해 GTC 키노트에 등장한 토이 젠슨(Toy Jensen) 아바타에 탑재된 AI로 처음 공개됐다. 엔비디아 관계자는 "이 모델은 수천억 개의 데이터 요소를 사용해 훈련했다"면서 "수천 개의 그래픽처리장치(GPU)를 동원해 수 주일 동안 훈련을 진행했다"고 밝혔다.

트랜스포머의 최근 연구 동향은?

트랜스포머 모델이 AI 발전에 차지하는 영향력이 큰 만큼 각 기업에서는 높은 트랜스포머를 갖춘 AI 모델 개발을 이어가고 있다. 최근에는 억 단위를 넘어 조 단위의 파라미터를 보유한 트랜스포머 개발이 한창이다.

성능 강화 경쟁 속에서 트랜스포머 모델의 규모가 점차 커지고 있다. (사진=엔비디아)

지난해 구글 연구진은 최초의 조 단위 파라미터 모델인 '스위치 트랜스포머(Switch Transformer)'를 선보였다. AI 희소성과 복잡한 MoE(mixture-of experts) 아키텍처 등을 통해 언어 처리 성능을 개선했다. 사전 훈련 속도도 최대 7배 높였다. 

마이크로소프트 애저(Azure)의 경우 엔비디아와 함께 트랜스레이터(Translator) 서비스용 'MoE 트랜스포머'를 선보이기도 했다.

모스토파 팻워리(Mostofa Patwary) 엔비디아 선임 연구자는 "엔비디아는 초거대 AI 모델의 더 우수한 쓰임새를 끝없이 탐색하고 있다"며 "모델의 성능과 규모 개선에 도움이 되도록 실패 사례도 함께 연구하고 있다"고 밝혔다.

트랜스포머는 초거대 모델로만 개발되고 있지는 않다. 일각에서는 파라미터의 개수가 적지만 초거대 AI 모델과 비슷한 성능을 제공하는 트랜스포머 개발을 진행하고 있다. 에이단 고메즈(Aidan Gomez) 코히어 최고경영자(CEO)는 딥마인드의 레트로(Retro) 모델을 예로 들며 "검색 기반(retrieval-based) 모델의 가능성을 보고 또 하나의 돌파구를 찾은 듯해 기뻤다"며 "(이 모델은) 지식들이 모여 있는 거점에 무엇을 넣을지 선택할 수 있어 좋다”고 덧붙였다.

에이단 고메즈 CEO는 트랜스포머를 처음 정의한 구글의 2017년 논문 공동저자다. 당시 그는 구글 인턴으로 연구에 참여했다. 지금은 트랜스포머 기반 언어 처리 서비스를 제공하는 스타트업 코히어를 운영하고 있다.

엔비디아 GPU H100, 새로운 AI 시대 예고

이와 같은 트랜스포머 연구에는 꼭 필요한 존재가 있다. 컴퓨팅 자원이다. 데이터를 병렬처리해 학습하는 GPU가 트랜스포머 발전에 필요한 대표적 컴퓨팅 자원이다.

엔비디아는 최근 열린 GTC 2022 행사에서 초거대 트랜스포머 모델에 필요한 컴퓨팅 능력을 제공할 수 있는 GPU 'H100'을 공개했다. 초당 40테라비트를 처리할 수 있는 초고성능 GPU다. 대만 TSMC의 4나노 공정에서 생산된다.

이 GPU의 등장은 새로운 AI 시대의 예고편과 같다. 조 단위의 파라미터 시대를 앞당길 수 있고 파라미터가 적지만 높은 성능을 낼 수 있는 트랜스포머 연구를 앞당길 수 있기 때문이다.

엔비디아는 H100 GPU로 트랜스포머의 훈련과 추론 속도를 대폭 개선할 수 있다고 밝혔다. (사진=엔비디아)

엔비디아는 H100 칩으로 AI 발전을 가속화 할 수 있다고 밝혔다. 최근 AI가 생명공학, 로보틱스, 자율주행차 등 다양한 산업 영역에 적용되고 있는데 H100을 사용할 경우 AI가 더 빠르고 효과적으로 구현될 수 있다고 설명했다.

젠슨 황 엔비디아 CEO는 "H100은 AI 인프라의 엔진"이라고 강조했다. 그는 "20개의 H100 칩은 전 세계 모든 인터넷 트래픽에 맞먹는 대역폭을 지탱할 수 있다"면서 "(이 모델을 사용하면) 트랜스포머 모델의 훈련기간을 수 주일에서 수 일로 단축할 수 있다"고 밝혔다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(출처:http://www.aitimes.com/news/articleView.html?idxno)

728x90