본문 바로가기
인공지능(AI)

문장 입력하면 ‘그림 완성’ 인공지능 신세계 연다

by 아담스미스 2022. 2. 1.
728x90
반응형

문장 입력하면 ‘그림 완성’ 인공지능 신세계 연다

AI 이미지처리 비약적 발전

사진·동영상에 자동 자막, 설명

텍스트 입력하면 이미지로 구현

인간 수준의 ‘이해’ 도달에 성큼

검색 고도화, 창작 활성화 기대

“경제적·윤리적 영향 연구 필요”

AI, 텍스트-그림 교차인식

오픈AI가 올해 초 공개한 인공지능 도구 달리(DALL·E)는 텍스트를 입력하면 의미를 이해해, 그림으로 표현해낸다. 달리에 “발레복을 입고 개를 산책시키는 아기 무”를 입력한 결과, 만들어진 그림의 일부. 오픈AI 제공.

사람처럼 글과 그림을 통합적으로 인식하고 처리할 수 있는 인공지능이 등장했다. 올해 초 미국의 비영리 인공지능 연구조직인 오픈에이아이(Open AI)가 개발한 인공지능은 텍스트를 입력하면 그에 해당하는 그림을 그려내는 능력을 선보였다. 오픈에이아이는 지난 8월 사람이 일상언어로 명령어를 내리면 인공지능이 자동으로 코딩을 하는 소프트웨어 개발도구 ‘코덱스’를 공개하기도 했다. 오픈에이아이가 개발한 인공지능 기반의 자연어 처리모델(GPT-3)을 활용한 이들 도구는 컴퓨터가 명시적인 작업지시 수행을 넘어서 사람처럼 말의 내용과 맥락을 이해하는 수준에 다가갔음을 보여준다. 지금까지 그림과 글에 담겨 있는 의미를 이해하고 다른 형태로 표현하는 능력은 인간만 지닌 고차원적인 인지능력으로 여겨졌지만, 인공지능의 도전이 시작된 셈이다.

달리(DALL·E)에 “아보카도 모양의 의자”라는 텍스트를 제시했을 때, 만들어진 이미지의 일부. 오픈AI 제공

■ AI, 사진설명 자동완성

컴퓨터 이미지 인식능력은 2012년 이미지넷 대회에서 캐나다 토론토대의 제프리 힌튼 교수가 심화신경망 방식의 인공지능을 선보인 이후 비약적 발전을 거듭했다. 개와 고양이 식별과 같은 해묵은 과제를 해결한 것은 물론, 사람보다 뛰어난 ‘시력’을 과시하며 얼굴인식 잠금해제 등으로 실용화됐다. 스마트폰의 사진관리 도구는 수많은 사진에서 등장인물과 배경 등 내용에 따라 자동 분류하고 태그를 달아주는 기능을 제공한다. 구글은 2016년 자사의 머신러닝 시스템인 텐서플로를 활용해 인공지능이 사진설명을 자동으로 작성하는 기능을 오픈소스 소프트웨어 공유플랫폼인 깃허브에 공개했다. 사람이 일일이 사진을 보고 설명을 입력할 필요가 없어졌다. 구글은 2019년 이를 스마트폰에서 동영상에 자동으로 자막을 달아주는 ‘라이브캡션’ 기능으로 출시했다. 마이크로소프트(MS)는 지난해 10월 자사의 사진설명(캡션) 자동입력 정확도를 2배 높여 사람 수준으로 업그레이드했다고 발표했다. 이 기능은 시각장애인을 위한 앱에 탑재된 데 이어 엠에스의 워드, 파워포인트 등 오피스 도구에 적용될 예정이다.

 

 

■ 문장 입력하면 AI가 그림생성

오픈에이아이는 지난 1월 문장을 입력하면 인공지능이 자동으로 그림으로 구현해내는 ‘달리(DALL·E)’를 공개했다. 인공지능 자연어처리모델과 이미지인식 기술을 활용해 이전에 학습한 적 없는 이미지도 입력된 문장만으로 그려낸다. 방대한 텍스트-이미지 데이터세트를 학습하고 문장에서 이미지를 만들어내도록 훈련됐다. ‘달리’는 초현실주의 화가 살바도르 달리와 픽사의 애니메이션 월·이(WALL·E)를 합성해 만든 이름이다. 달리는 홈페이지에서 영어로 텍스트를 입력하면 이를 다양한 그림으로 구현한 사례를 예시했다. ‘아보카도 모양의 의자’나 ‘녹색 셔츠, 노란 바지를 입고 파란 모자와 빨간 장갑을 낀 아기 펭귄 이모지’를 입력하면 이를 구현한 다양한 이미지 샘플이 제시됐다. 달리는 ‘발레복을 입고 개를 산책시키는 아기 무’, ‘기린처럼 생긴 거북’처럼 등 실재하지 않는 경우를 제시한 문장도 다양한 형태로 구현했다. 오픈에이아이는 블로그에서 “서로 다른 아이디어를 결합해 사물을 합성해낼 수 있으며 현실에 존재하지 않는 것도 구현 가능하다”며 “이런 기능을 예상하지 못했고 훈련 방식을 수정한 바 없다”고 말했다.

인공지능 개발자 파시 라샤드는 최근 달리처럼 문장을 입력하면 인공지능이 이미지로 구현해주는 서비스를 개발해 정보기술매체 <미디엄>에 공개했다. 라샤드가 개발한 ‘텍스트투아트닷컴(Text2Art.com)’ 사이트에 접속하면 누구나 영어 문장 입력만으로 인공지능이 만든 이미지를 얻을 수 있다.

마이크로소프트가 2020년 10월 공개한 사진설명 자동입력 기능은 “산꼭대기에 서 있는 남자”라고 제공된 기존 설명이 “서핑보드를 갖고 있는 남자”라고 개선됐다. 마이크로소프트 제공

■ 어디에 활용될까

시각장애인들에게 요긴할 도구로 기대받고 있다. 텍스트-이미지 교차 구현이 고도화하면 동영상 찾기 등 검색 품질과 방법도 획기적으로 달라진다. 현재 구글 렌즈처럼 이미지 안의 텍스트 등 특정요소를 검색해주는 기능은 크게 개선된다. 네이버웹툰은 최근 인공지능을 이용해 웹툰에 자동으로 색깔을 입혀주는 ‘웹툰 AI페인터’ 베타 서비스를 내놓았다. 앞으로 달리와 같은 기능을 접목시켜 고도화하면 웹소설을 웹툰으로 전환하는 길이 열려 창작의 문턱이 크게 낮아질 수 있다.

 

 

오픈에이아이는 문장 입력만으로 이미지를 만들어내는 달리에 대해 “중요하고 광범한 사회적 영향을 끼칠 수 있다”며 “달리와 같은 도구가 특정 업무나 직업에 끼칠 경제적 영향, 결과물의 편향 가능성, 장기적 차원의 윤리적 문제 등 사회적 과제에 대해 연구할 계획”이라고 블로그에서 밝혔다.

인공지능이 사람처럼 이미지와 문장을 통합적으로 인식하고 자유롭게 교차 구현할 수 있게 된다는 것은 인간 인지능력에 한층 접근했음을 알려준다. 컴퓨터는 정교하고 빠른 연산능력에서 인간을 압도했지만, 인간과 같은 ‘이해’는 불가능했다. 인공지능이 글과 그림에 대한 통합처리 기능을 통해 일종의 맥락 이해 능력을 보인다는 것은 편리함과 함께 이로 인한 새로운 사회적 문제의 발생도 예고한다.

 

 

 

 

 

(출처:https://www.hani.co.kr/arti/science/technology/1017393.html)

728x90