본문 바로가기
인공지능(AI)

AI 기반 자동 레이블링 시스템 출시

by 아담스미스 2022. 4. 15.
728x90
반응형

“데이터 부족 걱정마”…AI 기반 자동 레이블링 시스템 출시

 

레이블(lable)이 지정된 데이터 세트를 자동으로 생성
광범위한 컴퓨터 비전 분야의 레이블링 작업에 활용
마이크로 모델링 기반의 능동적 학습 프로세스 적용

의료 이미지 분석을 위해 레이블(lable)이 지정된 데이터 세트를 자동으로 생성하는 AI 시스템이 출시됐다.(사진=인코드)

의료 이미지 분석을 위해 레이블(lable)이 지정된 데이터 세트를 자동으로 생성하는 AI 시스템이 출시됐다. 의료 영상, 자율 차량, 농업, 및 위성 영상 등 광범위한 컴퓨터 비전 분야의 레이블링 작업에 활용될 전망이다.

IT전문매체인 테크크런치(TechCrunch)에 따르면 미국의 스타트업 인코드(Encord)가 컴퓨터 비전 프로젝트를 위한 레이블이 지정된 데이터 세트를 생성하는 AI 기반 레이블링 시스템 ‘코드비전(CodeVision)’을 출시했다. 레이블이 지정된 데이터 세트는 알고리즘이 학습할 수 있는 ‘근거’를 제공하기 때문에 중요하다. 레이블이 지정된 데이터 세트가 필요하지 않은 AI를 구축하는 학습 방법이 있지만 많은 AI는 이를 필요로 하는 지도 학습(supervised learning)에 의존한다.

특히 의료 분야에서는 레이블이 지정된 데이터 세트를 만들기 위해 두 명 이상의 의사가 문자 그대로 이미지를 하나씩 살펴보고 관련 특징 주위에 경계 박스(bounding boxes)를 그려서 표시한다. 때로는 오픈 소스 도구나 센서가 사람을 대신하기도 하지만 어떤 경우든 이 단계가 의료 AI 세계의 주요 병목지점이다. 특히 방사선과의 경우 AI가 큰 발전을 이룰 것으로 기대했지만 AI 에 의한 패러다임 전환을 제공하는 데 실패한 영역 중 하나이기도 하다.

인코더의 공동창업자인 에릭 랜다우(Eric Landau)는 “의료계에서 AI에 대해 많은 회의론이 있다는 것을 안다. 진행이 정말 느리다고 생각한다”며, "훈련 데이터에 대한 접근 방식을 시작부터 전환하는 것이 이러한 모델의 진행을 가속화하는 데 도움이 될 것이라고 생각한다"고 말했다.

국제학술지인 ‘Frontiers in Radiology’에 실린 2021년 논문에 따르면, 약 100,000개의 이미지로 구성된 데이터 세트에 인간 레이블러가 레이블을 지정하려면 무려 24년이 필요하다. 즉, 의료 이미지 분석에서 레이블이 지정된 데이터를 얻는데 시간과 비용이 많이 소요될 수 있다. 논문은 사람이 레이블 지정에 수동적으로 개입하는 대신 AI를 이용해 능동적인 학습 접근 방식을 적용하면 프로세스가 87% 더 빨라질 수 있다고 주장한다. 100,000개의 이미지에 레이블을 지정하는데 24년이 아닌 3.2년만 필요하게 된다.

인코드가 출시한 코드비전은 마이크로 모델링(micro-modeling)이라고 하는 능동적 학습 프로세스다. 이 기술은 이미지 세트 중에서 작은 수의 대표적인 샘플(이미지)에 대해서만 레이블을 지정한다. 그런 다음 특정 AI가 해당 이미지들을 학습한 후 AI가 레이블을 지정하는 더 큰 이미지 세트에 적용된다. 그러면 인간 레이블러가 처음부터 레이블링을 수행할 필요없이 AI의 작업을 확인할 수 있다.

크리스찬 베일 주연의 다크 나이트 배트맨.(사진=인코드)

예를 들어 배트맨 영화에서 배트맨을 감지하도록 설계된 알고리즘을 만드는 것을 가정해 보면, 마이크로 모델은 크리스찬 베일(Christian Bale)이 주연인 배트맨을 묘사하는 5개의 이미지를 학습한다. 또한 여기에 아담 웨스트(Adam West), 마이클 키튼(Michael Keaton), 벤 에플렉(Ben Affleck) 등이 주연한 배트맨을 인식하도록 수동 레이블을 추가해 학습할 수 있다. 각각의 작은 부분을 사용하여 더 큰 알고리즘을 만든 다음 배트맨 시리즈 전체에서 적용할 수 있다.

배트맨 마이크로 모델을 훈련하는 데 사용되는 5가지 레이블.(사진=인코드)

랜다우는 “아주 적은 레이블만 지정해서 프로세스를 가속할 수 있기 때문에 아주 잘 작동한다는 사실을 알게 되었다"고 말했다.

Kings College London과 함께 수행한 연구에서는 인텔(Intel)이 개발한 레이블링 프로그램과 코드비전을 비교했다. 5명의 레이블러가 25,744개의 내시경 비디오 프레임을 처리하는데 코드비전이 6.4배 더 빨랐다. 이 방법은 15,521개의 코로나19 엑스레이 테스트 세트에 적용했을 때도 효과적이었다. 전체 이미지의 5%만 사람들이 검토했고, AI 레이블링 모델의 정확도는 93.7%였다.

코드비전이 위내시경에서 감지한 용종.(사진=인코드)

코드비전은 데이터에 레이블을 지정하는 데 많은 시간을 절약할 수 있음을 보여주었다. 지능적이지만 접근 가능한 도구를 제공하면 시간 절약을 통해 레이블링을 위한 병목 지점을 제거하고 궁극적으로 데이터의 부족을 해결할 수 있다.

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
(출처:http://www.aitimes.com/news/articleView.html?idxno)
728x90