영상 인공지능(AI) 분야 스타트업 트웰브랩스가 마이크로소프트(MS)가 주최한 AI 영상 인식 대회(VALUE Challenge 2021, 이하 밸류 챌린지)의 영상 검색 트랙(Video Retrieval Track)에서 텐센트, 카카오, 컬럼비아대 등 유수의 팀을 제치고 우승했다. 대회에는 트웰브랩스 이승준 CTO와 카이스트 AI 대학원 서민준 교수 연구팀(오한석 석사 과정)이 함께 참여했다.
이번 밸류 챌린지는 컴퓨터 비전 분야에서 권위 있는 학회인 ICCV (International Conference on Computer Vision)가 진행하는 행사의 하나로 MS가 주최한다. 대회는 영상에 대한 인공지능의 이해 능력을 평가하는 세계 최초의 비교·평가 대회로, 올해 6~9월 진행됐다. 영상은 시각 및 음성 정보를 모두 포함하는 비정형 데이터로, 영상을 마치 사람처럼 이해하고 주어진 문장에 부합하는 장면을 정확하게 찾는 기술(Video Corpus Moment Retrieval)은 차세대 인공 일반 지능(Artificial General Intelligence) 연구 분야에서 핵심 기술로 주목된다.
밸류 챌린지에서는 3개 트랙으로 나눠 열띤 경쟁이 펼쳐졌다. 이 가운데 영상 검색 트랙에서는 특정 분야에 치우치지 않은 7만4000개의 다양한 동영상에 담긴 시각·음성 정보를 분석해, 주어진 문장에 해당되는 영상 내 구간을 빠르고 정확하게 찾는 것이 평가 기준이다.
트웰브랩스, 카이스트 서민준 교수 연구팀은 시각 정보에 특화한 기존 영상 검색 기술에서 진일보해 음성과 시간 흐름 등의 다양한 정보까지 종합적으로 인식할 수 있도록 AI 모델을 학습해 인식률을 극대화했다. 또 여러 유형의 콘텐츠를 이해할 수 있는 하나의 AI 모델을 독자적으로 개발해 기술 범용성까지 입증했다. 이번 대회에서 트웰브랩스-카이스트 AI대학원 팀은 MS가 기록한 역대 최고 정확도를 앞질렀을 뿐만 아니라, 글로벌 기술 기업인 텐센트·카카오브레인과 미국 컬럼비아대 연구팀 등을 제치고 전 세계 1위를 차지했다.
이재성 트웰브랩스 대표는 “영상은 전 세계 데이터의 80%를 차지할 정도로, 우리가 살아가는 세상을 저장하는 중요한 데이터”라며 “영상 검색 기술의 고도화로 인공지능이 영상을 실시간으로 이해하면 지능형 로봇과 사물인터넷(IoT) 기기의 패러다임이 바뀔 뿐만 아니라, SF 영화에서만 보던 혁신 기술을 구현하는 데 도움이 될 것”이라고 말했다.
이 대표는 “이번 대회는 우리나라 스타트업도 글로벌 시장에서 경쟁이 가능한 인공지능 기술력을 보유할 수 있다는 것을 전 세계에 알렸다는 데 큰 의미가 있다”고 우승 소감을 밝혔다.
트웰브랩스는 올해 1월에 창업해 영상에 최적화한 인공지능 기반 클라우드 데이터 인프라를 만드는 기술 스타트업이다. 미국 아마존과 삼성전자에서 AI 소프트웨어 엔지니어로 근무한 이재성 대표가 국군 사이버작전사령부에서 함께 복무한 세 명의 동기와 의기투합해 만들었다. 사용자가 올린 영상에서 원하는 구간·장면을 쉽게 찾을 수 있도록 AI 검색 엔진을 서비스하고 있다. 해당 서비스는 로컬 뿐만 아니라 클라우드 플랫폼에서도 구현할 수 있는 API를 제공해 범용 플랫폼으로 주목받고 있다.