구글, 제미나이 1.5 프로 공개…”1시간 동영상 한번에 처리”

구글은 15일 자체 개발한 멀티모달 인공지능(AI) 모델 제미나이 1.0 프로의 업데이트 버전을 공개했다.

제미나이는 학습 규모에 따라 울트라·프로·나노로 나뉘는데, 이날 공개한 ‘제미나이 1.5 프로’는 구글의 최신 AI 모델인 ‘제미나이 1.0 울트라’와 비슷한 수준으로 텍스트·이미지·음성·영상을 생성하는 중형 멀티모달 모델이다.

구글은 제미나이 1.5 프로가 기존 1.0 프로보다 동시에 정보를 처리할 수 있는 능력이 크게 향상돼 긴 문맥을 이해하는 역량이 뛰어나다고 설명했다.

AI 모델이 한 번에 처리할 수 있는 정보의 양을 ‘콘텍스트 윈도(context window)’라고 하는데, 이는 단어·이미지·영상·오디오·코드 등의 의미를 가진 ‘토큰(token)’이라는 단위로 구성된다.

제미나이 1.5 프로는 최대 100만개의 토큰 처리 능력을 갖췄다. 이는 기존 1.0 프로가 수행하는 3만2천개의 토큰 처리 규모를 크게 뛰어넘는 것이다.

1시간 분량의 동영상과 11시간 분량의 음성 파일, 3만 줄 이상의 코드, 70만 단어 이상의 텍스트에 해당하는 방대한 정보를 한 번에 처리할 수 있다.

400페이지가 넘는 분량의 아폴로 11호 달 탐사 임무 관련 문서가 주어지면 문서 전체 내용과 이미지, 세부 정보를 추론한다.

미국 배우 버스터 키튼의 무성영화를 보여주면 영화 구성과 사건 등을 분석하고 놓치기 쉬운 세부 내용까지도 파악한다고 구글은 설명했다.

문맥 기반 학습 능력도 뛰어나 소멸 위기 언어인 칼라망(Kalamang)어의 문법서를 학습하면 사람과 비슷한 수준으로 영어-칼라망어 번역을 수행한다.

제미나이 1.5 프로는 개발자를 위한 AI 개발 도구인 ‘구글 AI스튜디오’와 기업들이 AI 모델을 활용할 수 있는 플랫폼 ‘버텍스 AI’를 통해 프리뷰 버전으로 제공된다.

Related Content