이미지로 검색하는 시대, ‘멀티모달 LLM’이 온다.

media trend

이미지로 검색하는 시대, ‘멀티모달 LLM’이 온다.

2024-03-21

Writer: gwen

Pulsar-AV1

LLM은 대형 언어 모델(Large Language Model)로, 챗GPT 서비스의 기반이 되는 생성형 AI 입니다. ‘대형(Large)’이라는 이름에서 알 수 있듯이 LLM은 엄청난 데이터를 학습해 인간과 비슷한 수준의 태스크를 수행할 수 있는 능력을 갖추고 있습니다. 챗GPT가 처음 등장 했을 때 다른 챗봇과 다르게 정확도 높은 답변으로 전세계인들의 이목을 사로잡을 수 있었던 비결이기도 하죠. 그리고 최근 업그레이드 된 LLM이 등장하고 있는데요, 기존에는 텍스트만 입출력이 가능했다면 이제는 이미지도 읽고 출력할 수 있다고 합니다.

오픈AI도, 구글도, 그리고 AWS도 뛰어든 ‘멀티모달 LLM’.

오픈AI는 챗GPT를 출시한 지 1년만에 멀티모달 기능이 탑재된 새로운 거대언어모델을 공개했습니다. 멀티모달 기능이 적용된 ‘GPT-4V’는 텍스트는 물론, 이미지나 음성과 같이 다른 방식으로도 명령을 내리면 AI가 이를 인지하고 값을 출력할 수 있는데요. 이미지와 음성을 인식하는 것은 텍스트와 비교 할 수 없을 정도로 고도화된 기술이기 때문에 등장까지 오랜 시간이 걸릴 것으로 예측했지만, 오픈AI는 빠른 시간 내에 ‘GPT-4V’를 공개했으며, 이미지를 입력하고 이미지에 대한 질문에 대해 수준 높은 답변을 구사하는 인공지능 모델로 사용자들을 사로잡으며 경쟁사들을 다시 한 번 앞서갔습니다.

그리고 구글의 LLM ‘제미나이 1.0’의 핵심 기능 역시 멀티모달인데요. 구글은 단순히 사진을 입력하고 이에 대한 정보를 제공하는 것에서 나아가 이미지와 관련된 다양한 데이터 처리가 가능하게끔 기능을 추가해 산업에서의 활용도를 높였습니다. 그리고 최근 AWS의 멀티모달 LLM 참전도 주목했는데요, AWS는 작년 11월 개최된 ‘AWS re:Invent 2023’에서 이미지 생성 AI ‘타이탄’을 기반으로 한 타이탄의 멀티모달 버전을 발표했습니다.

AWS re:invent 2023에서 ‘아마존 Q’에 대해 설명하고 있는 AWS 최고경영자 애덤 셀렙스키 (출처: AWS)

멀티모달 LLM이 등장하게 된 이유

이처럼 글로벌 기업들이 멀티모달 LLM 시장에 참전하는 이유는 무엇일까요? 챗GPT를 시작으로 생성형 AI 붐이 일어난 것 처럼, 멀티모달 LLM 역시 AI 시장에서 새로운 게임체인저로 주목받고 있기 때문입니다. 우리는 더 이상 텍스트만으로 커뮤니케이션하지 않습니다. 음성은 물론 이미지, 동영상 등 다양한 미디어를 소비하며 소통하고 있죠. 실제로 1020세대가 주로 사용하는 검색 포털을 조사했을 때 ‘유튜브’가 1위로 선정되면서, 미디어 속 커뮤니케이션 언어가 텍스트에 국한되지 않는 것을 입증하고 있습니다.

그리고 최근 커뮤니케이션 관련 학문에서도 ‘이미지, 영상’을 활용한 커뮤니케이션에 대한 연구가 급증하고 있습니다. 게다가 한 매체에서는 ‘제로 텍스트’라는 표현까지 사용하면서 커뮤니케이션 방법의 다양성을 내세우곤 했는데요. 이러한 흐름 속에서 글로벌 IT 기업들은 소통이 주된 기능인 ‘LLM’에서 텍스트만 인지할 경우 사용에 제한이 발생할 것으로 판단하고, 이미지, 음성, 그리고 영상까지 다양한 커뮤니케이션 수단을 인지해야 치열한 경쟁 속에서 살아남을 수 있다고 생각한 것 같습니다.

이미지와 동영상으로 소통하는 세상에 적응하려면

이미지와 음성, 그리고 동영상이 주요 커뮤니케이션 수단으로 떠오른 지금, 우리는 다양한 커뮤니케이션 수단이 생겼다는 것에 편리함을 느끼고 있지만 한편으로는 엄청나게 거대해질 ‘데이터 문제’에 대해서도 생각해 보아야 합니다. 생성형 AI의 등장으로 데이터가 급증하고 있는 것은 이미 수면 위로 떠오른 문제죠. 그런데 LLM까지 멀티모달로 전환하게 된다면 엄청난 데이터를 가진 영상, 이미지 등이 증가하게 될 텐데, 이 문제를 어떻게 해결할 수 있을까요?

먼저 이미지와 동영상의 압축 효율을 높여, 높은 품질은 유지하면서 데이터를 줄일 수 있는 코덱을 적용하는 방법이 있습니다. AV1과 AVIF는 구글, MS, 아마존 등 글로벌 기업이 모인 비영리 단체 AOMedia에서 선보인 오픈 소스 코덱으로 AV1은 MP4 대비 50% 용량을 줄일 수 있으며, AVIF는 JPEG 대비 50%의 용량을 줄일 수 있습니다. 같은 품질에 데이터를 줄일 수 있다면 우리는 더 많은 고화질 영상과 이미지를 사용할 수 있어 데이터 문제를 해결하기 좋은 솔루션이 될 수 있습니다. 특히 블루닷의 AV1 코덱은 MSU 코덱 평가에서 세계 3위를 차지하면서 성능을 인정받아 인코딩 효율을 높여 비용을 줄일 수 있습니다.

멀티모달 LLM은 기존 텍스트만 활용하던 사용자들이 이미지, 음성, 그리고 영상까지 인식할 수 있게 되어 활용 범위를 넓혀주었습니다. 때문에 의료, 자율주행 등 다양한 산업에서 멀티모달 LLM은 든든한 지원군 역할을 할 수 있을 것으로 기대되며, 이 모델이 과연 또 한번 AI 시장의 ‘게임 체인저’가 될 수 있을지 지켜보는 것도 흥미로운 일이 될 것 같습니다.

#AV1
#AVIF
#동영상ai
#멀티모달
#멀티모달LLM
#블루닷
#Gemini
#GPT4V
#이미지ai

Inquiry For more information,

please contact us.

이미지로 검색하는 시대, ‘멀티모달 LLM’이 온다.

Loading Events...