모델

레카

Reka

텍스트뿐 아니라 이미지·영상·오디오를 한꺼번에 이해하도록 처음부터 통째로 학습된 멀티모달 모델 시리즈. DeepMind 출신 연구진이 세운 Reka AI가 만든다.

무슨 모델인가

대부분의 언어 모델은 글자를 다루도록 만들어지고, 나중에 이미지나 영상을 보는 능력을 덧붙인다. Reka는 처음부터 텍스트·이미지·영상·오디오를 한 묶음으로 학습한 네이티브 멀티모달 모델 시리즈다. 그래서 한 번의 요청에 영상 클립을 던지면서 "이 장면에서 무슨 일이 벌어지는지 설명하고, 음성에서 들리는 말도 받아써 줘" 같은 걸 자연스럽게 처리한다. DeepMind의 AlphaCode·Bard를 만들었던 연구진이 2023년에 세운 샌프란시스코의 AI 연구소 Reka AI가 개발한다.

모델은 크기와 용도에 따라 나뉜다. 가장 강력한 Reka Core, 가볍고 빠른 Reka Flash, 그리고 기기에서 직접 돌릴 만큼 작은 Reka Edge가 대표적이다. Flash 계열은 21B 규모로 "성능 대비 효율"을 노린 모델이라 비용을 아끼면서 멀티모달 작업을 돌리고 싶을 때 자주 거론된다.

어떻게 쓰나

가장 눈에 띄는 활용은 영상 이해다. 긴 유튜브 영상을 넣으면 핵심 장면을 골라 짧은 클립으로 잘라내는 Reka Vision 워크플로우가 대표적인데, n8n 같은 자동화 도구와 묶어 "새 영상이 올라올 때마다 자동으로 숏폼 클립을 만들어 메일로 알림" 같은 파이프라인을 짤 수 있다. 영상 보안 분야에서는 CCTV 같은 영상에서 특정 사건을 찾아내는 데도 쓰인다.

오픈 웨이트로 풀린 모델들은 직접 내려받아 돌릴 수 있다. 예를 들어 작은 Reka Edge는 vLLM으로 로컬 서버에 올려 비전 작업을 처리하거나, OpenRouter 같은 게이트웨이를 통해 코드를 안 바꾸고도 모델만 갈아끼우는 식으로 붙인다. Snowflake Cortex에 들어가 데이터가 있는 곳에서 바로 멀티모달 처리를 하도록 통합되기도 했다.

알아둘 점

Reka는 GPT나 Gemini 같은 초거대 프론티어 모델과 정면으로 규모 경쟁을 하기보다는, 효율과 멀티모달(특히 영상)에 집중하는 쪽이다. 그래서 "가장 똑똑한 단일 모델"이 필요한 작업보다는, 영상·이미지를 적당한 비용으로 대량 처리하거나 기기에서 직접 돌려야 하는 상황에 더 잘 맞는다.

#멀티모달#파운데이션 모델#비전-언어 모델#Reka

← AI Wiki에서 더 보기

updated at 2026-06-08