중국의 MiniMax가 만든 AI 모델 시리즈로, 100만 토큰을 다루는 오픈웨이트 코딩·에이전트 모델 M3와 음성·음악·영상 생성 모델까지 아우른다. 프론티어급 성능을 훨씬 싼 값에 쓸 수 있어 주목받는다.
MiniMax는 중국의 AI 스타트업이자 그곳에서 내놓는 모델들을 통칭하는 이름이다. 가장 화제가 된 건 MiniMax M3인데, 이건 가중치를 공개한 오픈웨이트 모델이면서도 코딩과 에이전트 작업에서 최상위권 성능을 내는 게 특징이다. 그동안은 100만 토큰짜리 긴 문맥, 멀티모달, 프론티어급 코딩 능력을 동시에 갖춘 모델은 사실상 닫힌(폐쇄형) 모델 몇 개뿐이었는데, M3는 이걸 누구나 내려받아 쓸 수 있는 형태로 풀어버린 셈이다.
핵심 기술은 MiniMax Sparse Attention(MSA)라는 구조다. 보통 모델은 문맥이 길어질수록 모든 토큰끼리 일일이 관계를 계산하느라 비용이 폭발하는데, MSA는 전체를 다 보는 대신 중요한 KV 블록만 골라서 보는 방식으로 토큰당 연산을 확 줄인다. 그 결과 100만 토큰 길이에서도 이전 세대 대비 약 1/20 수준의 비용으로, 더 빠른 응답을 내면서 품질은 거의 유지한다.
개발자 입장에서 가장 손쉬운 길은 claude-code나 VS Code 같은 익숙한 코딩 도구에 M3를 연결해서 쓰는 것이다. 예를 들어 Ollama에서 ollama run minimax-m3:cloud로 불러오거나 OpenRouter·Together 같은 API 제공처를 통해 붙이면, 평소 쓰던 에이전트 워크플로우는 그대로 두고 모델만 갈아끼우는 식으로 동작한다. 100만 토큰 문맥 덕분에 거대한 코드베이스 전체를 한 번에 넣고 여러 파일을 오가며 리팩토링하거나, 여러 단계에 걸친 긴 작업(long-horizon task)을 중간에 끊기지 않고 처리하는 데 잘 맞는다.
M3는 단발성 질의응답보다 여러 턴에 걸친 협업과 도구 사용에 맞춰 튜닝됐다. 사용자 행동을 흉내 내는 시뮬레이터로 다회차 상호작용을 학습시켰기 때문에, 한 번 시키고 끝이 아니라 사람과 주고받으며 계획하고 도구를 호출하는 에이전트형 작업에서 강점을 보인다. 비용이 폐쇄형 프론티어 모델의 수십분의 일 수준이라, 개인 개발자가 평소엔 비싸서 못 돌리던 대규모 에이전트 실험을 부담 없이 해볼 수 있다는 점이 특히 화제가 됐다.
MiniMax라는 이름 아래에는 텍스트 모델뿐 아니라 음성 합성(MiniMax Audio/Speech), 음악 생성(Music), 영상 생성(Hailuo) 모델도 함께 묶여 있다. 한국에서는 감정 표현이 살아있는 음성 복제와 다국어 TTS로 먼저 알려졌고, 영상이나 음성 생성 기능은 mcp 서버 형태로도 열려 있어 다른 AI 도구에서 도구로 불러 쓸 수 있다.