스마트폰 회사 샤오미가 만든 오픈소스 대규모 언어 모델 계열. 코딩과 에이전트 작업에 강하면서 비슷한 성능의 해외 모델보다 훨씬 싸서 주목받는다.
우리가 아는 그 스마트폰·가전 회사 샤오미가 직접 만든 언어 모델이 MiMo다. 2025년 4월 작은 70억 파라미터짜리 MiMo-7B로 시작했는데, 이 모델의 콘셉트가 좀 독특했다. 크기는 작지만 수학·코딩 같은 추론 문제를 끝까지 물고 늘어지도록 사전학습부터 설계해서, 강화학습으로 다듬으면 훨씬 큰 모델인 OpenAI o1-mini나 DeepSeek R1급 성적을 내게 만든 것이다. 작은 모델도 추론 잠재력을 제대로 끌어내면 덩치값을 한다는 걸 보여준 셈이다.
이후 샤오미는 본격적인 대형 모델로 넘어가 MiMo-V2-Flash, MiMo-V2-Pro, 그리고 MiMo-V2.5 계열까지 빠르게 내놓았다. 특히 V2.5 시리즈는 MIT 라이선스로 공개해서 누구나 상업적으로 쓰고, 추가 학습하고, 파인튜닝할 수 있게 풀었다.
MiMo가 화제가 된 이유는 두 가지다. 첫째는 에이전트와 코딩에 특화됐다는 점이다. MiMo-V2-Flash는 256K 토큰의 긴 컨텍스트와 생각을 켜고 끄는 하이브리드 추론 토글을 지원하고, 실제 깃허브 이슈를 고치는 SWE-bench 같은 코딩 벤치마크에서 오픈소스 모델 중 최상위권을 기록했다. 상위 모델인 MiMo-V2-Pro는 코드 설계와 작업 계획 능력에서 Claude Opus급에 근접한다는 평가를 받았다.
둘째는 가격이다. 비슷한 성능을 내는 해외 상용 모델의 몇 십 분의 일 수준 비용이라, 'AI 가격 경쟁을 불편하게 만든다'는 말이 나올 정도다. 성능 대비 싸다는 점 때문에 코딩 도구를 만드는 개발자들이 빠르게 채택했다.
샤오미는 MiMo를 별도 앱이 아니라 API와 개발 도구 연동 중심으로 풀었다. OpenAI 호환 API와 Anthropic 호환 API를 둘 다 제공해서, 기존에 GPT나 Claude를 쓰던 코드에서 엔드포인트만 MiMo로 바꿔 끼우면 거의 그대로 돌아간다. 그래서 Claude Code, OpenCode, Cline, Qwen Code 같은 코딩 에이전트 도구에 모델만 MiMo로 지정해 붙이는 식으로 많이 쓴다.
가중치가 Hugging Face에 공개돼 있어서 vLLM 같은 서빙 엔진으로 직접 돌리거나 로컬에서 구동할 수도 있다. 음성 인식(ASR)·음성 합성(TTS)·멀티모달 이해 모델까지 함께 공개해, 텍스트뿐 아니라 음성·이미지·영상을 다루는 에이전트를 한 계열 안에서 구성할 수 있다.
버전이 V2, V2.5, Pro, Flash로 빠르게 갈라져 나와서 어떤 모델이 무슨 용도인지 헷갈리기 쉽다. 또 벤치마크 점수가 높다고 모든 작업에서 최상위 상용 모델을 대체하는 건 아니라서, 실제 쓰려는 작업에 맞는지 직접 테스트해 보는 게 좋다.