샤오미가 만든 오픈소스 거대 언어 모델 시리즈로, 1조 파라미터 규모의 MoE 모델을 1M 토큰 컨텍스트로 돌린다. UltraSpeed 버전은 표준 GPU 한 노드만으로 초당 1,000 토큰 생성 속도를 처음으로 돌파해 화제가 됐다.
MiMo v2.5는 샤오미가 공개한 오픈소스 거대 언어 모델 시리즈다. 핵심 모델인 MiMo-V2.5-Pro는 총 1.02조 개의 파라미터를 가지지만 토큰 하나를 처리할 때 그중 42B만 켜지는 MoE(전문가 혼합) 구조라, 거대한 모델을 비교적 적은 연산으로 굴린다. 컨텍스트 길이가 최대 1M 토큰이라 수천 번의 도구 호출이 필요한 긴 작업이나 큰 코드베이스를 통째로 넣는 용도에 맞춰 설계됐다.
최근 화제가 된 건 속도를 극단까지 끌어올린 UltraSpeed 버전이다. 추론 시스템 전문 팀인 TileRT와 협업해, 1조 파라미터급 모델에서 처음으로 초당 1,000 토큰 생성 속도를 돌파했다. 핵심은 방식이다 — 세레브라스처럼 웨이퍼 한 장을 통째로 쓰는 특수 하드웨어가 아니라, 어디서나 구할 수 있는 표준 8-GPU 노드 한 대만으로 이 속도를 냈다. 모델이 이만큼 빨라지면 기다려야 하는 도구가 아니라 생각의 속도에 맞춰 실시간으로 반응하는 동료에 가까워진다.
개발자는 샤오미 MiMo API나 OpenRouter 같은 게이트웨이로 호출하고, OpenCode·Claude Code 같은 에이전트 도구에 모델로 연결해 쓴다. 1M 컨텍스트 덕분에 대형 저장소를 통째로 올려놓고 자율 코딩을 시키는 식의 활용이 많다 — 실제로 한 사용자는 이 모델로 301번의 커밋과 60여 페이지 분량을 자율 작성하게 했다. ClawEval·GDPVal·SWE-bench Pro 같은 에이전트·소프트웨어 엔지니어링 벤치마크에서 상위권을 차지한다.
언어 백본은 MiMo-V2-Flash 구조를 물려받아, 가벼운 슬라이딩 윈도우 어텐션과 무거운 글로벌 어텐션을 6:1로 번갈아 끼우는 하이브리드 어텐션을 쓴다. 384개 전문가 중 토큰당 8개를 고르고, 3-layer MTP(Multi-Token Prediction) 헤드로 추측적 디코딩을 가능하게 해 속도를 끌어올린다. 가중치는 처음부터 FP8로 만들어져 메모리와 연산을 아낀다. UltraSpeed의 1,000 TPS는 단일 기법이 아니라 모델 팀과 시스템 팀이 함께 설계(codesign)한 결과물이다.
UltraSpeed는 고속 추론 자원이 제한적이라 신청 기반의 한정 기간(6월 8~23일)으로만 열렸고, 가격도 일반 MiMo-V2.5-Pro의 3배다(대신 약 10배 빠름). 일반 API의 기본 출력 속도는 초당 50토큰 안팎으로 평범한 편이며, 벤치마크에서 토큰을 많이 쓰는(verbose) 경향이 있어 그만큼 출력 비용이 늘 수 있다.