모델

스텝 3.7

Step 3.7 Flash (StepFun)

중국 StepFun이 공개한 198B 규모의 멀티모달 오픈웨이트 모델로, 토큰당 11B 파라미터만 켜서 빠른 속도와 저렴한 비용으로 코딩 에이전트와 도구 호출 작업을 처리하도록 만들어졌다.

누가 만든 무슨 모델인가

Step 3.7 Flash는 중국 AI 회사 StepFun(阶跃星辰)이 2026년 5월 공개한 모델이다. 이름에 붙은 'Flash'는 무겁고 똑똑한 대신 느린 모델이 아니라, 적당히 똑똑하면서 아주 빠르게 답하는 쪽을 노렸다는 뜻이다. 가중치가 공개된 오픈웨이트 모델이고 라이선스도 Apache 2.0이라, 누구나 자기 서버에 내려받아 돌릴 수 있다.

덩치를 보면 전체 파라미터는 198B(약 2천억 개)지만, 실제로 한 토큰을 만들 때 켜지는 건 11B뿐이다. 이게 가능한 이유가 MoE(전문가 혼합) 구조다. 거대한 모델 안에 여러 '전문가'를 두고, 질문마다 그중 일부만 깨워서 답하게 한다. 그래서 200B급 모델인데도 작은 모델처럼 빠르고 싸게 돌아간다. 여기에 1.8B 크기의 비전 인코더가 붙어 있어 이미지와 영상도 글자처럼 바로 이해한다 — 이전 버전인 Step 3.5 Flash에는 없던 기능이다.

무엇을 잘하나

이 모델이 특히 공들인 분야는 코딩 에이전트도구 호출이다. 에이전트가 코드를 고치려면 모델이 "이 파일을 열어라", "이 명령을 실행하라" 같은 도구 호출을 정확한 형식으로 끊임없이 내놓아야 하는데, 여기서 형식이 한 번이라도 틀어지면 에이전트 전체가 멈춰버린다. Step 3.7 Flash는 실제 코딩 작업 벤치마크인 SWE-Bench Pro에서 56점대를 기록하며 같은 체급에서 앞자리를 차지했고, StepFun은 도구 호출 성공률이 거의 어긋나지 않을 만큼 안정적이라고 내세운다.

가장 화제가 된 건 가성비다. StepFun은 어드바이저 모드를 켰을 때 이 모델이 Claude Opus 4.6 코딩 성능의 약 97%에 도달하면서 작업당 비용은 9분의 1 수준이라고 밝혔다. 속도도 1초에 400토큰 안팎으로, 에이전트가 수십 번씩 모델을 호출하며 길게 돌아가는 작업에 잘 맞는다.

개발자가 실제로 어떻게 쓰나

가장 쉬운 길은 StepFun API다. STEP_BASE_URLhttps://api.stepfun.ai/v1로 잡고 모델 이름을 step-3.7-flash로 지정하면, OpenAI 호환 방식으로 곧장 호출할 수 있다. 이미지나 영상, 로컬 파일을 함께 넣을 수 있고 추론에 얼마나 힘을 쏟을지 조절하는 reasoning effort 옵션도 있다.

가중치가 공개돼 있어 직접 띄우는 것도 흔한 사용법이다. vLLM이나 SGLang 같은 서빙 엔진으로 올리거나, GGUF 양자화 버전을 받아 llama.cpp로 가정용 GPU에서 돌리는 사람도 많다. 실제로 RTX PRO 6000 두 장이나 128GB 통합 메모리 PC에서 200B 모델을 초당 수십 토큰으로 굴렸다는 후기가 커뮤니티에 올라온다. MTP(멀티 토큰 예측) 드래프트 모델을 함께 쓰면 추측적 디코딩으로 생성 속도가 더 빨라진다.

주의할 점

벤치마크와 별개로 실사용 평가는 갈린다. 긴 맥락을 다루다 보면 일찍 흐트러진다거나, 같은 가격대의 GLM·Kimi가 더 안정적이더라는 후기도 있다. 결국 Flash 계열은 최고 정확도보다 "빠르고 싸게 많이 돌리는" 용도에 맞춰진 모델이라, 한 번에 깊이 파고드는 작업보다는 에이전트가 도구를 반복 호출하는 흐름에서 강점이 드러난다.

#StepFun#MoE#비전-언어 모델#오픈웨이트
← AI Wiki에서 더 보기
updated at 2026-06-08