모델

머큐리

Mercury (Inception Labs, Diffusion LLM)

Inception Labs가 만든, 텍스트를 디퓨전 방식으로 생성하는 LLM. 단어를 왼쪽부터 하나씩 내뱉는 기존 모델과 달리 여러 토큰을 한꺼번에 만들어 내서 훨씬 빠르다.

Mercury가 뭔가

우리가 아는 대부분의 LLM(GPT, Claude 같은)은 글자를 왼쪽에서 오른쪽으로, 한 번에 한 토큰씩 순서대로 써 내려간다. 이걸 자기회귀(autoregressive) 방식이라고 부르는데, 앞 단어가 나와야 다음 단어를 정할 수 있어서 본질적으로 순차적이다. 길게 답할수록 시간이 오래 걸리는 이유다. Mercury는 스탠퍼드·UCLA·코넬 출신 디퓨전 연구자들이 세운 Inception Labs가 이 순서를 깨버린 모델이다. 이미지 생성에서 쓰이던 디퓨전 방식을 텍스트에 가져와, 처음에 답 전체를 뿌연 노이즈 상태로 깔아두고 그걸 여러 번에 걸쳐 한꺼번에 또렷하게 다듬어 나간다. 여러 토큰을 동시에 정하기 때문에 같은 GPU에서도 훨씬 빠르다.

그래서 Mercury는 자기 자신을 디퓨전 LLM, 줄여서 dLLM이라고 부른다. 첫 모델은 2025년 초 코드 생성에 특화된 Mercury Coder로 공개됐고, 세계 첫 상용 규모 dLLM이라는 점에서 화제가 됐다. 이후 2026년 2월에는 추론 능력을 더한 Mercury 2가 나왔는데, NVIDIA H100에서 초당 1,000토큰이 넘는 속도를 내면서도 답변 품질은 같은 속도대의 경쟁 모델과 견줄 만한 수준이다.

개발자가 언제 쓰나

Mercury의 매력은 한마디로 "빠르고 싸다"이다. platform.inceptionlabs.ai에서 API 키를 받아 호출하는데, API 형식이 일반적인 챗 모델과 비슷해서 기존 코드에 모델 이름만 바꿔 끼우기 쉽다. 응답이 거의 즉각적이라, 사용자가 타이핑하는 동안 실시간으로 자동완성을 띄우는 코드 어시스턴트나, 말이 끝나기 무섭게 대답해야 하는 음성 에이전트처럼 지연이 곧 사용성인 곳에서 특히 잘 맞는다.

또 하나 잘 맞는 자리는 같은 작업을 대량으로 반복하는 백그라운드 파이프라인이다. 수만 건의 문서에서 정보를 뽑아내는 추출 작업이나, 에이전트가 도구를 부르고 결과를 받아 다음 행동을 정하는 루프처럼 LLM을 수없이 호출하는 상황에서는 한 번의 응답 속도와 토큰당 비용이 그대로 전체 처리량과 요금으로 곱해진다. Mercury는 토큰을 병렬로 찍어내 속도가 빠른 만큼 이런 반복 호출에서 비용과 시간을 크게 줄여 준다. Mercury 2가 추론 능력을 더한 것도, 에이전트가 빠른 모델로 여러 번 생각하며 돌아가는 실시간 서브에이전트 시나리오를 노린 것이다.

주의할 점

디퓨전 방식이라는 점은 강점이자 아직 검증 중인 부분이기도 하다. 텍스트 디퓨전은 자기회귀 모델만큼 오래 다듬어진 기술이 아니어서, 아주 복잡하고 긴 추론이나 미묘한 뉘앙스가 중요한 작업에서는 최상위 프론티어 모델만 못할 수 있다. 속도와 비용이 결정적인 작업에는 강하지만, 품질이 최우선인 곳이라면 실제 사용 사례로 직접 비교해 보고 고르는 게 좋다.

#Inception Labs#디퓨전 LLM#고속 추론#dLLM
← AI Wiki에서 더 보기
updated at 2026-06-08