중국 DeepSeek가 만든 오픈웨이트 대규모 언어 모델로, 100만 토큰의 긴 맥락을 아주 적은 비용으로 처리하면서 추론과 코딩, 에이전트 작업에서 최상위권 성능을 내는 게 특징이다.
DeepSeek V4는 중국 AI 기업 DeepSeek가 2026년 4월에 공개한 차세대 언어 모델이다. 앞선 V3 계열을 잇는 후속작으로, 가중치를 MIT 라이선스로 공개하는 오픈웨이트 방식을 유지해 누구나 내려받아 직접 돌릴 수 있다. 모델 안에 여러 전문가(expert)를 두고 입력마다 일부만 깨우는 MoE(Mixture-of-Experts) 구조라서, 전체 파라미터는 1.6조 개로 거대하지만 한 번 답할 때 실제로 켜지는 건 490억 개뿐이다. 덩치는 크되 계산은 가볍게 가져가는 설계다.
가장 두드러진 점은 긴 맥락을 싸게 처리한다는 것이다. 한 번에 100만 토큰까지 넣을 수 있는데, 이 정도면 책 여러 권이나 거대한 코드베이스를 통째로 던져 넣는 수준이다. V4는 입력을 압축해서 보는 새로운 어텐션 방식(Compressed Sparse Attention과 Heavily Compressed Attention을 섞은 하이브리드 구조)을 써서, 100만 토큰 길이에서 이전 세대인 V3.2 대비 계산량의 27%, 메모리 캐시의 10%만으로 같은 일을 해낸다. 긴 문서를 다룰 때 비용이 폭발하던 문제를 구조적으로 줄인 것이다.
성능 자체도 프론티어급에 근접했다. 코딩(LiveCodeBench), 어려운 과학 추론(GPQA Diamond), 실제 깃허브 이슈를 고치는 에이전트 과제(SWE-Bench Verified) 같은 까다로운 평가에서 상위권 점수를 받았다. 동시에 가격이 파격적이라, 출력 100만 토큰당 몇 달러 수준으로 서구권 상용 모델의 수분의 일에 불과해 화제가 됐다.
가중치가 공개돼 있어 Ollama로 ollama run deepseek-v4-pro:cloud처럼 바로 띄우거나, vLLM·SGLang으로 직접 서빙할 수 있다. 클라우드에서 쓰고 싶으면 DeepSeek 공식 API(deepseek-ai/DeepSeek-V4-Pro)나 Together AI, NVIDIA NIM 같은 호스팅 업체를 통해 호출하면 된다. 긴 맥락과 낮은 비용 덕분에 Cursor·Kilo Code 같은 AI 코딩 도구의 백엔드 모델로 꽂아 쓰거나, 도구 호출을 반복하는 에이전트 워크플로우의 엔진으로 많이 활용된다. 한 작업을 길게 끌고 가는 에이전트일수록 토큰이 빠르게 쌓이는데, V4는 그 비용을 크게 낮춰준다.
제품군은 최상위 V4-Pro와 더 가볍고 저렴한 V4-Flash로 나뉜다. 빠른 응답이나 대량 처리에는 Flash를, 복잡한 추론에는 Pro를 골라 쓰는 식으로 비용과 성능을 조절할 수 있다.
중국에서 만든 모델이라 중국 정치 관련 주제에는 응답이 제한되는 검열이 들어 있다는 점은 감안해야 한다. 또 공개된 벤치마크 점수와 제3자 독립 평가(미국 NIST 산하 기관 등) 사이에 격차가 있다는 지적도 있어, 도입 전에 자신의 실제 작업으로 직접 검증해 보는 것이 좋다.