구글이 만든 오픈 웨이트 AI 모델로, 가중치를 공개해 누구나 자기 노트북이나 서버에 내려받아 무료로 돌릴 수 있다. 작은 크기부터 큰 크기까지 골라 쓰며, 클라우드 API 없이 로컬에서 AI를 쓰고 싶을 때 첫손에 꼽힌다.
Gemma 4는 구글 딥마인드가 만든 오픈 웨이트 모델 계열의 네 번째 버전이다. 'Gemini' 같은 폐쇄형 모델과 달리, Gemma는 학습된 가중치 자체를 공개한다. 그래서 인터넷 연결이나 월 구독료 없이 내 컴퓨터에서 직접 돌릴 수 있다는 게 핵심이다. 구글은 이를 '오픈 소스'가 아니라 정확히 '오픈 웨이트(open weights)'라고 부르는데, 가중치는 풀지만 학습 데이터나 전체 코드까지 다 공개하는 건 아니기 때문이다. 라이선스는 비교적 자유로운 Apache 2.0을 따른다.
Gemma 4는 상위 모델인 Gemini 3 연구를 바탕으로 만들어졌다. 텍스트뿐 아니라 이미지를 함께 입력받는 멀티모달 모델이고(작은 모델은 오디오까지), 140개 넘는 언어를 지원하며 최대 256K 토큰의 긴 맥락을 다룬다. 도구 사용(tool use)과 추론 능력도 갖춰서 단순 챗봇을 넘어 에이전트 작업에도 쓸 수 있게 설계됐다.
Gemma 4의 가장 큰 특징은 하드웨어에 맞춰 크기를 선택할 수 있다는 점이다. 휴대폰이나 저사양 기기를 겨냥한 E2B·E4B부터, 일반 노트북용 12B, 그리고 더 똑똑한 26B A4B(전문가 혼합 방식)와 가장 강력한 31B까지 나뉜다. 작은 모델은 빽빽한 Dense 구조, 큰 26B A4B는 필요한 부분만 활성화해 효율을 높이는 MoE(Mixture-of-Experts) 구조를 쓴다. 즉 같은 Gemma 4여도 24GB 메모리 맥북에서는 양자화한 작은 모델을, 서버급 GPU에서는 31B를 돌리는 식으로 환경에 맞춘다.
가장 흔한 사용법은 Ollama로 내려받아 로컬에서 돌리는 것이다. 터미널에서 ollama run gemma4 한 줄이면 모델이 다운로드되고 바로 대화할 수 있다. GUI를 원하면 LM Studio나 Open WebUI를 붙이고, 설치 없이 먼저 써보고 싶으면 브라우저의 Google AI Studio에서 31B·26B를 바로 테스트할 수 있다.
프로덕션이나 코드에 엮을 때는 Hugging Face Transformers, llama.cpp, MLX(애플 실리콘), vLLM 같은 도구로 출시 첫날부터 돌아간다. API 비용 0원이 매력이라 비용에 민감한 자동화에 많이 쓰인다 — 예컨대 로컬에 띄운 Gemma 4를 Claude Code의 서브에이전트로 등록해 토큰 비용 없이 보조 작업을 맡기거나, 개인 문서를 외부로 보내지 않고 기기 안에서만 처리하는 식이다. 추론 속도를 위해 모든 크기에 멀티 토큰 예측(MTP)용 드래프트 모델이 함께 학습돼 추측적 디코딩으로 속도를 끌어올린다.
오픈 웨이트라 좋지만, 같은 크기의 폐쇄형 프론티어 모델만큼의 성능을 기대하긴 어렵다. 로컬에서 돌리려면 양자화로 모델을 압축해야 하고 그만큼 품질이 일부 깎인다. 또 Hugging Face에 공개된 가중치에서는 학습 때 쓰인 MTP 헤드가 빠진 채 배포돼, 광고된 속도 향상을 그대로 누리려면 별도 설정이 필요할 수 있다.