메타가 만든 오픈 웨이트 AI 모델 4세대로, 텍스트와 이미지를 함께 이해하고 처음으로 전문가 혼합(MoE) 구조를 적용해 적은 연산으로 큰 모델의 성능을 내도록 설계됐다.
Llama 4는 페이스북·인스타그램을 만든 메타가 2025년 4월에 공개한 AI 모델 묶음이다. 가장 큰 특징은 가중치(모델 파일)를 누구나 내려받아 자기 서버에서 돌릴 수 있게 공개했다는 점이다. ChatGPT나 Claude처럼 회사 API로만 쓸 수 있는 모델과 달리, Llama 4는 llama.com이나 Hugging Face에서 직접 받아 내 컴퓨터·서버에서 실행할 수 있다.
Llama 4는 한 덩어리가 아니라 여러 크기로 나온다. 가벼운 Scout는 H100 GPU 한 장에 올라갈 만큼 효율적이면서도 아주 긴 문서를 통째로 읽을 수 있고, 더 강력한 Maverick은 코딩·추론 같은 어려운 작업을 겨냥한다.
Llama 시리즈에서 처음으로 전문가 혼합(Mixture of Experts, MoE) 방식을 썼다. 보통의 AI는 질문 하나에 답할 때 모델의 모든 부분을 다 가동하는데, MoE는 질문 성격에 맞는 일부 '전문가'만 골라 켠다. 덕분에 모델 전체는 크지만 실제로 한 번 답할 때 쓰는 계산량은 작아서, 큰 모델의 똑똑함과 작은 모델의 빠른 속도·낮은 비용을 동시에 노린다.
또 하나는 텍스트와 이미지를 처음부터 한 흐름으로 학습한 네이티브 멀티모달 설계다. 이미지 인식을 나중에 붙인 게 아니라 학습 단계에서 텍스트 토큰과 이미지 토큰을 함께 녹여 넣어서, 사진을 보고 설명하거나 화면 속 글자를 읽는 작업을 자연스럽게 처리한다.
로컬에서 가볍게 돌려보려면 ollama run llama4 한 줄로 받아 실행할 수 있고, 회사 서비스에 붙일 때는 메타의 Llama API나 직접 띄운 서버를 통해 호출한다. 오픈 웨이트라서 사내 데이터로 파인튜닝하거나, Llama 4의 출력을 가져다 더 작은 모델을 학습시키는 증류(distillation)에도 쓸 수 있어 자체 모델을 만들려는 팀이 출발점으로 자주 고른다.
출시 직후 일부 벤치마크 점수가 실사용 체감과 다르다는 논란이 있었고, 메타는 점수 조작 의혹을 부인하면서도 환경에 따라 성능이 엇갈린다는 점은 인정했다. 화제가 됐던 1,000만 토큰 수준의 초장문 컨텍스트도 실제로는 길어질수록 품질이 떨어질 수 있어, 도입 전 자기 작업으로 직접 검증해 보는 게 좋다.