모델

라마 4

Llama 4 (Meta)

메타가 만든 오픈 웨이트 AI 모델 4세대로, 텍스트와 이미지를 함께 이해하고 처음으로 전문가 혼합(MoE) 구조를 적용해 적은 연산으로 큰 모델의 성능을 내도록 설계됐다.

메타가 무료로 푸는 AI 모델

Llama 4는 페이스북·인스타그램을 만든 메타가 2025년 4월에 공개한 AI 모델 묶음이다. 가장 큰 특징은 가중치(모델 파일)를 누구나 내려받아 자기 서버에서 돌릴 수 있게 공개했다는 점이다. ChatGPT나 Claude처럼 회사 API로만 쓸 수 있는 모델과 달리, Llama 4는 llama.com이나 Hugging Face에서 직접 받아 내 컴퓨터·서버에서 실행할 수 있다.

Llama 4는 한 덩어리가 아니라 여러 크기로 나온다. 가벼운 Scout는 H100 GPU 한 장에 올라갈 만큼 효율적이면서도 아주 긴 문서를 통째로 읽을 수 있고, 더 강력한 Maverick은 코딩·추론 같은 어려운 작업을 겨냥한다.

처음 도입된 전문가 혼합(MoE) 구조

Llama 시리즈에서 처음으로 전문가 혼합(Mixture of Experts, MoE) 방식을 썼다. 보통의 AI는 질문 하나에 답할 때 모델의 모든 부분을 다 가동하는데, MoE는 질문 성격에 맞는 일부 '전문가'만 골라 켠다. 덕분에 모델 전체는 크지만 실제로 한 번 답할 때 쓰는 계산량은 작아서, 큰 모델의 똑똑함과 작은 모델의 빠른 속도·낮은 비용을 동시에 노린다.

또 하나는 텍스트와 이미지를 처음부터 한 흐름으로 학습한 네이티브 멀티모달 설계다. 이미지 인식을 나중에 붙인 게 아니라 학습 단계에서 텍스트 토큰과 이미지 토큰을 함께 녹여 넣어서, 사진을 보고 설명하거나 화면 속 글자를 읽는 작업을 자연스럽게 처리한다.

개발자가 쓰는 법

로컬에서 가볍게 돌려보려면 ollama run llama4 한 줄로 받아 실행할 수 있고, 회사 서비스에 붙일 때는 메타의 Llama API나 직접 띄운 서버를 통해 호출한다. 오픈 웨이트라서 사내 데이터로 파인튜닝하거나, Llama 4의 출력을 가져다 더 작은 모델을 학습시키는 증류(distillation)에도 쓸 수 있어 자체 모델을 만들려는 팀이 출발점으로 자주 고른다.

주의할 점

출시 직후 일부 벤치마크 점수가 실사용 체감과 다르다는 논란이 있었고, 메타는 점수 조작 의혹을 부인하면서도 환경에 따라 성능이 엇갈린다는 점은 인정했다. 화제가 됐던 1,000만 토큰 수준의 초장문 컨텍스트도 실제로는 길어질수록 품질이 떨어질 수 있어, 도입 전 자기 작업으로 직접 검증해 보는 게 좋다.

#Meta#Llama#MoE#오픈웨이트
← AI Wiki에서 더 보기
updated at 2026-06-08