응용

비오

Veo (Google)

구글 딥마인드가 만든 텍스트-투-비디오 모델. 글로 적은 장면 묘사를 영상으로 만들어주는데, 화면뿐 아니라 어울리는 소리까지 함께 생성하는 게 특징이다.

무엇인가

Veo는 구글 딥마인드가 2024년 5월 구글 I/O에서 처음 공개한 영상 생성 AI다. "노을 지는 해변을 따라 강아지가 달린다" 같은 문장만 넣으면 그 장면을 짧은 동영상으로 만들어준다. 카메라, 배우, 편집 없이 글 한 줄로 영상이 나오는 셈이라, 그동안 글이나 그림을 만들어주던 생성형 AI가 이제 움직이는 영상까지 손대게 된 흐름의 대표 주자다.

핵심 차별점

Veo의 가장 큰 특징은 네이티브 오디오다. 많은 영상 생성 모델이 그림만 만들고 소리는 따로 붙여야 했는데, Veo 3부터는 화면 속 인물의 대사, 발걸음 소리, 배경음을 영상과 한 번에 같이 만들어낸다. 입 모양과 말소리가 맞아떨어지고 장면 분위기에 어울리는 효과음이 자동으로 깔리는 식이다.

또 하나는 물리적 움직임과 카메라 워크를 잘 이해한다는 점이다. 물체가 떨어지고 부딪히는 움직임이나 "클로즈업으로 시작해 위에서 내려다보는 앵글로" 같은 카메라 지시를 비교적 자연스럽게 따라간다. 버전이 올라가며 720p·1080p는 물론 4K 해상도까지 직접 뽑아낼 수 있게 됐다.

실제로 어떻게 쓰나

개발자는 Gemini API로 Veo를 직접 호출할 수 있다. veo-3.1-generate-preview 같은 모델 ID에 프롬프트를 넘기면 영상 파일이 생성되는데, 글로만 시작하는 텍스트-투-비디오 외에 이미지 한 장을 첫 프레임으로 넣는 이미지-투-비디오도 된다. 가령 Nano Banana로 만든 이미지를 시작 프레임으로 주고 그 뒤 움직임을 Veo에게 맡기는 식으로 이미지·영상 모델을 이어 붙일 수 있다. Veo 3.1에서는 참조 이미지로 등장인물 외형을 고정하거나, 처음과 마지막 프레임만 줘서 그 사이를 자연스럽게 채우는 것도 가능하다.

코딩 없이 쓰고 싶으면 구글의 영상 제작 도구 Flow나 Gemini 앱에서 프롬프트만 넣어 만들 수 있고, 기업은 Vertex AI를 통해 쓴다. Canva의 영상 생성 기능이나 구글 Vids 같은 외부 제품도 내부적으로 Veo를 끌어다 쓰는 경우가 많다.

주의할 점

사실감이 너무 좋아진 탓에 진짜 촬영본과 구분하기 어려운 영상이 만들어진다는 점이 양날의 검이다. 실제로 Veo로 만든 혐오·인종차별 영상이 소셜미디어에 올라온 사례가 보고됐고, 구글은 책임 있는 AI 가이드라인을 어기는 프롬프트를 차단하지만 교묘하게 우회하는 경우를 완벽히 막지는 못한다. 한 클립의 길이도 보통 몇 초 단위로 짧아서, 긴 영상을 만들려면 클립을 이어 붙이거나 영상 확장 기능을 써야 한다.

#Google DeepMind#영상 생성#Gemini API#네이티브 오디오

← AI Wiki에서 더 보기

updated at 2026-06-08