중국 숏폼 플랫폼 콰이쇼우가 만든 AI 영상 생성 모델. 글이나 사진 한 장을 넣으면 영화 같은 몇 초짜리 영상으로 바꿔준다.
Kling(클링)은 중국의 숏폼 동영상 플랫폼 콰이쇼우(Kuaishou)가 만든 AI 영상 생성 모델이다. 글로 장면을 묘사하거나(text-to-video) 사진 한 장을 올리면(image-to-video), 그 내용을 실제로 움직이는 몇 초짜리 영상으로 만들어 준다. OpenAI의 Sora, 구글의 Veo와 같은 'AI 비디오 생성' 경쟁에 뛰어든 모델인데, 화려한 기업용 생태계에 묶여 있는 경쟁작들과 달리 독립 크리에이터가 부담 없이 쓸 수 있는 가격과 세밀한 카메라 조작을 무기로 자리를 잡았다. App Store 영상 앱 순위에서 브라질·독일 등 42개 시장 1위를 차지할 만큼 실사용자가 많다.
2026년 2월 공개된 Kling 3.0 시리즈(Video 3.0, Video 3.0 Omni, Image 3.0 등)의 핵심 차별점은 세 가지다. 첫째, 영상 길이가 최대 15초로 늘었고 화질이 더 사실적으로 좋아졌다. 둘째, 네이티브 오디오 생성을 지원해서 영상에 맞는 소리·목소리를 여러 언어와 방언·억양으로 함께 만들어 낸다. 셋째, text-to-video, image-to-video, 참조 이미지 기반 생성, 영상 속 부분 편집을 하나의 멀티모달 구조 안에 통합해서, 복잡한 이야기 흐름을 따라가고 장면별 연출을 정밀하게 제어한다. Video 3.0 Omni의 멀티샷 스토리보드 기능은 컷마다 길이·화면 크기·시점·내용·카메라 움직임을 따로 지정해 여러 컷을 이어 붙인 영상을 만들 수 있게 해 준다.
크리에이터는 보통 프롬프트로 장면을 묘사하거나 시작·끝 이미지를 올려 그 사이를 채우게 한다. 가장 많이 쓰이는 건 사진 한 장을 자연스럽게 움직이게 만드는 image-to-video로, 인물 사진을 넣고 동작을 지정하면 파쿠르 같은 움직임까지 만들어 낸다. Kling은 처음부터 프로페셔널 모드를 두어, 영상 생성을 '운에 맡기는 뽑기'가 아니라 카메라 워크·구도를 직접 지시하는 '연출 행위'에 가깝게 다룬다. 외부 영상 도구(invideo, Artlist 등)에 모델로 탑재돼 광고·숏드라마·게임 영상 제작에 실제로 투입되며, 기업과 개인 모두에게 마케팅·영화·TV 분야에서 폭넓게 쓰이고 있다.
AI 영상 생성 모델 공통의 한계로, 사실적인 물리·일관성이 크게 좋아졌어도 손가락·글자처럼 디테일이 깨지는 장면은 여전히 나올 수 있다. 또 텍스트·이미지 모델과 마찬가지로 결과물의 저작권과 딥페이크 오남용 문제가 따라붙는다. 콰이쇼우는 Kling 사업의 빠른 성장을 바탕으로 별도 상장을 추진할 만큼 이 모델을 핵심 사업으로 키우고 있다.