OpenAI가 만든 영상 생성 모델로, 글이나 이미지로 설명만 하면 그 장면을 짧은 동영상으로 만들어준다.
Sora는 OpenAI가 만든 텍스트-투-비디오(text-to-video) 모델이다. ChatGPT나 DALL·E를 만든 그 회사가, 이번엔 글로 쓴 설명을 영상으로 바꿔주는 모델을 내놓은 것이다. "눈 덮인 초원을 걸어가는 거대한 매머드 떼" 같은 프롬프트를 넣으면, Sora가 그 장면을 실제로 촬영한 듯한 짧은 동영상으로 만들어낸다. 2024년 2월에 처음 공개됐고, 같은 해 12월 ChatGPT 구독자에게 정식 오픈됐다. 2025년 9월에는 화질과 사실성을 크게 끌어올린 Sora 2가 나왔는데, 이때부터는 영상에 어울리는 소리(대사·효과음)까지 함께 생성된다.
Sora의 핵심은 단순히 예쁜 화면을 그리는 게 아니라, 물체가 움직이고 부딪히는 "물리 세계"를 어느 정도 흉내 낸다는 점이다. 카메라가 인물 주위를 도는 동안에도 같은 사람이 같은 모습으로 유지되고(객체 영속성), 물이 튀거나 천이 바람에 날리는 움직임이 자연스럽게 이어진다. OpenAI는 이런 능력이 단순히 데이터를 더 많이 학습시키는 것만으로 저절로 나타났다고 설명하며, 영상 생성에서 "GPT-1의 순간"에 비유했다. 텍스트뿐 아니라 이미지나 짧은 영상을 입력으로 넣어 그것을 움직이게 만들거나 이어붙이는 것도 가능하다.
일반 사용자는 sora.com이나 Sora iOS 앱에서 프롬프트를 입력해 영상을 만든다. 개발자라면 OpenAI의 Videos API를 통해 코드로 영상을 생성할 수 있다. POST /videos로 생성 작업을 요청하면 작업 id와 상태가 담긴 객체가 돌아오고, GET /videos/{video_id}를 반복 조회하거나 웹훅으로 완료 알림을 받은 뒤 GET /videos/{video_id}/content로 최종 MP4 파일을 내려받는 식이다. 영상 길이가 길어 생성에 시간이 걸리므로, 폴링 대신 video.completed·video.failed 웹훅 이벤트로 비동기 처리하는 게 권장된다. 화면 비율(16:9·1:1·9:16)과 해상도(480p~1080p)를 골라 유튜브·인스타그램·틱톡 같은 플랫폼에 맞춘 영상을 뽑아낼 수 있다.
Sora 영상에는 출처를 식별할 수 있는 C2PA 메타데이터와 눈에 보이는 워터마크가 기본으로 붙는다. 실제 사람의 얼굴을 합성하는 딥페이크 악용을 막기 위한 안전장치다. 다만 이런 사실적인 영상 생성 능력은 저작권·초상권 분쟁을 함께 불러왔고, 2026년 들어 OpenAI가 소비자용 Sora 서비스 운영 방식을 바꾸는 등 정책이 계속 변하고 있어 활용 전에 최신 약관을 확인하는 게 좋다.