
강화된 버전의 Sora 이미지 생성 모델 출시: ChatGPT에서 바로 사용 가능할 뿐 아니라 밈(meme) 제작자들의 밥줄까지 위협
DeepSeek가 24시간 전에야 V3 모델의 0324 버전 업데이트를 발표한 직후, 베이징 시간으로 3월 26일 새벽 OpenAI는 정말로 뒤지지 않겠다는 듯 경쟁적인 분위기를 풍기며 신제품 출시 예고를 발표했다.

정식 발표 시작 전 일부에서는 GPT-5 출시 가능성에 대한 소문이 돌았지만, 과거 OpenAI의 제품 출시 흐름을 고려하면 이번은 중대한 업데이트는 아니었다. 그러나 이번 라이브 방송에서 ChatGPT에 통합된 새로운 버전의 Sora가 공개되면서 예상 밖의 '쇼 효과'를 선사했다.
현재 ChatGPT에 통합된 Sora는 독립 앱 버전보다 기능이 일시적으로 이미지 생성에 한정되어 있지만, OpenAI는 라이브 방송에서 이 모델이 이전 모델 대비 질적인 도약을 이루었다고 설명했다.
소개에 따르면, 개발팀은 GPT-4o의 '멀티모달'(텍스트, 이미지, 오디오, 비디오 등 다양한 유형의 데이터를 생성할 수 있는) 능력을 기반으로 이번 버전의 Sora를 개발했다. 따라서 사용자는 직접 요구 사항을 말하거나, 사진을 업로드하거나 찍어 프롬프트로 사용할 수 있다.
실제 라이브 데모에서 세 명의 인물(Sam Altman 포함)이 스마트폰으로 셀카를 찍은 후, Sora에게 "애니메이션 스타일로 변환해 달라"고 요청했다.

그뿐만 아니라, 세 사람은 현장에서 Sora에게 이미지 위에 "Feel The AGI"(AGI를 느껴보세요)라는 텍스트를 추가하게 하며 첫 번째 버전의 새로운 Sora 밈(meme)을 즉석에서 제작하기도 했다.
현장에서 생성된 이 밈은 텍스트가 정확하고 선명할 뿐만 아니라, 굵은 글꼴 등 현대 인터넷 밈에서 필수적인 요소들을 정확히 이해하고 있으며, 바로 각종 그룹 채팅방에 공유할 수 있을 정도였다.

OpenAI가 직접 밈 만들기에 나서자, 댓글란에서도 많은 사용자들이 열성을 불태우며 동일한 프롬프트를 Grok에 입력하고 같은 사진과 프롬프트로 동일한 스타일의 콘텐츠를 생성해 보는 시도를 했다. 하지만 결과는 명백히 새로운 버전의 Sora보다 훨씬 못 미쳤고, 오히려 더 웃긴 효과를 낳았다.

밈 제작을 주도한 것 외에도, OpenAI는 새로운 버전의 Sora가 텍스트 렌더링 측면에서 개선되었음을 시연하며 이미지 내 텍스트 생성 시 맞춤법 오류 없이 연속된 문장을 생성하는 성공률이 크게 향상되었음을 보여주었다.
또 다른 데모 시나리오에서 OpenAI 팀은 Sora에게 상대성 이론을 설명하는 만화 카드를 생성하도록 지시했다.
기존 이미지 생성 모델에서 자주 발생하는 텍스트 부분의 혼란이나 심지어 'AI가 임의로 문자를 만들어내는' 현상과 달리, 새로운 버전의 Sora는 원본 이미지 생성 시 텍스트가 전혀 어색하지 않고, 자연스럽고 매끄러운 일본어까지 생성하여 일본 커뮤니티의 많은 일본 이용자들 사이에서 예상치 못하게 큰 화제를 모았다.

이미지 생성 모델의 경우, 텍스트를 올바르게 렌더링하는 것은 과거부터 큰 도전 과제였다. 부제목이나 텍스트 요소에 철자 오류나 오류가 있으면 전체 이미지를 사용할 수 없게 될 수 있기 때문이다.
또한 이 사례에서 OpenAI는 상대성 이론처럼 '세계에 존재하는 기존 지식'을 정확하게 인용하는 것도 시연했다.

"제가 직접 이미지를 그리면 제 기술 수준과 제가 축적한 세계 지식의 한계에 갇히게 됩니다." 미디어와의 인터뷰에서 다중모달 ChatGPT 제품 책임자인 Jackie Shannon은 이 기능의 필요성을 이렇게 설명했다.
"모델은 세계 지식을 자체적으로 활용하므로, '뉴턴의 프리즘 실험'이 무엇인지 설명하지 않아도 정확한 이미지를 얻을 수 있습니다."

방송에서 언급된 이러한 모델 기능 향상 외에도, OpenAI는 새로운 버전의 Sora가 속성과 객체 간의 관계를 유지하는 능력이 크게 향상되었다고 밝혔다. 예를 들어, 바인딩 능력이 낮은 모델은 '파란 별과 빨간 삼각형을 생성해 달라'는 요청을 받고 빨간 별만 생성하고 삼각형은 아예 생성하지 않을 수 있다.
OpenAI에 따르면 대부분의 기존 이미지 모델은 특히 5~8개 정도의 여러 항목을 렌더링할 것을 요청받을 때 색상과 형태를 혼동하는 실수를 쉽게 저지른다. 반면 새로운 버전의 Sora는 15~20개의 객체 속성까지 정확하게 연결하며, 각각의 복잡한 요구사항을 이해하면서 동시에 오도되지 않도록 해 성공률을 크게 높였다.

이러한 사용 경험의 개선 외에도 하나의 세부 사항은 OpenAI가 이미 새로운 버전의 Sora가 이미지를 생성하는 데 이전보다 더 오랜 시간이 걸린다고 확인했지만, OpenAI는 이를 받아들일 만한 타협이라고 판단했다.
"지연 시간 측면에서 확실히 개선 여지가 있지만... 생성된 이미지의 품질, 기능, 세계 지식이 사용자가 추가로 기다리는 몇 초를 충분히 보상한다고 생각합니다."라고 Shannon은 말했다.
생성형 이미지 분야의 안전 문제에 대해서는 작년부터 올해까지 유명인의 음란 조작 이미지, 핫이슈 관련 허위 이미지, Google Gemini의 사진 워터마크 제거 문제 등이 반복 발생했는데, OpenAI 팀은 새로운 버전의 Sora가 사진의 워터마크를 제거할 수 있을 뿐만 아니라 생성형 딥페이크 이미지 생성을 차단하고 관련 요청을 거부한다고 강조했다. 또한 생성된 모든 이미지는 OpenAI가 제작했음을 표시하는 표준 C2PA 메타데이터를 포함하게 된다.
현재 ChatGPT에 통합된 새로운 버전의 Sora 이미지 생성 모델 기능은 Pro 및 Plus 구독자에게 이미 개방되었으며, OpenAI는 곧 무료 버전과 API를 통해서도 제공될 것이라고 약속했다.
지금 당장 내가 하고 싶은 일은 바로 나만의 밈을 만들어 달라고 요청하는 것이다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News










