
Ra mắt mô hình tạo ảnh Sora phiên bản nâng cấp: Không chỉ dùng trực tiếp trên ChatGPT mà còn "giành cơm" của các tác giả meme
Tuyển chọn TechFlowTuyển chọn TechFlow

Ra mắt mô hình tạo ảnh Sora phiên bản nâng cấp: Không chỉ dùng trực tiếp trên ChatGPT mà còn "giành cơm" của các tác giả meme
Cơ quan chức năng dẫn đầu trong việc vẽ meme.
Chỉ 24 giờ sau khi DeepSeek vừa công bố bản cập nhật mô hình V3 phiên bản 0324, OpenAI dường như thực sự có cảm giác "không chịu thua kém", đã thông báo vào rạng sáng ngày 26 tháng 3 (giờ Bắc Kinh) về việc ra mắt sản phẩm mới.

Mặc dù trước khi chính thức bắt đầu, có một số tin đồn cho rằng sự kiện lần này có thể sẽ công bố GPT-5, nhưng theo nhịp độ phát hành sản phẩm trước đây của OpenAI, đây sẽ không phải là một bản cập nhật lớn. Tuy nhiên, trong buổi livestream này, Sora phiên bản mới được tích hợp vào ChatGPT vẫn mang đến hiệu ứng "giải trí" ngoài mong đợi.
Hiện tại, Sora được tích hợp vào ChatGPT tạm thời bị giới hạn ở khả năng tạo ảnh so với phiên bản ứng dụng độc lập. Nhưng theo giới thiệu từ OpenAI trong buổi trực tiếp, mô hình này đã có bước tiến vượt bậc về chất lượng so với các phiên bản trước.
Theo đó, đội ngũ phát triển đã sử dụng nền tảng từ khả năng "toàn phương thức" của GPT-4o (mô hình có thể tạo dữ liệu bất kỳ loại nào như văn bản, hình ảnh, âm thanh và video) để phát triển phiên bản Sora này. Do đó, người dùng có thể trực tiếp nói ra yêu cầu của mình, thậm chí tải lên hoặc chụp một bức ảnh làm từ khóa nhắc.
Ví dụ, trong phần trình diễn trực tiếp, họ đã dùng điện thoại tự sướng ba người bao gồm Sam Altman, sau đó yêu cầu Sora tạo ra một phiên bản "theo phong cách anime".

Nhưng chưa dừng lại ở đó, cả ba còn trực tiếp biểu diễn việc nhờ Sora thêm dòng chữ "Feel The AGI" (Cảm nhận Trí tuệ nhân tạo tổng quát) lên bức ảnh. Họ đã tạo ra meme đầu tiên của Sora phiên bản mới ngay tại chỗ.
Meme do Sora tạo ra không chỉ có văn bản rõ ràng, chính xác mà còn hiểu đúng các yếu tố thiết yếu trong các meme hiện đại như chữ in đậm, đủ tốt để có thể chia sẻ trực tiếp vào mọi nhóm chat.

Bởi vì chính OpenAI dẫn đầu trào lưu vui này, khu vực bình luận cũng có nhiều người dùng hào hứng thử nhập cùng từ khóa vào Grok, dùng cùng từ khóa và ảnh để tạo nội dung cùng phong cách —— nhưng rõ ràng hiệu quả vẫn kém xa so với Sora phiên bản mới, ngược lại càng tạo ra hiệu ứng hài hước hơn.

Bên cạnh việc tự tạo meme, OpenAI còn minh họa những cải tiến mới của Sora phiên bản mới trong khả năng hiển thị văn bản, giúp tỷ lệ thành công trong việc tạo văn bản liền mạch, không lỗi chính tả trên hình ảnh tăng rõ rệt.
Trong một ví dụ khác, đội ngũ OpenAI yêu cầu Sora tạo một tấm thẻ truyện tranh nhằm giải thích Thuyết tương đối.
Khác với các mô hình tạo ảnh trước đây thường dễ bị rối loạn phần tạo văn bản, thậm chí xuất hiện tình trạng "AI tự tạo chữ", Sora phiên bản mới khi sinh ảnh gốc đã không còn bất kỳ sai sót rõ ràng nào trong văn bản, thậm chí còn tạo ra tiếng Nhật một cách rất tự nhiên và trôi chảy, khiến cộng đồng người dùng Nhật Bản bất ngờ "dậy sóng".

Đối với các mô hình tạo ảnh, việc hiển thị chính xác văn bản luôn là một thách thức lớn. Nếu tiêu đề phụ hoặc các phần tử văn bản bị lỗi chính tả hay sai lệch, toàn bộ hình ảnh có thể trở nên vô dụng.
Hơn nữa, trong trường hợp này, OpenAI còn minh họa việc trích dẫn chính xác các kiến thức hiện có trên thế giới như thuyết tương đối.

"Nếu tôi tự vẽ một bức ảnh, tôi sẽ bị giới hạn bởi kỹ năng bản thân... cũng như toàn bộ kiến thức thế giới mà tôi tích lũy được," Jackie Shannon, người đứng đầu sản phẩm đa phương thức của ChatGPT, giải thích về tính cần thiết của chức năng này trong một cuộc phỏng vấn với giới truyền thông.
"Mô hình đưa kiến thức thế giới vào, do đó khi bạn yêu cầu tạo ảnh thí nghiệm lăng kính Newton, bạn không cần giải thích 'thí nghiệm lăng kính Newton' là gì, vẫn có thể nhận được hình ảnh chính xác."

Bên cạnh những cải tiến về năng lực mô hình đã nêu trong buổi trực tiếp, OpenAI còn cho biết Sora phiên bản mới đã nâng cao đáng kể khả năng duy trì mối quan hệ chính xác giữa thuộc tính và đối tượng. Ví dụ, các mô hình có khả năng liên kết kém có thể biến yêu cầu tạo "ngôi sao màu xanh và tam giác màu đỏ" thành "ngôi sao màu đỏ và không có tam giác".
Theo OpenAI, phần lớn các mô hình ảnh hiện nay đều dễ dàng "sai sót" trong khía cạnh này, đặc biệt khi được yêu cầu xử lý nhiều mục (thường khoảng 5 đến 8), thường xuyên nhầm lẫn giữa màu sắc và hình dạng. Trong khi đó, chức năng tạo ảnh của Sora phiên bản mới có thể liên kết chính xác thuộc tính của 15 đến 20 đối tượng, hiểu đúng các yêu cầu phức tạp riêng biệt, đồng thời đảm bảo không bị đánh lạc hướng, từ đó nâng cao đáng kể tỷ lệ thành công.

Bên cạnh những cải thiện trải nghiệm sử dụng, một chi tiết khác là OpenAI đã xác nhận rằng thời gian tạo ảnh của Sora phiên bản mới dài hơn trước, nhưng OpenAI cho rằng đây là sự đánh đổi xứng đáng.
"Dù chắc chắn chúng tôi vẫn còn không gian để cải thiện về độ trễ... nhưng (chúng tôi cảm thấy) chất lượng, chức năng và kiến thức thế giới của những hình ảnh này thực sự bù đắp cho vài giây chờ đợi thêm của người dùng," Shannon nói.
Về vấn đề an toàn trong lĩnh vực tạo ảnh —— từ năm ngoái đến nay đã xảy ra nhiều lần việc giả mạo ảnh người nổi tiếng không phù hợp, ảnh giả về các sự kiện nóng, hay vấn đề Google Gemini xóa dấu mờ nước gốc khỏi ảnh —— đội ngũ OpenAI nhấn mạnh rằng Sora phiên bản mới đã có thể xóa dấu mờ nước trên ảnh, đồng thời ngăn chặn việc tạo ảnh deepfake sinh tạo và từ chối các yêu cầu tạo nội dung liên quan. Đồng thời, tất cả các hình ảnh được tạo ra đều sẽ chứa dữ liệu siêu C2PA tiêu chuẩn, để đánh dấu rằng hình ảnh được tạo bởi OpenAI.
Hiện tại, chức năng mô hình tạo ảnh Sora được tích hợp trong ChatGPT đã mở cửa cho người dùng gói đăng ký Pro và Plus, và OpenAI cam kết rằng Sora phiên bản mới cũng sẽ sớm được cung cấp cho phiên bản miễn phí và API.
Bây giờ điều tôi muốn làm nhất là lập tức nhờ nó tạo meme của riêng mình.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News










