Mô hình AI tạo ảnh mới nhất của Google mang tên "chuối", khiến cư dân mạng phát cuồng với trào lưu "Vibe Photoshoping"

2025.08.29

Chia sẻ đến

Tuyển chọn TechFlowTuyển chọn TechFlow

Mô hình AI tạo ảnh mới nhất của Google mang tên "chuối", khiến cư dân mạng phát cuồng với trào lưu "Vibe Photoshoping"

Sự nhất quán cao về vai trò mang đến trải nghiệm «Vibe Photoshoping» chưa từng có.

2025.08.29 - 10:54:48

谷歌AI

Chuyên sâu báo cáo Web3

Sự nhất quán cao về vai trò mang đến trải nghiệm «Vibe Photoshoping» chưa từng có.

Bạn còn nhớ mô hình chỉnh sửa ảnh AI bí ẩn "nano-banana" từng gây xôn xao trước đây không? Khi ấy, nhờ hiệu suất nổi bật trên sân chơi mô hình ngôn ngữ lớn LMArena, nó đã trở thành chủ đề bàn tán sôi nổi. Các chuyên gia kỹ thuật hàng đầu từ Google Gemini cũng lần lượt xuất hiện, tạo sự tò mò mạnh mẽ trên mạng xã hội, thậm chí một thời gian dài được đồn đoán là Gemini 3.0 Pro.

Giờ đây, Google cuối cùng đã tiết lộ danh tính thực sự của nó.

Vào rạng sáng ngày 27 tháng 8 theo giờ Bắc Kinh, Google AI Studio chính thức ra mắt Gemini 2.5 Flash Image (mã hiệu nano banana) 🍌.

Gemini 2.5 Flash Image sau thời gian dài chuẩn bị cuối cùng đã ra mắt｜Nguồn ảnh: GeekPark

Đây là mô hình tạo và chỉnh sửa ảnh tiên tiến nhất của Google cho đến nay, tốc độ nhanh đến mức phi thường, mang lại trải nghiệm gần như "chớp nhoáng", đồng thời đạt thành tích SOTA trên nhiều bảng xếp hạng, dẫn đầu vượt trội tại LMArena.

Gemini 2.5 Flash Image ngay khi ra mắt đã đạt trình độ SOTA｜Nguồn ảnh: LMarena.ai

Trong bài viết trên blog công nghệ, Google cho biết Gemini 2.0 Flash đã giành được cảm tình của các nhà phát triển nhờ độ trễ thấp và chi phí hiệu quả cao, nhưng người dùng luôn mong đợi chất lượng hình ảnh tốt hơn và khả năng kiểm soát sáng tạo mạnh mẽ hơn. Gemini 2.5 Flash Image chính là phiên bản nâng cấp重磅 này: tính nhất quán nhân vật cuối cùng đã được duy trì đầy đủ, chỉnh sửa ảnh dựa trên nhắc nhở chính xác hơn, hiệu ứng kết hợp nhiều hình ảnh tự nhiên và mượt mà, cộng thêm khả năng hiểu biết về thế giới thực, biến nó không chỉ đơn thuần là một mô hình mà giống như một "điểm khởi nguồn" đặt nền móng cho thế hệ ứng dụng đình đám tiếp theo.

GeekPark cũng đã trải nghiệm sản phẩm ngay lập tức. Điều bất ngờ là, đây không chỉ đơn thuần là một bản cập nhật mô hình; lần đầu tiên, nó khiến người ta thực sự cảm nhận được rằng tương lai của việc chỉnh sửa ảnh bằng AI đã ở rất gần.

Hiện tại đã mở cửa trải nghiệm trên Google AI Studio｜Nguồn ảnh: GeekPark

Lúc đầu, tôi thực sự chỉ mang tâm lý trải nghiệm thông thường, muốn xem thử "mô hình mới nhanh ở điểm nào". Nhưng không ngờ rằng, chỉ trong vài giờ trải nghiệm ngắn ngủi, tôi dường như đã nhìn thấy trước hình dáng của một ứng dụng đình đám thế hệ tiếp theo.

Trước đây, chúng ta quen thuộc với các công cụ như Meitu Xiuxiu, chỉ cần nhấn vài nút, áp bộ lọc, bức ảnh sẽ nhanh chóng trở nên đẹp hơn. Nhưng cảm giác mà Gemini 2.5 Flash Image mang lại hoàn toàn khác biệt. Nó nhanh đến mức khó tin, thông minh như một nhà thiết kế thấu hiểu ý bạn, bạn chỉ cần nói ra hiệu ứng mong muốn, nó có thể hiển thị hình ảnh trong vài giây.

Ngoài hiệu quả, tốc độ cũng là một trải nghiệm rõ ràng khác biệt so với các sản phẩm tạo ảnh mô hình trước đó của Gemini 2.5 Flash Image｜Nguồn ảnh: GeekPark

01 Tạo hình cực nhanh, kết quả trong vài giây

Trải nghiệm trực quan nhất của Nano banana chính là tốc độ. Trước đây, khi sử dụng một số mô hình mã nguồn mở, dù cấu hình máy tính khá tốt, từ lúc nhập nhắc nhở đến khi tạo ra một bức ảnh ổn định cũng phải chờ vài chục giây hoặc lâu hơn. Đối với người dùng điện thoại, quá trình chờ đợi này càng thêm đau khổ.

Nhưng Gemini 2.5 Flash Image đã giảm ngưỡng này xuống chỉ còn vài giây. Đây là mô hình đa phương thức gốc được Google tuyên bố là "mới nhất, nhanh nhất, hiệu quả nhất", rõ ràng đã được tối ưu hóa rất kỹ lưỡng. Trong bài kiểm tra thực tế của tôi, chỉ cần nhập một câu nhắc nhở, khoảng ba đến bốn giây là đã có kết quả, độ phân giải và chi tiết đều rất rõ ràng.

Trải nghiệm này rất giống với việc xử lý ảnh hàng ngày bằng Meitu Xiuxiu: nhấn nút "làm đẹp", hiệu quả gần như tức thì. Điểm khác biệt là Meitu Xiuxiu sử dụng thuật toán để áp bộ lọc sẵn có, trong khi Gemini 2.5 Flash Image đang xây dựng một bức ảnh hoàn toàn mới từ đầu, hoặc thay đổi đáng kể một bức ảnh theo yêu cầu của bạn. Cảm giác "chỉ cần nói là làm được" này là điều hoàn toàn không tưởng với quy trình chỉnh sửa ảnh phức tạp trước đây.

Các nhu cầu như "xóa người qua đường khỏi nền" chỉ cần một Prompt là giải quyết được｜Nguồn ảnh: GeekPark

Nếu như tốc độ giải quyết trải nghiệm người dùng chỉnh sửa ảnh truyền thống, thì "đa phương thức gốc" giải quyết vấn đề về ranh giới năng lực hình ảnh AI.

Gemini 2.5 Flash Image không chỉ có thể tạo ảnh, mà còn đồng thời hiểu được đầu vào văn bản và hình ảnh. Điều này có nghĩa là tôi có thể cung cấp cho nó một bức ảnh và một đoạn văn bản nhắc nhở cùng lúc, nó sẽ kết hợp cả hai thông tin để hiểu rõ tôi thực sự muốn gì.

Ví dụ, tôi tải lên một bức ảnh chụp trên phố, rồi nói với nó "thay đổi nền thành khung cảnh đêm Tokyo Shinjuku". Kết quả là nó không chỉ nhận diện đúng đối tượng trong ảnh tôi tải lên, mà còn chính xác cắt người ra, thay nền thành con phố Shinjuku ánh đèn neon rực rỡ. Đặc biệt quý giá là, nó còn giữ được sự thống nhất về ánh sáng và bóng đổ của nhân vật, hoàn toàn không có hiệu ứng "cắt dán thô cứng" thường gặp khi cắt thủ công.

Khả năng hiểu biết này khiến tôi nhớ đến chức năng thường được các hãng điện thoại nhắc đến trong thư viện ảnh tích hợp hệ thống những năm gần đây – "đổi nền một chạm". Nhưng khác biệt là, việc đổi nền trước đây thường bị mờ viền, ánh sáng sai lệch, hiệu quả rất giả. Còn bây giờ, Gemini 2.5 Flash Image có thể dùng kiến thức thế giới và khả năng hiểu thị giác để bổ sung các chi tiết này, kết quả tự nhiên hơn nhiều, đạt được độ bảo tồn chi tiết hình ảnh chính xác vượt xa các công cụ mô hình truyền thống sinh ảnh từ văn bản/hình ảnh.

Ảnh gốc & Hiệu quả tạo bởi Gemini 2.5 Flash Image｜Nguồn ảnh: GeekPark

Đây cũng là lý do tôi cho rằng nó sẽ định nghĩa lại trải nghiệm chỉnh sửa ảnh: không còn phụ thuộc vào việc điều chỉnh thủ công nhiều bước, mà dựa vào khả năng hiểu ngữ nghĩa tự nhiên của mô hình để "vừa bay vừa ném gạch" hoàn thành nhiệm vụ, ví dụ như trong các cảnh xử lý ảnh chân dung nơi yêu cầu rất cao về chi tiết hình ảnh.

Đối với nhu cầu xử lý ảnh chân dung như vậy, tính nhất quán nhân vật của Gemini 2.5 Flash Image thực sự mang lại một trải nghiệm "Vibe Photoshoping" chưa từng có.

Một giây giúp lập trình viên "giữ thể diện"｜Nguồn ảnh: GeekPark

Trải nghiệm này phá vỡ ấn tượng trước đây của nhiều người về việc tạo ảnh AI – "huyền học": dù bạn viết từ khóa tốt đến đâu, hiệu quả xuất ảnh vẫn có thể tuyệt vời; nếu từ khóa viết bình thường, nội dung tạo ra có thể hoàn toàn lệch hướng.

Nhưng trong Gemini 2.5 Flash Image, tôi thấy cảm giác "huyền học" này đã giảm đi rất nhiều. Khả năng hiểu từ khóa của nó chính xác hơn, cũng gần hơn với trực giác người dùng—đây chính là lý do tại sao nhiều người đột nhiên cảm thấy nó dễ dùng hơn nhiều.

Ví dụ, tôi nói với nó "làm mờ nền, làm nổi bật nhân vật tiền cảnh", vài giây sau hình ảnh tạo ra đúng như hiệu quả tôi mong muốn; tôi bảo nó "thay đổi biểu cảm khuôn mặt trong ảnh thành cười", kết quả không chỉ khoé miệng hơi cong lên, mà ánh mắt cũng được điều chỉnh, chi tiết rất chuẩn xác; tôi thậm chí thử "tô màu cho ảnh đen trắng", kết quả ảnh màu xuất ra không phải tô bừa, mà cố gắng sát nhất với bầu không khí màu sắc trong ảnh lịch sử.

Khả năng "nói là làm" này khiến tôi nhớ đến việc dùng Meitu Xiuxiu trước đây, rõ ràng chỉ muốn làm mịn da, kết quả cả khuôn mặt biến thành "mặt giả nhân tạo cấp độ 10". Còn bây giờ, thao tác của Gemini 2.5 Flash Image là chính xác, kín đáo, nó thực sự hiểu bạn muốn gì, rồi cố gắng tái hiện.

02 Nâng cấp năng lực, dùng rồi khó quay lại

Để trực quan hơn, tôi đặc biệt so sánh nó với công cụ chỉnh sửa ảnh di động mà tôi thường dùng.

Trên Snapseed, nếu tôi muốn làm mờ nền, thường phải mất một đến hai phút để thủ công khoanh vùng tiền cảnh, sau đó điều chỉnh mức độ mờ. Dù thao tác thành thạo, cũng khó tránh khỏi việc phải sửa đi sửa lại.

Trên Meitu Xiuxiu, mặc dù có chức năng làm mờ nền một chạm, nhưng thường xuyên làm mờ luôn cả viền nhân vật, hiệu quả không tự nhiên.

Còn trên Gemini 2.5 Flash Image, tôi chỉ cần nói một câu, nó tự động nhận diện ranh giới giữa nhân vật và nền, hiệu quả mờ tự nhiên, hoàn toàn không cần chỉnh sửa lần hai.

Khi thay đổi chi tiết trong khung hình, vẫn tránh được hiện tượng "vẽ bậy vẽ bạ" thường thấy ở các công cụ AI trước đây đối với các phần nền khác｜Nguồn ảnh: Twitter

Sự so sánh này thực ra cho thấy một điểm:Gemini 2.5 Flash Image giải phóng người dùng khỏi các thao tác phức tạp, giao nhiều công việc hơn cho mô hình. Đối với người bình thường, nó hạ thấp ngưỡng chỉnh sửa ảnh; đối với chuyên gia, nó tiết kiệm rất nhiều thời gian.

Sau trải nghiệm, cảm nhận lớn nhất của tôi là Gemini 2.5 Flash Image đã không còn đơn thuần là một công cụ chỉnh sửa ảnh, mà gần hơn với một "trợ lý thông minh".

Trước đây, khi dùng Meitu Xiuxiu, chúng ta đang sử dụng một bộ sưu tập chức năng đã được cài đặt sẵn, bộ lọc, làm đẹp, hình mờ, mỗi nút bấm tương ứng một chức năng. Việc bạn cần làm là chọn từng cái, điều chỉnh từng bước, cho đến khi hài lòng.

Còn bây giờ, logic của Gemini 2.5 Flash Image hoàn toàn khác. Nó không yêu cầu bạn học cách vận hành công cụ, mà trực tiếp hiểu nhu cầu của bạn. Bạn chỉ cần nói ra, nó sẽ thay bạn hoàn thành.

Sự thay đổi này tuy nhỏ bé nhưng thực chất đã hoàn toàn thay đổi mối quan hệ trong quy trình chỉnh sửa ảnh. Trước đây là chúng ta thích nghi với công cụ, bây giờ là công cụ thích nghi với chúng ta. Chính cách thức tương tác này đã là hình mẫu sơ khai của thế hệ ứng dụng tiếp theo.

Nhìn từ hiện tại, Gemini 2.5 Flash Image vẫn ở giai đoạn đầu, có thể còn giới hạn về chức năng. Nhưng tốc độ, khả năng hiểu và độ chính xác mà nó thể hiện đã đủ để khiến người ta tràn đầy kỳ vọng về tương lai.

Nếu kết hợp nó với Meitu Xiuxiu, sẽ ra sao? Có thể là bạn mở ứng dụng, nói vào điện thoại "giúp tôi sửa bức ảnh này, làm da tự nhiên hơn một chút", vài giây sau kết quả đã được tạo ra; có thể khi chụp ảnh du lịch, bạn bảo nó "thay đổi thời tiết thành trời nắng", bức ảnh lập tức trở nên nắng đẹp; thậm chí trong biên tập video, bạn chỉ cần một câu nói là có thể thay đổi toàn bộ bầu không khí của đoạn phim.

Cách thức này trong tương lai có thể nhanh chóng trở thành chức năng chỉnh sửa ảnh phổ biến trong hệ điều hành điện thoại｜Nguồn ảnh: Twitter

Đây là lý do tôi cho rằng nó sẽ nhanh chóng cách mạng hóa quy trình thao tác hiện tại của các công cụ chỉnh sửa ảnh, định nghĩa lại thế hệ "Meitu Xiuxiu" tiếp theo: không chỉ là chỉnh sửa ảnh, mà là tái tạo cách thức tương tác xử lý hình ảnh, biến AI thành trợ lý hậu kỳ nhiếp ảnh của bạn.

Nhưng hiện tại Gemini 2.5 Flash Image vẫn chưa thể一步到位, đóng vai trò là một ứng dụng chỉnh sửa ảnh đại chúng sẵn sàng sử dụng: không chỉ vì mục đích chính của nó vẫn là tạo ảnh chứ không phải tinh chỉnh trên nền có sẵn, mà tất cả hình ảnh được tạo hoặc chỉnh sửa bởi Gemini 2.5 Flash Image đều chứa một dấu nước số SynthID, dùng để các nền tảng nội dung mạng xã hội nhận diện nội dung do AI tạo ra.

03 Điểm bùng nổ của ứng dụng đình đám

Nhìn lại, lý do Meitu Xiuxiu từng trở thành ứng dụng quốc dân là vì nó giải quyết vấn đề mà ai cũng muốn giải quyết — làm cho ảnh đẹp hơn — bằng cách thức đơn giản nhất.

Mà Gemini 2.5 Flash Image chính là tiến thêm một bước nữa, mài giũa năng lực AI phức tạp thành trải nghiệm "tạo ảnh trong nháy mắt" mà ai cũng có thể dùng.

Khi lần đầu tiên tôi nói với nó "giúp tôi làm mờ nền một chút", khoảnh khắc vài giây sau hình ảnh được xử lý tự nhiên, tôi hiểu rõ trong lòng: đây chính là điểm bùng nổ của ứng dụng đình đám. Nó không chỉ là một mô hình, mà là năng lực nền tảng cho vô số sản phẩm mới trong tương lai.

Chức năng AI đổi trời một chạm từng gây sốt trong người dùng điện thoại vài năm trước｜Nguồn ảnh: Cộng đồng vivo

Có lẽ vài năm nữa, chúng ta sẽ quên mất mã hiệu Banana này, nhưng sẽ thấy ngày càng nhiều công cụ xử lý ảnh mang lại trải nghiệm mới "muốn gì nói ra, lập tức thực hiện được", có thể sẽ giống như Meitu Xiuxiu ngày xưa, trở thành ký ức chung của một thế hệ người dùng.

Chỉ là lần này, AI sẽ đẩy trí tưởng tượng đi xa hơn.

Chào mừng tham gia cộng đồng chính thức TechFlow

Nhóm Telegram:https://t.me/TechFlowDaily

Tài khoản Twitter chính thức:https://x.com/TechFlowPost

Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News

Thêm vào mục ưa thích

Chia sẻ lên mạng xã hội

Tác giả

极客公园

Mô hình AI tạo ảnh mới nhất của Google mang tên "chuối", khiến cư dân mạng phát cuồng với trào lưu "Vibe Photoshoping"

Tuyển chọn TechFlowTuyển chọn TechFlow

Mô hình AI tạo ảnh mới nhất của Google mang tên "chuối", khiến cư dân mạng phát cuồng với trào lưu "Vibe Photoshoping"

01 Tạo hình cực nhanh, kết quả trong vài giây

02 Nâng cấp năng lực, dùng rồi khó quay lại

03 Điểm bùng nổ của ứng dụng đình đám

Bài viết liên quan

Nội dung bài viết

Zhipu AI trong mắt một người nước ngoài: Mô hình miễn phí, thua lỗ khổng lồ, vì sao vốn hóa thị trường từng vượt qua Meituan?

Goldman Sachs: Thị trường Hồng Kông đã bước vào kỷ nguyên AI

Các công ty AI không kiếm được tiền, nên học hỏi kinh nghiệm từ tàu điện ngầm Hồng Kông

Trong khi bạn vẫn đang tìm cách sử dụng GPT, các công ty Mỹ đã「chuyển hướng tập thể」sang mô hình AI Trung Quốc

All In Podcast mới nhất｜Cuộc đối đầu IPO giữa OpenAI và Anthropic: Định giá nghìn tỷ, Chiến tranh giá cả và Sự chuyển hướng mã nguồn mở của Trung Quốc

Anthropic: Chắt lọc 700.000 cuộc hội thoại Claude thành 3.000 giá trị, phát hiện Opus 4.7 thận trọng nhất, Sonnet 4.6 khéo chiều lòng người hơn

IOSG｜Ngã rẽ của AI: Tại sao Giới Phố Wall đang nói "không" với ChatGPT và Claude?

Apple nộp đơn kiện, Musk và Altman lại tranh cãi

Claude lại có ý thức rồi? Không, nó không có.

Tranh chấp AI Agent ai sẽ quản lý? Blockchain「Tòa án Internet」đã mở phiên tòa

Tuyển chọn TechFlow
Xem thêm>

Mô hình AI tạo ảnh mới nhất của Google mang tên "chuối", khiến cư dân mạng phát cuồng với trào lưu "Vibe Photoshoping"

Tuyển chọn TechFlowTuyển chọn TechFlow

Mô hình AI tạo ảnh mới nhất của Google mang tên "chuối", khiến cư dân mạng phát cuồng với trào lưu "Vibe Photoshoping"

01 Tạo hình cực nhanh, kết quả trong vài giây

02 Nâng cấp năng lực, dùng rồi khó quay lại

03 Điểm bùng nổ của ứng dụng đình đám

Bài viết liên quan

Nội dung bài viết

Zhipu AI trong mắt một người nước ngoài: Mô hình miễn phí, thua lỗ khổng lồ, vì sao vốn hóa thị trường từng vượt qua Meituan?

Goldman Sachs: Thị trường Hồng Kông đã bước vào kỷ nguyên AI

Các công ty AI không kiếm được tiền, nên học hỏi kinh nghiệm từ tàu điện ngầm Hồng Kông

Trong khi bạn vẫn đang tìm cách sử dụng GPT, các công ty Mỹ đã「chuyển hướng tập thể」sang mô hình AI Trung Quốc

All In Podcast mới nhất｜Cuộc đối đầu IPO giữa OpenAI và Anthropic: Định giá nghìn tỷ, Chiến tranh giá cả và Sự chuyển hướng mã nguồn mở của Trung Quốc

Anthropic: Chắt lọc 700.000 cuộc hội thoại Claude thành 3.000 giá trị, phát hiện Opus 4.7 thận trọng nhất, Sonnet 4.6 khéo chiều lòng người hơn

IOSG｜Ngã rẽ của AI: Tại sao Giới Phố Wall đang nói "không" với ChatGPT và Claude?

Apple nộp đơn kiện, Musk và Altman lại tranh cãi

Claude lại có ý thức rồi? Không, nó không có.

Tranh chấp AI Agent ai sẽ quản lý? Blockchain「Tòa án Internet」đã mở phiên tòa

Tuyển chọn TechFlowXem thêm>

Tuyển chọn TechFlow
Xem thêm>