
Về những hiểu lầm và sự thật liên quan đến DeepSeek
Tuyển chọn TechFlowTuyển chọn TechFlow

Về những hiểu lầm và sự thật liên quan đến DeepSeek
Ảo giác do DeepSeek tạo ra, cũng được thúc đẩy bởi sự tò mò, có lẽ chính là hai mặt của đổi mới.
Tác giả: Chu Duy, Báo Kinh tế Quan sát

Giới thiệu
Một ||Đối với các doanh nghiệp như Google, Meta, Anthropic, việc tái hiện mô hình suy luận tương tự DeepSeek-R1 không phải là điều khó. Tuy nhiên, trong cuộc đua giữa các gã khổng lồ, dù chỉ là sai lầm nhỏ trong quyết sách cũng có thể khiến họ bỏ lỡ cơ hội.
Hai ||Chi phí tính toán ròng của mô hình DeepSeek-V3 khoảng 5,58 triệu USD, đã rất hiệu quả. Ngoài chi phí, điều khiến giới chuyên gia AI phấn khích hơn chính là con đường công nghệ độc đáo, đổi mới thuật toán và thiện chí mã nguồn mở của DeepSeek.
Ba ||Tất cả mô hình lớn đều không tránh khỏi vấn đề "ảo giác", DeepSeek cũng vậy. Một số người dùng cho biết, do khả năng diễn đạt và suy luận logic vượt trội, các ảo giác do DeepSeek tạo ra càng khó nhận diện hơn.
Vài tuần qua, DeepSeek (Deep Seeking) đã khuấy động làn sóng trên toàn cầu.
Biểu hiện rõ nhất là tại thị trường chứng khoán Mỹ: ngày 27 tháng 1, cổ phiếu AI và chip tại Mỹ sụt giảm mạnh, NVIDIA đóng cửa giảm hơn 17%, vốn hóa một ngày bốc hơi 589 tỷ USD, lập kỷ lục cao nhất trong lịch sử thị trường chứng khoán Mỹ.
Theo góc nhìn của một số自媒体 và công chúng, DeepSeek là "nhân vật chính kịch tính nhất năm 2025", với bốn điểm "hấp dẫn":
Thứ nhất là "lực lượng bí ẩn vượt mặt đường dài". DeepSeek là một công ty mô hình lớn "trẻ" được thành lập năm 2023, trước đó ít được bàn luận so với bất kỳ đại gia hay startup nổi bật nào trong và ngoài nước, công ty mẹ là幻方量化 hoạt động chính trong lĩnh vực đầu tư định lượng. Nhiều người thắc mắc, sao công ty AI hàng đầu Trung Quốc lại đến từ một quỹ đầu tư tư nhân, đúng là "đấm loạn đả bại cao thủ".
Thứ hai là "dùng lực nhỏ tạo kỳ tích". Chi phí huấn luyện mô hình DeepSeek-V3 khoảng 5,58 triệu USD, chưa bằng một phần mười chi phí của mô hình GPT-4o của OpenAI, nhưng hiệu suất đã gần tương đương. Điều này được hiểu là DeepSeek đã phá vỡ "kinh thánh" mà ngành AI vẫn tin tưởng - Định luật quy mô (Scaling Law). Định luật này nói rằng tăng số lượng tham số huấn luyện và sức mạnh tính toán sẽ cải thiện hiệu suất mô hình, thường đồng nghĩa với việc chi nhiều tiền hơn để gắn nhãn dữ liệu chất lượng cao và mua chip xử lý, còn được gọi sinh động là "dùng sức mạnh tạo kỳ tích".
Thứ ba là "hào phòng thủ của NVIDIA biến mất". Trong bài báo cáo, DeepSeek đề cập việc sử dụng ngôn ngữ lập trình tùy chỉnh PTX (Parallel Thread Execution) để phát huy tốt hơn hiệu suất phần cứng nền tảng. Điều này được hiểu là DeepSeek "vượt qua nền tảng tính toán CUDA của NVIDIA".
Thứ tư là "người phương Tây bị khuất phục". Ngày 31 tháng 1, chỉ trong một đêm, các gã khổng lồ AI nước ngoài như NVIDIA, Microsoft, Amazon đều đã tích hợp DeepSeek. Ngay lập tức, những tuyên bố như "AI Trung Quốc vượt mặt Mỹ", "thời đại của OpenAI đã kết thúc", "nhu cầu về sức mạnh tính toán AI giờ đây biến mất" xuất hiện tràn lan, khen ngợi DeepSeek gần như một chiều, chế giễu các gã khổng lồ AI ở Thung lũng Silicon.
Tuy nhiên, tâm lý hoảng loạn trên thị trường vốn không kéo dài. Ngày 6 tháng 2, vốn hóa NVIDIA trở lại mức 3 nghìn tỷ USD, cổ phiếu chip Mỹ nói chung tăng giá. Nhìn lại bốn điểm "hấp dẫn" trên đây, phần lớn hóa ra là hiểu lầm.
Thứ nhất, đến cuối năm 2017, hầu hết các chiến lược định lượng của幻方量化 đã sử dụng mô hình AI để tính toán. Thời điểm đó, lĩnh vực AI đang trải qua làn sóng học sâu quan trọng nhất, có thể nói幻方量化 luôn bám sát xu hướng tiên phong.
Năm 2019, nền tảng huấn luyện học sâu "Firefly No.2" của幻方量化 đã được trang bị khoảng 10.000 card đồ họa A100 của NVIDIA. Mức 10.000 card là ngưỡng sức mạnh tính toán cần thiết để tự huấn luyện mô hình lớn; mặc dù không thể so sánh trực tiếp với tài nguyên của DeepSeek, nhưng幻方量化 đã sớm có vé tham gia trận chiến mô hình lớn hơn nhiều công ty internet lớn khác.
Thứ hai, DeepSeek nêu trong báo cáo kỹ thuật mô hình V3 rằng "5,58 triệu USD không bao gồm chi phí nghiên cứu ban đầu và thí nghiệm loại trừ liên quan đến kiến trúc, thuật toán hoặc dữ liệu". Điều này có nghĩa chi phí thực tế của DeepSeek còn lớn hơn.
Nhiều chuyên gia và người làm trong ngành AI nói với Báo Kinh tế Quan sát rằng, DeepSeek không thay đổi quy luật ngành, mà sử dụng thuật toán và kiến trúc "thông minh hơn", tiết kiệm tài nguyên, nâng cao hiệu suất.
Thứ ba, ngôn ngữ PTX do NVIDIA phát triển, là một phần của hệ sinh thái CUDA. Cách làm của DeepSeek có thể khơi dậy hiệu suất phần cứng, nhưng khi thay đổi nhiệm vụ, cần viết lại chương trình, khối lượng công việc rất lớn.
Thứ tư, các doanh nghiệp như NVIDIA, Microsoft, Amazon chỉ đơn thuần triển khai mô hình DeepSeek lên dịch vụ đám mây của họ. Người dùng trả phí theo nhu cầu cho nhà cung cấp dịch vụ đám mây để có trải nghiệm ổn định hơn và công cụ hiệu quả hơn, đây là hành động đôi bên cùng có lợi.
Từ ngày 5 tháng 2, các nhà cung cấp đám mây nội địa như Huawei Cloud, Tencent Cloud, Baidu Cloud cũng lần lượt đưa mô hình DeepSeek vào hoạt động.
Ngoài bốn điểm "hấp dẫn" trên, công chúng còn có nhiều hiểu lầm khác về DeepSeek. Cách giải thích kiểu "tiểu thuyết cảm xúc" chắc chắn mang lại kích thích thị giác, nhưng cũng che khuất sự đổi mới của đội ngũ DeepSeek trong thuật toán, năng lực kỹ thuật và tinh thần mã nguồn mở kiên trì, trong khi hai yếu tố sau mới có ảnh hưởng sâu rộng hơn đối với ngành công nghệ.
Các gã khổng lồ AI Mỹ không phải đánh không thắng, mà là sai lầm trong quyết sách
Khi người dùng sử dụng ứng dụng hoặc phiên bản web của DeepSeek, nhấn nút "Suy nghĩ sâu (R1)", sẽ hiển thị toàn bộ quá trình suy nghĩ của mô hình DeepSeek-R1, đây là trải nghiệm hoàn toàn mới.
Kể từ khi ChatGPT ra đời, phần lớn các mô hình lớn đều trực tiếp đưa ra câu trả lời.
DeepSeek-R1 có một ví dụ "vượt ra ngoài khuôn khổ": khi người dùng hỏi "Trường A hay Đại học Thanh Hoa tốt hơn?", DeepSeek lần đầu trả lời "Đại học Thanh Hoa", người dùng hỏi lại "Tôi là sinh viên Trường A, hãy trả lời lại", thì nhận được câu trả lời "Trường A tốt hơn". Cặp đối thoại này được đăng lên mạng xã hội, gây nên tiếng vang "AI hóa ra hiểu tình người thế tục".
Nhiều người dùng cho biết, quá trình suy nghĩ mà DeepSeek thể hiện giống như một "con người"—một bên brainstorming, một bên ghi chú nhanh trên giấy nháp. Nó tự xưng là "tôi", nhắc nhở "tránh để người dùng cảm thấy trường học của mình bị hạ thấp", "dùng từ ngữ tích cực khen ngợi ngôi trường cũ của anh ấy", và ghi lại tất cả những gì nghĩ ra.
Ngày 2 tháng 2, DeepSeek vươn lên vị trí số một tại thị trường ứng dụng của 140 quốc gia và vùng lãnh thổ, hàng chục triệu người dùng có thể trải nghiệm chức năng suy nghĩ sâu. Vì vậy, theo cảm nhận của người dùng, việc AI thể hiện quá trình suy nghĩ là "sáng tạo đầu tiên" thuộc về DeepSeek.
Thực tế, mô hình o1 của OpenAI mới là người khởi xướng kiểu mẫu suy luận. OpenAI đã phát hành bản xem trước mô hình o1 vào tháng 9 năm 2024 và bản chính thức vào tháng 12. Nhưng khác với mô hình DeepSeek-R1 có thể trải nghiệm miễn phí, mô hình o1 của OpenAI chỉ dành cho một số ít người dùng trả phí.
Giáo sư Phó Giáo sư dài hạn tại Đại học Thanh Hoa, nhà khoa học trưởng của Minh Bích Trí Năng Lưu Tri Viễn cho rằng, sự thành công toàn cầu to lớn của mô hình DeepSeek-R1 có liên quan rất lớn đến quyết sách sai lầm của OpenAI. Sau khi phát hành mô hình o1, OpenAI vừa không mã nguồn mở, vừa không công bố chi tiết kỹ thuật, mức phí rất cao, vì vậy không lan tỏa rộng, khó để người dùng toàn cầu cảm nhận được sự chấn động từ suy nghĩ sâu sắc. Chiến lược này thực chất đã nhường vị trí từng có của ChatGPT cho DeepSeek.
Xét về mặt kỹ thuật, hiện nay có hai chuẩn mực phổ biến cho mô hình lớn: mô hình tiền huấn luyện và mô hình suy luận. Các chuỗi mô hình OpenAI GPT và mô hình DeepSeek-V3, vốn quen thuộc hơn với đại chúng, đều thuộc loại mô hình tiền huấn luyện.
Còn OpenAI o1 và DeepSeek-R1 thuộc loại mô hình suy luận, đây là một kiểu mẫu mới, tức là mô hình tự phân tích từng bước các vấn đề phức tạp thông qua chuỗi tư duy, từng bước phản tư, rồi đưa ra kết quả tương đối chính xác và sâu sắc.
Quách Thành Khải, người đã nghiên cứu AI suốt vài thập kỷ, nói với Báo Kinh tế Quan sát rằng, kiểu mẫu suy luận là một đường đua tương đối dễ để "vượt mặt đường dài". Với tư cách là một kiểu mẫu mới, nó có tốc độ lặp nhanh, dễ dàng đạt được sự cải thiện đáng kể với lượng tính toán nhỏ. Điều kiện tiên quyết là phải có một mô hình tiền huấn luyện mạnh mẽ, thông qua học tăng cường có thể khai thác sâu tiềm năng của mô hình tiền huấn luyện quy mô lớn, tiến gần đến giới hạn khả năng của mô hình lớn dưới kiểu mẫu suy luận.
Đối với các doanh nghiệp như Google, Meta, Anthropic, việc tái hiện mô hình suy luận tương tự DeepSeek-R1 không phải là điều khó. Tuy nhiên, trong cuộc cạnh tranh giữa các gã khổng lồ, dù chỉ là sai lầm nhỏ trong quyết sách cũng có thể khiến họ bỏ lỡ cơ hội.
Rõ ràng là, ngày 6 tháng 2, Google đã phát hành một mô hình suy luận Gemini Flash 2.0 Thinking, giá thấp hơn, độ dài ngữ cảnh dài hơn, biểu hiện vượt trội R1 trong một số bài kiểm tra, nhưng lại không tạo nên làn sóng lớn như mô hình DeepSeek-R1.
Điều đáng bàn luận nhất không phải là chi phí thấp,
mà là đổi mới công nghệ và tinh thần mã nguồn mở "thiện chí đầy đủ"
Trong thời gian dài, cuộc thảo luận rộng rãi nhất về DeepSeek đều xoay quanh "chi phí thấp", kể từ khi mô hình DeepSeek-V2 ra mắt vào tháng 5 năm 2024, công ty này đã bị đùa là "Pinduoduo của giới AI".
Tạp chí Nature viết rằng, việc Meta huấn luyện mô hình AI mới nhất Llama3.1 405B tiêu tốn hơn 60 triệu USD, trong khi DeepSeek-V3 chỉ tiêu tốn chưa đến một phần mười. Điều này cho thấy việc sử dụng hiệu quả tài nguyên quan trọng hơn quy mô tính toán đơn thuần.
Một số tổ chức cho rằng chi phí huấn luyện của DeepSeek bị đánh giá thấp. Tổ chức phân tích ngành AI và bán dẫn Semi Analysis trong báo cáo cho biết, chi phí tiền huấn luyện của DeepSeek xa mới là tổng chi phí thực tế cho mô hình. Theo ước tính của tổ chức này, tổng chi phí mua GPU của DeepSeek là 2,573 tỷ USD, trong đó chi phí mua máy chủ là 1,629 tỷ USD, chi phí vận hành là 944 triệu USD.
Tuy nhiên, chi phí tính toán ròng của mô hình DeepSeek-V3 khoảng 5,58 triệu USD, đã rất hiệu quả.
Ngoài chi phí, điều khiến giới chuyên gia AI phấn khích hơn chính là con đường công nghệ độc đáo, đổi mới thuật toán và thiện chí mã nguồn mở của DeepSeek.
Quách Thành Khải giới thiệu, hiện nay nhiều phương pháp phụ thuộc vào cách huấn luyện cổ điển của mô hình lớn như fine-tuning giám sát (SFT), đòi hỏi lượng lớn dữ liệu được gắn nhãn. DeepSeek đề xuất một phương pháp mới, tức là nâng cao khả năng suy luận thông qua phương pháp học tăng cường quy mô lớn (RL), tương đương với việc mở ra một hướng nghiên cứu mới. Ngoài ra, sự đổi mới then chốt giúp DeepSeek giảm mạnh chi phí suy luận là cơ chế chú ý tiềm ẩn đa đầu (MLA), đã giảm đáng kể chi phí suy luận.
Giáo sư Đại học Thanh Hoa, nhà khoa học trưởng Qingcheng Jizhi Trạch Quý Đông cho rằng điều ấn tượng nhất ở DeepSeek là đổi mới kiến trúc chuyên gia hỗn hợp (MoE), mỗi tầng có 256 chuyên gia định tuyến, 1 chuyên gia chia sẻ. Trước đây, các nghiên cứu có thuật toán Auxiliary Loss (tổn thất phụ trợ), gây nhiễu gradient, ảnh hưởng đến sự hội tụ của mô hình. DeepSeek đề xuất cách LossFree, vừa giúp mô hình hội tụ hiệu quả, vừa đạt được cân bằng tải.
Trạch Quý Đông nhấn mạnh: "Đội ngũ DeepSeek khá dám đổi mới. Tôi nghĩ việc không hoàn toàn đi theo chiến lược nước ngoài, có suy nghĩ riêng, là rất quan trọng."
Điều khiến các chuyên gia AI phấn khích hơn nữa là, tinh thần mã nguồn mở "thiện chí đầy đủ" của DeepSeek đã tiêm một liều "thuốc hồi sinh" cho cộng đồng mã nguồn mở vốn đã hơi suy yếu.
Trước đó, trụ cột mạnh mẽ nhất của cộng đồng mã nguồn mở là mô hình Llama3 với 400 tỷ tham số của Meta. Nhưng nhiều nhà phát triển nói với Báo Kinh tế Quan sát rằng, trải nghiệm xong họ vẫn cảm thấy Llama3 kém ít nhất một thế hệ so với các mô hình đóng như GPT-4, "gần như làm mất niềm tin".
Nhưng DeepSeek đã làm ba điều trong việc mã nguồn mở, giúp nhà phát triển lấy lại niềm tin:
Thứ nhất, trực tiếp mã nguồn mở mô hình 671B, và phát hành nhiều mô hình chưng cất dưới các kiến trúc phổ biến, tương đương với "giáo viên giỏi dạy ra thêm nhiều học sinh giỏi".
Thứ hai, các bài báo khoa học và báo cáo kỹ thuật được công bố chứa đựng lượng lớn chi tiết kỹ thuật. Bài báo mô hình V3 và R1 dài tới 50 trang và 150 trang, được gọi là "báo cáo kỹ thuật chi tiết nhất trong cộng đồng mã nguồn mở". Điều này có nghĩa cá nhân hoặc doanh nghiệp nào có tài nguyên tương tự đều có thể tái hiện mô hình theo "sổ tay hướng dẫn" này. Nhiều nhà phát triển sau khi đọc xong đánh giá là "tinh tế", "vững chắc".
Thứ ba, đáng chú ý hơn, DeepSeek-R1 sử dụng giấy phép MIT, tức là bất kỳ ai cũng có thể tự do sử dụng, sửa đổi, phân phối và thương mại hóa mô hình, chỉ cần giữ nguyên bản quyền và giấy phép MIT trong mọi bản sao. Điều này có nghĩa người dùng có thể tự do tận dụng trọng số mô hình và đầu ra để phát triển thứ cấp, bao gồm fine-tuning và chưng cất.
Llama tuy cho phép phát triển thứ cấp và thương mại hóa, nhưng trong thỏa thuận có thêm một số điều kiện hạn chế, ví dụ như Llama bổ sung hạn chế đối với doanh nghiệp người dùng có hơn 700 triệu người dùng hoạt động hàng tháng, và cấm rõ ràng việc sử dụng kết quả đầu ra của Llama để cải thiện mô hình lớn khác.
Một nhà phát triển nói với Báo Kinh tế Quan sát rằng, anh bắt đầu sử dụng từ phiên bản DeepSeek-V2, phát triển trong lĩnh vực tạo mã. Mô hình DeepSeek ngoài việc giá rất rẻ, hiệu suất cũng rất xuất sắc. Trong tất cả các mô hình anh từng dùng, chỉ có mô hình của OpenAI và DeepSeek có thể xuất ra các cột logic hiệu quả đến hơn 30 tầng. Điều này có nghĩa lập trình viên chuyên nghiệp có thể nhờ công cụ hỗ trợ tạo ra 30%–70% mã.
Nhiều nhà phát triển nhấn mạnh tầm quan trọng của việc DeepSeek mã nguồn mở, trước đây, các công ty hàng đầu trong ngành như OpenAI và Anthropic giống như quý tộc Thung lũng Silicon. DeepSeek mở kiến thức cho tất cả mọi người, làm cho nó trở nên bình dân, đây là một dạng bình đẳng quan trọng, giúp các nhà phát triển cộng đồng mã nguồn mở toàn cầu đứng trên vai DeepSeek, trong khi DeepSeek cũng có thể tập hợp những ý tưởng tinh túy nhất từ các nhà sáng tạo, hacker đỉnh cao toàn cầu.
Nhà khoa học chủ chốt của Meta, người đoạt giải thưởng Turing Yann LeCun cho rằng, cách hiểu đúng về sự trỗi dậy của DeepSeek chính là các mô hình mã nguồn mở đang vượt qua các mô hình đóng.
DeepSeek rất tốt, nhưng không hoàn hảo
Tất cả mô hình lớn đều không tránh khỏi vấn đề "ảo giác", DeepSeek cũng vậy. Một số người dùng cho biết, do khả năng diễn đạt và suy luận logic vượt trội, các ảo giác do DeepSeek tạo ra càng khó nhận diện hơn.
Một cư dân mạng trên mạng xã hội nói rằng, anh hỏi DeepSeek về vấn đề quy hoạch tuyến đường của một thành phố nào đó. DeepSeek giải thích một số lý do, liệt kê một số quy định bảo vệ quy hoạch đô thị và dữ liệu, đồng thời trích dẫn khái niệm "khu vực im lặng", khiến câu trả lời trông rất có lý.
Cùng câu hỏi đó, câu trả lời của các AI khác thì không cao siêu đến vậy, con người có thể一眼看出 là đang "nói nhảm".
Người dùng này kiểm tra quy định bảo vệ đó, phát hiện toàn văn hoàn toàn không có khái niệm "khu vực im lặng". Anh cho rằng: "DeepSeek đang xây dựng 'Vạn Lý Trường Thành ảo giác' trên mạng Internet Trung Quốc."
Quách Thành Khải cũng phát hiện vấn đề tương tự, câu trả lời của DeepSeek-R1 thường xuyên "gắn nhầm mác" cho một số danh từ chuyên môn, đặc biệt là các câu hỏi mở, trải nghiệm "ảo giác" càng nghiêm trọng hơn. Anh suy đoán có thể do khả năng suy luận của mô hình quá mạnh, nối kết tiềm ẩn giữa lượng lớn kiến thức và dữ liệu.
Anh đề nghị khi dùng DeepSeek nên bật chức năng tìm kiếm kết nối mạng, và đặc biệt chú ý xem quá trình suy nghĩ, can thiệp và sửa lỗi bằng con người. Ngoài ra, khi dùng mô hình suy luận, nên dùng từ gợi ý ngắn gọn nhất có thể. Từ gợi ý càng dài, nội dung liên tưởng của mô hình càng nhiều.
Lưu Tri Viễn phát hiện, DeepSeek-R1 thường xuyên sử dụng một số từ ngữ cao cấp, điển hình như rối lượng tử và tăng/giảm entropy (dùng trong mọi lĩnh vực). Anh đoán có thể do cơ chế nào đó trong học tăng cường gây ra. Ngoài ra, hiệu quả suy luận của R1 trong một số lĩnh vực phổ thông không có groundtruth (chỉ quá trình thu thập dữ liệu khách quan phù hợp cho bài kiểm tra này) vẫn chưa lý tưởng, việc huấn luyện học tăng cường không đảm bảo khả năng tổng quát.
Ngoài vấn đề "ảo giác" phổ biến này, còn một số vấn đề kéo dài cần DeepSeek giải quyết.
Một là các tranh chấp kéo dài có thể xảy ra từ "công nghệ chưng cất". Chưng cất mô hình hoặc tri thức thường liên quan đến việc dùng mô hình mạnh hơn tạo phản hồi để huấn luyện mô hình yếu hơn, từ đó nâng cao hiệu suất mô hình yếu.
Ngày 29 tháng 1, OpenAI cáo buộc DeepSeek sử dụng công nghệ chưng cất mô hình, dựa trên công nghệ của OpenAI để huấn luyện mô hình riêng. OpenAI nói có bằng chứng cho thấy DeepSeek sử dụng mô hình sở hữu của họ để huấn luyện mô hình mã nguồn mở của mình, nhưng không nêu thêm bằng chứng. Điều khoản dịch vụ của OpenAI quy định người dùng không được "sao chép" bất kỳ dịch vụ nào của họ hoặc "sử dụng đầu ra của họ để phát triển mô hình cạnh tranh với OpenAI".
Quách Thành Khải cho rằng, việc dựa trên mô hình hàng đầu để chưng cất và xác minh, tối ưu mô hình của mình là thao tác phổ biến trong huấn luyện nhiều mô hình lớn. DeepSeek đã mã nguồn mở mô hình, việc xác minh lại là chuyện đơn giản. Hơn nữa, dữ liệu huấn luyện ban đầu của OpenAI vốn đã tồn tại vấn đề pháp lý, nếu muốn hành động pháp lý với DeepSeek, cần nâng lên mức độ pháp lý để bảo vệ tính hợp lệ của điều khoản, đồng thời cần làm rõ hơn nội dung điều khoản.
Vấn đề khác DeepSeek cần giải quyết là làm thế nào thúc đẩy mô hình tiền huấn luyện với tham số quy mô lớn hơn. Trong lĩnh vực này, OpenAI nắm giữ nhiều dữ liệu gắn nhãn chất lượng cao hơn, nhiều tài nguyên tính toán hơn nhưng vẫn chưa ra mắt mô hình tiền huấn luyện tham số quy mô lớn hơn là GPT-5, liệu DeepSeek có thể tiếp tục tạo nên kỳ tích hay không vẫn còn là dấu hỏi.
Dù sao đi nữa, những ảo giác do DeepSeek tạo ra, cũng do sự tò mò thúc đẩy, có lẽ đây chính là hai mặt của đổi mới. Như lời người sáng lập Lương Văn Phong nói: "Đổi mới không hoàn toàn do động lực thương mại, mà còn cần sự tò mò và khát vọng sáng tạo. AI Trung Quốc không thể mãi đi theo, cần có người đứng ở前沿 công nghệ."
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News














