
Cuộc thảo luận kín giữa các doanh nhân khởi nghiệp AI Trung-Mỹ: Những thay đổi và xu hướng mới trong khởi nghiệp AI sau DeepSeek-R1
Tuyển chọn TechFlowTuyển chọn TechFlow

Cuộc thảo luận kín giữa các doanh nhân khởi nghiệp AI Trung-Mỹ: Những thay đổi và xu hướng mới trong khởi nghiệp AI sau DeepSeek-R1
Chatbot chưa chắc đã là sản phẩm AI đầu tiên của người dùng.
Nguồn bài viết: FounderPark

Hình ảnh: Được tạo bởi AI Vô Giới
DeepSeek chắc chắn là tâm điểm trong kỳ nghỉ Tết Nguyên đán 2025, từ việc ứng dụng leo lên vị trí đầu bảng xếp hạng miễn phí của App Store cho đến các nhà cung cấp điện toán đám mây đua nhau triển khai DeepSeek-R1, thậm chí DeepSeek còn trở thành sản phẩm AI mà nhiều người lần đầu tiên được trải nghiệm. Đối với các nhà khởi nghiệp, mọi người đều đang bàn luận về những điểm sáng tạo công nghệ, phân tích chi phí huấn luyện và suy luận, cũng như tác động tới toàn ngành AI.
Ngày 2 tháng 2, Founder Park và cộng đồng kín mang tính toàn cầu Global Ready thuộc Geek Park đã tổ chức một buổi thảo luận kín, mời hơn 60 nhà sáng lập và chuyên gia công nghệ từ các công ty AI tại Thung lũng Silicon, Trung Quốc đại lục, Luân Đôn, Singapore, Nhật Bản... để cùng trao đổi sâu sắc về những định hướng công nghệ mới và xu hướng sản phẩm do DeepSeek tạo ra, dưới các góc nhìn như đổi mới công nghệ, hiện thực hóa sản phẩm, thiếu hụt năng lực xử lý, v.v.

Sau khi loại bỏ thông tin nhận dạng, chúng tôi tổng hợp lại các nội dung chính từ cuộc thảo luận kín này.
01 Sáng tạo của DeepSeek nằm ở đâu?
DeepSeek phát hành mô hình nền tảng V3 vào cuối tháng 12, đây là một trong những mô hình mạnh nhất từng được mở nguồn trong ngành, bao gồm 37B tham số kích hoạt, quy mô tham số tổng thể đạt 671B, là một mô hình MoE (Mixture of Experts) lớn.
"Khoảnh khắc Aha" của mô hình R1 được phát hành vào tháng 1 năm 2025 ám chỉ khả năng phản tư nhất định của mô hình trong quá trình suy luận. Ví dụ, khi giải quyết vấn đề, mô hình có thể nhận ra phương pháp hiện tại không còn phù hợp và tự điều chỉnh sang phương pháp hiệu quả hơn. Khả năng phản tư này bắt nguồn từ học tăng cường (RL).
R1 là mô hình chủ lực của DeepSeek, khả năng suy luận của R1 tương đương với OpenAI o1. Phương pháp cụ thể có thể được tóm tắt như sau: R1 sử dụng hai bước học tăng cường (RL) và hai bước SFT, hai bước RL và SFT đầu tiên chủ yếu dùng để xây dựng mô hình giáo viên tạo dữ liệu nhằm hướng dẫn việc tạo dữ liệu ở bước thứ ba. Mô hình này nỗ lực trở thành mô hình suy luận mạnh nhất hiện nay.
-
Sáng tạo cốt lõi của mô hình DeepSeek R1-Zero nằm ở việc bỏ qua quá trình tinh chỉnh truyền thống (SFT), trực tiếp tối ưu hóa suy luận thông qua học tăng cường (RL). Ngoài ra, dùng DeepSeek R1 làm mô hình giáo viên để chưng cất thành một mô hình nhỏ hoặc trung bình mã nguồn mở (như Qwen1.7B/7B/14B/32B) có thể nâng cao đáng kể năng lực của mô hình nhỏ.
-
Về khả năng lập trình, DeepSeek R1 ngang hàng với o3 mini vừa ra mắt của openAI, xét tổng thể thì o3 mini hơi mạnh hơn một chút. Điểm khác biệt nằm ở chỗ R1 là mã nguồn mở, sẽ kích thích nhiều bên ứng dụng sử dụng R1 hơn.
-
Chìa khóa thành công của DeepSeek nằm ở việc sử dụng một giải pháp kỹ thuật tích hợp cao để giảm giá thành. Nếu tách riêng từng phương pháp, mỗi phương pháp đều có thể tìm thấy trong các bài báo năm ngoái, nhưng DeepSeek sử dụng rất mạnh mẽ các phương pháp mới nhất. Những phương pháp này bản thân thực ra đều có tác dụng phụ, gây thêm chi phí lưu trữ, nhưng lại cải thiện đáng kể tỷ lệ sử dụng cụm máy.
-
Nếu không phải là mô hình phục vụ lượng lớn người dùng trên cụm máy quy mô lớn, kiến trúc MLA ngược lại có thể gây tác dụng phụ. Nhiều phương pháp của DeepSeek nếu không được áp dụng trong bối cảnh và môi trường đặc thù sẽ không đạt được tối ưu hóa hiệu suất cao nhất, việc sử dụng đơn lẻ các công nghệ này thậm chí có thể gây tác dụng phụ. Thiết kế hệ thống của họ rất tinh tế, tinh tế đến mức bất kỳ công nghệ nào tách rời ra đều không thể tạo ra hiệu quả như vậy.
-
Không nên chỉ huấn luyện một mô hình phần thưởng theo quá trình (process reward model), vì nếu chỉ huấn luyện loại mô hình này, hiệu quả cuối cùng có thể không đạt như mong đợi, thậm chí dẫn đến hiện tượng overfitting. DeepSeek chọn phương pháp học tăng cường nguyên bản nhất, sử dụng các quy tắc heuristics để đánh giá kết quả cuối cùng, sau đó dùng phương pháp học tăng cường truyền thống để hiệu chỉnh quá trình. Phương pháp họ chọn cũng là kết quả của quá trình thử sai liên tục, điều này nhờ vào hạ tầng (infra) cực kỳ hiệu quả mà DeepSeek sở hữu.
-
Dù DeepSeek chưa công bố mã suy luận, các đội khác vẫn có thể suy luận ra các phương pháp họ dùng. Trọng số mô hình mã nguồn mở đã đủ để các đội khác tái hiện hiệu năng, nhưng khó khăn nằm ở việc thử nghiệm để tìm ra các cấu hình đặc biệt bên trong, điều này cần thời gian.
-
Một mô hình phần thưởng chỉ dựa vào gán nhãn dữ liệu rất khó đạt được khả năng super human intelligence. Cần một mô hình phần thưởng thực sự dựa trên dữ liệu thật hoặc phản hồi từ môi trường thật, mới có thể thực hiện tối ưu hóa phần thưởng cao cấp hơn, từ đó tạo ra khả năng siêu nhân loại.
-
Dự đoán về mặt công nghệ: Nếu mô hình nền bản thân đã có tính phổ quát mạnh, kết hợp thêm khả năng toán học và lập trình, sự kết hợp giữa hai phần này sẽ tạo ra khả năng tổng quát mạnh hơn. Ví dụ, nếu có một mô hình nền khá thông minh, giả sử mô hình này đã giỏi viết văn, khi kết hợp với học tăng cường về toán học và lập trình, nó có thể đạt được sự tổng quát tốt, cuối cùng tạo ra một số khả năng rất mạnh. Biểu hiện cụ thể là nó có thể viết được các thể loại từ văn biền ngẫu đến thơ tứ tuyệt luật thi, trong khi các mô hình khác lại không làm được.
02 Vì sao chi phí của DeepSeek lại thấp đến vậy?
-
Mức độ thưa (sparse) của mô hình rất cao. Mặc dù đây là mô hình lớn với hơn 600B tham số, nhưng khi suy luận, số tham số thực tế được kích hoạt cho mỗi token rất nhỏ, chỉ 37B, nghĩa là tốc độ và tiêu thụ tài nguyên khi suy luận tương đương mô hình 37B tham số. Tuy nhiên, để đạt được điều này cần thay đổi thiết kế hệ thống rất nhiều.
-
Trong DeepSeek V3, kiến trúc MoE bao gồm 256 module chuyên gia, nhưng mỗi lần suy luận chỉ kích hoạt một phần nhỏ. Trong tình trạng tải cao, nó có thể điều chỉnh động tỷ lệ sử dụng tài nguyên, về lý thuyết có thể nén chi phí xuống còn 1/256 so với ban đầu. Thiết kế này thể hiện tầm nhìn chiến lược của DeepSeek trong kiến trúc phần mềm. Nếu tối ưu hóa hệ thống đủ tốt, ở cùng cấp độ thì giá cả có thể giảm mạnh.
-
Thông thường khi huấn luyện mô hình sẽ dùng "ba mũi rìu", tức phân đoạn song song trên ba chiều. Thứ nhất là phân đoạn song song ở cấp độ dữ liệu, gọi là Data Parallelism. Thứ hai là ở cấp độ mô hình, do các tầng của mô hình độc lập với nhau nên sẽ phân đoạn theo hướng này, gọi là Pipeline Parallelism. Thứ ba là phân đoạn trọng số mô hình, phân bổ lên các GPU khác nhau, gọi là Tensor Parallelism. Để phối hợp với thiết kế mô hình thưa, DeepSeek đã điều chỉnh mạnh mẽ khung huấn luyện và đường ống, trong quá trình huấn luyện bỏ đi Tensor Parallelism, chỉ dùng Data Parallelism và Pipeline Parallelism, trên cơ sở đó tiến hành phân đoạn chuyên gia tinh vi hơn (Expert Parallelism). Bằng cách phân chia tinh vi số lượng chuyên gia (lên đến 256 chuyên gia), phân bổ các chuyên gia khác nhau lên các GPU khác nhau. Ngoài ra, việc DeepSeek bỏ Tensor Parallelism giúp tránh được giới hạn phần cứng, khiến hiệu năng huấn luyện trên H800 và H100 gần bằng nhau.
-
Trong triển khai mô hình, thí nghiệm cho thấy chi phí năng lực xử lý kiểm soát được, độ khó kỹ thuật không cao, thường chỉ cần một đến hai tuần là hoàn thành tái hiện, điều này rất có lợi cho nhiều nhà phát triển ứng dụng.
-
Một kiến trúc mô hình khả dĩ: để reasoning RL không còn giới hạn trong bản thân mô hình ngôn ngữ lớn, mà thêm một "máy suy nghĩ" bên ngoài để hoàn thành toàn bộ khả năng suy luận, như vậy chi phí tổng thể có thể giảm thêm vài bậc.
03 Chatbot chưa chắc đã là sản phẩm AI đầu tiên của người dùng
-
Thành công của DeepSeek R1 không chỉ nằm ở khả năng suy luận, mà còn ở việc kết hợp chức năng tìm kiếm, reasoning model + tìm kiếm về cơ bản tương đương một khung micro agent. Đối với đa số người dùng, đây là lần đầu tiên họ trải nghiệm mô hình suy luận. Với những người đã dùng các mô hình suy luận khác (ví dụ o1 của OpenAI), DeepSeek R1 kết hợp tìm kiếm lại là trải nghiệm hoàn toàn mới.
-
Đối với người dùng chưa từng dùng sản phẩm AI, sản phẩm AI đầu tiên của họ chưa chắc đã là sản phẩm giao tiếp ngôn ngữ kiểu ChatGPT, mà có thể là sản phẩm ở một bối cảnh khác do mô hình thúc đẩy.
-
Rào cản cạnh tranh của các công ty ứng dụng trong lĩnh vực AI nằm ở trải nghiệm sản phẩm. Ai làm nhanh hơn, tốt hơn, cung cấp các chức năng khiến người dùng cảm thấy thoải mái hơn, người đó sẽ chiếm lợi thế cạnh tranh trên thị trường.
-
Hiện tại, việc mô hình thể hiện quá trình suy nghĩ là một thiết kế hài lòng, nhưng nó giống như một công việc sơ khai trong việc sử dụng học tăng cường (RL) để nâng cao năng lực mô hình. Chiều dài quá trình suy luận không phải là tiêu chuẩn duy nhất để đo lường tính đúng đắn của kết quả cuối cùng, tương lai sẽ chuyển từ quá trình suy luận dài phức tạp sang quá trình suy luận ngắn gọn hơn.
04 AI trong bối cảnh chuyên biệt giờ dễ triển khai hơn
-
Đối với các nhiệm vụ chuyên biệt (vertical task), việc đánh giá nhiệm vụ có thể hoàn thành bằng hệ thống quy tắc (rule system), không cần phụ thuộc vào mô hình phần thưởng phức tạp (rewarding model). Trên các nhiệm vụ chuyên biệt đã xác định, các mô hình như Tiny Zero hoặc 7B có thể nhanh chóng đạt được kết quả sử dụng được.
-
Trên một nhiệm vụ chuyên biệt đã xác định, dùng mô hình 7 tỷ tham số hoặc lớn hơn đã qua chưng cất bởi DeepSeek để huấn luyện, có thể nhanh chóng đạt được "khoảnh khắc Aha". Về chi phí, với các nhiệm vụ có câu trả lời rõ ràng như bài toán số học đơn giản hay chơi 21 điểm trên mô hình 7B, chỉ cần 2-4 card H100 hoặc H200, chưa đến nửa ngày, mô hình đã hội tụ về trạng thái sử dụng được.
-
Trong lĩnh vực chuyên biệt, đặc biệt khi xử lý các nhiệm vụ có câu trả lời rõ ràng như tính toán toán học, phán đoán quy luật vật lý (vị trí đặt đồ vật, chuyển động có tuân theo quy luật hay không), hiệu quả của DeepSeek R1 thực sự tốt hơn các mô hình khác và chi phí kiểm soát được, do đó có thể áp dụng rộng rãi trong nhiều lĩnh vực chuyên biệt. Tuy nhiên, với các nhiệm vụ không có câu trả lời rõ ràng, ví dụ phán đoán một vật có đẹp hay không, hoặc một câu trả lời có khiến người ta vui không, các đánh giá mang tính chủ quan mạnh này không thể giải quyết tốt bằng phương pháp dựa trên quy tắc (rule-based). Lĩnh vực này có thể cần chờ ba tháng, nửa năm, cho đến khi có phương pháp tốt hơn xuất hiện để giải quyết.
-
Khi sử dụng tinh chỉnh giám sát (SFT) hoặc phương pháp tương tự, rất khó giải quyết vấn đề truy vấn tập dữ liệu tốn thời gian, và phân bố lĩnh vực (domain distribution) của các tập dữ liệu này thường khó bao phủ đầy đủ mọi cấp độ nhiệm vụ. Giờ đây có một thư viện công cụ mới và tốt hơn, trang bị một mô hình chất lượng cao, có thể giải quyết các nhiệm vụ chuyên biệt trước đây khó thu thập dữ liệu và có câu trả lời rõ ràng.
-
Chỉ dựa vào hệ thống quy tắc (rule-based), mặc dù toán học và lập trình có thể định nghĩa các quy tắc rõ ràng, nhưng nếu muốn đối phó với các nhiệm vụ phức tạp hơn hoặc mở hơn, việc phụ thuộc vào hệ thống quy tắc sẽ trở nên cực kỳ khó khăn. Vì vậy, cuối cùng mọi người có thể khám phá ra các mô hình phù hợp hơn để đánh giá kết quả trong các bối cảnh phức tạp này. Có thể sử dụng phương pháp ORM (hàm phần thưởng định hướng kết quả) thay vì PRM (hàm phần thưởng định hướng quá trình), hoặc khám phá các phương pháp tương tự khác. Cuối cùng, có thể xây dựng một mô phỏng kiểu "mô hình thế giới" để cung cấp phản hồi tốt hơn cho các quyết định của mọi mô hình.
-
Khi dùng mô hình nhỏ để huấn luyện khả năng suy luận, thậm chí không cần phụ thuộc vào giải pháp dựa trên token. Trong một giải pháp định hướng thương mại điện tử, trực tiếp tách toàn bộ khả năng suy luận khỏi mô hình Transformer, dùng một mô hình nhỏ khác để hoàn thành mọi công việc suy luận, kết hợp với Transformer để thực hiện toàn bộ nhiệm vụ.
-
Đối với các công ty phát triển mô hình để tự dùng (ví dụ quỹ phòng hộ), thách thức nằm ở vấn đề chi phí. Các công ty lớn có thể san sẻ chi phí bằng cách kéo khách hàng, nhưng các nhóm nhỏ hoặc công ty khó chịu nổi chi phí nghiên cứu phát triển cao. Việc DeepSeek mở nguồn có ý nghĩa to lớn với họ, tương đương với việc các nhóm trước đây không thể gánh nổi chi phí nghiên cứu phát triển cao nay cũng có thể xây dựng mô hình.
-
Trong lĩnh vực tài chính, đặc biệt là quỹ định lượng, thường cần phân tích khối lượng lớn dữ liệu tài chính, ví dụ báo cáo tài chính công ty và dữ liệu Bloomberg. Các công ty này thường tự xây dựng tập dữ liệu và tiến hành huấn luyện giám sát (supervised training), nhưng chi phí gán nhãn dữ liệu rất cao. Đối với các công ty này, việc áp dụng học tăng cường (RL) trong giai đoạn tinh chỉnh (fine-tuning) có thể nâng cao đáng kể hiệu năng mô hình, đạt bước tiến vượt bậc.
05 Chip nội địa有望 giải quyết vấn đề năng lực suy luận
-
Hiện nay ở Trung Quốc có khá nhiều chip tương đương A100, A800, nhưng điểm nghẽn lớn nhất của chip nội địa không nằm ở thiết kế chip mà ở khâu sản xuất (streaming). DeepSeek chọn hợp tác với Huawei cũng vì phía sau tương đối ổn định trong việc sản xuất, đảm bảo được việc huấn luyện và suy luận ổn định ngay cả khi bị trừng phạt nghiêm ngặt hơn.
-
Phía sau Nvidia phát triển, xét từ góc độ huấn luyện đơn card, các chip cao cấp này trong một số ứng dụng có tình trạng dư thừa năng lực xử lý. Ví dụ, năng lực xử lý đơn card trong giai đoạn huấn luyện có thể không phát huy hết do giới hạn bộ nhớ đệm và bộ nhớ bổ sung, khiến chúng không phải là lựa chọn phù hợp nhất cho nhiệm vụ huấn luyện.
-
Trên thị trường chip nội địa, nếu tập trung hoàn toàn vào ứng dụng AI, không tính đến tính toán khoa học, cắt giảm mạnh năng lực tính toán dấu phẩy động độ cao, chỉ tập trung vào nhiệm vụ AI, có thể đuổi kịp các chip chủ lực của Nvidia ở một số chỉ số hiệu suất nhất định.
06 Agent mạnh hơn, và khả năng gọi chéo ứng dụng
-
Đối với nhiều lĩnh vực chuyên biệt, khả năng agent sẽ được nâng cao đáng kể. Có thể lấy một mô hình nền, biến một số quy tắc thành mô hình quy tắc (rule model), mô hình quy tắc này có thể là một giải pháp kỹ thuật thuần túy (pure engineering solution). Sau đó, có thể dùng giải pháp kỹ thuật này để cho mô hình nền lặp lại (iteration) và huấn luyện (training). Bạn có thể nhận được một kết quả, kết quả này đã xuất hiện một số khả năng super human intelligence. Trên cơ sở này, thực hiện một số điều chỉnh sở thích (preference tuning) để câu trả lời phù hợp hơn với thói quen đọc của con người (human-readable), như vậy bạn có thể có được một agent suy luận mạnh hơn trong một lĩnh vực chuyên biệt;
-
Điều này có thể dẫn đến một vấn đề, bạn có thể không sở hữu agent có khả năng tổng quát mạnh trên mọi lĩnh vực chuyên biệt. Sau khi huấn luyện một agent trong một lĩnh vực cụ thể, nó chỉ có thể hoạt động trong lĩnh vực đó, không thể tổng quát sang các lĩnh vực chuyên biệt khác. Nhưng đây là một hướng (triển khai) khả dĩ, vì bản thân DeepSeek mang lại chi phí suy luận (inference cost) rất thấp, có thể chọn một mô hình, sau đó tiến hành loạt huấn luyện tăng cường, sau khi huấn luyện xong, nó chỉ phục vụ một lĩnh vực chuyên biệt, không còn quan tâm đến các lĩnh vực chuyên biệt khác. Đối với các công ty AI chuyên biệt, đây là một giải pháp chấp nhận được.
-
Xét từ góc độ học thuật, một xu hướng quan trọng trong năm tới là một số phương pháp sẵn có trong học tăng cường sẽ được chuyển sang ứng dụng trong mô hình lớn, giải quyết vấn đề hiện tại là tổng quát kém hoặc đánh giá không chính xác. Thông qua cách này, có thể nâng cao thêm hiệu suất và khả năng tổng quát của mô hình. Cùng với việc áp dụng học tăng cường, khả năng xuất thông tin cấu trúc sẽ được nâng cao đáng kể, cuối cùng hỗ trợ tốt hơn cho mọi ứng dụng, đặc biệt là cải thiện hiệu quả tạo biểu đồ và nội dung cấu trúc khác.
-
Ngày càng nhiều người có thể dùng R1 để làm post training, mỗi người đều có thể tạo ra agent riêng. Tầng mô hình sẽ trở thành các mô hình agent khác nhau, dùng các công cụ khác nhau giải quyết các vấn đề khác nhau, cuối cùng đạt được hệ thống multi agent.
-
Năm 2025 có thể trở thành năm đầu tiên của agent thông minh, nhiều công ty sẽ ra mắt các agent có khả năng lập kế hoạch nhiệm vụ. Tuy nhiên, hiện tại thiếu dữ liệu đủ để hỗ trợ các nhiệm vụ này. Ví dụ, nhiệm vụ lập kế hoạch có thể bao gồm giúp người dùng đặt món ăn, đặt chuyến du lịch, kiểm tra vé tham quan còn hay không. Những nhiệm vụ này cần lượng lớn dữ liệu và cơ chế phần thưởng để đánh giá độ chính xác của mô hình, ví dụ lập kế hoạch hành trình đến Trương Gia Giới, làm sao phán đoán đúng sai, và làm sao để mô hình học. Những vấn đề này sẽ trở thành điểm nóng nghiên cứu tiếp theo, khả năng suy luận cuối cùng sẽ được dùng để giải quyết các vấn đề thực tế.
-
Năm 2025, khả năng gọi chéo ứng dụng sẽ trở thành điểm nóng. Trong hệ điều hành Android, do đặc tính mã nguồn mở, nhà phát triển có thể thực hiện thao tác chéo ứng dụng qua quyền cấp thấp, agent trong tương lai có thể điều khiển trình duyệt, điện thoại, máy tính của bạn. Tuy nhiên trong hệ sinh thái Apple, do quản lý quyền chặt chẽ, agent muốn kiểm soát hoàn toàn mọi ứng dụng trên thiết bị vẫn gặp khó khăn lớn, Apple phải tự phát triển agent có thể kiểm soát mọi ứng dụng. Android tuy mã nguồn mở nhưng vẫn cần hợp tác với các hãng như OPPO, Huawei để mở quyền cấp thấp trên điện thoại, máy tính bảng và máy tính, từ đó thu thập dữ liệu và hỗ trợ phát triển agent.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News













