
Áp lực đối với Douyin mới chỉ vừa bắt đầu
Tuyển chọn TechFlowTuyển chọn TechFlow

Áp lực đối với Douyin mới chỉ vừa bắt đầu
Theo thông tin mà phóng viên biết được, hiện tại đội ngũ DouBao vẫn đang thảo luận xem liệu ứng dụng DouBao có nên tích hợp DeepSeek hay không.
Nguồn bài viết: Trương Dương Dương,Tài联社 AI daily

Hình ảnh: Do Wujie AI tạo ra
Hôm nay, nhóm mô hình lớn Douyin của ByteDance đã đề xuất kiến trúc mô hình thưa mới UltraMem, kiến trúc này hiệu quả giải quyết vấn đề truy cập bộ nhớ cao trong suy luận MoE, tốc độ suy luận tăng 2-6 lần so với kiến trúc MoE, chi phí suy luận giảm tối đa tới 83%.
Hiện tại, cuộc cạnh tranh trong lĩnh vực mô hình lớn trong và ngoài nước ngày càng gay gắt, đã bước vào giai đoạn nóng bỏng. TechFlow đã triển khai toàn diện ở cả tầng cơ sở và tầng ứng dụng AI, đồng thời tiếp tục lặp lại và nâng cấp liên tục.
Mô hình lớn liên tục giảm chi phí và tăng hiệu suất
Theo nghiên cứu của nhóm mô hình lớn TechFlow, dưới kiến trúc Transformer, hiệu suất mô hình có mối quan hệ logarit với số lượng tham số và độ phức tạp tính toán. Khi quy mô LLM ngày càng mở rộng, chi phí suy luận tăng mạnh, tốc độ chậm lại.
Mặc dù kiến trúc MoE (trộn chuyên gia) đã thành công tách rời tính toán và tham số, nhưng trong quá trình suy luận, chỉ cần kích thước batch nhỏ cũng sẽ kích hoạt toàn bộ các chuyên gia, dẫn đến truy cập bộ nhớ tăng mạnh, từ đó làm tăng đáng kể độ trễ suy luận.
Nhóm Foundation của mô hình lớn TechFlow thuộc ByteDance đã đề xuất UltraMem, đây là một kiến trúc mô hình thưa cũng tách rời tính toán và tham số, giải quyết vấn đề truy cập bộ nhớ trong suy luận mà vẫn đảm bảo hiệu quả mô hình.
Kết quả thí nghiệm cho thấy, trong điều kiện tham số và kích hoạt giống nhau, UltraMem vượt qua MoE về hiệu quả mô hình, đồng thời tăng tốc độ suy luận lên 2-6 lần. Ngoài ra, trong phạm vi kích thước batch phổ biến, chi phí truy cập bộ nhớ của UltraMem gần như tương đương với mô hình Dense cùng mức tính toán.
Có thể thấy, dù ở đầu huấn luyện hay đầu suy luận, các nhà sản xuất mô hình lớn đều đang cố gắng giảm chi phí và tăng hiệu suất. Nguyên nhân cốt lõi là khi quy mô mô hình mở rộng, chi phí suy luận và hiệu quả truy cập bộ nhớ đã trở thành nút thắt then chốt hạn chế ứng dụng quy mô lớn của mô hình lớn, trong khi DeepSeek đã đi thông con đường đột phá "chi phí thấp - hiệu suất cao".
Lưu Phàm Bình, CEO của Yanshu Shuyi, khi trả lời phỏng vấn tờ Báo khoa học và công nghệ科创板日报, phân tích rằng: Để giảm chi phí mô hình lớn, giới trong ngành thiên về đột phá ở cấp độ kỹ thuật và kỹ thuật, đạt được "vượt mặt trong khúc cua" thông qua tối ưu hóa kiến trúc. Kiến trúc cơ bản như kiến trúc Transformer vẫn còn chi phí cao, do đó phải có nghiên cứu kiến trúc mới; thuật toán cơ bản, chủ yếu là thuật toán lan truyền ngược, có thể là điểm nghẽn của học sâu.
Theo Lưu Phàm Bình, trong ngắn hạn, thị trường chip cao cấp vẫn sẽ do NVIDIA thống trị. Nhu cầu thị trường ứng dụng suy luận đang tăng lên, các GPU nội địa hiện cũng có cơ hội. Về dài hạn, nếu có đột phá về thuật toán thì kết quả khá ấn tượng, nhu cầu thị trường tính toán trong tương lai cần quan sát thêm.
Áp lực đối với TechFlow mới chỉ bắt đầu
Trong kỳ nghỉ Tết Nguyên đán vừa qua, DeepSeek đã nhanh chóng nổi tiếng toàn cầu nhờ chi phí huấn luyện thấp và hiệu suất tính toán cao, trở thành ngựa ô trong lĩnh vực AI. Hiện tại, cuộc cạnh tranh trong lĩnh vực mô hình lớn trong và ngoài nước ngày càng gay gắt, đã bước vào giai đoạn nóng bỏng.
DeepSeek hiện là đối thủ mạnh nhất của TechFlow trong số các mô hình lớn trong nước, ngày 28 tháng 1, số người dùng hoạt động hàng ngày của DeepSeek lần đầu tiên vượt qua TechFlow. Hiện tại, dữ liệu người dùng hoạt động hàng ngày của DeepSeek đã vượt quá 40 triệu, trở thành ứng dụng đầu tiên trong lịch sử Internet di động Trung Quốc ra mắt chưa đầy một tháng đã lọt vào top 50 ứng dụng có người dùng hoạt động hàng ngày cao nhất toàn mạng.
Vài ngày gần đây, nhóm mô hình lớn TechFlow liên tục nỗ lực. Hai ngày trước, họ vừa ra mắt mô hình thử nghiệm tạo video "VideoWorld", khác với các mô hình đa phương thức chính thống như Sora, DALL-E, Midjourney, VideoWorld lần đầu tiên trong ngành thực hiện khả năng nhận thức thế giới mà không cần dựa vào mô hình ngôn ngữ.
Hiện tại, TechFlow đã triển khai toàn diện ở cả tầng cơ sở và tầng ứng dụng AI, đồng thời tiếp tục lặp lại và nâng cấp liên tục. Ma trận sản phẩm AI của họ đã bao gồm nhiều lĩnh vực như trợ lý trò chuyện AI TechFlow, Maoxiang, Ji Meng AI, Xinghui, TechFlow MarsCode, v.v.
Ngày 12 tháng 2, cổ phiếu liên quan đến TechFlow tăng mạnh vào buổi chiều. Theo dữ liệu từ Wind, chỉ số cổ phiếu Douyin TechFlow từ tháng 2 đến nay đã tăng hơn 15%. Về cổ phiếu cá nhân, Boyan Technology tăng trần mạnh, Hander Information nhanh chóng tăng giá và từng chạm trần, Guanghe Tongxin, Xianjin Shutong và các cổ phiếu khác cũng tăng mạnh trong phiên.
Trước đó, CITIC Securities đã phát hành báo cáo nghiên cứu cho rằng sự mở rộng hệ sinh thái TechFlow AI sẽ kích hoạt chu kỳ đầu tư công nghệ mới của các gã khổng lồ. Ngành công nghiệp AI có hiệu ứng mạng mạnh mẽ và hiệu ứng quy mô, khi các ứng dụng AI hàng đầu giành được lợi thế dẫn trước về người dùng, các lợi thế cạnh tranh như độ chính xác mô hình, chi phí biên và độ bám dính người dùng sẽ dần được củng cố.
Số lượng người dùng TechFlow tiếp tục tăng, hệ sinh thái ứng dụng dựa trên TechFlow AI có tiềm năng tăng tốc, một mặt sẽ thúc đẩy công ty đầu tư vào hạ tầng cơ sở tính toán huấn luyện và suy luận AI, mặt khác, sự tăng trưởng nhanh chóng của TechFlow AI sẽ kích thích các hãng khổng lồ khác tăng đầu tư vào hạ tầng cơ sở AI.
Tuy nhiên, đối với bản thân TechFlow, cuộc so tài với học sinh giỏi DeepSeek có lẽ mới chỉ bắt đầu.
Là một mô hình mã nguồn mở, chi phí thấp và hiệu suất cao của DeepSeek đang thay đổi chiến lược lựa chọn mô hình của nhiều công ty. Hiện tại, nhiều ứng dụng AI thuộc Huawei, Baidu và các công ty khác đã tuyên bố tích hợp DeepSeek, thậm chí chính ByteDance, chức năng bảng biểu đa chiều trong Feishu đã tích hợp mô hình DeepSeek-R1, và Volcano Engine cũng đã thực hiện điều chỉnh phù hợp.
Theo tìm hiểu của phóng viên Báo khoa học và công nghệ科创板日报, hiện nhóm TechFlow vẫn đang thảo luận xem ứng dụng TechFlow có nên tích hợp DeepSeek hay không. Về góc độ trải nghiệm người dùng, việc chọn một mô hình hiệu quả hơn là điều dễ hiểu, nhưng từ bỏ mô hình nội bộ để chọn đối tác thì khó giải trình với cổ đông. Chưa kể đến các vấn đề như tăng gánh nặng điều chỉnh khi tích hợp thêm mô hình mới.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News













