Phơi bày DeepSeek: Vì sao DeepSeek lại ưa chuộng những người trẻ tuổi không có kinh nghiệm làm việc?

2025.01.28

Chia sẻ đến

Tuyển chọn TechFlowTuyển chọn TechFlow

Phơi bày DeepSeek: Vì sao DeepSeek lại ưa chuộng những người trẻ tuổi không có kinh nghiệm làm việc?

Không có lý lịch công việc, DeepSeek tuyển người như thế nào? Câu trả lời là: dựa vào tiềm năng.

2025.01.28 - 03:23:50

DeepSeek

Chuyên sâu báo cáo Web3

Không có lý lịch công việc, DeepSeek tuyển người như thế nào? Câu trả lời là: dựa vào tiềm năng.

Tác giả: Sam Gao, tác giả của ElizaOS

0. Viết trước

Gần đây, sự xuất hiện liên tiếp của DeepSeek V3 và R1 đã khiến các nhà nghiên cứu AI, các nhà sáng lập và nhà đầu tư tại Mỹ bắt đầu cảm thấy FOMO. Cơn sốt này thậm chí có thể sánh ngang với thời điểm ChatGPT ra đời vào cuối năm 2022.

Nhờ chiến lược mở mã nguồn hoàn toàn (có thể tải miễn phí mô hình từ HuggingFace để suy luận cục bộ) và mức giá cực kỳ thấp (chỉ bằng 1/100 giá OpenAI o1), DeepSeek đã vươn lên vị trí số một trên bảng xếp hạng Apple AppStore khu vực Mỹ chỉ trong vòng 5 ngày ngắn ngủi.

Vậy thì lực lượng AI mới nổi bí ẩn này, được ươm mầm bởi một công ty định lượng Trung Quốc, thực chất đến từ đâu?

1. Nguồn gốc của DeepSeek

Tôi lần đầu tiên nghe nói về DeepSeek là vào năm 2021, khi còn làm việc tại DAMO Academy. Lúc đó, cô gái thiên tài ở nhóm bên cạnh – thạc sĩ Phổ Bắc La Phúc Lệ, người từng công bố 8 bài báo tại ACL (hội nghị hàng đầu xử lý ngôn ngữ tự nhiên) trong một năm – đã nghỉ việc để gia nhập High-Flyer Quant. Tất cả đều rất tò mò: tại sao một công ty định lượng kiếm tiền khủng lại cần tuyển dụng nhân tài trong lĩnh vực AI? Hay là High-Flyer cũng cần đăng báo khoa học?

Theo tôi biết lúc đó, các nhà nghiên cứu AI mà High-Flyer tuyển dụng chủ yếu hoạt động độc lập, tìm tòi những hướng đi tiên phong, trong đó trọng tâm nhất là mô hình lớn (LLM) và mô hình sinh ảnh từ văn bản (thời điểm đó OpenAI Dall-e đang nổi bật).

Thời gian trôi nhanh đến cuối năm 2022, High-Flyer bắt đầu thu hút ngày càng nhiều nhân tài AI hàng đầu (phần lớn là sinh viên ĐH Thanh Hoa, ĐH Bắc Kinh). Dưới tác động của ChatGPT, ông Lương Văn Phong – CEO có nhiều năm tích lũy trong lĩnh vực AI – đã quyết tâm tiến quân vào lĩnh vực trí tuệ nhân tạo tổng quát: "Chúng tôi đã thành lập một công ty mới, bắt đầu từ mô hình ngôn ngữ lớn, sau này sẽ phát triển thêm cả thị giác."

Đúng vậy, công ty đó chính là DeepSeek. Vào đầu năm 2023, khi "Sáu con rồng nhỏ" như Chí Phổ, Mặt Trăng Mờ, Bách Xuyên Trí Năng... lần lượt bước lên trung tâm sân khấu, giữa không khí sôi động tại Trung Quan Thôn và Ngũ Đạo Khẩu, sự hiện diện của DeepSeek phần lớn bị che khuất bởi sự chú ý ("Attention") đổ dồn vào những công ty nhận được dòng vốn nóng.

Vì thế, trong năm 2023, với tư cách là một tổ chức nghiên cứu thuần túy, không có người sáng lập nổi tiếng, DeepSeek (khác với Zero One Wanwu của Lý Khai Phục, Mặt Trăng Mờ của Dương Trực Lân, Bách Xuyên Trí Năng của Vương Tiểu Xuyên...) khó có thể huy động vốn từ thị trường. Do đó, High-Flyer quyết định tách biệt DeepSeek và tài trợ toàn bộ chi phí phát triển. Trong thời đại "lửa cháy mỡ" năm 2023, không công ty đầu tư mạo hiểm nào sẵn sàng rót vốn cho DeepSeek: thứ nhất vì đội ngũ chủ chốt chủ yếu là các tiến sĩ vừa tốt nghiệp, không có nhà nghiên cứu hàng đầu nổi tiếng dẫn dắt; thứ hai là vì khả năng thoái vốn vẫn còn quá xa vời.

Trong môi trường ồn ào và đầy tính nổi bật, DeepSeek lặng lẽ viết nên từng câu chuyện khám phá AI của mình:

Tháng 11 năm 2023, DeepSeek ra mắt DeepSeek LLM với thông số lên tới 67 tỷ, hiệu suất gần sát GPT-4.
Tháng 5 năm 2024, DeepSeek-V2 chính thức ra mắt.
Tháng 12 năm 2024, DeepSeek-V3 được công bố, kết quả kiểm tra chuẩn cho thấy hiệu suất vượt trội hơn Llama 3.1 và Qwen 2.5, đồng thời tương đương GPT-4o và Claude 3.5 Sonnet, gây chấn động giới chuyên môn.
Tháng 1 năm 2025, DeepSeek-R1 – thế hệ đầu tiên có khả năng suy luận – được phát hành, với giá chưa bằng 1/100 OpenAI o1 cùng hiệu năng vượt trội, khiến cả giới công nghệ thế giới phải rung chuyển: Thế giới thực sự nhận ra rằng sức mạnh Trung Quốc đã thật sự đến rồi… Mở mã nguồn luôn là lựa chọn chiến thắng!

2. Chiến lược nhân tài

Tôi biết một vài nhà nghiên cứu của DeepSeek từ khá sớm, chủ yếu theo hướng AIGC, ví dụ như tác giả của Janus công bố tháng 11 năm 2024 và tác giả DreamCraft3D, trong đó có một người từng giúp tôi tối ưu hóa bài báo mới nhất @xingchaoliu.

Theo quan sát của tôi, các nhà nghiên cứu tôi biết đều rất trẻ, chủ yếu là nghiên cứu sinh hoặc vừa tốt nghiệp dưới 3 năm.

Họ chủ yếu là sinh viên cao học hoặc nghiên cứu sinh tại khu vực Bắc Kinh, có nền tảng học thuật vững chắc: đa phần là những nhà nghiên cứu đã công bố 3-5 bài tại hội nghị hàng đầu.

Tôi từng hỏi bạn bè tại DeepSeek, vì sao Lương Văn Phong chỉ tuyển người trẻ?

Họ gửi lại lời của CEO High-Flyer – Lương Văn Phong – như sau:

Lớp màn bí ẩn bao quanh đội ngũ DeepSeek khiến mọi người tò mò: vũ khí bí mật của họ là gì? Truyền thông nước ngoài cho rằng, vũ khí bí mật đó là “thiên tài trẻ”, đủ sức cạnh tranh với các gã khổng lồ giàu có của Mỹ.

Trong ngành AI, việc thuê các chuyên gia dày dạn kinh nghiệm là điều phổ biến, nhiều công ty khởi nghiệp AI nội địa Trung Quốc có xu hướng tuyển dụng các nhà nghiên cứu giàu kinh nghiệm hoặc nhân tài có bằng tiến sĩ nước ngoài. Tuy nhiên, DeepSeek lại đi ngược lại xu thế, đặc biệt ưa chuộng những người trẻ chưa có kinh nghiệm làm việc.

Một headhunter từng hợp tác với DeepSeek tiết lộ rằng, DeepSeek không tuyển kỹ thuật viên cấp cao: “Kinh nghiệm làm việc 3-5 năm đã là tối đa, ai làm trên 8 năm cơ bản bị loại.” Trong cuộc phỏng vấn với 36Kr vào tháng 5 năm 2023, Lương Văn Phong cũng khẳng định, phần lớn kỹ sư phát triển tại DeepSeek hoặc là sinh viên mới tốt nghiệp, hoặc là người vừa bắt đầu sự nghiệp AI. Ông nhấn mạnh: "Phần lớn vị trí cốt lõi về công nghệ của chúng tôi do sinh viên mới ra trường hoặc người có 1-2 năm kinh nghiệm đảm nhiệm."

Không có hồ sơ làm việc, DeepSeek chọn người bằng cách nào? Câu trả lời là: nhìn vào tiềm năng.

Lương Văn Phong từng nói, khi làm một việc dài hạn, kinh nghiệm thực ra không quá quan trọng, mà năng lực nền tảng, khả năng sáng tạo và lòng đam mê mới là yếu tố then chốt. Ông tin rằng dù có thể hiện tại 50 nhà AI hàng đầu thế giới chưa nằm ở Trung Quốc, "nhưng chúng ta có thể tự tạo ra những con người như vậy."

Chiến lược này khiến tôi nhớ đến chiến lược ban đầu của OpenAI. Khi OpenAI thành lập vào cuối năm 2015, Sam Altman tập trung vào việc tìm kiếm các nhà nghiên cứu trẻ đầy tham vọng. Vì vậy, ngoài Tổng giám đốc Greg Brockman và nhà khoa học trưởng Ilya Sutskever, bốn thành viên cốt lõi còn lại trong đội ngũ kỹ thuật sáng lập (Andrew Karpathy, Durk Kingma, John Schulman, Wojciech Zaremba) đều là tiến sĩ vừa tốt nghiệp, lần lượt đến từ Đại học Stanford, Đại học Amsterdam (Hà Lan), Đại học California tại Berkeley và Đại học New York.

Từ trái sang phải: Ilya Sutskever (cựu nhà khoa học trưởng), Greg Brockman (cựu Tổng giám đốc), Andrej Karpathy (cựu phụ trách kỹ thuật), Durk Kingma (cựu nhà nghiên cứu), John Schulman (cựu phụ trách đội Reinforcement Learning) và Wojciech Zaremba (phụ trách kỹ thuật hiện tại)

Chiến lược "sói trẻ" này đã mang lại lợi ích rõ rệt cho OpenAI, ươm mầm ra những cái tên như "cha đẻ GPT" Alec Radford (tốt nghiệp trường dân lập tương đương), cha đẻ mô hình sinh ảnh DALL-E Aditya Ramesh (sinh viên NYU), hay Prafulla Dhariwal – phụ trách đa phương tiện GPT-4o, ba lần đoạt huy chương vàng Olympic. Nhờ sự xông xáo của những người trẻ, OpenAI – ban đầu chỉ là một đơn vị vô danh bên cạnh DeepMind với mục tiêu cứu thế giới còn mơ hồ – đã tự mở ra một con đường sống, vươn lên trở thành gã khổng lồ.

Chính Lương Văn Phong nhìn thấy thành công từ chiến lược của Sam Altman nên kiên định đi theo con đường này. Tuy nhiên, khác với OpenAI mất đến 7 năm mới thấy thành quả qua ChatGPT, nỗ lực của Lương Văn Phong chỉ mất hơn 2 năm đã thu được kết quả – đúng là tốc độ Trung Quốc.

3. Tiếng nói cho DeepSeek

Trong bài báo công bố DeepSeek R1, các chỉ số đạt được đáng kinh ngạc. Nhưng điều này cũng gây ra nghi ngờ: có hai điểm gây tranh cãi,

① Công nghệ trộn chuyên gia (MoE) mà nó sử dụng đòi hỏi cao về huấn luyện và dữ liệu, điều này khiến nhiều người nghi ngờ Deepseek đã dùng dữ liệu của OpenAI để huấn luyện – mối nghi ngờ này là có cơ sở.
② Deepseek sử dụng công nghệ học tăng cường (RL), vốn đòi hỏi rất cao về phần cứng, nhưng so với cụm máy hàng vạn GPU của Meta và OpenAI, Deepseek chỉ dùng 2048 card H800 để huấn luyện.

Do giới hạn về năng lực tính toán và độ phức tạp của MoE, việc DeepSeek R1 thành công chỉ với 5 triệu USD khiến nhiều người hoài nghi. Tuy nhiên, bất kể bạn ngưỡng mộ "kỳ tích chi phí thấp" hay nghi ngờ "hoành tráng nhưng thiếu thực chất", bạn cũng không thể phủ nhận sự đổi mới chức năng đầy ấn tượng của nó.

Người đồng sáng lập BitMEX, Arthur Hayes, bình luận: "Sự trỗi dậy của DeepSeek có khiến các nhà đầu tư toàn cầu đặt câu hỏi về chủ nghĩa siêu việt của Mỹ? Giá trị tài sản Mỹ có bị đánh giá quá cao?"

Giáo sư đại học Stanford Ngô Ân Đạt đã phát biểu công khai tại Diễn đàn Davos năm nay: "Tôi rất ấn tượng với tiến triển của DeepSeek. Tôi nghĩ họ có thể huấn luyện mô hình một cách rất tiết kiệm. Mô hình suy luận mới nhất của họ thật sự xuất sắc... Xin chúc mừng!"

Người sáng lập A16z, Marc Andreessen, cho biết: "Deepseek R1 là một trong những đột phá ấn tượng và đáng kinh ngạc nhất mà tôi từng thấy – và việc mở mã nguồn khiến nó trở thành món quà sâu sắc dành tặng thế giới."

DeepSeek, từng đứng khuất trong góc sân khấu năm 2023, cuối cùng đã vươn tới đỉnh cao AI thế giới vào năm 2025, ngay trước Tết âm lịch.

4. Argo và DeepSeek

Với tư cách là nhà phát triển công nghệ Argo và nhà nghiên cứu AIGC, tôi đã tích hợp các chức năng trọng yếu của Argo với DeepSeek: Với tư cách là hệ thống workflow (luồng công việc), việc tạo luồng công việc thô ban đầu được thực hiện bằng DeepSeek R1. Ngoài ra, Argo tích hợp sẵn LLM theo chuẩn DeepSeek R1, đồng thời từ bỏ các mô hình đóng mã nguồn và đắt đỏ của OpenAI. Lý do là hệ thống Workflow thường tiêu thụ lượng lớn token và thông tin ngữ cảnh (trung bình >=10k token), nếu dùng OpenAI hoặc Claude 3.5 giá cao sẽ khiến chi phí thực thi Workflow trở nên rất đắt đỏ. Trước khi người dùng web3 thực sự thu được giá trị, kiểu chi tiêu quá mức này sẽ gây hại cho sản phẩm.

Khi DeepSeek ngày càng phát triển, Argo sẽ hợp tác chặt chẽ hơn nữa với DeepSeek và các lực lượng Trung Quốc đại diện: bao gồm nhưng không giới hạn việc bản địa hóa giao diện Text2Image/Video, bản địa hóa LLM.

Về hợp tác, Argo trong tương lai sẽ mời các nhà nghiên cứu DeepSeek chia sẻ thành quả kỹ thuật, đồng thời cấp học bổng (grants) cho các nhà nghiên cứu AI hàng đầu, hỗ trợ nhà đầu tư và người dùng web3 hiểu rõ hơn về tiến triển AI.

Chào mừng tham gia cộng đồng chính thức TechFlow

Nhóm Telegram:https://t.me/TechFlowDaily

Tài khoản Twitter chính thức:https://x.com/TechFlowPost

Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News

Thêm vào mục ưa thích

Chia sẻ lên mạng xã hội

Tác giả

Sam Gao

@samuel_ys92

Phơi bày DeepSeek: Vì sao DeepSeek lại ưa chuộng những người trẻ tuổi không có kinh nghiệm làm việc?

Tuyển chọn TechFlowTuyển chọn TechFlow

Phơi bày DeepSeek: Vì sao DeepSeek lại ưa chuộng những người trẻ tuổi không có kinh nghiệm làm việc?

0. Viết trước

1. Nguồn gốc của DeepSeek

2. Chiến lược nhân tài

3. Tiếng nói cho DeepSeek

4. Argo và DeepSeek

Bài viết liên quan

Cobo｜Thời điểm DeepSeek của RWA đang đến gần: Phân tích toàn diện xu hướng phát triển, lộ trình triển khai và các thực hành tiêu chuẩn tốt nhất cho tổ chức

Từ cuộc đua công suất tính toán đến đổi mới thuật toán: DeepSeek dẫn dắt phạm式 AI mới

Từ chối vụ mua lại 30 triệu USD từ Bytedance, liệu Manus có phải là đột phá cấp độ DeepSeek?

Phía sau huyền thoại lợi nhuận của DeepSeek: Nỗi lo âu và hành động tự cứu của AI các đại gia công nghệ

Tìm kiếm Liang Wenfeng của DeepSeek

DeepSeek thu nhập 4,09 triệu NDT mỗi ngày, nhưng các "bản thay thế đại gia" vẫn chìm sâu trong đầm lầy thua lỗ

Viên bài chủ thứ hai về mã nguồn mở mà DeepSeek tung ra rốt cuộc là gì?

Dưới ánh vinh quang của DeepSeek: Những "sáu chú rồng nhỏ" cô đơn

Khi mọi người nói về việc AI đảo lộn ngành công nghiệp trò chơi, những người làm nghề tận tuyến đang sử dụng Deepseek như thế này

Thực tế kiểm thử phiên bản đầy đủ DeepSeek trên tìm kiếm Baidu: “vì tôi sử dụng” hay “chủ nghĩa thực dụng”?

Tin nhanh 7x24h
Xem thêm>

Tuyển chọn TechFlow
Xem thêm>

Phơi bày DeepSeek: Vì sao DeepSeek lại ưa chuộng những người trẻ tuổi không có kinh nghiệm làm việc?

Tuyển chọn TechFlowTuyển chọn TechFlow

Phơi bày DeepSeek: Vì sao DeepSeek lại ưa chuộng những người trẻ tuổi không có kinh nghiệm làm việc?

0. Viết trước

1. Nguồn gốc của DeepSeek

2. Chiến lược nhân tài

3. Tiếng nói cho DeepSeek

4. Argo và DeepSeek

Bài viết liên quan

Cobo｜Thời điểm DeepSeek của RWA đang đến gần: Phân tích toàn diện xu hướng phát triển, lộ trình triển khai và các thực hành tiêu chuẩn tốt nhất cho tổ chức

Từ cuộc đua công suất tính toán đến đổi mới thuật toán: DeepSeek dẫn dắt phạm式 AI mới

Từ chối vụ mua lại 30 triệu USD từ Bytedance, liệu Manus có phải là đột phá cấp độ DeepSeek?

Phía sau huyền thoại lợi nhuận của DeepSeek: Nỗi lo âu và hành động tự cứu của AI các đại gia công nghệ

Tìm kiếm Liang Wenfeng của DeepSeek

DeepSeek thu nhập 4,09 triệu NDT mỗi ngày, nhưng các "bản thay thế đại gia" vẫn chìm sâu trong đầm lầy thua lỗ

Viên bài chủ thứ hai về mã nguồn mở mà DeepSeek tung ra rốt cuộc là gì?

Dưới ánh vinh quang của DeepSeek: Những "sáu chú rồng nhỏ" cô đơn

Khi mọi người nói về việc AI đảo lộn ngành công nghiệp trò chơi, những người làm nghề tận tuyến đang sử dụng Deepseek như thế này

Thực tế kiểm thử phiên bản đầy đủ DeepSeek trên tìm kiếm Baidu: “vì tôi sử dụng” hay “chủ nghĩa thực dụng”?

Tin nhanh 7x24hXem thêm>

Tuyển chọn TechFlowXem thêm>

Tin nhanh 7x24h
Xem thêm>

Tuyển chọn TechFlow
Xem thêm>