
AI lập trình có thể kiếm được 400.000 USD?
Tuyển chọn TechFlowTuyển chọn TechFlow

AI lập trình có thể kiếm được 400.000 USD?
Việc thay thế lập trình viên bằng AI hiện tại không quá đáng sợ như người ta nghĩ.
Tác giả: Đàm Tử Hinh, Đầu ngành công nghệ

Hình ảnh: Được tạo bởi Wujie AI
Các mô hình ngôn ngữ lớn (LLM) đang thay đổi cách thức phát triển phần mềm, và việc liệu AI có thể thay thế hàng loạt lập trình viên con người hay không đã trở thành chủ đề thu hút sự quan tâm lớn trong ngành.
Chỉ trong vòng hai năm ngắn ngủi, các mô hình lớn AI đã phát triển từ giải quyết những vấn đề khoa học máy tính cơ bản đến mức độ cạnh tranh với các cao thủ con người trong các kỳ thi lập trình quốc tế, ví dụ như OpenAI o1 từng tham gia Kỳ thi Olympic Tin học Quốc tế 2024 (IOI) dưới cùng điều kiện với thí sinh con người và giành huy chương vàng, cho thấy tiềm năng lập trình mạnh mẽ.
Đồng thời, tốc độ lặp lại của AI cũng đang tăng nhanh. Trên bộ đánh giá tạo mã SWE-Bench Verified, điểm số của GPT-4o vào tháng 8 năm 2024 là 33%, nhưng đến mô hình thế hệ mới o3 điểm số đã tăng gấp đôi lên 72%.

Để đánh giá tốt hơn khả năng kỹ thuật phần mềm của mô hình AI trong thế giới thực, hôm nay OpenAI đã công bố mã nguồn mở một bộ tiêu chuẩn đánh giá hoàn toàn mới SWE-Lancer, lần đầu tiên liên kết hiệu suất mô hình với giá trị tiền tệ.
SWE-Lancer là một bộ kiểm thử gồm hơn 1400 nhiệm vụ kỹ sư phần mềm tự do từ nền tảng Upwork, tổng giá trị thù lao của những nhiệm vụ này trong thế giới thực khoảng 1 triệu USD—vậy nếu để AI lập trình thì sẽ kiếm được bao nhiêu tiền?
"Đặc điểm" của bộ tiêu chuẩn mới
Giá cả các nhiệm vụ trong bộ tiêu chuẩn SWE-Lancer phản ánh đúng tình hình giá trị thị trường thực tế, nhiệm vụ càng khó thì thù lao càng cao.
Bộ tiêu chuẩn này bao gồm cả nhiệm vụ kỹ thuật độc lập lẫn nhiệm vụ quản lý, có thể lựa chọn giữa các phương án triển khai kỹ thuật, không chỉ hướng tới lập trình viên mà còn dành cho cả đội phát triển, bao gồm kiến trúc sư và quản lý viên.

So với các bộ tiêu chuẩn kiểm tra kỹ thuật phần mềm trước đây, SWE-Lancer có nhiều ưu điểm, ví dụ:
1. Cả 1488 nhiệm vụ đều đại diện cho thù lao thực tế mà các nhà tuyển dụng trả cho kỹ sư tự do, cung cấp một thang độ khó tự nhiên, do thị trường quyết định, với mức thù lao dao động từ 250 đến 32.000 USD, quả thật rất đáng kể.
Trong đó, 35% nhiệm vụ có giá trị trên 1.000 USD, 34% nhiệm vụ nằm trong khoảng từ 500 đến 1.000 USD. Nhóm nhiệm vụ kỹ sư phần mềm (SWE) đóng vai trò cá nhân (IC) bao gồm 764 nhiệm vụ, tổng giá trị 414.775 USD; nhóm nhiệm vụ quản lý SWE bao gồm 724 nhiệm vụ, tổng giá trị 585.225 USD.
2. Kỹ thuật phần mềm quy mô lớn trong thế giới thực không chỉ cần viết mã cụ thể mà còn đòi hỏi khả năng quản lý kỹ thuật tổng hợp, bộ kiểm tra này sử dụng dữ liệu thực tế để đánh giá mô hình khi đảm nhận vai trò "giám đốc kỹ thuật" SWE.

3. Có khả năng đánh giá kỹ thuật toàn bộ stack nâng cao. SWE-Lancer đại diện cho kỹ thuật phần mềm thực tế vì các nhiệm vụ đến từ nền tảng có hàng triệu người dùng thật.
Các nhiệm vụ liên quan đến phát triển kỹ thuật ở ứng dụng di động và web, tương tác với API, trình duyệt và các ứng dụng bên ngoài, cũng như xác minh và tái hiện các vấn đề phức tạp.
Ví dụ, có nhiệm vụ chi 250 USD để tăng độ tin cậy (sửa lỗi gọi API kích hoạt kép), 1.000 USD để sửa lỗ hổng (giải quyết vấn đề phân quyền) và 16.000 USD để triển khai chức năng mới (thêm hỗ trợ phát video trong ứng dụng trên web, iOS, Android và máy tính để bàn).
4. Đa dạng lĩnh vực. 74% nhiệm vụ IC SWE và 76% nhiệm vụ quản lý SWE liên quan đến logic ứng dụng, trong khi 17% nhiệm vụ IC SWE và 18% nhiệm vụ quản lý SWE liên quan đến phát triển UI/UX.
Xét về độ khó, các nhiệm vụ được chọn trong SWE-Lancer rất thách thức, trung bình các nhiệm vụ trong tập dữ liệu mã nguồn mở cần 26 ngày mới giải quyết được trên Github.
Ngoài ra, OpenAI cho biết họ đã thu thập dữ liệu một cách khách quan, chọn mẫu nhiệm vụ tiêu biểu từ Upwork và thuê 100 kỹ sư phần mềm chuyên nghiệp viết và xác minh các bài kiểm tra từ đầu đến cuối cho mọi nhiệm vụ.
So tài khả năng kiếm tiền bằng lập trình AI
Mặc dù nhiều lãnh đạo công nghệ liên tục tuyên truyền rằng mô hình AI có thể thay thế kỹ sư "cấp thấp", nhưng vẫn còn dấu hỏi lớn liệu doanh nghiệp có thể hoàn toàn dùng LLM thay thế kỹ sư phần mềm con người hay không.
Kết quả đánh giá ban đầu cho thấy, trên toàn bộ tập dữ liệu SWE-Lancer, lợi nhuận của các mô hình AI hàng đầu hiện tại đều xa mới đạt được tổng tiềm năng 1 triệu USD.

Nhìn chung, tất cả các mô hình đều thể hiện tốt hơn trong nhiệm vụ quản lý SWE so với nhiệm vụ IC SWE, trong khi nhiệm vụ IC SWE về cơ bản vẫn chưa bị các mô hình AI chinh phục đầy đủ, mô hình tốt nhất hiện tại là Claude 3.5 Sonnet do Anthropic - đối thủ cạnh tranh của OpenAI phát triển.
Trên nhiệm vụ IC SWE, tỷ lệ hoàn thành một lần và tỷ suất lợi nhuận của mọi mô hình đều dưới 30%; trên nhiệm vụ quản lý SWE, mô hình tốt nhất Claude 3.5 Sonnet đạt điểm 45%.
Claude 3.5 Sonnet thể hiện hiệu năng mạnh mẽ trên cả hai loại nhiệm vụ IC SWE và quản lý SWE, vượt mô hình xếp thứ hai o1 9,7% trên nhiệm vụ IC SWE và 3,4% trên nhiệm vụ quản lý SWE.
Nếu chuyển sang giá trị lợi nhuận, mô hình dẫn đầu Claude 3.5 Sonnet đạt tổng thu nhập hơn 400.000 USD trên toàn bộ tập dữ liệu.

Một điểm đáng chú ý là, việc tăng lượng tính toán suy luận sẽ giúp ích rất lớn cho "kiếm tiền bằng AI".
Trên nhiệm vụ IC SWE, các nghiên cứu thử nghiệm với mô hình o1 bật công cụ suy luận sâu cho thấy, tăng lượng tính toán suy luận có thể nâng tỷ lệ hoàn thành một lần từ 9,3% lên 16,5%, lợi nhuận cũng tăng tương ứng từ 16.000 USD lên 29.000 USD, tỷ suất lợi nhuận từ 6,8% lên 12,1%.
Nhóm nghiên cứu kết luận, mặc dù mô hình tốt nhất Claude 3.5 Sonnet đã giải quyết 26,2% vấn đề IC SWE, nhưng phần lớn các giải pháp còn lại vẫn chứa lỗi, cần nhiều công việc hoàn thiện thêm để triển khai đáng tin cậy. Tiếp theo là o1, rồi đến GPT-4o, đồng thời tỷ lệ hoàn thành một lần ở nhiệm vụ quản lý thường cao hơn gấp hai lần trở lên so với nhiệm vụ IC SWE.
Điều này cũng có nghĩa là, dù quan điểm AI thay thế kỹ sư phần mềm con người đang được thổi phồng, doanh nghiệp hiện tại vẫn cần cân nhắc kỹ lưỡng. Mô hình AI có thể giải quyết một số vấn đề lập trình "cấp thấp", nhưng chưa thể thay thế hoàn toàn kỹ sư phần mềm "cấp thấp", vì chúng không thể hiểu nguyên nhân tồn tại của một số lỗi mã và tiếp tục mắc thêm nhiều lỗi lan rộng khác.
Khung đánh giá hiện tại chưa hỗ trợ đầu vào đa phương thức, ngoài ra các nhà nghiên cứu chưa tiến hành đánh giá "tỷ suất hoàn vốn", ví dụ so sánh thù lao trả cho freelancer với chi phí sử dụng API khi hoàn thành một nhiệm vụ—đây sẽ là trọng tâm cải thiện tiếp theo của bộ tiêu chuẩn này.
Làm một lập trình viên "tăng cường bằng AI"
Xét về hiện tại, AI còn phải đi một chặng đường dài mới có thể thay thế thực sự lập trình viên con người, bởi phát triển một dự án phần mềm không đơn giản chỉ là tạo mã theo yêu cầu.
Ví dụ, lập trình viên thường xuyên gặp phải những vấn đề yêu cầu khách hàng cực kỳ phức tạp, trừu tượng và mơ hồ, điều này đòi hỏi sự am hiểu sâu sắc về các nguyên lý kỹ thuật, logic kinh doanh và kiến trúc hệ thống. Khi tối ưu hóa kiến trúc phần mềm phức tạp, lập trình viên con người có thể cân nhắc tổng thể các yếu tố như khả năng mở rộng, bảo trì và hiệu suất trong tương lai của hệ thống, trong khi AI có thể khó đưa ra phân tích và phán đoán toàn diện.
Hơn nữa, lập trình không chỉ là hiện thực hóa logic hiện có, mà còn đòi hỏi rất nhiều sáng tạo và tư duy đổi mới. Lập trình viên cần nghĩ ra các thuật toán mới, thiết kế giao diện phần mềm và cách tương tác độc đáo—đây là điểm yếu của AI.

Lập trình viên thường cũng cần giao tiếp và hợp tác với các thành viên trong nhóm, khách hàng và các bên liên quan khác, cần hiểu nhu cầu và mức độ khả thi từ các phía, diễn đạt rõ ràng quan điểm của mình và phối hợp với người khác để hoàn thành dự án. Ngoài ra, lập trình viên con người có khả năng học tập liên tục và thích nghi với thay đổi mới, có thể nhanh chóng nắm bắt kiến thức và kỹ năng mới rồi áp dụng vào dự án thực tế, trong khi một mô hình AI thành công vẫn cần trải qua nhiều đợt huấn luyện và kiểm thử.
Ngành phát triển phần mềm cũng chịu sự ràng buộc bởi nhiều luật lệ và quy định, như sở hữu trí tuệ, bảo vệ dữ liệu và giấy phép phần mềm, trí tuệ nhân tạo có thể khó hiểu và tuân thủ đầy đủ các yêu cầu pháp lý này, từ đó tiềm ẩn rủi ro pháp lý hoặc tranh chấp trách nhiệm.
Xét về dài hạn, nguy cơ thay thế vị trí lập trình viên do tiến bộ công nghệ AI vẫn tồn tại, nhưng trong ngắn hạn, lập trình viên "tăng cường bằng AI" mới là xu hướng chủ đạo, nắm vững việc sử dụng các công cụ AI mới nhất là một trong những kỹ năng cốt lõi của lập trình viên xuất sắc.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News













