
AI có thể tồn tại trong thế giới tiền mã hóa không: Thử nghiệm mã hóa của 18 mô hình lớn
Tuyển chọn TechFlowTuyển chọn TechFlow

AI có thể tồn tại trong thế giới tiền mã hóa không: Thử nghiệm mã hóa của 18 mô hình lớn
Việc thiết lập các bài kiểm tra chuẩn hóa có thể trở thành cầu nối then chốt giữa hai lĩnh vực AI và tiền mã hóa, thúc đẩy đổi mới sáng tạo và cung cấp định hướng rõ ràng cho các ứng dụng trong tương lai.
Tác giả: Vương Siêu
Trong lịch sử phát triển công nghệ, những công nghệ cách mạng thường xuất hiện độc lập, từng cái một dẫn dắt sự thay đổi của mỗi thời đại. Khi hai công nghệ cách mạng gặp nhau, sự va chạm giữa chúng thường tạo ra ảnh hưởng theo cấp số nhân. Hiện tại, chúng ta đang đứng trước một khoảnh khắc lịch sử như vậy: trí tuệ nhân tạo (AI) và công nghệ mã hóa (crypto), hai công nghệ đột phá tương tự nhau, đang cùng nhau bước lên trung tâm sân khấu.
Chúng ta hình dung nhiều thách thức trong lĩnh vực AI có thể được giải quyết bằng công nghệ mã hóa; chúng ta kỳ vọng các Agent AI xây dựng mạng lưới kinh tế tự chủ, thúc đẩy việc áp dụng rộng rãi công nghệ mã hóa; đồng thời mong đợi AI có thể tăng tốc độ phát triển các ứng dụng hiện tại trong lĩnh vực mã hóa. Vô số ánh mắt đổ dồn vào đây, lượng vốn khổng lồ đổ xô vào, giống như mọi thuật ngữ "hot" khác, nó tập trung khát vọng đổi mới, niềm mong ước về tương lai của con người, cũng bao gồm cả tham vọng và lòng tham khó kiềm chế.
Tuy nhiên, giữa sự ồn ào này, chúng ta lại biết rất ít về những câu hỏi cơ bản nhất. AI thực sự hiểu sâu đến đâu về lĩnh vực mã hóa? Các Agent được trang bị mô hình ngôn ngữ lớn (LLM) có thực sự sở hữu khả năng vận dụng công cụ mã hóa hay không? Sự khác biệt giữa các mô hình trong các nhiệm vụ liên quan mã hóa là bao nhiêu?
Câu trả lời cho những câu hỏi này sẽ quyết định mức độ ảnh hưởng qua lại giữa AI và công nghệ mã hóa, đồng thời cực kỳ quan trọng đối với định hướng sản phẩm và lựa chọn lộ trình kỹ thuật trong lĩnh vực giao thoa này. Để tìm hiểu những vấn đề này, tôi đã thực hiện một số thí nghiệm đánh giá mô hình ngôn ngữ lớn. Bằng cách đánh giá kiến thức và năng lực của chúng trong lĩnh vực mã hóa, đo lường mức độ ứng dụng mã hóa của AI, từ đó xác định tiềm năng và thách thức khi AI kết hợp với công nghệ mã hóa.
Trước tiên nêu kết luận
Mô hình ngôn ngữ lớn (LLM) thể hiện xuất sắc trong các kiến thức cơ bản về mật mã học và blockchain, hiểu rõ hệ sinh thái mã hóa, nhưng lại thể hiện rất kém trong tính toán toán học và phân tích logic nghiệp vụ phức tạp. Trong lĩnh vực khóa riêng và thao tác ví cơ bản, các mô hình có nền tảng chấp nhận được, nhưng đối mặt với thách thức nghiêm trọng về cách lưu trữ an toàn khóa riêng trên đám mây. Nhiều mô hình có thể tạo ra mã hợp đồng thông minh hiệu quả cho các tình huống đơn giản, nhưng không thể tự thực hiện kiểm toán hợp đồng hoặc tạo hợp đồng phức tạp—các công việc khó khăn.
Các mô hình thương mại đóng nguồn tổng thể dẫn đầu rõ rệt, trong nhóm mã nguồn mở chỉ có Llama 3.1-405B nổi bật, còn các mô hình mã nguồn mở có quy mô tham số nhỏ đều không đạt yêu cầu. Tuy nhiên, tiềm năng là có thật: thông qua kỹ thuật gợi ý (prompt), suy luận chuỗi tư duy (chain-of-thought) và học ít mẫu (few-shot learning), hiệu suất của tất cả các mô hình đều được cải thiện đáng kể, các mô hình hàng đầu đã cho thấy khả năng kỹ thuật mạnh mẽ trong một số ứng dụng chuyên biệt.
Chi tiết thí nghiệm
Chọn 18 mô hình ngôn ngữ tiêu biểu để đánh giá, bao gồm:
-
Mô hình đóng nguồn: GPT-4o, GPT-4o Mini, Claude 3.5 Sonnet, Gemini 1.5 Pro, Grok2 beta (hiện đang đóng nguồn)
-
Mô hình mã nguồn mở: Llama 3.1 8B/70B/405B, Mistral Nemo 12B, DeepSeek-coder-v2, Nous-hermes2, Phi3 3.8B/14B, Gemma2 9B/27B, Command-R
-
Mô hình tối ưu toán học: Qwen2-math-72B, MathΣtral
Các mô hình này bao gồm các mô hình thương mại phổ biến và các mô hình mã nguồn mở nổi bật, với quy mô tham số dao động từ 3.8B đến 405B – chênh lệch hơn 100 lần. Xét mối liên hệ chặt chẽ giữa công nghệ mã hóa và toán học, thí nghiệm đặc biệt chọn thêm hai mô hình tối ưu toán học.
Phạm vi kiến thức thí nghiệm bao gồm: mật mã học, cơ sở blockchain, thao tác khóa riêng và ví, hợp đồng thông minh, DAO và quản trị, mô hình đồng thuận và kinh tế, Dapp/DeFi/NFT, phân tích dữ liệu trên chuỗi... Mỗi lĩnh vực bao gồm một loạt câu hỏi và nhiệm vụ từ dễ đến khó, không chỉ kiểm tra vốn kiến thức mà còn mô phỏng các nhiệm vụ để đánh giá hiệu suất trong các tình huống ứng dụng.
Nhiệm vụ được lấy từ nhiều nguồn: một phần dựa trên góp ý của nhiều chuyên gia trong lĩnh vực mã hóa, phần còn lại do AI hỗ trợ tạo ra và được hiệu đính thủ công nhằm đảm bảo tính chính xác và thử thách. Một số nhiệm vụ sử dụng dạng câu hỏi trắc nghiệm đơn giản để thuận tiện cho việc kiểm tra và chấm điểm tự động chuẩn hóa. Một số bài kiểm tra khác sử dụng dạng câu hỏi phức tạp hơn, quá trình đánh giá kết hợp tự động bằng chương trình, con người và AI. Tất cả các nhiệm vụ đều được đánh giá bằng phương pháp suy luận zero-shot, không cung cấp bất kỳ ví dụ, hướng dẫn tư duy hay nhắc nhở mang tính chỉ đạo nào.
Vì thiết kế thí nghiệm còn thô sơ, chưa đủ tính nghiêm ngặt học thuật, các câu hỏi và nhiệm vụ dùng để kiểm tra còn xa mới bao phủ toàn bộ lĩnh vực mã hóa, khung kiểm tra cũng chưa trưởng thành. Do đó, bài viết này không liệt kê dữ liệu thí nghiệm cụ thể, mà tập trung chia sẻ một số nhận định từ thí nghiệm.
Kiến thức / Khái niệm
Trong quá trình đánh giá, mô hình ngôn ngữ lớn thể hiện xuất sắc trong các bài kiểm tra kiến thức cơ bản về thuật toán mã hóa, kiến thức cơ sở blockchain và ứng dụng DeFi. Ví dụ, trong câu hỏi hỏi đáp về khái niệm khả năng sử dụng dữ liệu (data availability), tất cả các mô hình đều đưa ra câu trả lời chính xác. Với câu hỏi đánh giá mức độ nắm vững cấu trúc giao dịch Ethereum, mặc dù các mô hình có chút khác biệt về chi tiết trả lời, nhưng nhìn chung đều chứa đựng thông tin then chốt chính xác. Với các câu hỏi trắc nghiệm về khái niệm thì gần như không gây khó khăn, tỷ lệ đúng của hầu hết các mô hình đều trên 95%.
Các câu hỏi hỏi đáp mang tính khái niệm hoàn toàn không làm khó được các mô hình lớn.
Tính toán / Logic nghiệp vụ
Tuy nhiên, khi liên quan đến các bài toán cần tính toán cụ thể, tình hình đảo ngược hoàn toàn. Một bài toán tính toán đơn giản về thuật toán RSA khiến phần lớn các mô hình rơi vào bế tắc. Điều này cũng dễ hiểu: mô hình ngôn ngữ lớn chủ yếu hoạt động bằng cách nhận diện và sao chép các mẫu trong dữ liệu huấn luyện, chứ không phải thông qua việc thấu hiểu bản chất các khái niệm toán học. Hạn chế này đặc biệt rõ ràng khi xử lý các khái niệm toán học trừu tượng như phép toán modulo, lũy thừa. Xét mối liên hệ mật thiết giữa lĩnh vực mã hóa và toán học, điều này có nghĩa rằng việc trực tiếp phụ thuộc vào mô hình để thực hiện các phép tính toán học liên quan mã hóa là không đáng tin cậy.
Trong các bài toán tính toán khác, hiệu suất của mô hình ngôn ngữ lớn cũng không khả quan. Ví dụ, một bài toán đơn giản về tính tổn thất vô thường (impermanent loss) trong AMM, dù không đòi hỏi phép toán phức tạp, nhưng trong 18 mô hình chỉ có 4 mô hình đưa ra câu trả lời đúng. Một bài toán cơ bản hơn nữa là tính xác suất tạo khối, thế mà tất cả các mô hình đều trả lời sai — không một ai tính đúng. Điều này không chỉ bộc lộ sự thiếu sót của mô hình ngôn ngữ lớn trong tính toán chính xác, mà còn phản ánh vấn đề lớn trong phân tích logic nghiệp vụ. Đáng chú ý, ngay cả các mô hình tối ưu toán học cũng không thể hiện ưu thế rõ rệt trong các bài toán tính toán, hiệu suất của chúng thật sự đáng thất vọng.
Tuy nhiên, vấn đề tính toán toán học không phải là không có cách giải. Nếu chúng ta điều chỉnh một chút, yêu cầu LLM đưa ra đoạn mã Python tương ứng thay vì kết quả tính toán trực tiếp, tỷ lệ đúng sẽ tăng mạnh. Vẫn lấy ví dụ bài toán RSA ở trên, phần lớn mã Python do các mô hình đưa ra đều có thể thực thi thành công và cho ra kết quả đúng. Trong môi trường sản xuất thực tế, có thể cung cấp sẵn mã thuật toán để bỏ qua bước tự tính toán của LLM, cách làm này tương tự như cách con người xử lý các nhiệm vụ như vậy. Về mặt logic nghiệp vụ, hiệu suất của mô hình cũng có thể được cải thiện hiệu quả thông qua việc thiết kế kỹ lưỡng các nhắc nhở (prompt).
Quản lý khóa riêng và thao tác ví
Nếu hỏi ứng dụng đầu tiên của Agent bằng tiền mã hóa là gì, câu trả lời của tôi là thanh toán. Tiền mã hóa gần như có thể được coi là hình thức tiền tệ nguyên sinh của AI. So với những trở ngại mà Agent phải đối mặt trong hệ thống tài chính truyền thống, việc sử dụng công nghệ mã hóa để trang bị danh tính số cho bản thân và quản lý tiền thông qua ví mã hóa là một lựa chọn hoàn toàn tự nhiên. Do đó, việc tạo và quản lý khóa riêng, các loại thao tác ví, tạo thành yêu cầu kỹ năng cơ bản nhất để Agent có thể tự chủ sử dụng mạng mã hóa.
Hạt nhân của việc tạo khóa riêng an toàn nằm ở số ngẫu nhiên chất lượng cao, rõ ràng đây là khả năng mà mô hình ngôn ngữ lớn không có. Tuy nhiên, nhận thức của mô hình về an toàn khóa riêng là đầy đủ: khi được yêu cầu tạo khóa riêng, phần lớn các mô hình chọn cách sử dụng mã (ví dụ thư viện liên quan của Python) để hướng dẫn người dùng tự tạo khóa riêng. Ngay cả khi có mô hình đưa ra trực tiếp khóa riêng, cũng tuyên bố rõ ràng đây chỉ dùng để minh họa, không phải khóa riêng an toàn có thể sử dụng trực tiếp. Về mặt này, tất cả các mô hình lớn đều thể hiện hiệu suất thỏa đáng.
Việc quản lý khóa riêng đối mặt với một số thách thức, chủ yếu bắt nguồn từ giới hạn cố hữu về kiến trúc kỹ thuật chứ không phải do năng lực mô hình. Khi sử dụng mô hình triển khai cục bộ, khóa riêng được tạo ra có thể được coi là tương đối an toàn. Tuy nhiên, nếu sử dụng mô hình thương mại trên đám mây, chúng ta phải giả định rằng khóa riêng đã bị tiết lộ cho bên vận hành mô hình ngay từ thời điểm tạo ra. Nhưng đối với mục tiêu Agent hoạt động độc lập, quyền truy cập khóa riêng là bắt buộc, điều này có nghĩa khóa riêng không thể chỉ tồn tại cục bộ tại người dùng. Trong trường hợp này, chỉ dựa vào bản thân mô hình là không đủ để đảm bảo an toàn khóa riêng, cần phải bổ sung các dịch vụ an toàn bổ sung như môi trường thực thi đáng tin cậy (Trusted Execution Environment) hoặc HSM.
Nếu giả định Agent đã an toàn nắm giữ khóa riêng, khi thực hiện các thao tác cơ bản dựa trên điều kiện này, các mô hình trong thí nghiệm đều thể hiện khả năng tốt. Mặc dù các bước và mã đầu ra thường xuyên có lỗi, nhưng trong kiến trúc kỹ thuật phù hợp, những vấn đề này về cơ bản có thể được giải quyết. Có thể nói về mặt kỹ thuật, việc để Agent tự thực hiện các thao tác ví cơ bản đã không còn nhiều trở ngại.
Hợp đồng thông minh
Khả năng hiểu, sử dụng, viết và nhận diện rủi ro của hợp đồng thông minh là then chốt để Agent AI thực hiện các nhiệm vụ phức tạp trong thế giới chuỗi, do đó cũng là lĩnh vực kiểm tra trọng tâm của thí nghiệm. Mô hình ngôn ngữ lớn thể hiện tiềm năng rõ rệt trong lĩnh vực này, nhưng đồng thời cũng bộc lộ một số vấn đề rõ ràng.
Trong thí nghiệm, gần như tất cả các mô hình đều có thể trả lời đúng các khái niệm hợp đồng cơ bản, nhận diện các lỗi đơn giản. Trong việc tối ưu gas cho hợp đồng, phần lớn các mô hình có thể nhận diện các điểm tối ưu then chốt và phân tích các xung đột có thể xảy ra do tối ưu. Tuy nhiên, khi liên quan đến logic nghiệp vụ sâu hơn, hạn chế của mô hình lớn dần bộc lộ.
Lấy ví dụ một hợp đồng vesting token: tất cả các mô hình đều hiểu đúng chức năng hợp đồng, phần lớn tìm ra vài lỗ hổng rủi ro trung bình và thấp. Tuy nhiên, đối với một lỗ hổng rủi ro cao ẩn sâu trong logic nghiệp vụ, có thể khiến một phần tài sản bị khóa trong trường hợp đặc biệt, không một mô hình nào có thể tự phát hiện. Trong nhiều bài kiểm tra sử dụng hợp đồng thật, hiệu suất của mô hình đều tương tự.
Điều này cho thấy sự hiểu biết của mô hình lớn về hợp đồng vẫn dừng ở mức bề ngoài, thiếu hiểu biết sâu về logic nghiệp vụ. Tuy nhiên, sau khi cung cấp thêm gợi ý, một số mô hình cuối cùng có thể tự tìm ra lỗ hổng ẩn sâu trong hợp đồng nêu trên. Dựa trên biểu hiện này, có thể đánh giá rằng với sự hỗ trợ của thiết kế kỹ thuật tốt, mô hình lớn về cơ bản đã có khả năng đảm nhận vai trò trợ lý (co-pilot) trong lĩnh vực hợp đồng thông minh. Tuy nhiên, để độc lập đảm nhận các công việc quan trọng như kiểm toán hợp đồng, vẫn còn một chặng đường dài phía trước.
Cần nói rõ một điểm, các nhiệm vụ liên quan mã trong thí nghiệm chủ yếu tập trung vào các hợp đồng có logic đơn giản, dưới 2000 dòng mã. Đối với các dự án phức tạp quy mô lớn hơn, nếu không tinh chỉnh (fine-tune) hoặc không dùng kỹ thuật nhắc nhở (prompt engineering) phức tạp, tôi cho rằng rõ ràng vượt quá phạm vi xử lý hiệu quả của mô hình hiện tại, nên không đưa vào kiểm tra. Ngoài ra, thí nghiệm này chỉ liên quan đến Solidity, chưa bao gồm các ngôn ngữ hợp đồng thông minh khác như Rust, Move.
Ngoài các nội dung kiểm tra trên, thí nghiệm còn bao gồm nhiều khía cạnh khác như kịch bản DeFi, DAO và quản trị, phân tích dữ liệu trên chuỗi, thiết kế cơ chế đồng thuận và Tokenomics. Mô hình ngôn ngữ lớn thể hiện một mức độ năng lực nhất định trong các lĩnh vực này. Vì nhiều bài kiểm tra vẫn đang tiến hành, phương pháp và khung kiểm tra đang không ngừng được tối ưu hóa, bài viết này tạm thời không đi sâu thảo luận các lĩnh vực này.
Sự khác biệt giữa các mô hình
Trong tất cả các mô hình ngôn ngữ lớn tham gia đánh giá, GPT-4o và Claude 3.5 Sonnet tiếp tục thể hiện xuất sắc như ở các lĩnh vực khác, là những người dẫn đầu không thể tranh cãi. Khi đối mặt với các câu hỏi cơ bản, hai mô hình này gần như luôn đưa ra câu trả lời chính xác; trong phân tích tình huống phức tạp, chúng thậm chí có thể đưa ra những nhận định sâu sắc và có căn cứ vững chắc. Thậm chí trong các nhiệm vụ tính toán—lĩnh vực mà mô hình lớn không giỏi—chúng cũng thể hiện tỷ lệ thắng cao, dĩ nhiên "cao" ở đây là tương đối, vẫn chưa đạt đến mức ổn định để triển khai trong môi trường sản xuất.
Trong nhóm mô hình mã nguồn mở, Llama 3.1-405B nhờ quy mô tham số khổng lồ và thuật toán mô hình tiên tiến, vượt xa các đối thủ cùng loại. Trong các mô hình mã nguồn mở có quy mô tham số nhỏ hơn, không có sự chênh lệch hiệu suất rõ rệt giữa các mô hình. Dù điểm số cao thấp hơi khác nhau, nhưng nhìn chung đều rất xa so với ngưỡng đạt yêu cầu.
Do đó, nếu hiện tại muốn xây dựng ứng dụng AI liên quan mã hóa, các mô hình nhỏ và trung bình này không phải là lựa chọn phù hợp.
Trong đánh giá của chúng tôi, có hai mô hình đặc biệt nổi bật. Thứ nhất là mô hình Phi-3 3.8B do Microsoft phát triển, là mô hình nhỏ nhất tham gia thí nghiệm, tuy nhiên lại đạt hiệu suất tương đương với các mô hình 8B-12B với chưa đến một nửa tham số, thậm chí còn thể hiện tốt hơn trong một số loại câu hỏi nhất định. Kết quả này nhấn mạnh tầm quan trọng của việc tối ưu kiến trúc mô hình và chiến lược huấn luyện, chứ không chỉ đơn thuần phụ thuộc vào việc tăng quy mô tham số.
Mô hình Command-R của Cohere trở thành một "con ngựa ô" đáng ngạc nhiên—theo hướng ngược lại. Command-R tương đối ít tên tuổi so với các mô hình khác, nhưng Cohere là công ty mô hình lớn chuyên về thị trường 2B, tôi cho rằng có khá nhiều điểm phù hợp với các lĩnh vực như phát triển Agent, nên cố ý đưa vào phạm vi kiểm tra. Tuy nhiên, Command-R với 35B tham số lại xếp cuối trong hầu hết các bài kiểm tra, thua xa nhiều mô hình dưới 10B.
Kết quả này đặt ra câu hỏi: Command-R khi ra mắt nhấn mạnh khả năng tạo sinh tăng cường truy xuất (retrieval-augmented generation), thậm chí không công bố điểm chuẩn thông thường. Liệu điều này có nghĩa nó là một "chiếc chìa khóa chuyên dụng", chỉ phát huy toàn bộ tiềm năng trong các tình huống nhất định?
Giới hạn của thí nghiệm
Trong loạt kiểm tra này, chúng ta đã có cái nhìn ban đầu về khả năng của AI trong lĩnh vực mã hóa. Tất nhiên, các kiểm tra này còn xa mới đạt đến tiêu chuẩn chuyên nghiệp. Phạm vi bao phủ của tập dữ liệu còn quá hẹp, tiêu chuẩn định lượng câu trả lời còn tương đối thô sơ, thiếu cơ chế chấm điểm tinh tế và chính xác hơn, tất cả những điều này đều ảnh hưởng đến độ chính xác của kết quả đánh giá, không loại trừ khả năng một số mô hình bị đánh giá thấp.
Về phương pháp kiểm tra, thí nghiệm chỉ sử dụng duy nhất phương pháp học zero-shot, chưa khám phá các phương pháp như chuỗi tư duy (chain-of-thought), học ít mẫu (few-shot learning) có thể khơi dậy tiềm năng lớn hơn của mô hình. Về tham số mô hình, thí nghiệm đều dùng tham số mô hình chuẩn, chưa khảo sát ảnh hưởng của các thiết lập tham số khác nhau đến hiệu suất mô hình. Những phương pháp kiểm tra tổng thể đơn điệu này hạn chế việc đánh giá toàn diện tiềm năng mô hình, cũng chưa khai thác đầy đủ sự khác biệt hiệu suất của mô hình trong các điều kiện cụ thể.
Dù điều kiện kiểm tra tương đối thô sơ, các thí nghiệm này vẫn tạo ra nhiều nhận định có giá trị, cung cấp tham khảo cho các nhà phát triển xây dựng ứng dụng.
Lĩnh vực mã hóa cần một bộ chuẩn riêng
Trong lĩnh vực AI, bộ chuẩn (benchmark) đóng vai trò then chốt. Sự phát triển nhanh chóng của công nghệ học sâu hiện đại bắt nguồn từ ImageNET do giáo sư Li Fei-Fei hoàn thành năm 2012, chính là một bộ chuẩn và tập dữ liệu tiêu chuẩn trong lĩnh vực thị giác máy tính.
Bằng cách cung cấp tiêu chuẩn đánh giá thống nhất, bộ chuẩn không chỉ cung cấp mục tiêu và mốc tham chiếu rõ ràng cho các nhà phát triển, mà còn thúc đẩy tiến bộ kỹ thuật toàn ngành. Điều này giải thích tại sao mỗi mô hình ngôn ngữ lớn mới ra mắt đều nhấn mạnh công bố điểm số của mình trên các bộ chuẩn khác nhau. Những kết quả này trở thành "ngôn ngữ chung" về năng lực mô hình, giúp nhà nghiên cứu xác định điểm đột phá, nhà phát triển chọn mô hình phù hợp nhất với nhiệm vụ cụ thể, còn người dùng có thể đưa ra lựa chọn sáng suốt dựa trên dữ liệu khách quan. Quan trọng hơn, các bộ chuẩn thường báo hiệu xu hướng tương lai của ứng dụng AI, định hướng đầu tư tài nguyên và trọng tâm nghiên cứu.
Nếu chúng ta tin rằng lĩnh vực giao thoa giữa AI và công nghệ mã hóa tiềm ẩn tiềm năng to lớn, thì việc xây dựng một bộ chuẩn chuyên biệt cho lĩnh vực mã hóa trở thành nhiệm vụ cấp bách. Việc thiết lập bộ chuẩn có thể trở thành cây cầu then chốt nối liền hai lĩnh vực AI và mã hóa, thúc đẩy đổi mới và cung cấp định hướng rõ ràng cho các ứng dụng tương lai.
Tuy nhiên, so với các bộ chuẩn trưởng thành ở các lĩnh vực khác, việc xây dựng bộ chuẩn cho lĩnh vực mã hóa đối mặt với những thách thức riêng biệt: công nghệ mã hóa phát triển nhanh chóng, hệ thống kiến thức ngành chưa định hình, nhiều hướng trọng tâm thiếu sự đồng thuận. Là một lĩnh vực liên ngành, mã hóa bao gồm mật mã học, hệ thống phân tán, kinh tế học... độ phức tạp vượt xa một lĩnh vực đơn lẻ. Thách thức lớn hơn nữa là bộ chuẩn mã hóa không chỉ cần đánh giá kiến thức, mà còn phải khảo sát khả năng thực hành thực tế của AI trong việc sử dụng công nghệ mã hóa, điều này đòi hỏi thiết kế một kiến trúc đánh giá hoàn toàn mới. Việc thiếu hụt các tập dữ liệu liên quan càng làm gia tăng độ khó.
Độ phức tạp và tầm quan trọng của nhiệm vụ này quyết định nó không thể hoàn thành bởi một cá nhân hay nhóm đơn lẻ. Nó cần tập hợp trí tuệ đa chiều từ người dùng, nhà phát triển, chuyên gia mật mã, nhà nghiên cứu mã hóa đến nhiều người trong các lĩnh vực liên ngành khác, phụ thuộc vào sự tham gia rộng rãi của cộng đồng và sự đồng thuận. Cũng vì vậy, bộ chuẩn mã hóa cần được thảo luận rộng rãi hơn, vì đây không chỉ là một công việc kỹ thuật, mà còn là một sự suy ngẫm sâu sắc về cách chúng ta hiểu công nghệ mới nổi này.
Hậu ký: Nói đến đây, chủ đề vẫn còn rất dài. Trong bài viết tiếp theo, tôi sẽ đi sâu vào các ý tưởng và thách thức cụ thể khi xây dựng bộ chuẩn AI cho lĩnh vực mã hóa. Thí nghiệm hiện vẫn đang tiếp tục, không ngừng tối ưu mô hình kiểm tra, làm phong phú tập dữ liệu, hoàn thiện khung đánh giá và cải tiến kỹ thuật kiểm tra tự động. Theo tinh thần hợp tác mở, trong tương lai tất cả tài nguyên liên quan—bao gồm tập dữ liệu, kết quả thí nghiệm, khung đánh giá và mã kiểm tra tự động—sẽ được công khai dưới dạng tài nguyên công cộng.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News












