Tin từ TechFlow: Ngày 18 tháng 6, OpenAI đã công bố bộ tiêu chuẩn đánh giá mới mang tên LifeSciBench, nhằm đo lường năng lực của các hệ thống AI trong các tình huống nghiên cứu khoa học thực tế. Được biết, LifeSciBench được xây dựng dựa trên 750 nhiệm vụ do các chuyên gia soạn thảo, bao quát 7 quy trình làm việc nghiên cứu và 7 lĩnh vực sinh học. Các nhiệm vụ này được lấy từ 173 nhà nghiên cứu có bằng tiến sĩ và kinh nghiệm làm việc trong ngành công nghệ sinh học hoặc dược phẩm. Bộ tiêu chuẩn này nhấn mạnh việc đánh giá các năng lực nghiên cứu phức tạp—bao gồm tích hợp bằng chứng, thiết kế thí nghiệm, phân tích dữ liệu, suy luận khoa học và giao tiếp nghiên cứu—thay vì chỉ tập trung vào các câu hỏi kiểm tra kiến thức đơn thuần. Hơn 79% nhiệm vụ yêu cầu suy luận đa bước, trung bình mỗi nhiệm vụ cần khoảng 4 bước suy luận và đi kèm với 1.062 tệp dữ liệu thực tế liên quan đến nghiên cứu (ví dụ: bài báo khoa học, biểu đồ, dữ liệu trình tự và tệp cấu trúc).
Chuyên sâu báo cáo Web3
Tôi muốn đăng bài
Yêu cầu phỏng vấn
Theo dõi chúng tôi
Cảnh báo rủi ro: mọi nội dung trên website này không cấu thành tư vấn đầu tư và chúng tôi không cung cấp bất kỳ dịch vụ tín hiệu hay dẫn dắt giao dịch nào. Theo thông báo của PBoC và 10 bộ ngành về việc tăng cường phòng ngừa rủi ro đầu cơ tiền mã hóa, xin hãy nâng cao ý thức rủi ro. Liên hệ: [email protected] Mã ICP: 琼ICP备2022009338号