TechFlowより、6月18日、OpenAIは新たな評価ベンチマーク「LifeSciBench」を発表しました。これは、AIシステムが実際の科学研究シナリオにおいてどの程度の能力を発揮できるかを測定することを目的としています。報道によると、LifeSciBenchは専門家が作成した750問のタスクに基づいており、7種類の研究ワークフローおよび7つの生物学分野をカバーしています。これらのタスクは、バイオテクノロジーや製薬業界で経験を積んだ博士号取得者173名によって提供されました。このベンチマークは、単一の事実確認型問題ではなく、証拠の統合、実験設計、データ分析、科学的推論、研究コミュニケーションといった複雑な研究能力を重点的に評価します。全タスクの79%以上が多段階推論を必要とし、1問あたり平均約4段階の推論が求められます。また、論文、図表、配列データ、構造ファイルなど、実際の研究にまつわる1,062件のデータ添付ファイルが含まれています。
Web3業界の深掘り報道に専念し潮流を洞察
投稿したい
取材依頼
リスク提示:本サイトのすべての内容は投資助言ではなく、いかなるシグナル配信・取引勧誘サービスも行いません。中国人民銀行など十部委の「仮想通貨取引投機リスクの防止と処置に関する通知」に基づき、リスク意識の向上をお願いいたします。お問い合わせ / [email protected] 琼ICP备2022009338号