OpenAI進攻醫療產業 推出HealthBench建立全球AI評估新標準

▲OpenAI。(圖/OpenAI)

▲OpenAI公布醫療AI評測新基準HealthBench,刷新模型表現指標。(圖/OpenAI)

記者吳立言/綜合報導

OpenAI今(13日)宣布推出HealthBench,一項全新開源評估基準,用以測量大型語言模型(LLMs)在醫療領域的效能與安全性。該基準由全球262位執業醫師共同設計,涵蓋5,000個多輪醫療對話、48,562個醫師撰寫的細緻評分標準,標誌著AI醫療能力評估邁入全新階段。

在OpenAI的內部測試中,GPT系列模型展現出穩健成長,從GPT-3.5 Turbo的 16%,到GPT-4o的32%,再到最新o3模型達60%的總體得分。而成本大幅降低的小型模型GPT-4.1 nano更令人驚艷,以僅約1/25成本超越GPT-4o,凸顯小模型在醫療應用上的潛力。

OpenAI 表示,HealthBench 的設計基於三大核心理念:
• 有意義(Meaningful):評分標準聚焦真實世界的影響力,不僅是紙上考題,更涵蓋實際就診流程中的對話、推理與個別化需求。
• 可信賴(Trustworthy):由醫師親自撰寫的評分標準與加權系統,確保評估準則與臨床標準一致。
• 具進步空間(Unsaturated):現有頂尖模型仍有明顯提升空間,讓開發者能持續優化。

HealthBench 所涵蓋的對話涵蓋多語言、不同醫療專科、病患與醫師視角、難度高、極具挑戰性,並依七大主題分類,如急診處理、資訊不確定性處理、全球健康議題等。每個對話均以 醫師撰寫的客製化評分規則 進行評估,涵蓋「正確性」、「表達溝通」、「上下文理解」等多個維度。模型的回應會由GPT-4.1擔任自動評分員,逐項檢查是否符合每條標準,最後依得分占比生成總體評分。

OpenAI強調,改善人類健康將是AGI帶來最具決定性的改變之一。若能妥善設計與部署,大型語言模型將有潛力協助全球提升醫療知識可及性、支援臨床決策、強化民眾自我健康倡議能力。HealthBench的推出,正是通往這一未來願景的關鍵基礎建設。

06/13 全台詐欺最新數據

更多新聞
563 2 3319 損失金額(元) 更多新聞

※ 資料來源:內政部警政署165打詐儀錶板

分享給朋友:

追蹤我們:

※本文版權所有,非經授權,不得轉載。[ ETtoday著作權聲明 ]

AI科技熱門新聞

Apple Intelligence繁體中文即將上線

ChatGPT建議急診用戶送醫救回敗血症妻

Anthropic × Cursor探討AI編碼未來

ChatGPT專案功能大升級

DeepL稱翻譯全網只要18天

GPTs模型選擇功能上線!

Dia瀏覽器內建AI一站處理搜尋與寫作

9份指南深入解析AI實務應用

Windows 10即將走入歷史

ManusAI推出「Chat模式」免費新功能

美泰兒傳將聯手OpenAI打造AI芭比

Meta傳將砸重金入股Scale AI

Meta重金延攬Scale創辦人汪滔

OpenAI執行長:AI將重塑人類未來

相關新聞

讀者迴響

熱門新聞

最夯影音

更多

熱門快報

回到最上面