OpenAI最新測試：GPT-5與Claude在部分工作中可媲美人類專家

2025-09-26 09:00

OpenAI發佈GDPval基準測試，比較AI模型與行業專家工作表現，爲初步嘗試評估AI能力。

OpenAI發佈GDPval基準測試，評估AI模型與行業專家工作表現

人工智能研究公司OpenAI於9月25日發佈了一項名爲GDPval的新基準測試，旨在比較其AI模型與各行業專業人士的工作表現。這項測試是評估OpenAI系統在經濟價值工作上超越人類能力的重要一步，也是開發通用人工智能(AGI)的關鍵環節。

OpenAI表示，其GPT-5模型以及競爭對手Anthropic公司的Claude Opus 4.1“已經接近行業專家的工作質量”。儘管一些CEO預測AI將在未來幾年內取代人類工作，但OpenAI承認GDPval目前只涵蓋人們實際工作中有限的一部分任務。

GDPval基準測試基於美國GDP貢獻最大的九個行業，包括醫療、金融、製造業和政府等領域，覆蓋了44種職業，從軟件工程師到護士再到記者。在首個版本GDPval-v0中，OpenAI邀請資深專業人士對比AI生成的報告與其他專業人士的成果，並挑選出更優者。

模型	勝率（優於或與行業專家持平）
GPT-5-high	40.6%
Claude Opus 4.1	49%

結果顯示，GPT-5-high（高算力版本GPT-5）在40.6%的情況下被評爲優於或與行業專家持平，而Anthropic的Claude Opus 4.1模型則在49%的任務中被評爲不輸於行業專家，這一表現超過了OpenAI的模型。OpenAI解釋稱，Claude得分更高部分原因是其傾向於生成更美觀的圖表，而非純粹性能更優。

OpenAI承認，大多數職業的工作遠不止提交研究報告，而這卻是GDPval-v0所測試的全部內容。公司計劃在未來開發更全面的測試，涵蓋更多行業和交互式工作流程。