OpenAI發佈GDPval基準測試,評估AI模型與行業專家工作表現
人工智能研究公司OpenAI於9月25日發佈了一項名爲GDPval的新基準測試,旨在比較其AI模型與各行業專業人士的工作表現。這項測試是評估OpenAI系統在經濟價值工作上超越人類能力的重要一步,也是開發通用人工智能(AGI)的關鍵環節。
OpenAI表示,其GPT-5模型以及競爭對手Anthropic公司的Claude Opus 4.1“已經接近行業專家的工作質量”。儘管一些CEO預測AI將在未來幾年內取代人類工作,但OpenAI承認GDPval目前只涵蓋人們實際工作中有限的一部分任務。
GDPval基準測試基於美國GDP貢獻最大的九個行業,包括醫療、金融、製造業和政府等領域,覆蓋了44種職業,從軟件工程師到護士再到記者。在首個版本GDPval-v0中,OpenAI邀請資深專業人士對比AI生成的報告與其他專業人士的成果,並挑選出更優者。
模型 | 勝率(優於或與行業專家持平) |
---|---|
GPT-5-high | 40.6% |
Claude Opus 4.1 | 49% |
結果顯示,GPT-5-high(高算力版本GPT-5)在40.6%的情況下被評爲優於或與行業專家持平,而Anthropic的Claude Opus 4.1模型則在49%的任務中被評爲不輸於行業專家,這一表現超過了OpenAI的模型。OpenAI解釋稱,Claude得分更高部分原因是其傾向於生成更美觀的圖表,而非純粹性能更優。
OpenAI承認,大多數職業的工作遠不止提交研究報告,而這卻是GDPval-v0所測試的全部內容。公司計劃在未來開發更全面的測試,涵蓋更多行業和交互式工作流程。
AI模型的潛在影響
OpenAI首席經濟學家Aaron Chatterji表示,GDPval的測試結果表明,這些崗位上的人們可以利用AI模型節省時間,從而專注於更有意義的工作。“因爲模型在某些事情上已經變得很擅長,隨着能力的提升,人們可以越來越多地把部分工作交給模型,去做潛在更有價值的事情。”
OpenAI評估負責人Tejal Patwardhan表示,她對GDPval的進步速度感到鼓舞。Patwardhan指出,約15個月前發佈的GPT-4o模型得分僅爲13.7%(勝出或持平人類),而GPT-5的成績幾乎提高了三倍。她預計這一趨勢還會繼續。