OpenAI最新测试：GPT-5与Claude在部分工作中可媲美人类专家

2025-09-26 09:00

OpenAI发布GDPval基准测试，比较AI模型与行业专家工作表现，为初步尝试评估AI能力。

OpenAI发布GDPval基准测试，评估AI模型与行业专家工作表现

人工智能研究公司OpenAI于9月25日发布了一项名为GDPval的新基准测试，旨在比较其AI模型与各行业专业人士的工作表现。这项测试是评估OpenAI系统在经济价值工作上超越人类能力的重要一步，也是开发通用人工智能(AGI)的关键环节。

OpenAI表示，其GPT-5模型以及竞争对手Anthropic公司的Claude Opus 4.1“已经接近行业专家的工作质量”。尽管一些CEO预测AI将在未来几年内取代人类工作，但OpenAI承认GDPval目前只涵盖人们实际工作中有限的一部分任务。

GDPval基准测试基于美国GDP贡献最大的九个行业，包括医疗、金融、制造业和政府等领域，覆盖了44种职业，从软件工程师到护士再到记者。在首个版本GDPval-v0中，OpenAI邀请资深专业人士对比AI生成的报告与其他专业人士的成果，并挑选出更优者。

模型	胜率（优于或与行业专家持平）
GPT-5-high	40.6%
Claude Opus 4.1	49%

结果显示，GPT-5-high（高算力版本GPT-5）在40.6%的情况下被评为优于或与行业专家持平，而Anthropic的Claude Opus 4.1模型则在49%的任务中被评为不输于行业专家，这一表现超过了OpenAI的模型。OpenAI解释称，Claude得分更高部分原因是其倾向于生成更美观的图表，而非纯粹性能更优。

OpenAI承认，大多数职业的工作远不止提交研究报告，而这却是GDPval-v0所测试的全部内容。公司计划在未来开发更全面的测试，涵盖更多行业和交互式工作流程。