
p; 【本文结束】如需转载请务必注明出处: 责任编辑:若风 文章内容举报
0行代码,500题满分,0个bug修复伯克利团队的漏洞利用智能体在8大基准上的得分。没有解决任何任务,没有调用任何大模型,6个拿到满分。伯克利团队的破法,简单到离谱。SWE-bench要求AI修复真实的GitHub bug,测试通过才算成功。伯克利团队写了一个conftest.py文件,利用pytest的钩子机制,在测试运行时拦截每一个测试结果,强制改写为「通过」。500道题,全部满分,一个bug
当前文章:http://qo7o7j.wenkepu.cn/zpd/beavwx7.html
发布时间:04:20:21
推荐阅读