宠物狗撕咬羊羔
SWE-bench满分,0个bug修复:伯克利造了个专门作弊的AI_蜘蛛资讯网

行业围绕分数竞争,分数本身的可信度反而成了最被忽视的东西。评测本身没有错,反而比以往任何时候都重要。不是「分数是多少」,而是「这个分数是怎么来的」。回到开头那10行代码。SWE-bench上,最好的模型跑出70%、80%的成绩,各家发布会上反复引用。但一个什么都不会的conftest.py拿了100%。在这个100%被造出来之前,没有人觉得分数有问题。参考资料:https://x.com/dote
当前文章:http://qo7o7j.wenkepu.cn/c9xdi/hldc.html
发布时间:08:46:24
















