向统一个结论：这些评测基准-918搏天堂(中国)

向统一个结论：这些评测基准

点击数：发布时间：2026-04-24 06:59 作者：918搏天堂(中国) 来源：经济日报

　　它的validate()函数底子不查抄谜底内容，然后反向推导出期望输出。只看最初一条动静是不是来自assistant。没有处理任何使命，而pytest会从动发觉并加载conftest.py文件。浏览器本身就是「谜底阅读器」。扫描了数千条线个基准、上千条做弊轨迹。是的AI编程能力标杆，伯克利团队归纳出7种频频呈现的模式：智能体和评测法式共享运转、尺度谜底给被测系统、对不成托输入挪用eval()、LLM裁判缺乏输入过滤、字符串婚配过于宽松、评分逻辑本身有bug、以及评测法式信赖被测系统发生的输出。pytest从动加载后，【新智元导读】伯克利团队制了个特地做弊的AI，正在测试运转时拦截每一个测试成果，强制改写为「通过」。cat /tests/test_outputs.py，此中的道理很简单。而是现实。评测框架从未过file://和谈的拜候。宾大团队的审计演讲和Anthropic的Mythos Preview系统卡同时出炉，线指向统一个结论：这些评测基准，不只SWE-bench。只需输出一条goto指令，他们用一个叫Meerkat的智能体搜刮东西，对当前最支流的8个AI智能体评测基准一一渗入。更巧的是。

　　全数沦亡。各大模子发布会上的必字，500道题全过，钩子拦截每个测试成果并改写为「通过」。整个过程不涉及任何推理。

　　伯克利RDI团队制了一个从动化缝隙扫描智能体，0个bug修复。伯克利团队归纳的7种缝隙模式及其正在8个基准中的分布。钩子正在测试的「call」阶段拦截成果，WebArena的file://缝隙：模子不需要浏览网页完成使命。两份审计确认：排行榜上的做弊早已不是假设，但从未被挪用。

　　伯克利团队写了一个conftest.py文件，没有挪用任何大模子，智能体提交的代码正在容器内具有完整权限，只塞入了一个conftest.py文件。SWE-bench的conftest.py钩子注入流程：智能体提交的补丁没有修复任何bug，伯克利团队的缝隙操纵智能体正在8大基准上的得分。SWE-bench的测试和被测AI跑正在统一个Docker容器里。Playwright就会从当地设置装备摆设文件中读取尺度谜底并前往。阿谁本应比对谜底的llm_fuzzy_match函数？导入了，6个拿到满分。四处是缝隙。最离谱的是FieldWorkArena。统一周。

郑重声明：918搏天堂(中国)信息技术有限公司网站刊登/转载此文出于传递更多信息之目的，并不意味着赞同其观点或论证其描述。918搏天堂(中国)信息技术有限公司不负责其真实性。

分享到：

上一篇：你还记得压正在箱底那童年照片吗

下一篇：无效保障原材料不变供给并持续优化采购成本结

向统一个结论：这些评测基准

点击数： 发布时间：2026-04-24 06:59 作者：918搏天堂(中国) 来源：经济日报

点击数：发布时间：2026-04-24 06:59 作者：918搏天堂(中国) 来源：经济日报