Meta新AI模型性能遭质疑，官方否认作弊

发布时间：2025-04-09 15:37

科技巨头Meta上周六（5日）推出了新AI模型Llama 4，包括较小型的Scout版本和标准版Maverick，并预览了号称“迄今最强大”的 Llama 4 Behemoth，但其后遭AI开发社区的强烈质疑。

Meta生成式AI负责人Ahmad Al-Dahle对此发声明，承认模型“在不同服务中表现出参差不齐的质量”，解释称是因为Llama 4刚开发完就迅速发布，并承诺公司会尽快修复漏洞。此外，Al-Dahle明确否认Llama 4在训练集中“刷分”作弊的指控，但未就具体测试数据差异作出详细解释。

Llama 4仅完成16%编程任务

据内媒报道，多位开发者测试后发现，Llama 4在实际应用中的表现与Meta官方宣传存在显著差距。在一项让模型完成225项编程任务的基准测试中，Llama 4 Maverick仅完成16%编程任务，远低于同级别的Gemini 2.5 Pro和Claude 3.7 Sonnet等竞争对手。

AI工程师Andriy Burkov在社交平台X发文指出，Meta宣称Llama 4 Scout拥有1,000万token的上下文窗口纯属“伪命题”，称“实际上不会有任何模型针对超过25.6万个token的提示词进行训练”。

Meta研究主管辞职惹质疑

随着测试结果令人失望，业内开始怀疑Meta在各项评测中使用了经过特殊优化的“特供版”模型。前Meta研究员、现任AI2高级研究员Nathan Lambert比较测试后指出，在“大模型竞技场”中获得高分的Llama 4 Maverick与公开发布版本不同，前者是“经过对话性优化”的特殊版本。更引人关注的是，就在Llama 4发布前，在Meta工作了8年的AI研究主管Joelle Pineau宣布离职，更加深外界对该模型开发时“黑箱操作”的质疑。

以上内容归星岛新闻集团所有，未经许可不得擅自转载引用。

热门文章

白宫宣布对华关税增至104%，小额包裹关税增至90% 香港前特首梁振英女儿梁齐昕离世，终年33岁歼-36被拍到公路低飞，蔡正元喊“陆6代机成形”：美国的在哪？特朗普关税惹怒华尔街！投资大亨轰傲慢无知：又蠢又错江西县官毛奇受贿1150万囚10年半，曾被指不正当性关系权钱交易全球贸易战爆发，西班牙首相明访华对等关税将上路，特朗普：日、韩团队正赴美洽谈协议台醉女惨遭“麦克风”塞下体，拍摄女不救还外流影片北约任要职美军女将领据报遭开除，特朗普整顿军方高层李强同欧盟委员会主席通电话

专题更多 >