Meta新AI模型性能遭质疑,官方否认作弊

发布时间:2025-04-09 15:37

科技巨头Meta上周六(5日)推出了新AI模型Llama 4,包括较小型的Scout版本和标准版Maverick,并预览了号称“迄今最强大”的 Llama 4 Behemoth,但其后遭AI开发社区的强烈质疑。

Meta生成式AI负责人Ahmad Al-Dahle对此发声明,承认模型“在不同服务中表现出参差不齐的质量”,解释称是因为Llama 4刚开发完就迅速发布,并承诺公司会尽快修复漏洞。此外,Al-Dahle明确否认Llama 4在训练集中“刷分”作弊的指控,但未就具体测试数据差异作出详细解释。

Llama 4仅完成16%编程任务

据内媒报道,多位开发者测试后发现,Llama 4在实际应用中的表现与Meta官方宣传存在显著差距。在一项让模型完成225项编程任务的基准测试中,Llama 4 Maverick仅完成16%编程任务,远低于同级别的Gemini 2.5 Pro和Claude 3.7 Sonnet等竞争对手。

AI工程师Andriy Burkov在社交平台X发文指出,Meta宣称Llama 4 Scout拥有1,000万token的上下文窗口纯属“伪命题”,称“实际上不会有任何模型针对超过25.6万个token的提示词进行训练”。

Meta研究主管辞职惹质疑

随着测试结果令人失望,业内开始怀疑Meta在各项评测中使用了经过特殊优化的“特供版”模型。前Meta研究员、现任AI2高级研究员Nathan Lambert比较测试后指出,在“大模型竞技场”中获得高分的Llama 4 Maverick与公开发布版本不同,前者是“经过对话性优化”的特殊版本。更引人关注的是,就在Llama 4发布前,在Meta工作了8年的AI研究主管Joelle Pineau宣布离职,更加深外界对该模型开发时“黑箱操作”的质疑。

 以上内容归星岛新闻集团所有,未经许可不得擅自转载引用。