北京程序员通宵扫雷苹果论文被曝30%基准数据出错

网络营销 2025-12-02 08:35www.168986.cn短视频营销

在ICLR 2025一轮审稿刚刚结束之际，苹果公司备受瞩目的视觉推理论文遭遇了一场公开的“考验”。这篇被冠以“小模型超越GPT-5”称号的论文，在学术界引起了广泛关注。阶跃星辰研究员Lei Yang在尝试复现该论文成果的过程中，却发现了令人震惊的问题。

Lei Yang发现，官方提供的代码竟然遗漏了图片输入这一关键部分。在修复这一问题后，模型的准确率竟然出现了暴跌。这引起了他的警觉，随即对20道题目进行了抽查，结果竟然有6道题目的Ground Truth（GT）标签存在错误。这一发现让他估算出整体GT错误率可能高达30%。

在发现这些问题后，Lei Yang并没有选择沉默，而是在GitHub上提交了相关问题的反馈。他仅获得了简短的两句回复后便被关闭了交流渠道。于是，他决定通过撰写长文向审稿人发出警示。这篇帖子迅速在学术界发酵，引起了广泛关注。

面对这一连串的质疑，论文作者团队终于在次日做出回应，承认了在数据生成流程上存在缺陷。他们紧急上传了修正版的基础数据集，并承诺重新进行实验、更新结果。这一引发了学术圈的热烈讨论。

在大模型时代，自动生成的数据集虽然能带来便捷，但如果缺乏必要的人工质检，即便是科技巨头也难以避免“翻车”。这一提醒我们，在复现科研成果时，应该进行小样本的“体检”，以确保数据的准确性。因为错误的GT不仅会浪费巨大的计算资源，也会让研究者们夜以继日的努力付诸东流。

这一不仅是对苹果公司的一次警示，也是对学术界的一次提醒。科研之路充满挑战，我们需要保持谦逊和谨慎，不断追求真理和进步。我们也应该尊重每一位研究者的努力，共同推动科技的发展。而这一的解决，也让我们看到了科研精神的自我修正和自我完善，期待未来能有更多的科研成果得到准确的复现和广泛的应用。

北京程序员通宵扫雷 苹果论文被曝30%基准数据出错