北京程序员通宵扫雷 苹果论文被曝30%基准数据出错

网络营销 2025-12-02 08:35www.168986.cn短视频营销

在ICLR 2025一轮审稿刚刚结束之际,苹果公司备受瞩目的视觉推理论文遭遇了一场公开的“考验”。这篇被冠以“小模型超越GPT-5”称号的论文,在学术界引起了广泛关注。阶跃星辰研究员Lei Yang在尝试复现该论文成果的过程中,却发现了令人震惊的问题。

北京程序员通宵扫雷 苹果论文被曝30%基准数据出错

Lei Yang发现,官方提供的代码竟然遗漏了图片输入这一关键部分。在修复这一问题后,模型的准确率竟然出现了暴跌。这引起了他的警觉,随即对20道题目进行了抽查,结果竟然有6道题目的Ground Truth(GT)标签存在错误。这一发现让他估算出整体GT错误率可能高达30%。

在发现这些问题后,Lei Yang并没有选择沉默,而是在GitHub上提交了相关问题的反馈。他仅获得了简短的两句回复后便被关闭了交流渠道。于是,他决定通过撰写长文向审稿人发出警示。这篇帖子迅速在学术界发酵,引起了广泛关注。

面对这一连串的质疑,论文作者团队终于在次日做出回应,承认了在数据生成流程上存在缺陷。他们紧急上传了修正版的基础数据集,并承诺重新进行实验、更新结果。这一引发了学术圈的热烈讨论。

在大模型时代,自动生成的数据集虽然能带来便捷,但如果缺乏必要的人工质检,即便是科技巨头也难以避免“翻车”。这一提醒我们,在复现科研成果时,应该进行小样本的“体检”,以确保数据的准确性。因为错误的GT不仅会浪费巨大的计算资源,也会让研究者们夜以继日的努力付诸东流。

这一不仅是对苹果公司的一次警示,也是对学术界的一次提醒。科研之路充满挑战,我们需要保持谦逊和谨慎,不断追求真理和进步。我们也应该尊重每一位研究者的努力,共同推动科技的发展。而这一的解决,也让我们看到了科研精神的自我修正和自我完善,期待未来能有更多的科研成果得到准确的复现和广泛的应用。

Copyright © 2016-2025 www.168986.cn 狼蚁网络 版权所有 Power by