您的位置
主页 > 站长在线 » 正文

Google AI发数据集论文却拒开放数据集?结果被怼

来源:www.jz265.com 点击:1782

Google AI发送数据集文件但拒绝打开数据集?结果是怼

最近,一些网友在Google Reddit上建议谷歌AI拒绝透露概念字幕数据集(相关论文发布于ACL 2018)。除了发表相关论文外,谷歌还面临着使用数据集(2018年NeuroIPS游戏结果)在会议上宣布的挑战。这引发了网民们对这是对还是错的激烈讨论,学术会议同行评审是否应该将论文作为一个重要的考虑重现。

原始帖子的原始内容是:

谷歌在ACL 2018上发布了一个数据集论文《Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning》,该论文有大约330万张图像。但他发现了几个问题:

谷歌拒绝分享预培训模式,这使得基准测试非常困难:

拒绝共享与每个图像相关联的Alt文本(具有讽刺意味的是,本文标题中确实存在Alt-text一词):

拒绝共享图像/镜像链接(虽然我认为这是一个法律问题,但只有几百个数据集图像,社区很难比较不同的模型):

海报说这对此非常困难。他希望社区认识到数据集论文是一项重大责任。如果存在阻止数据集共享的法律问题,则可以基于私有数据发布论文,但是基于相同模型或整个数据集托管挑战的挑战并不是很好。

这篇文章发出后,引起了网友的大量讨论。一些网民认为谷歌这样做没有问题。他们的任务是分享研究并将研究结果作为自己的优势,而不是相反。但评论更多的是反对这种行为。

反对这种行为

用户_michaelx99表示:

DeepMind发表的几篇论文完全无法被论文本身所认识。这让我意识到在arXiv或公司网站上发布的“论文”并不是真正的出版物。主要目标是表明公司已经具备一定的能力。我并不是说所有的大公司都在网上发表论文,但其中一些是。

ModernShoe说:

我听过吴恩达关于企业如何利用人工智能来获利。他说公司应该保护培训/测试数据集,而不是保护算法。也许这与数据集论文没有发布数据集有关?

用户史诗:

这种行为不利于科学和机器学习的发展。虽然我们理解为什么Google不发布数据集,但这种行为仍然不太好。特别是在数据集论文中,研究及其困难在没有数据的情况下被复制。有能力的组织和人员应该以社区为榜样,而不是反过来。

Netny SkinnyJoshPeck:

这是对机器学习和机器学习专家的巨大需求的结果吗?我在一家大公司工作,与机器学习科学家有更多接触,其中一些人缺乏对科学方法的基本尊重,这让我感到惊讶。我认为这不是缺乏技能(有些研究已经发表),但我不明白“实质性结果可能不准确有效”。

我的大学专业是数学,我研究过代数。我理解表示和代数几何,所以我知道大多数模型和技术的基础数学基础,这让我惊讶于这些专家可以坐在他们当前的位置。

再现性

用户GoAwayStupidAI:

复发是科学的重要标志。没有相关数据且无法复制的研究是垃圾。

用户kemfic:

该论文应该是可重复的。如果没有,期刊不应该收到它们。

用户duckbill_principate:

令我担心的不是不共享模型,代码或数据集的问题,而是在发生这种情况时仍在接收文件的事实。这在一定程度上是同行评审的失败,其责任属于我们的每一位评论者,因为这些论文通常是基于信任或权威获得的(我们知道,尽管双盲评论,我们可以很容易地推断出哪个研究组来自一些论文?)这更像是广告而不是科学。

用户duckbill_principate:

在我实施的20多篇论文中,有5篇文章的错误/错误部分或完全影响了结果的验证。这些论文是顶部的同行评审论文。

我认为这是一个学术丑闻。

在某些情况下,问题被排除,作者做出了改变。但即使在这种更好的情况下,修订后的论文(可能使用新的超参数搜索!)也会在arXiv上悄然出现,会议上发表的论文不会被修改,甚至不会被撤销。为什么?每个人都知道原因并且熟悉这些防御措施:“虽然我们的结果不如预期的好,但我们认为这项技术非常好并且非常有前途.”无论是从数学的角度来看还是没有。 “目前最好的结果”论文不应该被接受是非常糟糕的。

用户habanero_ass_fire认为:

OpenImages的图像是在线获得的,其他几个众所周知的数据集也是如此。在法律意义上,图像的作者具有版权,因此论文的作者无法共享图像。此外,实际上经常会出现无效链接。所以,如果没有公共数据集,我对此行为没有任何意见,只要他们可以共享预训练模型;如果您可以根据论文训练自己的模型,即使没有预训练模型,它也不会使论文无效。

但这被网友鸭嘴pr注释立即反驳:

如果你可以训练模型准确再现,那很好。但是如果你试图重现这篇论文,你就会明白,即使你发布自己的代码并提供一个定义良好且可用的数据集,实际情况仍然是不可预测的。他们发布了自己的代码和参数,但他们可能没有解释他们的培训过程;他们发布了培训代码,但他们可能错过了一些自定义库;他们使用公共数据集,但没有指明他们这些数据集做了什么样的预处理;他们已经发布了代码,数据集,甚至做了很多详细的解释,但他们可能会错过一些非常关键的内容,依此类推。

事实是,如果没有预训练模型,或者如果没有完整的训练过程描述,那么复发就是一个笑话。

正如网民所说,研究及其困难,特别是数据集论文,在没有数据的情况下被复制。

关于研究复发的讨论已经存在了一段时间,不久之前

CVPR纸的再现存在问题

当时,每个人都对顶级会议/期刊论文的再现性进行了大量讨论。许多人认为论文的再现也应该是同行评审的重要部分。一些网友表示,“一般来说,论文审查过程不包括重复实验的结果。评论者必须严重依赖作者的诚信。“”同行评审通常更关注论文中描述的方法。可能的解决方案是询问作者提交现成的实现(例如通过docker)。但是,在哪里运行仍然是一个问题。也许AWS资源等可以从审阅者的提交费中提取出来以重新运行模型。然后问题是确保审阅者不“滥用”资源来进行自己的实验等等。无论如何,通过“计算方法”进行DL论文审查是棘手的。

学术会议也非常重视研究和再生产。 2017年,ICML“机器学习再生研讨会”讨论了这个问题;在2018年,ICLR举行了一次复发挑战赛,以确保所接受论文的结果是可靠和可重复的。此外,为了鼓励提交可复制和高质量的论文,ICML 2019在提交论文方面做了一些重要的改变,例如鼓励提交的论文附带代码,结果的可重复性和易用性。代码。纸质接收和进一步决策的考虑因素。 KDD 2019年的论文征集也表明,今年的会议将采用双盲审查制度。在宣布论文结果之前,撰稿人不得在arXiv等开放平台上发表论文。更重要的是,只有公开研究论文中的代码和数据的论文才有资格获得“最佳论文奖”。

科学研究的可重复性非常重要,机器学习界一直重视开放性和复发性,这需要社区中的人们的维护。上述学术会议的变化无疑将促进研究的复发,鼓励研究人员更加谨慎地对待他们的研究,并更公开地分享研究细节。具有较强研究能力和开发能力的大型企业能否树立榜样?

参考链接: