您当前的位置：中国教育品牌网资讯正文

ICLR论文盲审大回转三个8完美过关又来两个1完全回绝

2019-12-10 13:59:13 阅读：1088 作者：责任编辑NO。杜一帆0322

赖可发自凹非寺

量子位出品 | 大众号 QbitAI

一篇投递ICLR2020的论文，得了三个8，是不是体现完美？

作业没有那么简略，额定增加的两个评定又给了两个1。

有网友说：这操作，便是”对冲“分数嘛。

也有网友觉得，尽管论文有问题，可是这样给高分和低分，都过火极端了。

究竟怎样回事？

论文

这篇论文提出了一种新的模型，以便在语猜中一起捕获语法和大局语义。

怎样做到的？

论文认为传统的RNN言语模型会疏忽长距离的单词依靠性，和语句次序。

新模型将随机-梯度MCMC和循环自编码变分贝叶斯相结合。不只能够捕获语句内的单词依靠性，还能够捕获语句和语句内部主题依靠性的时刻搬迁。

在语料库的试验效果表明，这一模型优于现有的RNN模型，并且能够学习可解释的递归多层主题，生成语法正确、语义连接的语句和阶段。

（a)(b)(c)分别是三层rGBN-RNN的生成模型；言语模型组件概述；提出的模型的全体架构

榜首轮评定：三个8

榜首轮三个评定的分数简直完美，尽管打分很高，评定们都提出了一些建议。

匿名评定1

该办法是将已有的两种办法，伽马信仰网络(gamma-belief networks)和叠加RNN相结合，运用递归伽马信仰网络的信息对叠加RNN进行改善。

总的来说，这是一篇写得很好的论文，表达清晰，有必定的新意。该办法具有十分杰出的数学表达和试验点评。效果看起来很风趣，特别是关于捕获长时间依靠联系，如BLEU分数所示。一个建议是，与基线办法比较，作者没有对所提出办法的复杂性和负载进行核算剖析。

匿名评定2

总的来说，我认为这是一篇写得很清楚的论文。我认为这是一份能够承受宣布的牢靠文件。

一些有待改善的当地:

奇怪的是，不提最近一切备受瞩目的根据LM的预练习的作业，我的印象是，这些模型在大型多句上下文中有效地运转。像BERT和GPT-2这样的模型没有考虑语句之间的联系吗?我想看到更多关于这项作业与之合作的谈论。

我不认为着重这个模型的奉献，即它能够“一起捕获句法和语义”合理。我不清楚其他言语模型是否不能捕获语义(请记住，语义应用于语句中，而不仅仅在大局等级)——相反，该模型的优势好像在于捕获语句等级之上的语义联系。假如这是正确的，那就应该更精确地表达出来。

匿名评定3

该模型扩展了以往根据深度rGBN模型的主题引导言语建模办法。尽管模型的新颖性有限，但所提出的模型的学习和推理是有价值的。此外，与SOTA办法比较，本文还展现了该办法在言语建模方面的功能改善，说明晰该办法的重要性。

范畴主席提出定见之后，别的两个评定给出了1

范畴主席定见

这篇论文看起来很风趣，可是最近在言语建模和生成方面的最新效果首要根据Transformer模型。可是，任何对这些模型的比较和提及，好像都明显地在本文中缺失。我想知道:作者是否与任何模型进行了比照?我置疑这些模型在某种程度上现已能够捕获主题，或许排除了对本文中提出的办法的需求(可是我很快乐被证明是过错的)。

主席建议研讨者，把他们的rGBN-RNN模型和 Transformer-XL进行比较。

作者则表明，rGBN-RNN和Transformer-XL不适合直接比较。由于两者在模型巨细、模型建构以及可解释性不同，并且Transformer-XL不尊重天然单词的鸿沟，rGBN-RNN尊重单词-语句-文档的结构。

在这之后，增加的两个匿名评定就画风大变，都给出了1分（回绝）。

匿名评定4

尽管其基本思想很风趣，但我最大的问题是论文一开端的误导。在榜首节的第二段，文章宣称根据RNN的LMs经常在语句之间做出独立假定，因而他们开发了一个主题建模办法来对文档级信息树立模型。这种说法存在一些问题。

简直一切点评言语建模基准的LM论文都运用LSTM / Transformer，通过一种分外的简略的办法将一切语句连接起来，并增加仅有的符号来符号语句鸿沟，从而将跨句的文档级信息作为上下文。…………

匿名评定5

模型描绘是紊乱的，许多陈说没有恰当或满足的理由。例如：

(1)在第2页的最终一段，他们宣称在他们的模型中运用了言语组件来捕获语法信息，我不太乐意承受;

(2)在第3页的榜首段，它说“咱们界说d_j为弓向量，仅仅总结了前面的语句”，没有进一步的信息，我不知道弓向量是什么姿态的，它是怎么构成的……

更重要的是，我认为Eq.(5)是过错的，这让我对他们的整个办法论产生了质疑。……

后两个评定被主席带偏了？仍是前三个有问题？

这篇论文争议的要害便是作者运用的新模型有没有和已有的办法做比较。

有网友觉得作者自己在逃避这样的一个问题

他们以各种理由（没有说服力）答复，他们都认为没有必要进行比较，主席再次答复：很好，可是我依然期望看到一个比较。然后他们答复说，他们削弱了在论文中的建议，现在只宣称他们的体现优于SOTA RNN，这基本上意味着他们供认他们的办法没有体现出Transformer更好。因而，从这一点看来，作者好像企图掩盖Transformer存在的这个现实存在，这是荒唐的。

面临截然相反的打分，网友观点各异。

有人觉得后两个评委共同打最低分，真是“随机”的盲审吗？

也有人觉得两头都有问题，新办法短少和Transformers的比较是肯定不能打8分的，可是打1分也站不住脚。

还有觉得是主席在“带节奏”，主席觉得评定能够再谨慎一些，就找了两个新的评定，这导致新的评定对原先的评定产生了不信任的感觉。

还有网友表明，这样的一个问题具有代表性

这反映了当今机器学习中更广泛的常见问题。谈论如此紊乱，尖端会议的许多提交都有很大的差异。实际上，论文取得完美的点评和最低的分数是很遍及的。我无法确认一切切当原因，但我信任这与该范畴的研讨数量和速度有关：论文被当即上传到arxiv，鄙人一次大会上，就会有许多跟随这一研讨的，未通过同行评定的研讨呈现。再加上范畴的大容量、年会的压力/期限，而不是每月或每周的科学期刊，这种状况就开端发作。

这究竟是一个特殊状况，仍是值得重视的遍及现象？

小编想起，之前身边的同学毕业论文盲审也得到了两级分解的点评。你有没有过相似的阅历呢？

传送门

https://openreview.net/forum?id=Byl1W1rtvH

上一篇：做重服务双师直播是K12教育的好形式吗

下一篇：英语考试雅思写作备考要注意什么样的问题

ICLR论文盲审大回转三个8完美过关又来两个1完全回绝

相关阅读RELEVANT