7 Papers | 深度强化学习综述、图灵71年前未发表的智能机器论文

bwin体育赌场

机器整理的核心

机器心脏编辑器

谷歌大脑杰夫迪恩(Google Dean)负责人谷歌艾哈迈德(Jeff Daniel)计算了一项数据:平均每天在世界各地制作100份新的机器学习论文。那些已经很忙的AI从业者如何有针对性地选择优质论文?机器的核心“7篇论文”编写了一篇高质量的论文,过去一周受到了很多人的关注,供大家选择阅读。此外,读者还可以在文章末尾“阅读每日报”订阅机器的核心,跟上研究动态。

现代深度强化学习算法

作者:Sergey Ivanov,Alexander D'yakonov链接:

【摘要】近年来,基于经典理论结果和深度学习算法的结合,强化学习取得了一系列新的发展,也为许多任务带来了突破。因此,深层强化学习已成为一个新的热门研究领域。本文概述了新兴的深层强化学习算法,重点是理论基础,实践缺陷和观察到的经验特征。

推荐:

深层强化学习

它是人工智能领域的热门研究课题。这篇近60页的深入研究评论文章为我们提供了有关该领域的全面信息。

深度预测网络

作者:Yan Zhang,Jonathon Hare,AdamPrügel-Bennett链接:

摘要:在本文中,研究人员探索了如何使用深度神经网络从特征向量预测集合。现有方法倾向于忽略集合结构,因此具有不连续性。研究人员提出了预测集的一般模型,该模型正确地遵循集合结构,从而避免了上述不连续性问题。使用单个特征向量作为输入,所提出的模型可以自动编码一组点,预测图像中对象集的边界框以及这些对象的属性。

建议:虽然收集类型数据有许多类型的编码器,但相应的解码器较少。本文提出了对集合的连续预测,并在解码器体系结构中提出了一种新思想,以便于将目标检测任务进一步转换为端到端任务。特斯拉AI主任Andrej Karpathy推荐该论文。

深度学习时代码搜索

作者:Jose Cambronero,Hongyu Li,Seohyun Kim,Koushik Sen,Satish Chandra链接:

摘要:最近有很多关于使用深度神经网络进行代码搜索的研究。这些论文的共性是它们都建议将所有代码和自然语言查询转换为单词嵌入向量,然后计算向量的距离以确定代码和查询之间的语义相似性。对于嵌入在矢量模型中的代码和查询字,已经有各种各样的训练方法,例如

无监督学习

并监督学习。无监督学习仅依赖于代码样本的语料库数据,而有监督学习使用代码语料库及其对应的自然语言描述数据。监督学习的目的是创建与查询和相应代码最相似的单词嵌入向量。显然,存在的问题是,是选择无监督学习还是监督学习,以及选择哪种模式进行监督学习。本文是第一篇系统研究这两个问题的论文。最后,作者结合现有的最佳实践实施技术,建立了培训和评估语料库的通用平台。为了研究网络的复杂性,他们还提出了一种新的设计方法。从现有的无监督模型中扩展一些监督方法。

实验结果表明:1。基于现有的无监督模型加入监督学习可以提高模型的性能,但改进不大;简单的监督学习模型优于精心设计的基于序列的代码搜索方法; 3.尽管文档字符串现在通常用于监督学习,但基于文档字符串和基于查询的监督语料库的模型的有效性存在显着差异。

建议:本文将监督模型与无监督模型相结合,并使用Stack Overflow数据集匹配查询和相应的代码。官方Facebook博客介绍了本文的内容:使用深度学习进行代码搜索为开发人员搜索和查询代码段提供了强大的工具。也许你可以通过提问来找到问题。

物体检测的学习数据增强策略

作者:Barret Zoph,Ekin D. Cubuk,Golnaz Ghiasi,Tsung-Yi Lin,Jonathon Shlens,Quoc V. Le链接:

摘要:虽然数据增强可以大大提高图像分类性能,但其对目标检测任务的影响还没有得到深入研究。另外,用于目标检测的图像的注释可能导致显着的成本,因此数据增强可能对该计算机视觉任务具有更大的影响。在这项研究中,作者研究了数据增强对目标检测的影响。 COCO数据集的实验结果表明,优化的数据增强策略将检测精度提高了2.3 mAP以上,使单推理模型能够达到 50.7 mAP的最佳结果。重要的是,在COCO数据集上找到的这种最优策略可以直接迁移到其他目标检测数据集,这也可以提高预测准确性。

建议:Quoc Le的团队一直在研究数据增强策略,他们自2018年以来一直在那里

发表论文

介绍了数据增加方法AutoAugment。在最近发表的一篇论文中,作者研究了数据增强对目标检测的影响,并且还表明数据增强可以极大地提高检测模型在其基准测试中的性能。

用于语言建模的Tensorized Transformer

作者:马新典,张鹏张,张南,侯跃贤,宋大伟,周明链接:

摘要:最近的神经模型已经开始使用自注意机制将编码器连接到解码器。特别是,完全基于自我关注机制的Transformer在自然语言处理(NLP)任务方面取得了突破。然而,多注意机制限制了模型的开发,使得模型需要更多的计算支持。为了解决这个问题,本文基于张量分解和参数共享的思想,提出了多线性注意和块项张量分解(BTD)。研究人员测试了语言建模任务和神经翻译任务。与多种语言建模方法相比,多头线性注意机制不仅大大压缩了模型参数的数量,而且提高了模型的性能。

建议:最近,基于变压器的预训练语言模型变得非常热门,如BERT,XLNet等。本文的研究成果大大改进了这些方法。压缩的预训练语言模型可以在更小的设备上训练或部署,从而节省计算资源。

DensePeds:使用前RVO和稀疏特征在人群中进行行人跟踪

作者:Rohan Chandra,Uttaran Bhattacharya,Aniket Bera和Dinesh Manocha链接:

摘要:研究人员提出了一种行人检测算法,即 DensePeds,它可以跟踪密集人群中的个体(平均每平方米超过两人)。这种研究可用于从正面或相机拍摄的视频中捕捉个人。该研究提出了一种新的动作模型 Front-RVO(FRVO)。该模型使用防碰撞抑制机制并与Mask R-CNN结合以计算稀疏特征向量,以避免丢失对行人的跟踪。该模型用于预测密集人群中行人的移动。研究人员测试了标准的MOT基准测试和新的密集人口数据集。结果表明,该方法比以前的MOT基准测试结果快4.5倍,并且在密集人群的视频跟踪中平均提高了2.6%,并取得了最佳效果。

建议:这是关于人群密集观众行人检测的SOTA论文,识别速度大大提高。该算法结合了防撞抑制和Mask R-CNN,以增强跟踪行人的能力。

智能机械

作者:Alan Turing链接:

摘要:最近有关于如何使用人脑类比作为指导原则使机器表现出智能行为的讨论。有人指出,只有提供适当的教育,才能反映人类智慧的潜力。本文着重于将教育过程应用于机器。本文将定义“无组织机器”的概念,人类婴儿以这种方式获得智力。本文还将提供这些机器的一些简单示例,并讨论如何使用激励或惩罚来教育机器。在一个示例中,该教育将持续到整个组织与ACE(自动计算引擎)类似。

建议:这种人工智能浪潮的兴起主要归功于神经网络带来的突破。最近,一些网民发现,早在1948年,计算机科学之父艾伦图灵发表了一篇未发表的论文,介绍了当今人工智能的许多概念,包括热神经网络。本文也引起了Reddit的激烈讨论,感兴趣的读者可以理解。