Category: NLP

0

Slot-Gated Modeling for Joint Slot Filling and Intent Prediction

基于Attention的RNN模型在联合意图识别(ID)和槽位填充(SF)上实现最好性能(其ID和SF的attention权重独立)。本文提出slot gate结构,其关注于学习intent和slot attention向量之间的关系,通过全局优化获得更好的semantic frame。通过在ATIS和Snips数据集实验,相比于attention模型semantic frame准确率提升了4.2%。 paper linkcode link

0

Discriminative Deep Dyna-Q Robust Planning for Dialogue Policy Learning

本文是Deep Dyna-Q Integrating Planning for Task-Completion Dialogue Policy Learning 团队的续作,主要解决的是原始DDQ模型对world model生成的simulated dialogues质量好坏的严重依赖,通过引入一个区分真实对话和模拟对话的判别器,进而提高DDQ模型的鲁棒性和有效性。paper linkcode link

0

Multi-task learning for Joint Language Understanding and Dialogue State Tracking

本文是来自于SIGdial的一篇文章,主要研究的是LU和DST的联合建模,在不影响准确率的前提下提高了计算效率,同时在训练阶段引入了Scheduled Sampling,亦是创新点。本篇文章是作者一系列关于LU和DST的最新作,可结合之前两篇对比来看(参见Reference)。paper linkdataset link

0

BERT Pre-training of Deep Bidirectional Transformers for Language Understanding

本文介绍了一种新的语言表征模型 BERT——来自 Transformer 的双向编码器表征。与最近的语言表征模型不同,BERT 旨在基于所有层的左、右语境来预训练深度双向表征。BERT 是首个在大批句子层面和 token 层面任务中取得当前最优性能的基于微调的表征模型,其性能超越许多使用任务特定架构的系统,刷新了 11 项 NLP 任务的当前最优性能记录。paper linkcode link

0

Deep Relevance Ranking Using Enhanced Document-Query Interactions

本文提出了几种针对于文档相关性排序问题的新模型,这些模型基于已有的DRMM模型:A Deep Relevance Matching Model for Ad-hoc Retrieval) 。不同之处在于,DRMM模型使用上下文无关的term encoding编码方式,而本文提出的改进模型则借鉴自PACRR的思想,融合n-grams和不同方式编码的上下文信息。实验证明,本文提出的模型优于BM25-baseline,DRMM和PACRR。code link

0

Deep contextualized word representations

本文提出了ELMo(深度上下文词表示)模型,它是由AI2开发的,并在NAACL 2018上被评为最佳论文。在ELMo中,嵌入基于一个双层的双向语言模型(biLM)的内部状态计算,ELMo也是因此得名的:Embeddings from Language Models(来自语言模型的嵌入)。paper linkcode link

0

Universal Sentence Encoder

来自Google Research的一篇文章,在这篇文章中作者们提出了一种通用句子编码器,相比于传统的word embedding,该编码器在多个不同的NLP任务上都取得了更好的准确率,可以用来做迁移学习。paper linkcode link

0

Attention is all you need

来自Google的一篇神经翻译的文章,在这篇文章中作者们抛弃了传统Encoder-Decoder中经典的卷积和循环结构,仅保留了attention的结构,在减少了训练成本的同时在数个数据集上取得了最优的BLEU.paper link