2018

NLP

2018-11-27

Discriminative Deep Dyna-Q Robust Planning for Dialogue Policy Learning

本文是Deep Dyna-Q Integrating Planning for Task-Completion Dialogue Policy Learning 团队的续作，主要解决的是原始DDQ模型对world model生成的simulated dialogues质量好坏的严重依赖，通过引入一个区分真实对话和模拟对话的判别器，进而提高DDQ模型的鲁棒性和有效性。paper linkcode link

NLP

2018-10-19

Deep Dyna-Q Integrating Planning for Task-Completion Dialogue Policy Learning

本文提出了一种新的通过与真实用户交互来学习对话策略的方法Deep Dyna-Q，与之前的工作相比，只需要少量的真实对话数据，通过world model对用户建模，结合model-free和model-based，该方法能够高效的学习对话策略。

2017

2017-07-12

Latent Intention Dialogue Models

摘要：论文提出了一种隐意图对话模型（Latent Intention Dialogue Model, LIDM），通过离散的隐变量来学习对话意图，这些隐变量可以看作引导对话生成的动作决策，提高基于手工构建的状态-动作集传统强化学习模型所生成对话的多样性。

Machine LearningReinforcement Learning

2017-07-12

Latent Intention Dialogue Models

论文提出了一种隐意图对话模型（Latent Intention Dialogue Model, LIDM），通过离散的隐变量来学习对话意图，这些隐变量可以看作引导对话生成的动作决策，提高基于手工构建的状态-动作集传统强化学习模型所生成对话的多样性。