Tag: Reinforcement Learning

0

Discriminative Deep Dyna-Q Robust Planning for Dialogue Policy Learning

本文是Deep Dyna-Q Integrating Planning for Task-Completion Dialogue Policy Learning 团队的续作,主要解决的是原始DDQ模型对world model生成的simulated dialogues质量好坏的严重依赖,通过引入一个区分真实对话和模拟对话的判别器,进而提高DDQ模型的鲁棒性和有效性。paper linkcode link

0

Latent Intention Dialogue Models

摘要:论文提出了一种隐意图对话模型(Latent Intention Dialogue Model, LIDM),通过离散的隐变量来学习对话意图,这些隐变量可以看作引导对话生成的动作决策,提高基于手工构建的状态-动作集传统强化学习模型所生成对话的多样性。

0

Latent Intention Dialogue Models

论文提出了一种隐意图对话模型(Latent Intention Dialogue Model, LIDM),通过离散的隐变量来学习对话意图,这些隐变量可以看作引导对话生成的动作决策,提高基于手工构建的状态-动作集传统强化学习模型所生成对话的多样性。