0 2017-08-01 本周进展 1. 确定了(状态,动作,奖励,下一状态,对话是否结束)的组成,即训练数据: 状态:每次的状态针对于用户说完一句话 123456789101112131415161718192021222324252627282930313233343536373839404142{ 'agent_action': { # 针对于agent的话 'req