本周进展

1. 确定了（状态，动作，奖励，下一状态，对话是否结束）的组成，即训练数据：状态：每次的状态针对于用户说完一句话 123456789101112131415161718192021222324252627282930313233343536373839404142{ 'agent_action': { # 针对于agent的话 'req