利用强化学习优化对话系统的动作决策,学习 DQN、策略梯度等方法在对话管理中最大化任务成功率。
研究对话系统中决定下一步动作的策略模块,从有限状态策略、基于规则到深度 Q 网络和策略梯度方法优化对话流程。