学习在不与环境交互的情况下评估强化学习策略,如重要性采样、双重稳健估计等离线策略评估技术。
定义一系列算法,将每个算法封装并使它们可以互换。
掌握常见缓存模式,解决缓存穿透、击穿和雪崩问题,设计健壮的缓存层。