-
环境配置记录
目录 关于 Anaconda 安装 Conda 常用命令 Conda 源 关于 Ubuntu 系统 安装 Ubuntu Ubuntu 20.04 LTS 源 必备软件和配置 vim 浙大校园网的设置 科学上网 关于 python pip 源 关于 Git ...…
-
CHAPTER 9. On-policy Prediction with Approximation
本章开始学习强化学习的函数逼近方法。实际上,函数逼近方法只是把第一部分中的表换成了一个由参数 ${\bf w} \in \Bbb R^d$ 决定的逼近函数而已。我们会将 $v_\pi (s)$ 写作 $\hat v(s, {\bf w})$ ,即在给定参数 ${\bf w}$ 下估计状态 $s$ 的值。$\hat v$ 可能是个关于 $s$ 的线性函数, ${\bf w}$ 是函数的特征矩阵;或 $\hat v$ 是个多层的神经网络,而 ${\bf w}$ 是各层连接向量的权重。通过调整 ...…
-
CHAPTER 8. Planning and Learning with Tabular Methods
本章将对强化学习方法做一个统一的描述,包括:基于模型的方法(model-based),如动态规划与启发式搜索。无模型的方法(model-free),如蒙特卡洛和时序差分。基于模型的方法主要依赖于 planning ,而无模型的方法则依赖于 learning这些方法既相似又不同,但它们的核心都是 值函数的计算。所有的方法都遵循:观察未来时间,计算树状值,然后使用值作为更新目标来优化逼近值函数。8.1 Models and Planning一个模型可以告诉我们 agent 所需要用到的一切,来...…
-
CHAPTER 7. n-step Bootstrapping
本章将统一 MC 和 one-step TD.7.1 $n$-step TD Predictionn-step TD 方法介于 MC 与 one-step TD 之间,使用一个 episode 中的多个立即奖励作为依据进行更新。更新时使用的 target 是 n-step return:简单的更新规则为:单纯的 n-step TD :使用值函数 $V_{t+n-1}$ 来校正 $R_{t+n}$ 之后的奖励值。可以保证的是,在最坏情形下,它们的期望值会比 $V_{t+n-1}$ 更贴近于 ...…
-
CHAPTER 6. Temporal-Difference Learning
Temporal-difference(TD) learning 是强化学习的核心与亮点。TD 结合了 蒙特卡洛和动态规划,它可以在没有环境动态的情况下直接利用经验学习,也可以在不等待回报的情况下基于其它估计来进行更新。同样的,先从 policy evaluation 即 prediction 开始,关注于估计给定策略 $\pi$ 的值函数 $v_\pi$。对于 control 问题,DP、TD、MC 三种方法都使用了 GPI 的特型,三种方法的主要区别还是在于 prediction 上。...…
-
CHAPTER 5. Monte Carlo Methods
本章开始学习第一个估计值函数与找到最优策略的方法,蒙特卡洛蒙特卡洛法不要求完全的环境动态,而是使用经验(experience)—与环境的真实或模拟交互得到的 states、actions and rewards 的样本真实经验效果惊人,它不需要环境动态的任何先验知识模拟经验也很强大,虽然依然需要一个环境模型,但是这个模型只需要提供状态转移与奖励的样本,而不是如 DP 一般,需要所有状态转移可能的完整概率分布令人惊讶的是,很多时候,一个所求概率分布的经验样本生成器是很容易得到的,而关于它的具...…
-
CHAPTER 4. Dynamic Programming
动态规划(dynamic programming, DP)指的是一类算法,该类算法用于在已知环境的完全模型的情况(比如 MDP )下,计算出最优策略DP 在 RL 中应用有限,因为其要求有环境的完整模型,以及其计算量消耗巨大,但它依然是很重要的理论基础,有助于理解后续的方法实际上,后面的方法可以看做是试图用更少的计算量,无需完全环境模型的方法,达到 DP 的效果首先,假设环境是 finite MDP ,即状态、动作、奖励的空间是有限的对于连续空间的问题,可以量化其三个空间,然后使用 fin...…
-
CHAPTER 3. Finite Markov Decision Processes
本章介绍有限马尔科夫决策过程(finite MDPs)MDPs 是序贯决策(sequential decision making)的一种经典形式,即行为不仅影响到立即奖励,还会对后续的状态造成影响,导致未来所获奖励的变化。因此 MDPs 涉及了延迟奖励(delayed reward),需要在立即奖励与延迟奖励间做 trade-off.正如在 bandit problems 中为每个 action $a$ 估计其 value $q_\ast (a)$ 一般,在 MDPs 中会为在每个 sta...…
-
CHAPTER 2. Multi-armed Bandits
区分强化学习与其它机器学习方法的最重要特征:用 评价动作选择的训练信息(用 policy 来选择动作,强化学习会评价所选择的动作的好坏) 来取代 直接给出正确动作的指导信息 (由外部直接给定正确的动作) 。为了明确搜索好的行为,强化学习需要积极地探索。单纯的评价性反馈指出采取的动作有多好,而不是说哪个动作最好或哪个最差;而单纯的指导性反馈恰恰相反,其指出应该采取的正确动作。在这种单纯的形式上,这两种反馈有明显不同,评价性反馈完全依赖于动作的选取,而指导性反馈则完全独立于动作的选取。这一章在...…
-
CHAPTER 1. Introduction
RL是通过与环境进行交互行为,并通过计算来学习的一种方法;相比较其它机器学习方法,更关注于交互,直指实验目标。RL要做的是:学会做什么:即如何从当前situation来得到action,来最大化rewardlearner需要通过不断的尝试来发现哪个action能够产生较大的reward较复杂的情况:actions不仅影响reward,还会影响下一个situation,并且由此影响到后续的rewardsRL的两个显著特征:trial-and-error(摸石头过河)、delayed rewa...…