贝尔曼方程
目录
简介
以理查德·E·贝尔曼 (Richard E. Bellman) 命名的贝尔曼方法是与称为动态规划的数学优化方法相关的最优性的必要条件。它根据某些初始选择的收益和由这些初始选择产生的剩余决策问题的价值,写下某个时间点决策问题的价值。
这将动态优化问题分解为一系列更简单的子问题,正如贝尔曼的“最优性原则”所规定的那样。该等式适用于具有全序的代数结构;对于具有偏序的代数结构,可以使用通用贝尔曼方程。
贝尔曼方法首先应用于工程控制理论和应用数学的其他主题,随后成为经济理论的重要工具;尽管动态规划的基本概念在 John von Neumann 和 Oskar Morgenstern 的博弈论和经济行为以及 Abraham Wald 的时序分析中有所预示。
术语“贝尔曼方法”通常是指与离散时间优化问题相关的动态规划方程。在连续时间优化问题中,类似的方程是一个偏微分方程,称为 Hamilton–Jacobi–Beilingman 方程序。
在离散时间内,任何多阶段优化问题都可以通过分析适当的贝尔曼方法来解决。
通过引入新的状态变量(状态增强)可以找到合适的贝尔曼方法。然而,由此产生的增广状态多阶段优化问题具有比原始多阶段优化问题更高维的状态空间——这个问题可能会由于“维数灾难”而使增广问题变得棘手。
或者,已经表明,如果多阶段优化问题的成本函数满足向后可分离结构,则无需状态增强即可找到合适的贝尔曼方法。
动态规划中的分析概念
要理解贝尔曼方法,必须理解几个基本概念。 首先,任何优化问题都有一些目标:最小化旅行时间、最小化成本、最大化利润、xxx化效用等。描述这个目标的数学函数称为目标函数。
动态规划在不同的时间点将多周期规划问题分解为更简单的步骤。因此,它需要跟踪决策情况如何随时间演变。 做出正确决策所需的有关当前情况的信息称为状态。例如,要决定在每个时间点消费和支出多少,人们需要知道(除其他外)他们的初始财富。 因此, wealth ( W ) {displaystyle (W)} 将是他们的状态变量之一,但可能还有其他变量。
在任何给定时间点选择的变量通常称为控制变量。例如,鉴于他们目前的财富,人们可能会决定现在消费多少。现在选择控制变量可能等同于选择下一个状态; 更一般地,除了当前控制之外,下一个状态还受其他因素影响。例如,在最简单的情况下,今天的财富(状态)和消费(控制)可能完全决定明天的财富(新状态),尽管通常其他因素也会影响明天的财富。
动态规划方法通过找到一个规则来描述最佳计划,该规则告诉控制应该是什么,给定任何可能的状态值。例如,如果消费 (c) 仅取决于财富 (W),我们将寻找一个规则 c ( W ) {displaystyle c(W)} 将消费作为财富的函数。这种将控制确定为状态函数的规则称为政策函数。
最后,根据定义,最优决策规则是实现目标的最佳可能值的规则。
例如,如果某人在给定财富的情况下选择消费以xxx化幸福(假设幸福 H 可以用数学函数表示,例如效用函数并且是由财富定义的东西),那么每个财富水平将与 一些最高可能的幸福水平, H ( W ) {displaystyle H(W)} 。目标的最佳可能值,写成状态的函数,称为价值函数。
贝尔曼表明,离散时间的动态优化问题可以通过写下一个时期的价值函数与下一时期的价值函数之间的关系,以称为反向归纳的递归、逐步的形式来表述。这两个值函数之间的关系称为贝尔曼方法。在这种方法中,上一个时间段的最优策略被预先指定为当时状态变量值的函数,以及由此产生的最优值。