Принцип максимума Л.С. Понтрягина для общей задачи оптимального управления

Материал из sawiki
Перейти к навигации Перейти к поиску

Общая задача оптимального управления

Постановка: \begin{gather} \dot x = f(t,x,u); \label{prb:1:1}\\ g_i(t,x(t))\leqslant 0,\quad t \in [t_0,t_1],\quad i = 1,\dots,k, \label{prb:1:2}\\ u \in \mathcal{P} \subset \mathbb{R}^r, \label{prb:1:3}\\ h_0(x(t_0)) = h_1(x(t_1)) = 0, \label{prb:1:4}\\ \mathfrak{J}(x(\cdot),u(\cdot)) = \int\limits_{t_0}^{t_1} f^0(t, x, u)\,dt \stackrel{u(\cdot)}{\longrightarrow} \inf. \label{prb:1:5} \end{gather}

Предполагается, что функции \begin{equation*} f^0: \mathbb{R} \times \mathbb{R}^n \times \mathbb{R}^r \rightarrow \mathbb{R}, \quad g_i: \mathbb{R} \times \mathbb{R}^n \rightarrow \mathbb{R} \end{equation*} и отображения \begin{equation*} f: \mathbb{R} \times \mathbb{R}^n \times \mathbb{R}^r \rightarrow \mathbb{R}^n,\quad h_l: \mathbb{R}^n \rightarrow \mathbb{R}^{s_l} \quad (l = 0, 1) \end{equation*} непрерывны по совокупности переменных и непрерывно дифференцируемы по \(x\). Более того, моменты времени \(t_0\) и \(t_1\) не предполагаются фиксированными, и все функции и отображения считаются непрерывно дифференцируемыми по времени.

Более подробно, объекты в задаче \eqref{prb:1:1}-\eqref{prb:1:5} представляют из себя следующее:

  • Минимизируемый интегральный функционал

\begin{equation*} \mathfrak{J}(x(\cdot),u(\cdot)) = \int\limits_{t_0}^{t_1} f^0(t, x, u)\,dt; \end{equation*} функция \(f^0\) называется интегрантом.

  • Функциональное ограничение \eqref{prb:1:1}

\begin{equation*} \dot x = f(t,x,u). \end{equation*} При заданном управлении уравнение \eqref{prb:1:1} становится обычным дифференциальным уравнением относительно \(x\). Всякое его решение, соответствующее управлению \(u(\cdot)\), называется фазовой траекторией, а пара \((x(\cdot),u(\cdot))\), связанная уравнением \eqref{prb:1:1}, называется управляемым процессом.

  • Нефункциональное ограничение на управление

\begin{equation*} u \in \mathcal{P} \subset \mathbb{R}^r. \end{equation*}

  • Незакрепленные граничные условия

\begin{equation*} h_0(x(t_0)) = h_1(x(t_1)) = 0, \end{equation*} задающие в пространстве некоторое множество, которому должны принадлежать концы траектории, т.е. точки \((t_0,x(t_0)),\:(t_1,x(t_1))\).

  • Фазовые ограничения

\begin{equation*} g_i(t,x(t)) \leqslant 0,\quad t \in [t_0,t_1],\quad i = 1,\dots,k, \end{equation*} представляющие из себя функциональные ограничения, не зависящие от производных и управлений.

Задача с закрепленным временем

Задача с закрепленным временем формулируется следующим образом: \begin{gather} \dot x = f(t,x,u); \label{prb:2:1} \tag{\ref{prb:1:1}$’$}\\ g_i(t,x(t)) \leqslant 0,\quad t \in [t_0,t_1],\quad i = 1,\dots,k, \label{prb:2:2} \tag{\ref{prb:1:2}$’$}\\ u \in \mathcal{P} \subset \mathbb{R}^r, \label{prb:2:3} \tag{\ref{prb:1:3}$’$}\\ h_0(x(t_0)) = h_1(x(t_1)) = 0, \label{prb:2:4} \tag{\ref{prb:1:4}$’$}\\ \mathfrak{J}(x(\cdot),u(\cdot)) = \int\limits_{t_0}^{t_1} f^0(t, x, u)\,dt \stackrel{u(\cdot)}{\longrightarrow} \inf. \label{prb:2:5} \tag{\ref{prb:1:5}$’$} \end{gather} Однако, в отличие от задачи \eqref{prb:1:1}-\eqref{prb:1:5}, отрезок \([t_0, t_1]\) фиксирован, и дифференцируемости функций и отображений по \(t\) не требуется. Именно для задачи в таком виде будет дан принцип максимума.

Редукция к задаче с закрепленным временем

Задачу \eqref{prb:1:1}-\eqref{prb:1:5} с помощью представления времени как фазовой координаты, удобно свести к задаче с закрепленным временем. Дело в том, что задачи с закрепленным временем естественно формулируются как задачи в некотором банаховом пространстве (что позволяет решать их как "обычные" экстремальные задачи максимизации некоторого функционала в некотором пространстве параметров), именно, в том или ином пространстве функций на заданном отрезке. Что касается задачи с незакрепленным временем, то ее нельзя сформулировать подобным образом без какого-либо ее преобразования, связанного, в частности с тем, что время трактуется как фазовая координата. При этом требование дифференцируемости по времени становится неизбежным.

Итак, пусть управляемый процесс \( (x^*(\cdot), u^*(\cdot)) \) определен на отрезке \( [t_{0}^*, t_{1}^*] \) и оптимален в задаче \eqref{prb:1:1}-\eqref{prb:1:5}. Введем новую независимую переменную \( \tau \), меняющуюся на отрезке \( [0,1] \), и рассмотрим такую систему уравнений: \begin{equation}\label{new_syst} \frac{dt}{d\tau} = v, \quad \frac{dy}{d\tau} = v f(t, y, \omega). \end{equation} Если \( (t(\tau), y(\tau)) \) — некоторое решение этой системы, соответствующее управлению \( (v(\tau), \omega(\tau)), \) и при этом \( v(\tau) > 0 \), то \( t(\tau) \) — строго возрастающая непрерывная функция. Обратная к ней функция, обозначим ее \( \tau(t) \), также непрерывна и возрастает. В этом случае \( x(t) = y(\tau(t)) \) — решение уравнения \eqref{prb:2:1}, соответствующее управлению \( u(t) = \omega(\tau(t)) \), и при этом \begin{equation}\label{keep_functional} \int\limits_{t(0)}^{t(1)} f_0(t, x(t), u(t)) \ dt = \int\limits_0^1 v(\tau)f_0(t(\tau), y(\tau), \omega(\tau)) \ d\tau. \end{equation} Наоборот, если \( x(t) \) — определенное на отрезке \( [t_0, t_1] \) решение уравнения \eqref{prb:2:1}, соответствующее управлению \( u(t) \), то \[ t(\tau) = t_0 + (t_1 - t_0) \tau, \quad y(\tau) = x(t(\tau)) \] — решение системы \eqref{new_syst}, соответствующее управлениям \( v(\tau) \equiv t_1 - t_0, \ \omega(\tau) = u(t(\tau)) \), и при этом справедливо равенство \eqref{keep_functional}.
Поэтому \begin{gather} t^*(\tau) = t_0 + (t_{1}^* - t_{0}^*)\tau, \quad y^*(\tau) = x^*(t^*(\tau)),\\ v^*(\tau) \equiv v^* = t_{1}^* - t_{0}^*, \quad \omega^*(\tau) = u^*(t^*(\tau)) \end{gather} — оптимальный управляемый процесс в задаче \begin{gather} \frac{dt}{d\tau} = v, \quad \frac{dy}{d\tau} = v f(t, y, \omega) \label{prb:3:1} \tag{\ref{prb:1:1}$’’$}\\ g_i(t(\tau), y(\tau)) \leqslant 0, \quad \tau \in [0,1], \ i = 1,\dots,k, \label{prb:3:2} \tag{\ref{prb:1:2}$’’$}\\ v > 0, \quad \omega \in \mathcal{P}, \label{prb:3:3} \tag{\ref{prb:1:3}$’’$}\\ h_0(t(0)), y(0)) = h_1(t(1), y(1)) = 0, \label{prb:3:4} \tag{\ref{prb:1:4}$’’$}\\ \int\limits_0^1 v f_0(t,y,\omega) d\tau \to \inf. \label{prb:3:5} \tag{\ref{prb:1:5}$’’$} \end{gather} Эта задача уже является задачей с закрепленным временем.

Принцип максимума в двух формулировках

Теорема (Принцип максимума Понтрягина в гамильтоновой форме). Пусть \( (x_*(\cdot), u_*(\cdot)) \) — оптимальный управляемый процесс в задаче \eqref{prb:2:1}-\eqref{prb:2:5}. Тогда существуют не равные одновременно нулю число \( \lambda_0 \), векторы \( l_0 \in \mathbb{R}^{s_0}, \ l_1 \in \mathbb{R}^{s_1},\) вектор-функция \( p(\cdot):[t_0, t_1] \to \mathbb{R}^n \) и неотрицательные регулярные меры \( \mu_i, \ i = 1, \dots, k, \) на \( [t_0, t_1] \), сосредоточенные соответственно на множествах \[ T_i = \left\{ t \in [t_0, t_1] \mid g_i(t, x_*(t)) = 0 \right\}, \] такие, что

  • вектор-функция \( p(\cdot) \) является решением интегрального уравнения

\begin{equation}\label{conj_eq} p(t) = -h_1^{'*}(x_*(t_1))l_1 + \int\limits_{t_0}^{t_1} H_x(\tau, x_*(\tau), u_*(\tau), p(\tau), \lambda_0) \ d\tau - \sum_{i = 1}^{k} \int\limits_{t_0}^{t_1} g_{ix}(\tau, x_*(\tau)) \ d\mu_i \end{equation} и \begin{equation}\label{conj_boundary} p(t_0) = h_0^{'*}(x_*(t_0))l_0, \end{equation}

  • почти при всех \( t \) из \( [t_0, t_1] \) выполняется равенство

\begin{equation}\label{max_princ} H(t, x_*(t), u_*(t), p(t), \lambda_0) = \mathscr{H}(t, x_*(t), p(t), \lambda_0). \end{equation} Уравнение \eqref{conj_eq} называется сопряженным. Важно отметить, что в случае, когда все меры \( \mu_i \) — нулевые, т.е., в частности при отсутствии ограничений на фазовые координаты, это уравнение сводится к привычному дифференциальному уравнению на сопряженную переменную. В задачах без фазовых ограничений функция \( p(\cdot) \) — абсолютно непрерывная функция. При наличии фазовых ограничений из-за присутствия в уравнении \eqref{conj_eq} интегралов по мерам \( \mu_i \) функция \( p(\cdot) \) может иметь разрывы. Однако она всегда является функцией ограниченной вариации, непрерывной слева (из-за регулярности мер \( \mu_i \)).

В формулировке теоремы не исключается случай, когда одна или обе концевые точки оптимальной траектории лежат на фазовых ограничениях. Поэтому меры \( \mu_i \) могут содержать ненулевые массы, сосредоточенные в точках \( t_0 \) и \( t_1 \). В этом случае, как следует из соотношений \eqref{conj_eq} и \eqref{conj_boundary}, \begin{equation} \lim_{t \to t_1}p(t) = -h_1^{'*}(x_*(t_1))l_1 + \sum_{i = 1}^k g_{ix}(t_1, x_*(t_1)) \mu_i(\{t_1\}); \end{equation} \begin{equation} \lim_{t \to t_0}p(t) = -h_0^{'*}(x_*(t_0))l_0 + \sum_{i = 1}^k g_{ix}(t_0, x_*(t_0)) \mu_i(\{t_0\}); \end{equation} т.е. \( p(t) \) может иметь разрыв в точке \( t_0 \). Если же \( g_i(t_1, x_*(t_1)) < 0 \) и \( g_i(t_0, x_*(t_0)) < 0 \), то точки \( t_0 \) и \( t_1 \) не принадлежат ни одному из множеств \( T_i, \ \mu_i(\{t_0\}) = \mu_i(\{t_1\}) = 0, \ p(t) \) непрерывна в точках \( t_0, t_1 \) и выполнено условие трансверсальности \( p(t_0) = h_0^{'*}(x_*(t_0))l_0, \ p(t_1) = -h_1^{'*}(x_*(t_1))l_1 \).

Доказательство этой теоремы приведено в [1] гл. 5 §5.3

Важно заметить, что сформулированная теорема по сути является релизацией принципа Лагранжа. Если записать функцию Лагранжа задачи \eqref{prb:2:1}-\eqref{prb:2:5} в виде \[ \mathscr{L} = \left< l_0, h_0(x(t_0) \right> + \left< l_1, h_1(x(t_1) \right> + \int\limits_{t_0}^{t_1} \left[ \left< p(t), \dot{x}(t) - \varphi(t,x(t),u(t)) \right> +\\+ \lambda_0 f(t, x(t), u(t)) \right] \ dt + \sum_{i = 1}^k \int\limits_{t_0}^{t_1} g_i(t, x(t)) d\mu_i, \] то окажется, что соотношения \eqref{conj_eq}, \eqref{conj_boundary} эквивалентны условию стационарности функции Лагранжа как функции переменного \( x(\cdot) \) в точке \( x_*(\cdot) \), а равенство \eqref{max_princ} есть необходимое и достаточное условие того, что функция Лагранжа достигает минимума по \( u(\cdot) \) в точке \( u_*(\cdot) \). В связи с этим принцип максимума допускает и другую, более интуитивно понятную формулировку.

Теорема (Принцип максимума в лагранжевой форме). Пусть \( (x_*(\cdot), u_*(\cdot)) \) — оптимальный управляемый процесс в задаче \eqref{prb:2:1}-\eqref{prb:2:5}. Тогда существуют такие не равные одновременно нулю число \( \lambda_0 \geqslant 0 \), векторы \( l_0 \in \mathbb{R}^{s_0}, l_1 \in \mathbb{R}^{s_1}, \) вектор-функция ограниченной вариации \( p(t) \) и неотрицательные регулярные меры \( \mu_i, \quad i = 1, \dots, k \), сосредоточенные на множествах \( T_i \) соответственно, что

  • при \( u(\cdot) = u_*(\cdot) \) вектор-функция \( x_*(\cdot) \) является стационарной точкой функции Лагранжа как функции переменного \( x(\cdot) \);
  • при \( x(\cdot) = x_*(\cdot) \) функция Лагранжа достигает абсолютного минимума по \( u(\cdot) \) в точке \( u_*(\cdot) \).

Список литературы

  • [1] А. Д. Иоффе, В. М. Тихомиров "Теория экстремальных задач". Изд-во Наука, Москва, 1974.
  • [2] А. Н. Колмогоров, С. В. Фомин "Элементы теории функций и функционального анализа". Изд-во Наука, Москва, 1976.