Принцип максимума Л.С. Понтрягина для общей задачи оптимального управления
Содержание
Общая задача оптимального управления
Постановка: \begin{gather} \mathfrak{J}(x(\cdot),u(\cdot)) = \int\limits_{t_0}^{t_1} f(t, x, u)\,dt \rightarrow \inf; \label{problem_begin}\\ \dot x = \varphi(t,x,u),\\ u \in U \subset \mathbb{R}^r,\\ h_0(x(t_0)) = h_1(x(t_1)) = 0,\\ g_i(t,x(t)) \leqslant 0,\quad t \in [t_0,t_1],\quad i = 1,\dots,k. \label{problem_end} \end{gather}
Предпологается, что функции \begin{equation*} f: \mathbb{R} \times \mathbb{R}^n \times \mathbb{R}^r \rightarrow \mathbb{R}, \quad g_i: \mathbb{R} \times \mathbb{R}^n \rightarrow \mathbb{R} \end{equation*} и отображения \begin{equation*} \varphi: \mathbb{R} \times \mathbb{R}^n \times \mathbb{R}^r \rightarrow \mathbb{R}^n,\quad h_l: \mathbb{R}^n \rightarrow \mathbb{R}^{s_l} \quad (l = 1, 2) \end{equation*} непрерывны и непрерывно дифференцируемы по \(x\). Более того моменты времени \(t_0\) и \(t_1\) не предпологаются фиксированнымии, и все функции и отображения считаются непрерывно дифференцируемыми по времени.
Задачу \eqref{problem_begin} - \eqref{problem_end} заменой времени удобно свести к задаче с закрепленным временем (ССЫЛКА). Дело тут в том, что задачи с закрепленным временем естественно формулируются как задачи в некотором банаховом пространстве (что позволяет решать их как "обычные" экстремальные задачи), именно, в том или ином пространстве функций на заданном отрезке. Что касается задачи с незакрепленным временем, то ее, по видимому, нельзя сформулировать подобным образом без какого-либо ее преобразования, связанного, в частности с тем, что время трактуется как фазовая координата. При этом требование дифференцируемости по времени становится неизбежным. Более подробно, упомянутая замена обсуждается в (ССЫЛКА)
Level 2
Принцип максимума в гамильтоновой форме
Теорема. Пусть \( (x_*(\cdot), u_*(\cdot)) \) - оптимальный управляемый процесс в задаче !!(ссылка на задачу с закрепленным временем)!!. Тогда существуют не равные одновременно нулю число \( \lambda_0 \), векторы \( l_0 \in \mathbb{R}^{s_0}, \ l_1 \in \mathbb{R}^{s_1},\) вектор-функция \( p(\cdot):[t_0, t_1] \to \mathbb{R}^n \) и неотрицательные регулярные меры \( \mu_i, i = 1, \dots, k, \) на \( [t_0, t_1] \), сосредоточенные соответсвенно на множествах \[ T_i = \left\{ t \in [t_0, t_1] \mid g_i(t, x_*(t)) = 0 \right\}, \] такие, что
- вектор-функция \( p(\cdot) \) является решением интегрального уравнения
\begin{equation}\label{conj_eq} p(t) = -h_1^{'*}(x_*(t_1))l_1 + \int\limits_{t_0}^{t_1} H_x(\tau, x_*(\tau), u_*(\tau), p(\tau), \lambda_0) \ d\tau - \sum_{i = 1}^{k} \int\limits_{t_0}^{t_1} g_{ix}(\tau, x_*(\tau)) \ d\mu_i \end{equation} и \begin{equation}\label{conj_boundary} p(t_0) = h_0^{'*}(x_*(t_0))l_0, \end{equation}
- почти при всех \( t \) из \( [t_0, t_1] \) выполняется равенство
\begin{equation}\label{max_princ}
H(t, x_*(t), u_*(t), p(t), \lambda_0) = \mathscr{H}(t, x_*(t), p(t), \lambda_0).
\end{equation}
Уравнение \eqref{conj_eq}, как и в соответствующей задаче без фазовых ограничений, называется сопряженным. Важно отметить, что в случае, когда все меры \( \mu_i \) - нулевые, т.е., в частности при отсутствии ограничений на фазовые координаты, это уравнение сводится к привычному дифференциальному уравнению на сопряженную переменную. В задачах без фазовых ограничений функция \( p(\cdot) \) - абсолютна непрерывная функция. При наличии фазовых ограничений из-за присутствия в уравнении \eqref{conj_eq} интегралов по мерам \( \mu_i \) функция \( p(\cdot) \) может иметь разрывы. Однако она всегда является функцией ограниченной вариации, непрерывной слева(из-за регулярности мер \( \mu_i \)).
В формулировке теоремы не исключается случай, когда одна или обе концевые точки оптимальной траектории лежат на фазовых ограничениях. Поэтому меры \( \mu_i \) могут содержать ненулевые массы, сосредоточенные в точках \( t_0 \) и \( t_1 \). В этом случае, как следует из соотношений \eqref{conj_eq} и \eqref{conj_boundary},
\begin{equation}
\lim_{t \to t_1}p(t) = -h_1^{'*}(x_*(t_1))l_1 + \sum_{i = 1}^k g_{ix}(t_1, x_*(t_1)) \mu_i(\{t_1\});
\end{equation}
\begin{equation}
\lim_{t \to t_0}p(t) = -h_0^{'*}(x_*(t_0))l_0 + \sum_{i = 1}^k g_{ix}(t_0, x_*(t_0)) \mu_i(\{t_0\});
\end{equation}
т.е. \( p(t) \) может иметь разрыв в точке \( t_0 \). Если же \( g_i(t_1, x_*(t_1)) < 0 \) и \( g_i(t_0, x_*(t_0)) < 0 \), то точки \( t_0 \) и \( t_1 \) не принадлежат ни одному из множеств \( T_i, \ \mu_i(\{t_0\}) = \mu_i(\{t_1\}) = 0, \ p(t) \) непрерывна в точках \( t_0,
t_1 \) и выполнено условие трансверсальности \( p(t_0) = h_0^{'*}(x_*(t_0))l_0, \ p(t_1) = -h_1^{'*}(x_*(t_1))l_1 \).
Очень важно заметить, что сформулированная теорема по сути является релизацией принципа Лагранжа. Если записать функцию Лагранжа задачи !!(ссылка на задачу)!! в виде \begin{multline} \mathscr{L} = \left< l_0, h_0(x(t_0) \right> + \left< l_1, h_1(x(t_1) \right> + \int\limits_{t_0}^{t_1} \left[ \left< p(t), \dot{x}(t) - \varphi(t,x(t),u(t)) \right> +\\+ \lambda_0 f(t, x(t), u(t)) \right] \ dt + \sum_{i = 1}^k \int\limits_{t_0}^{t_1} g_i(t, x(t)) d\mu_i, \end{multline} то окажется, что соотношения \eqref{conj_eq}, \eqref{conj_boundary} эквивалентны условию стационарности функции Лагранжа как функции переменного \( x(\cdot) \) в точке \( x_*(\cdot) \), а равенство \eqref{max_princ} есть необходимое и достаточное условие того, что функция Лагранжа достигает минимума по \( u(\cdot) \) в точке \( u_*(\cdot) \).