Принцип максимума для задачи быстродействия: различия между версиями
Ivan (обсуждение | вклад) |
Ivan (обсуждение | вклад) |
||
(не показаны 92 промежуточные версии этого же участника) | |||
Строка 10: | Строка 10: | ||
x, f \in \mathbb{R}^{n}, \quad A \in \mathbb{R}^{n\times n}, \quad u \in \mathbb{R}^{m}, \quad B \in \mathbb{R}^{n\times m}, \\ | x, f \in \mathbb{R}^{n}, \quad A \in \mathbb{R}^{n\times n}, \quad u \in \mathbb{R}^{m}, \quad B \in \mathbb{R}^{n\times m}, \\ | ||
A(\cdot), B{(\cdot)}, f(\cdot) \in C\left[t_{0}, t_{1} \right]\\ | A(\cdot), B{(\cdot)}, f(\cdot) \in C\left[t_{0}, t_{1} \right]\\ | ||
− | u(t) \in \mathcal{P}(t), \quad \forall t\\ | + | u(t) \in \mathcal{P}(t)\in\text{conv}\mathbb{R}^m, \quad \forall t\\ |
x(t_{0}) \in \mathcal{X}_{0} \in \text{conv}\;\mathbb{R}^{n}, \quad x(t_{1}) \in \mathcal{X}_{1} \in \text{conv} \mathbb{R}^{n}\\ | x(t_{0}) \in \mathcal{X}_{0} \in \text{conv}\;\mathbb{R}^{n}, \quad x(t_{1}) \in \mathcal{X}_{1} \in \text{conv} \mathbb{R}^{n}\\ | ||
J = t_{1} - t_{0} \rightarrow \min | J = t_{1} - t_{0} \rightarrow \min | ||
Строка 16: | Строка 16: | ||
\] | \] | ||
− | Здесь \(\mathcal{X}_{0}\) | + | Здесь \(\mathcal{X}_{0}\) – начальное множество значений фазового вектора, \(\mathcal{X}_{1}\) – целевое множество значений фазового вектора, \(\mathcal{P}(\cdot)\) – область управления, \(\mathcal{P}(\cdot)\) непрерывно как многозначное отображение. Считаем, что допустимое управление принадлежит классу кусочно-непрерывных функций. |
=== Принцип максимума Понтрягина для линейной задачи быстродействия === | === Принцип максимума Понтрягина для линейной задачи быстродействия === | ||
Строка 23: | Строка 23: | ||
==== Теорема (Принцип максимума Понтрягина) ==== | ==== Теорема (Принцип максимума Понтрягина) ==== | ||
− | Пусть \( \{ x^{*}(\cdot), \; u^{*}(\cdot) \} \) | + | Пусть \( \{ x^{*}(\cdot), \; u^{*}(\cdot) \} \) – оптимальная пара для линейной задачи быстродействия. Тогда существует непрерывная функция \( \psi(t) \), определенная при \( t \geqslant t_{0} \), являющаяся нетривиальным решением системы |
\[ | \[ | ||
Строка 39: | Строка 39: | ||
= Случай нелинейной системы = | = Случай нелинейной системы = | ||
− | == Общая | + | == Общая задача оптимального управления == |
+ | |||
+ | === Постановка задачи оптимального управления в общем виде === | ||
Сформулируем задачу оптимального управления для автономной нелинейной системы в общем виде. | Сформулируем задачу оптимального управления для автономной нелинейной системы в общем виде. | ||
Строка 60: | Строка 62: | ||
\] | \] | ||
− | где \(x = (x^{1}, \ldots , x^{n})', \;f = (f^{1}, \ldots , f^{n})', \; u=(u^{1}, \ldots, u^{m})'\). Здесь \(t\) | + | где \(x = (x^{1}, \ldots , x^{n})', \;f = (f^{1}, \ldots , f^{n})', \; u=(u^{1}, \ldots, u^{m})'\). Здесь \(t\) – время, \(x^1, \,\ldots\,, x^n\) – фазовые координаты управляемого объекта, определяющие его состояние в каждый момент времени \(t\), и \(u^1, \,\ldots\,, u^m\) – параметры управления, определяющие ход процесса. |
Функции \( f^{i}(x, u), \; i=\overline{1, n} \), предполагаются непрерывными по совокупности переменных \( (x, \,u) \) и непрерывно дифференцируемыми по \( x \). Заметим, что данная система автономна, то есть правые ее части не зависят явно от времени \( t \). | Функции \( f^{i}(x, u), \; i=\overline{1, n} \), предполагаются непрерывными по совокупности переменных \( (x, \,u) \) и непрерывно дифференцируемыми по \( x \). Заметим, что данная система автономна, то есть правые ее части не зависят явно от времени \( t \). | ||
Строка 71: | Строка 73: | ||
\[ | \[ | ||
− | J = \int\limits_{t_{0}}^{t_{1}} f^{0}(x(t), u(t)) dt | + | J\left( u(\cdot) \right) = \int\limits_{t_{0}}^{t_{1}} f^{0}(x(t), u(t)) dt |
\] | \] | ||
− | достигает своего минимального значения (здесь \(t_1\) | + | достигает своего минимального значения (здесь \(t_1\) – конечный момент времени, не фиксирован). |
− | == Принцип максимума Понтрягина == | + | === Принцип максимума Понтрягина для общей задачи оптимального управления === |
Сформулируем принцип максимума Понтрягина для общей задачи оптимального управления, введя предварительно несколько определений и обозначений. | Сформулируем принцип максимума Понтрягина для общей задачи оптимального управления, введя предварительно несколько определений и обозначений. | ||
==== Определение 1 ==== | ==== Определение 1 ==== | ||
− | Функция \( \mathcal{H}(\tilde\psi, x, u)=\mathcal{H}(\psi_{0}, \psi, x, u) = \psi_{0}f^{0}(x,u)+\langle\psi,f(x,u)\rangle \) называется функцией | + | Функция \( \mathcal{H}(\tilde\psi, x, u)=\mathcal{H}(\psi_{0}, \psi, x, u) = \psi_{0}f^{0}(x,u)+\langle\psi,f(x,u)\rangle \) называется функцией Гамильтона–Понтрягина. Здесь \( \ \tilde\psi = (\psi_0, \psi)' = (\psi_0, \psi_{1}, \ldots, \psi_{n})' \) – сопряженные переменные. |
==== Определение 2 ==== | ==== Определение 2 ==== | ||
Строка 93: | Строка 95: | ||
Обозначим \( \mathcal{M}(\psi_{0}, \psi, x) = \sup\limits_{u(\cdot)} \mathcal{H}(\psi_{0}, \psi, x, u) \). | Обозначим \( \mathcal{M}(\psi_{0}, \psi, x) = \sup\limits_{u(\cdot)} \mathcal{H}(\psi_{0}, \psi, x, u) \). | ||
− | + | Обозначим через \(T^0_{x_0}\) и \(T^1_{x_1}\) касательные плоскости, проведенные к многообразиям \(S_{0}\) и \(S_{1}\) в точках \( x_0 \in S_{0}\) и \( x_1 \in S_{1}\) соответственно. | |
Справедлива следующая теорема. | Справедлива следующая теорема. | ||
− | + | ==== Теорема (Принцип максимума Понтрягина) ==== | |
− | (Принцип максимума Понтрягина) Пусть | + | Пусть \(u(t), \; t_{0} \leqslant t \leqslant t_{1}\), – допустимое управление, переводящее фазовую точку из некоторого положения \(x_{0} \in S_{0}\) в положение \(x_{1} \in S_{1}\), а \(x(t)\) – соответствующая траектория. Для того, чтобы пара \(\{x(\cdot), u(\cdot)\}\) была оптимальной для задачи оптимального управления с подвижными концами, необходимо существование такой непрерывной и отличной от тождественного нуля вектор-функции \(\tilde\psi:\left[t_0,\;t_1\right] \rightarrow \mathbb{R}^{n+1}\), \(\tilde\psi(t) = \left(\psi_0(t), \; \psi(t)\right) \), удовлетворяющей сопряженной системе, что |
− | # \( \mathcal{H}(\psi_{0}, \psi, x, u) = \mathcal{M}(\psi_{0}, \psi, x)\), при любом \(t \in \left[t_{0}, t_{1}\right]\); | + | # \( \mathcal{H}(\psi_{0}, \psi, x, u) = \mathcal{M}(\psi_{0}, \psi, x) \equiv 0 \), при любом \(t \in \left[t_{0}, t_{1}\right]\); |
− | # \( \psi_{0} = const \leqslant 0;\) | + | # \( \psi_{0} = \text{const} \leqslant 0;\) |
− | # \( \psi(t_{0}) \perp | + | # \( \psi(t_{0}) \perp T^0_{x_0}\) (Условие трансверсальности на левом конце); |
− | # \( \psi(t_{1}) \perp | + | # \( \psi(t_{1}) \perp T^1_{x_1}\) (Условие трансверсальности на правом конце). |
+ | |||
+ | == Нелинейная задача быстродействия == | ||
+ | === Постановка нелинейной задачи быстродействия === | ||
+ | Нелинейная задача быстродействия представляет собой общую задачу оптимального управления, в которой функционал \( J \) имеет следующий вид: | ||
+ | |||
+ | \[ | ||
+ | J = t_1 - t_0. | ||
+ | \] | ||
+ | |||
+ | Другими словами, это общая задача ОУ, в которой \(f^0(x,u)\equiv 1\). | ||
+ | |||
+ | === Принцип максимума Понтрягина для нелинейной задачи быстродействия === | ||
+ | Выведем теперь Принцип максимума Понтрягина для оптимальности по быстродействию. Для этого в принципе максимума для общей задачи ОУ следует положить \(f^0(x,u)\equiv 1\). Функция \( \mathcal{H} \) принимает в этом случае следующий вид: | ||
+ | |||
+ | \[ | ||
+ | \mathcal{H} = \psi_0 + \sum_{i=1}^{n} \psi_i f^i(x,u). | ||
+ | \] | ||
+ | |||
+ | Имея \( n \)-мерный вектор \(\psi=(\psi_1,\ldots,\psi_n) \) и вводя функцию | ||
+ | |||
+ | \[ | ||
+ | H(\psi, x, u) = \langle\psi, f\rangle = \sum_{i=1}^{n} \psi_i f^i(x,u) | ||
+ | \] | ||
+ | |||
+ | мы можем записать сопряженную систему в следующем модифицированном виде: | ||
+ | |||
+ | \[ | ||
+ | \frac{d\psi}{dt}=-\frac{\partial H}{\partial x}. | ||
+ | \] | ||
+ | |||
+ | При фиксированных значениях \(\psi\) и \(x\) функция \(H\) становится функцией параметра \(u\); верхнюю грань значений этой функции мы обозначим через \(M(\psi, x)\): | ||
+ | |||
+ | \[ | ||
+ | M(\psi,x)=\sup_{u \in U} H(\psi, x, u). | ||
+ | \] | ||
+ | |||
+ | В силу соотношения \(H(\psi, x, u) = \mathcal{H}(\psi, x, u) - \psi_0\) мы получаем | ||
+ | |||
+ | \[ | ||
+ | M(\psi,x)=\mathcal{M}(\psi, x) - \psi_0, | ||
+ | \] | ||
+ | |||
+ | и потому условия 1 и 2 принципа максимума для общей задачи ОУ принимают теперь вид | ||
+ | |||
+ | \[ | ||
+ | H(\psi(t),x(t),u(t)) = M(\psi(t), x(t)) = -\psi_0 \geqslant 0. | ||
+ | \] | ||
+ | |||
+ | Таким образом, мы получаем следующую теорему. | ||
+ | |||
+ | ==== Теорема (Принцип максимума Понтрягина для нелинейной задачи быстродействия) ==== | ||
+ | Пусть \(u(t), \; t_{0} \leqslant t \leqslant t_{1}\), – допустимое управление, переводящее фазовую точку из некоторого положения \(x_{0} \in S_{0}\) в положение \(x_{1} \in S_{1}\), а \(x(t)\) – соответствующая траектория. Для того, чтобы пара \(\{x(\cdot), u(\cdot)\}\) была оптимальной для задачи быстродействия, необходимо существование такой непрерывной и отличной от тождественного нуля вектор-функции \(\psi:\left[t_0,\;t_1\right] \rightarrow \mathbb{R}^{n}\), удовлетворяющей модифицированной сопряженной системе, что | ||
+ | # \( H(\psi, x, u) = M(\psi, x) = \text{const} \geqslant 0 \), при любом \(t \in \left[t_{0}, t_{1}\right]\); | ||
+ | # \( \psi(t_{0}) \perp T^0_{x_0}\) (Условие трансверсальности на левом конце); | ||
+ | # \( \psi(t_{1}) \perp T^1_{x_1}\) (Условие трансверсальности на правом конце). | ||
+ | |||
+ | == Задача быстродействия в случае неавтономной системы с закрепленными концами == | ||
+ | |||
+ | Рассмотрим задачу быстродействия в случае, когда функции \(f^i\) явно зависят от времени. Ограничимся рассмотрением задачи с закрепленными концами. Закон движения объекта принимает вид: | ||
+ | |||
+ | \[ | ||
+ | \frac{dx^i}{dt} = f^i(x,u,t), \quad i = \overline{1, n}. | ||
+ | \] | ||
+ | |||
+ | Для решения этой задачи введем еще одно вспомогательное неизвестное \( x^{n+1} \), изменяющееся по закону | ||
+ | |||
+ | \[ | ||
+ | \frac{dx^{n+1}}{dt} = 1, \quad x^{n+1}(t_0)=t_0. | ||
+ | \] | ||
+ | |||
+ | Очевидно, что мы будем иметь \(x^{n+1}(t)\equiv t\). С помощью неизвестного \(x^{n+1}\) основная система может быть записана в следующем автономном виде: | ||
+ | |||
+ | \[ | ||
+ | \frac{dx^i}{dt} = f^i(x,u,x^{n+1}), i = \overline{1, n}, | ||
+ | \] | ||
+ | \[ | ||
+ | \frac{dx^{n+1}}{dt}=1\equiv f^{n+1}(x, u, x^{n+1}). | ||
+ | \] | ||
+ | |||
+ | При этом мы должны найти оптимальную по быстродействию траекторию, соединяющую точку \((x_0^1, \ldots, x_0^n, t_0)\) с некоторой точкой прямой \(S_1\), проходящей через точку \((x_1^1, \ldots, x_1^n, 0)\) параллельно оси \(x^{n+1}\). Таким образом, приходим к задаче с закрепленным левым концом и подвижным правым. | ||
+ | Напишем принцип максимума и условие трансверсальности для этой новой задачи ОУ, обозначая соответствующую ей функцию Гамильтона-Понтрягина через \(H^*(\psi, \psi_{n+1}, x, x^{n+1}, u)\), а величину \( \sup_{u \in U} H^*(\psi, \psi_{n+1}, x, x^{n+1}, u)\) через \(M^*(\psi, \psi_{n+1}, x, x^{n+1})\) (здесь \(\psi=(\psi_1,\ldots,\psi_n)\), \(x=(x^1,\ldots,x^n)\)). Имеем: | ||
+ | |||
+ | \[ | ||
+ | H^*(\psi, \psi_{n+1}, x, x^{n+1}, u) = \psi_1f^1(x, u, x^{n+1}) + \ldots + \psi_nf^n(x,u,x^{n+1}) + \psi_{n+1}\cdot 1, | ||
+ | \] | ||
+ | \[ | ||
+ | M^*(\psi, \psi_{n+1}, x, x^{n+1}) = \sup_{u \in U} H^*(\psi, \psi_{n+1}, x, x^{n+1}, u). | ||
+ | \] | ||
+ | |||
+ | Таким образом, учитывая соотношение \(x^{n+1}=t\), мы можем написать \(H^*=H+\psi_{n+1}, \; M^*=M+\psi_{n+1}\), и поэтому соотношение \( H^*=M^*=-\psi_0=\text{const}\geqslant 0 \), выполняющееся вдоль оптимальной траектории, принимает вид \( H=M=-\psi_0-\psi_{n+1}(t) \). Последнее выражение, вообще говоря, уже не является константным, и его знак неизвестен. | ||
+ | |||
+ | Наконец, условие трансверсальности в правом конце траектории показывает, что прямая \(S_1\) (параллельная оси \(x^{n+1}\)) ортогональна вектору \( \psi_1(t_1), \ldots, \psi_{n+1}(t_1) \). Иначе говоря, \( \psi_{n+1}(t_1) = 0 \). Вместе с соотношением \( \frac{d\psi_{n+1}}{dt} = -\sum_{i=0}^{n+1} \frac{\partial f^i}{\partial x^{n+1}} \psi_i = -\sum_{i=0}^{n} \frac{\partial f^i}{\partial t} \psi_i \), полученным из сопряженной системы, это даст | ||
+ | |||
+ | \[ | ||
+ | M(\psi(t), x(t), t) = \int_{t_1}^{t} \sum_{i=0}^{n} \frac{\partial f^i (x(\tau), u(\tau), \tau)}{\partial \tau} \psi_i(\tau) d\tau -\psi_0 \geqslant \int_{t_1}^{t} \sum_{i=0}^{n} \frac{\partial f^i (x(\tau), u(\tau), \tau)}{\partial \tau} \psi_i(\tau) d\tau | ||
+ | \] | ||
+ | |||
+ | Итак, получаем следующую теорему. | ||
+ | |||
+ | ==== Теорема (Принцип максимума Понтрягина для нелинейной задачи быстродействия, случай неавтономной системы) ==== | ||
+ | Пусть \(u(t), \; t_{0} \leqslant t \leqslant t_{1}\), – допустимое управление, переводящее фазовую точку из некоторого положения \(x_{0} \in S_{0}\) в положение \(x_{1} \in S_{1}\), а \(x(t)\) – соответствующая траектория. Для того, чтобы пара \(\{x(\cdot), u(\cdot)\}\) была оптимальной для задачи быстродействия с неавтономной системой и закрепленными концами, необходимо существование такой непрерывной и отличной от тождественного нуля вектор-функции \(\psi:\left[t_0,\;t_1\right] \rightarrow \mathbb{R}^{n}\), удовлетворяющей модифицированной сопряженной системе, что | ||
+ | # \( H(\psi, x, u) = M(\psi, x) \), при любом \(t \in \left[t_{0}, t_{1}\right]\); | ||
+ | # \( M(\psi(t), x(t), t) \geqslant \int_{t_1}^{t} \sum_{i=0}^{n} \frac{\partial f^i (x(\tau), u(\tau), \tau)}{\partial \tau} \psi_i(\tau) d\tau \). | ||
+ | (Здесь всюду \(x=x(t)=(x^1(t),\ldots,x^n(t))\), \(\psi=\psi(t)=(\psi_1(t),\ldots,\psi_n(t))\) ). | ||
+ | |||
+ | Оказывается далее, что разность между левой и правой частями соотношения 2 постоянна, так что проверку соотношения 2 достаточно произвести в момент времени \(t_1: M(\psi(t_1), x(t_1), t_1) \geqslant 0 \). | ||
+ | |||
+ | = Список литературы = | ||
+ | |||
+ | * Л.С. Понтрягин, В.Г. Болтянский, Р.В. Гамкрелидзе, Е.Ф. Мищенко. Математическая теория оптимальных процессов. МОСКВА «НАУКА». 1983. | ||
+ | * Ю.А. Комаров. Лекции по курсу "Оптимальное управление (линейные системы)"; лекции по курсу "Оптимальное управление (нелинейные системы)". 2020-2021. |
Текущая версия на 00:47, 16 декабря 2021
Содержание
Случай линейной системы
Общая постановка линейной задачи быстродействия
В самом общем случае линейная задача быстродействия имеет следующую постановку:
\[ \begin{cases} \dot x(t) = A(t)x(t) + B(t)u(t) + f(t), \quad t \in \left[ t_{0}, t_{1} \right]\\ x, f \in \mathbb{R}^{n}, \quad A \in \mathbb{R}^{n\times n}, \quad u \in \mathbb{R}^{m}, \quad B \in \mathbb{R}^{n\times m}, \\ A(\cdot), B{(\cdot)}, f(\cdot) \in C\left[t_{0}, t_{1} \right]\\ u(t) \in \mathcal{P}(t)\in\text{conv}\mathbb{R}^m, \quad \forall t\\ x(t_{0}) \in \mathcal{X}_{0} \in \text{conv}\;\mathbb{R}^{n}, \quad x(t_{1}) \in \mathcal{X}_{1} \in \text{conv} \mathbb{R}^{n}\\ J = t_{1} - t_{0} \rightarrow \min \end{cases} \]
Здесь \(\mathcal{X}_{0}\) – начальное множество значений фазового вектора, \(\mathcal{X}_{1}\) – целевое множество значений фазового вектора, \(\mathcal{P}(\cdot)\) – область управления, \(\mathcal{P}(\cdot)\) непрерывно как многозначное отображение. Считаем, что допустимое управление принадлежит классу кусочно-непрерывных функций.
Принцип максимума Понтрягина для линейной задачи быстродействия
Необходимым условием оптимальности управления является принцип максимума Понтрягина. Сформулируем его для линейной задачи быстродействия, поставленной в общем виде.
Теорема (Принцип максимума Понтрягина)
Пусть \( \{ x^{*}(\cdot), \; u^{*}(\cdot) \} \) – оптимальная пара для линейной задачи быстродействия. Тогда существует непрерывная функция \( \psi(t) \), определенная при \( t \geqslant t_{0} \), являющаяся нетривиальным решением системы
\[ \begin{cases} \dot \psi(t) = -A^{T}(t)\psi(t) \\ \psi(t_{0}) = \psi_{0} \neq \theta \end{cases} \]
и такая, что выполнены условия:
- \(\langle\psi(t), B(t)u^{*}(t)\rangle = \rho\left(\psi(t)| B(t) \mathcal{P}(t)\right) \quad\)(принцип максимума),
- \(\langle\psi(t_{0}), x^{*}(t_{0})\rangle = \rho(\psi(t_{0})| \mathcal{X}_{0}) \quad\)(условие трансверсальности на левом конце),
- \(\langle-\psi(t_{1}), x^{*}(t_{1})\rangle = \rho(-\psi(t_{1})| \mathcal{X}_{1}) \quad\)(условие трансверсальности на правом конце).
Случай нелинейной системы
Общая задача оптимального управления
Постановка задачи оптимального управления в общем виде
Сформулируем задачу оптимального управления для автономной нелинейной системы в общем виде.
Пусть имеется управляемый процесс, описываемый автономной системой обыкновенных дифференциальных уравнений:
\[ \begin{cases} \dot x^{1} = f^{1}\left(x^{1}(t), \ldots , x^{n}(t), u^{1}(t), \ldots , u^{m}(t) \right) \\ \dot x^{2} = f^{2}\left(x^{1}(t), \ldots , x^{n}(t), u^{1}(t), \ldots , u^{m}(t) \right) \\ \cdots \\ \dot x^{n} = f^{n}\left(x^{1}(t), \ldots , x^{n}(t), u^{1}(t), \ldots , u^{m}(t) \right), \\ \end{cases} \]
или, в векторной форме:
\[ \dot x = f(x, u), \\ \]
где \(x = (x^{1}, \ldots , x^{n})', \;f = (f^{1}, \ldots , f^{n})', \; u=(u^{1}, \ldots, u^{m})'\). Здесь \(t\) – время, \(x^1, \,\ldots\,, x^n\) – фазовые координаты управляемого объекта, определяющие его состояние в каждый момент времени \(t\), и \(u^1, \,\ldots\,, u^m\) – параметры управления, определяющие ход процесса.
Функции \( f^{i}(x, u), \; i=\overline{1, n} \), предполагаются непрерывными по совокупности переменных \( (x, \,u) \) и непрерывно дифференцируемыми по \( x \). Заметим, что данная система автономна, то есть правые ее части не зависят явно от времени \( t \).
Класс допустимых управлений состоит из кусочно-непрерывных функций \(u(t)\) со значениями в некотором множестве \(U \subset \mathbb{R}^m \), называемом областью управления. В фазовом пространстве заданы начальное множество \( S_{0} \) и целевое множество \( S_{1} \), являющиеся гладкими многообразиями. Фиксирован начальный момент времени \(t_0\).
Пусть, далее, задана еще одна функция \(f^{0}(x, u)\), непрерывная по совокупности переменных \((x, u)\) и непрерывно дифференцируемая по \(x\).
Требуется найти допустимое управление \(u(t)\), которое переводит фазовую точку из некоторого (заранее не заданного) положения \(x_{0} \in S_{0}\) в момент времени \(t_0\) в некоторое (заранее не заданное) положение \(x_{1} \in S_{1}\) в момент времени \(t_1\), и на котором функционал
\[ J\left( u(\cdot) \right) = \int\limits_{t_{0}}^{t_{1}} f^{0}(x(t), u(t)) dt \]
достигает своего минимального значения (здесь \(t_1\) – конечный момент времени, не фиксирован).
Принцип максимума Понтрягина для общей задачи оптимального управления
Сформулируем принцип максимума Понтрягина для общей задачи оптимального управления, введя предварительно несколько определений и обозначений.
Определение 1
Функция \( \mathcal{H}(\tilde\psi, x, u)=\mathcal{H}(\psi_{0}, \psi, x, u) = \psi_{0}f^{0}(x,u)+\langle\psi,f(x,u)\rangle \) называется функцией Гамильтона–Понтрягина. Здесь \( \ \tilde\psi = (\psi_0, \psi)' = (\psi_0, \psi_{1}, \ldots, \psi_{n})' \) – сопряженные переменные.
Определение 2
Пусть \( \psi:\left[t_{0},\;t_{1}\right] \rightarrow \mathbb{R}^{n} \). Сопряженной системой называется следующая система обыкновенных дифференциальных уравнений:
\[ \frac{d\psi}{dt} = -\frac{\partial\mathcal{H}}{\partial x}. \]
Обозначим \( \mathcal{M}(\psi_{0}, \psi, x) = \sup\limits_{u(\cdot)} \mathcal{H}(\psi_{0}, \psi, x, u) \).
Обозначим через \(T^0_{x_0}\) и \(T^1_{x_1}\) касательные плоскости, проведенные к многообразиям \(S_{0}\) и \(S_{1}\) в точках \( x_0 \in S_{0}\) и \( x_1 \in S_{1}\) соответственно.
Справедлива следующая теорема.
Теорема (Принцип максимума Понтрягина)
Пусть \(u(t), \; t_{0} \leqslant t \leqslant t_{1}\), – допустимое управление, переводящее фазовую точку из некоторого положения \(x_{0} \in S_{0}\) в положение \(x_{1} \in S_{1}\), а \(x(t)\) – соответствующая траектория. Для того, чтобы пара \(\{x(\cdot), u(\cdot)\}\) была оптимальной для задачи оптимального управления с подвижными концами, необходимо существование такой непрерывной и отличной от тождественного нуля вектор-функции \(\tilde\psi:\left[t_0,\;t_1\right] \rightarrow \mathbb{R}^{n+1}\), \(\tilde\psi(t) = \left(\psi_0(t), \; \psi(t)\right) \), удовлетворяющей сопряженной системе, что
- \( \mathcal{H}(\psi_{0}, \psi, x, u) = \mathcal{M}(\psi_{0}, \psi, x) \equiv 0 \), при любом \(t \in \left[t_{0}, t_{1}\right]\);
- \( \psi_{0} = \text{const} \leqslant 0;\)
- \( \psi(t_{0}) \perp T^0_{x_0}\) (Условие трансверсальности на левом конце);
- \( \psi(t_{1}) \perp T^1_{x_1}\) (Условие трансверсальности на правом конце).
Нелинейная задача быстродействия
Постановка нелинейной задачи быстродействия
Нелинейная задача быстродействия представляет собой общую задачу оптимального управления, в которой функционал \( J \) имеет следующий вид:
\[ J = t_1 - t_0. \]
Другими словами, это общая задача ОУ, в которой \(f^0(x,u)\equiv 1\).
Принцип максимума Понтрягина для нелинейной задачи быстродействия
Выведем теперь Принцип максимума Понтрягина для оптимальности по быстродействию. Для этого в принципе максимума для общей задачи ОУ следует положить \(f^0(x,u)\equiv 1\). Функция \( \mathcal{H} \) принимает в этом случае следующий вид:
\[ \mathcal{H} = \psi_0 + \sum_{i=1}^{n} \psi_i f^i(x,u). \]
Имея \( n \)-мерный вектор \(\psi=(\psi_1,\ldots,\psi_n) \) и вводя функцию
\[ H(\psi, x, u) = \langle\psi, f\rangle = \sum_{i=1}^{n} \psi_i f^i(x,u) \]
мы можем записать сопряженную систему в следующем модифицированном виде:
\[ \frac{d\psi}{dt}=-\frac{\partial H}{\partial x}. \]
При фиксированных значениях \(\psi\) и \(x\) функция \(H\) становится функцией параметра \(u\); верхнюю грань значений этой функции мы обозначим через \(M(\psi, x)\):
\[ M(\psi,x)=\sup_{u \in U} H(\psi, x, u). \]
В силу соотношения \(H(\psi, x, u) = \mathcal{H}(\psi, x, u) - \psi_0\) мы получаем
\[ M(\psi,x)=\mathcal{M}(\psi, x) - \psi_0, \]
и потому условия 1 и 2 принципа максимума для общей задачи ОУ принимают теперь вид
\[ H(\psi(t),x(t),u(t)) = M(\psi(t), x(t)) = -\psi_0 \geqslant 0. \]
Таким образом, мы получаем следующую теорему.
Теорема (Принцип максимума Понтрягина для нелинейной задачи быстродействия)
Пусть \(u(t), \; t_{0} \leqslant t \leqslant t_{1}\), – допустимое управление, переводящее фазовую точку из некоторого положения \(x_{0} \in S_{0}\) в положение \(x_{1} \in S_{1}\), а \(x(t)\) – соответствующая траектория. Для того, чтобы пара \(\{x(\cdot), u(\cdot)\}\) была оптимальной для задачи быстродействия, необходимо существование такой непрерывной и отличной от тождественного нуля вектор-функции \(\psi:\left[t_0,\;t_1\right] \rightarrow \mathbb{R}^{n}\), удовлетворяющей модифицированной сопряженной системе, что
- \( H(\psi, x, u) = M(\psi, x) = \text{const} \geqslant 0 \), при любом \(t \in \left[t_{0}, t_{1}\right]\);
- \( \psi(t_{0}) \perp T^0_{x_0}\) (Условие трансверсальности на левом конце);
- \( \psi(t_{1}) \perp T^1_{x_1}\) (Условие трансверсальности на правом конце).
Задача быстродействия в случае неавтономной системы с закрепленными концами
Рассмотрим задачу быстродействия в случае, когда функции \(f^i\) явно зависят от времени. Ограничимся рассмотрением задачи с закрепленными концами. Закон движения объекта принимает вид:
\[ \frac{dx^i}{dt} = f^i(x,u,t), \quad i = \overline{1, n}. \]
Для решения этой задачи введем еще одно вспомогательное неизвестное \( x^{n+1} \), изменяющееся по закону
\[ \frac{dx^{n+1}}{dt} = 1, \quad x^{n+1}(t_0)=t_0. \]
Очевидно, что мы будем иметь \(x^{n+1}(t)\equiv t\). С помощью неизвестного \(x^{n+1}\) основная система может быть записана в следующем автономном виде:
\[ \frac{dx^i}{dt} = f^i(x,u,x^{n+1}), i = \overline{1, n}, \] \[ \frac{dx^{n+1}}{dt}=1\equiv f^{n+1}(x, u, x^{n+1}). \]
При этом мы должны найти оптимальную по быстродействию траекторию, соединяющую точку \((x_0^1, \ldots, x_0^n, t_0)\) с некоторой точкой прямой \(S_1\), проходящей через точку \((x_1^1, \ldots, x_1^n, 0)\) параллельно оси \(x^{n+1}\). Таким образом, приходим к задаче с закрепленным левым концом и подвижным правым. Напишем принцип максимума и условие трансверсальности для этой новой задачи ОУ, обозначая соответствующую ей функцию Гамильтона-Понтрягина через \(H^*(\psi, \psi_{n+1}, x, x^{n+1}, u)\), а величину \( \sup_{u \in U} H^*(\psi, \psi_{n+1}, x, x^{n+1}, u)\) через \(M^*(\psi, \psi_{n+1}, x, x^{n+1})\) (здесь \(\psi=(\psi_1,\ldots,\psi_n)\), \(x=(x^1,\ldots,x^n)\)). Имеем:
\[ H^*(\psi, \psi_{n+1}, x, x^{n+1}, u) = \psi_1f^1(x, u, x^{n+1}) + \ldots + \psi_nf^n(x,u,x^{n+1}) + \psi_{n+1}\cdot 1, \] \[ M^*(\psi, \psi_{n+1}, x, x^{n+1}) = \sup_{u \in U} H^*(\psi, \psi_{n+1}, x, x^{n+1}, u). \]
Таким образом, учитывая соотношение \(x^{n+1}=t\), мы можем написать \(H^*=H+\psi_{n+1}, \; M^*=M+\psi_{n+1}\), и поэтому соотношение \( H^*=M^*=-\psi_0=\text{const}\geqslant 0 \), выполняющееся вдоль оптимальной траектории, принимает вид \( H=M=-\psi_0-\psi_{n+1}(t) \). Последнее выражение, вообще говоря, уже не является константным, и его знак неизвестен.
Наконец, условие трансверсальности в правом конце траектории показывает, что прямая \(S_1\) (параллельная оси \(x^{n+1}\)) ортогональна вектору \( \psi_1(t_1), \ldots, \psi_{n+1}(t_1) \). Иначе говоря, \( \psi_{n+1}(t_1) = 0 \). Вместе с соотношением \( \frac{d\psi_{n+1}}{dt} = -\sum_{i=0}^{n+1} \frac{\partial f^i}{\partial x^{n+1}} \psi_i = -\sum_{i=0}^{n} \frac{\partial f^i}{\partial t} \psi_i \), полученным из сопряженной системы, это даст
\[ M(\psi(t), x(t), t) = \int_{t_1}^{t} \sum_{i=0}^{n} \frac{\partial f^i (x(\tau), u(\tau), \tau)}{\partial \tau} \psi_i(\tau) d\tau -\psi_0 \geqslant \int_{t_1}^{t} \sum_{i=0}^{n} \frac{\partial f^i (x(\tau), u(\tau), \tau)}{\partial \tau} \psi_i(\tau) d\tau \]
Итак, получаем следующую теорему.
Теорема (Принцип максимума Понтрягина для нелинейной задачи быстродействия, случай неавтономной системы)
Пусть \(u(t), \; t_{0} \leqslant t \leqslant t_{1}\), – допустимое управление, переводящее фазовую точку из некоторого положения \(x_{0} \in S_{0}\) в положение \(x_{1} \in S_{1}\), а \(x(t)\) – соответствующая траектория. Для того, чтобы пара \(\{x(\cdot), u(\cdot)\}\) была оптимальной для задачи быстродействия с неавтономной системой и закрепленными концами, необходимо существование такой непрерывной и отличной от тождественного нуля вектор-функции \(\psi:\left[t_0,\;t_1\right] \rightarrow \mathbb{R}^{n}\), удовлетворяющей модифицированной сопряженной системе, что
- \( H(\psi, x, u) = M(\psi, x) \), при любом \(t \in \left[t_{0}, t_{1}\right]\);
- \( M(\psi(t), x(t), t) \geqslant \int_{t_1}^{t} \sum_{i=0}^{n} \frac{\partial f^i (x(\tau), u(\tau), \tau)}{\partial \tau} \psi_i(\tau) d\tau \).
(Здесь всюду \(x=x(t)=(x^1(t),\ldots,x^n(t))\), \(\psi=\psi(t)=(\psi_1(t),\ldots,\psi_n(t))\) ).
Оказывается далее, что разность между левой и правой частями соотношения 2 постоянна, так что проверку соотношения 2 достаточно произвести в момент времени \(t_1: M(\psi(t_1), x(t_1), t_1) \geqslant 0 \).
Список литературы
- Л.С. Понтрягин, В.Г. Болтянский, Р.В. Гамкрелидзе, Е.Ф. Мищенко. Математическая теория оптимальных процессов. МОСКВА «НАУКА». 1983.
- Ю.А. Комаров. Лекции по курсу "Оптимальное управление (линейные системы)"; лекции по курсу "Оптимальное управление (нелинейные системы)". 2020-2021.