Задача оптимального управления "из точки в точку" с интегральным функционалом
Содержание
Постановка задачи оптимального управления
Пусть наша система описывается следующими условиями: \[ \begin{cases} \dot{x}(t) = f(x(t), u(t)), \\ x(t_0) = x^0, \\ x(t_1) = x^1, \\ u(\tau) \in \mathcal{P}(\tau) \in \text{conv}\, \mathbb{R}^m, \\ \mathcal{J}(x(\cdot), u(\cdot)) = \int\limits_{t_0}^{t_1} f^0(t, x, u)\,dt \stackrel{u(\cdot)}{\longrightarrow} \inf, & \text{ - минимизируемый функционал}.\\ \end{cases} \]
Здесь \(x(t)\) — вектор состояния \(u(t)\) — управление, \(t_0,t_1\) — начальный и конечный моменты времени, \(\mathcal{P}\) - множество допустимых управлений. Считаем, что \(x_0, x_1, t_0, t_1\) фиксированы.
Задача оптимального управления заключается в нахождении функций состояния \(x(t)\) и управления \(u(t) \in \mathcal{P}\) для времени \({t_{0}}\leq {t}\leq {t_{1}}\), которые минимизируют заданный функционал \(\mathcal{J}\).
Задача оптимального управления "из точки в точку" с интегральным функционалом - задача перевода системы из начального фиксированного положения \(x_0\) в конечное \(x_1\), также фиксированное, обеспечивающего минимум заданного интегрального функционала \(\mathcal{J}\).
При заданном управлении уравнение становится обычным дифференциальным уравнением относительно \(x\). Всякое его решение, соответствующее управлению \(u(\cdot)\), называется фазовой траекторией, а пара \((x(\cdot), u(\cdot))\), связанная с заданным уравнением, называется управляемым процессом.
Функция \(f^0\) называется интегралом. Предполагается, что функция \(f^0: \mathbb{R} \times \mathbb{R}^n \times \mathbb{R}^r \rightarrow \mathbb{R}\) непрерывна по совокупности переменных и непрерывно дифференцируема по \(x\). Более того, моменты времени \(t_0\) и \(t_1\) не предполагаются фиксированными, и все функции и отображения считаются непрерывно дифференцируемыми по времени.
При решении задач вводят дополнительную координату, вводящую функционал в общую систему. Таким образом, \(\bar{\psi} = (\psi_0, \psi_1, ..., \psi_n)\), \(\bar{f}= (f_0, f_1, ..., f_n)\), \(\bar{x} = (x_0, x_1, ..., x_n)\).
Функция Гамильтона-Понтрягина: \[ \bar{\mathcal{H}}(\bar{\psi}, \bar{x}, u) = \psi_0 f_0 + \langle \psi, f(x(t), u(t)) \rangle = \langle \bar{\psi}, \bar{f}(x(t), u(t)) \rangle. \]
Тогда можно говорить о сопряженной системе: \[ \dot{\bar{\psi}} = -\frac{\partial \bar{\mathcal{H}}}{\partial \bar{x}(t)}. \] Гамильтониан системы \(\bar{M}(\bar{\psi}, \bar{x}) = \underset{u\in \mathcal{P}}{\text{sup}} \bar{\mathcal{H}}(\bar{\psi}, \bar{x}, u).\)
Пример 1
При \(f^0(t, x, u) = 1\) минимизируемый функционал \begin{equation*} \mathcal{J}(x(\cdot), u(\cdot)) = \int\limits_{t_0}^{t_1} f^0(t, x, u)\,dt = \int\limits_{t_0}^{t_1} \,dt = t_1 - t_0. \end{equation*} Задача с таким функционалом называется задачей быстродействия "из точки в точку".
Пример 2
Интеграл функционала может представлять собой квадратичную форму координат объекта и управления. В ряде случаев функционал содержит еще и слагаемое, которое учитывает конечное состояние системы. Таким образом, квадратичный критерий записывается в виде \begin{equation*} \mathcal{J}(x(\cdot), u(\cdot)) = \int\limits_{t_0}^{t_1} (x^TQ(t)x + u^TR(t)u)\,dt + x^T(t_1)Fx(t_1), \end{equation*} где \(Q(t) \in \mathbb {R}^{n\times n}\), \(R(t) \in \mathbb {R}^{r\times r}\), \(F \in \mathbb {R}^{n\times n}\) - симметрические матрицы.
Принцип максимума Понтрягина
Теорема(ПМП для автономной задачи быстродействия)
Пусть \((x^*(\cdot), u^*(\cdot))\) \(~-\) оптимальная пара, \(\mathcal{H}\) \(~-\) функция Гамильтона–Понтрягина. Тогда существует \(\psi^*:[t_0, t_1] \rightarrow \mathbb{R}^n \), \(\psi^* \neq 0 \) такое, что:
1) Сопряженная система (СС): \[\dot{\bar{\psi}} = -\frac{\partial \bar{\mathcal{H}}(\bar{\psi}(t), \bar{x}(t), u(t))}{\partial \bar{x}(t)} \bigg|_{x=x^*(t) \\ u=u^*(t) \\ \psi = \psi^*(t)};\] 2) Условие максимума (УМ): \[\bar{\mathcal{H}}(\bar{\psi}^*(t), \bar{x}^*(t), u^*(t)) \stackrel{\textrm{п.в.}}{\in} \underset{u \in \cal{P}}{\text{sup}} \bar{\mathcal{H}}(\bar{\psi}^*, \bar{x}^*, u) = \bar{M}(\bar{\psi}^*, \bar{x}^*);\] 3) \[ M(\psi^*(t), x^*(t)) \equiv \text{const} \geqslant 0, \\ \psi_0^* = const \leqslant 0. \]
Условия трансверсальности опускаются, поскольку поставленная задача является задача "из точки в точку".
Доказательство принципа максимума Понтрягина можно найти в книге: Л.C. Понтрягин, В.Г. Болтянский, Р.В. Гамкрелидзе, Е.Ф. Мищенко. "Математическая теория оптимальных процессов". — М.: Наука, 1976 [1].
Замечания:
1. Сопряженная система \(~-\) линейная однородная система ОДУ;
2. \(\bar{\psi}^*\) определено с точностью до множителя на константу;
3. ПМП является необходимым условием, но не является достаточным.
Примеры задач
Пример 1
Решим следующую задачу оптимального управления: \[ \begin{cases} \dot{x}=u, \\ \mathcal{J} = \int\limits_0^{t_1} u^2(t)\, dt \rightarrow \text { min }, \\ u(t) \in [-1, 1], \\ x(0) = 0, x(t_1) = 1. \end{cases} \]
Решение:
Выпишем функцию Гамильтона понтрягина: \[ \overline{\mathcal{H}} = \psi_0u^2 + \psi_1u. \]
Сопряженная система имеет вид: \[ \begin{cases} \dot{\psi_0}=0, \\ \dot{\psi_1}=0. \end{cases} \]
По принципу максимума \(\psi_0 \leqslant 0 \), поэтому рассмотрим два случая:
1. \(\psi_0\) < 0 \(~-\) без ограничения общности будем считать, что \(psi_0 = -1\).
Тогда имеем, что \( (-u^2+\psi_1u)' = -2u + \psi_1 = 0 \Longrightarrow u = \frac{\psi_1}{2} \). Поскольку \(|u| \leqslant 1\), то при \(\psi_1 > 2\), \(u = 1\), а при \(\psi_1 < -2\), \(u = -1\). Подставим в исходную систему: \[ \begin{cases} \dot{x}_0=\frac{\psi_1^2}{4}, \\ \dot{x}_1=\frac{\psi_1}{2}, \\ \dot{\psi_0}=0, \\ \dot{\psi_1}=0, \\ x_0(0) = 0, \\ x_1(0) = 0, \\ x_0(t_1) = (\frac{\psi_1^0}{2})^2t_1, \\ x_1(t_1) = \frac{\psi_1^0t_1}{2}, \\ \psi_0 \equiv -1, \\ \psi_1 \equiv \psi_1^0. \end{cases} \]
Тогда: \[ \overline{\mathcal{H}} = -1\cdot(\frac{\psi_1^0}{2})^2 + \psi_1^0\cdot\frac{\psi_1^0}{2} = \frac{(\psi_1^0)^2}{4} = 0 \Longrightarrow \psi_1^0 = 0 \Longrightarrow x_1(t_1) = 0 \neq 1 \text{ (из условия)} ~- \text{ противоречие.} \] Таким образом, оптимального решения не существует.
Данный пример показывает, что ПМП \(~-\) необходимый, но не достаточный признак.
Пример 2
Решим следующую задачу оптимального управления: \[ \begin{cases} \dot{x}_1 = x_2, \\ \dot{x}_2 = -x_1+u, \\ x(0)=x^0, \\ \mathcal{J} = \frac{1}{2}\int\limits_0^t u^2(t)\, dt \rightarrow \text { min }. \end{cases} \] Решение Функция Гамильтона-Понтрягина равна \[ \overline{\mathcal{H}}=\frac{\psi_0}{2} u^2 + \psi_1 x_2-\psi_2 x_1+\psi_2 u. \]
Сопряженная система равна \[ \begin{cases} \dot{\psi}_0=0, \\ \dot{\psi}_1=\psi_2, \\ \dot{\psi}_2=-\psi_1. \end{cases} \]
Анормальный случай (\(\psi_0 = 0\)) можно опустить, поскольку он не даст решения. Тогда рассмотрим нормальный случай. Без ограничения общности положим, что \(\psi_0 = -1\): \[ u^*(t) = \psi_2(t) \Longrightarrow u^*(t) = \alpha\text{sin}(t+\beta), \, \alpha, \beta = const. \]
Подставляя в общую систему, имеем: \[ \begin{cases} \dot{x}_1 = x_2, \\ \dot{x}_2 = -x_1+\alpha \text{sin}(t+\beta). \end{cases} \]
Такая система имеет решение в явном виде: \[ \begin{cases} x_1(t)=-\frac{\alpha}{2} t \cos (t+\beta)+a \sin (t+b), \\ x_2(t)=\frac{\alpha}{2} t \sin (t+\beta)-\frac{\alpha}{2} \cos (t+\beta)+a \cos (t+b), \quad a, b \in \mathbb{R}. \end{cases} \]
Пример 3
Решим следующую задачу оптимального управления: \[ \begin{cases} \dot{x} = u, \\ \mathcal{J} = \int\limits_0^{t_1}(x^2(t) + u^2(t))\, dt \rightarrow \text { min }, \\ u(t) \in \mathbb{R}, \\ x(0) = 0, x(t_1) = 1, t_1 ~- \text{ фиксировано}. \end{cases} \]
Решение Функция Гамильтона-Понтрягина равна \[ \overline{\mathcal{H}}=\psi_0(x^2(t) + u^2(t)) + \psi_1 u. \]
Сопряженная система равна \[ \begin{cases} \dot{\psi}_0=0, \\ \dot{\psi}_1=-2\psi_0x. \end{cases} \]
\(\underline{Анормальный случай}(\psi_0 = 0)\): \[ \psi_0 = 0 \Longrightarrow \overline{\mathcal{H}} = 0 + \psi_1u = \psi_1u \] Из принципа максимума Понтрягина \((\psi_0, \psi_1) \neq 0 \Longrightarrow \psi_1 \neq 0\), а значит sup в условии максимума(УМ) не достигается.
\(\underline{Нормальный случай}(\psi_0 \neq 0)\):
Пусть \(\psi_0 = -\frac{1}{2} \). Тогда:
\[
\overline{\mathcal{H}}=-\frac{1}{2}(x^2(t) + u^2(t)) + \psi_1 u \Longrightarrow (-\frac{1}{2}(x^2(t) + u^2(t)) + \psi_1 u)' = 0 \Longrightarrow u = \psi_1.
\]
Система имеет следующий вид: \[ \begin{cases} \dot{x} = \psi_1, \, x(0) = 0, \\ \dot{\psi}_1 = x, \, \psi_1(0) = \psi_1^0. \end{cases} \]
Решив эту систему дифференциальных уравнений, получим, что: \[ \begin{cases} x = \psi_1^0\cdot\text{ sh}(t),\\ \psi_1 = \psi_1^0\cdot\text{ ch}(t). \end{cases} \]
Из начальных условий найдем \(\psi_1^0\): \[ x(t_1) = \psi_1^0\cdot\text{ sh}(t_1) = 1 \Longrightarrow \psi_1^0 = \frac{1}{\text{ sh}(t_1)}. \] Тогда: \[ \psi_1(t) = \frac{1}{\text{ sh}(t_1)}\cdot\text{ ch}(t) = \frac{\text{ ch}(t)}{\text{ sh}(t_1)} = u^*(t). \]
Список литературы
- Л.C. Понтрягин, В.Г. Болтянский, Р.В. Гамкрелидзе, Е.Ф. Мищенко. "Математическая теория оптимальных процессов". — М.: Наука, 1976,
- А.А. Аграчев, Ю.Л. Сачков. "Геометрическая теория управления". Москва, Физматлит, 2005