Производная и теоремы о среднем

Производная функции

Мы уже познакомились с некоторыми интересными понятиями, я бы даже сказал свойствами функций, которые можно ввести благодаря понятию предела. А сейчас речь будет идти о наверно самом важном понятии анализа - производной от функции. Важном в том понимании, что производная это самый известный и очень полезный инструмент анализа поведения функций. Итак, что же такое производная, дадим определение производной функции в точке.

Пусть функция $f: X \to Y$ определена в $U_{\delta}(x_0)$. Тогда производна функции это

\[f^{'}(x_0) = \lim_{x \to x_0} \frac{f(x) - f(x_0)}{x - x_0} = \lim_{\Delta x \to 0} \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x}\]

По сути дела, производная функции в точке $x_0$ это мера того, как эта функция меняется в окрестности этой точки: мы берем значение функции в этой точке (поэтому нам важно, что бы функция была определена в этой точке, и рассматривавши киваем не проколотую окрестность) и значение этой функции в точке бесконечно близко к исходной $x_0 + \Delta x$ ($\Delta x \to 0$), а затем смотрим, как сильно эти значения отличаются в пределе - это и будет производная. В общем случае производная может быть бесконечной, в этом случае нам тяжело будет сказать о поведении этой функции в окрестности рассматриваемой точки. Я не буду описывать геометрический смысл производной, а лишь становлюсь на том, что существование не-вертикальной касательной к графику функции эквивалентно существованию производной.

Давайте теперь поговорим о понятии дифференцируемой функции.

Функция $f: X \to Y$ называется дифференцируемой в точке $x_0$ если приращение функции в окрестности этой точки представимо в виде линейного приращение ее аргумента, т.е.

\[f(x_0+\Delta x) - f(x_0) = \Delta f = A\cdot \Delta x + o(\Delta x),\]

причем, коэффициент $A$ не должен зависеть от $\Delta x$.

Это значит, что какая бы не была сложная функция (огромный пятиэтажный крокодил), если она дифференцируемая в точке, то изменение этой функции можно представить в линейном виде с неким коэффициентом, который в свою очередь не зависит от приращения аргумента. Т.е. В окрестности точки дифференцируемую функцию мы можем считать линейной по приращению и это потрясающе). Более того, оказывается, что коэффициент $A$ в точности равен производной и для дифференцируемой функции мы можем ввести понятие дифференциала:

Дифференциалом функции в точке называется линейная функция от $\Delta x$:

\[df(x_0, \Delta x) = df(x_0) = f^{'}(x_0)\Delta x.\]

Таким образом для дифференцируемой функции справедливо

\[\Delta f = f(x_0+\Delta x) - f(x_0) = df(x_0) +o(\Delta x).\]

Отлично, вы ввели понятие производной, дифференциала, связали эти понятия, но теперь возникает вопрос. Мы же можем брать приращение аргумента функции как слева так и справа от нашей точки. Как тогда в этом случае быть? В этом случае вводят понятие односторонней производной: $f^{‘}_{+-}(x_0)$ - это та-же самая производная, только приращение аргумента мы считаем либо слева, либо справа. Для связи односторонних производных есть простая и понятная теорема:

Производная $f^{‘}(x_0)$ существует тогда и только тогда, когда

\[f^{'}(x_0) = f^{'}_{+}(x_0) = f^{'}_{-}(x_0).\]

Также стоит отметить связь дифференцируемости и непрерывности функции в точке:

Если функция дифференцируема в точке $x_0$ то она и непрерывная в этой точке.

Обратное неверно, так как есть много примеров непрерывных функций в нуле, например модуль $x$, но производной не существует (односторонние производные разные).

Рассмотрим важную теорему о дифференцировании сложной функции:

Пусть функция $y = y(x)$ дифференцируемая в $x_0$, а функция $h = h(y)$ дифференцируемая в точке $y_0 = y(x_0)$, тогда функция $f(x) = h(y(x))$ дифференцируемая в точке $x_0$ и

\[f_{x}^{'} = h^{'}_{y}\cdot y^{'}_{x}.\]

Эта наверно одна из фундаментальных теорем, которая повсеместно используется (особенно в машинном обучении) и называется как chain rule. Рассмотрим на примере. Пусть задана функция $f(x) = cos(sin(x^2))$ и нужно найти производную. На данный момент (не забегая в перед) мы знаем единственный способ посчитать производную, а именно вычислить предел. Так давайте это и сделаем:

\[\lim_{\Delta x \to 0 }\frac{ cos\left(sin\left( (x + \Delta x)^2\right)\right) - cos\left(sin( (x)^2)\right)}{\Delta x} = ...\]

Как посчитать такой предел пока вообще не понятно. Хорошо, а если взглянуть на исходную функции со стороны сложной функции, тогда

\[y(x) = x^2 \\ g(y) = sin(y) \\ h(g) = cos(g)\\ f(x) = h(g(y))\]

И если применить теорему о сложной функции, то получаем:

\[y^{'}_{x} = 2x \\ g^{'}_{y} = cos(y)\\ h^{'}_{g} = -sin(g) \\ f^{'}_{x} = h^{'}_{g} \cdot g^{'}_{y} \cdot y^{'}_{x} = -sin(g) \cdot cos(y) \cdot 2x = \\ -sin\left(sin\left( (x)^2\right) \right) \cdot cos(x^2) \cdot 2x.\]

Вуаля! Мы спокойно посчитали производную такой непонятно функции (конечно же я упустил доказательства производных тригонометрических функций). Таким образом, теорема о дифференцировании сложной функции открывает большие горизонты.

На самом деле есть еще несколько теорем, такие как теорема о дифференцировании неявной функции и параметрической. Они несомненно полезны и много где используются, но я их пропущу. Эти теоремы можно легко найти в книжках. Сейчас я хочу рассмотреть другой вопрос. Вот у нас есть производная. Если она существует скажем на интервале $(a, b)$ то можно рассмотреть производную как уже новую функцию. А раз это функция, то можно посчитать ее производную (если существует). Таким образом появляются производные и дифференциалы высшего порядка:

\[f^{n+1}(x) = (f^n(x))^{'}(x) \\ d^nf = f^n(x)dx\]

Они определяются по индукции, при $n=1$ это классическая производная (дифференциал). Они важны для дальнейшего анализа функций. Дифференциал высшего порядка схож на обычный дифференциал, разве что для сложных функция не сохраняется его линейность: пусть $df = h^{‘}{y}\cdot y_x = h^{‘}{y}\cdot dy$, тогда

\[d^2f = d(df) = h^{''}_{yy}\cdot (dy)^2 + h^{'}_{y}\cdot d^2y\]

Видно, что линейность не сохраняется, так как дифференциал $dy$ рассматривается как функция.

Теоремы о среднем

Сейчас рассмотрим класс теорем, которые называются теоремы о среднем для функций. Это четыре интересных теоремы, которые которые могут рассказать о поведении функции на каком-то промежутке. Причем не обязательно знать формулу по которой задается функция, потребуется всего лишь несколько свойств.

Для начала рассмотрим понятие экстремума функции. Локальный экстремум это некая точка, где в ее окрестности все значения функции либо больше, либо меньше значения функции в точке. Более формальное определение (например минимума):

Пусть задана функция $f: X \to Y$, точка $x_0$ называется точкой локального минимума функции если

\[\exists \delta \ \forall x \in U_{\delta} (x_0) \to f(x) \geq f(x_0).\]

Точка локального максимума определяется аналогично. Если дельта окрестность будет проколотой, и неравенство строгое, то это будет точка строгого локального минимума. Стоит отметить, что это локальный минимум а не глобальный. Возможно есть другая точка и значение там меньше $f(x_0)$ но она за пределами дельта окрестности. Если точка $x_0$ - точка локального минимума (максимума), то ее называют точкой экстремума. Сейчас я рассматриваю только локальные экстремумы.

Первая теорема о среднем это теорема Ферма и она же необходимое условие локального экстремума. На этой теореме основаны решения большинства задач о поиске экстремумов функций.

Пусть $f(x)$ определена на $(a, b)$ и $x_0 \in (a,b)$ - точка локального экстремума. Тогда если функция дифференцируемая в $x_0$ то $f^{‘}(x_0) = 0$.

Это значит, что если функция определена на интервале (именно интервале, для отрезков это теорема не верна), и этот интервал содержит точку экстремума и в добавок если функция дифференцируемая в этой точке, то ее производная равна нулю в этой точке. Эта теорема связывает экстремумы и производную функции. Докажем ее. Точка $x_0$ лежит где-то на промежутке $(a, x_0] \cup [x_0, b)$ и является, для определенности, точкой локального минимума (максимум аналогично). Обозначим $\delta$ минимальный из интервалов $(a, x_0), (x_0, b)$ и рассмотрим поведение функции на интервале $(x_0 \pm \delta)$. Рассмотрим первый интервал $(x_0 - \delta, x_0)$. На этом интервале приращение аргумента функции $\Delta x = x - x_0$ меньше нуля. Так как $x_0$ точка локального минимума, то для всех $x$ из интервала $(x_0 - \delta, x_0)$ выполняется $f(x) - f(x_0) \geq 0$. Тогда рассмотрим левую производную:

\[f_{-}^{'} = \lim_{x \to x_0 -0} \frac{f(x) - f(x_0)}{x - x_0} \leq 0.\]

Она меньше нуля, так как приращение аргумента меньше нуля. Теперь рассмотрим другой интервал $(x_0, x_0 + \delta)$. На этом интервале приращение $\Delta x = x - x_0 >0$ (из большего вычетаем меньшее). Но, исходя из того же условия локального минимума на $(x_0, x_0 + \delta)$ выполняется $f(x) - f(x_0) \geq 0$ (все значения функции все так же больше значения в точке $x_0$). Таким образом

\[f_{+}^{'} = \lim_{x \to x_0 +0} \frac{f(x) - f(x_0)}{x - x_0} \geq 0.\]

Теперь возвращаемся к условию теоремы: если функция дифференцируемая в этой точке, то для нее левая и правая производная должны быть равны (см. выше), а это возможно лишь тогда, когда они обе равны нулю (левая меньше нуля, правая больше нуля, значит равны при нуле), отсюда вытекает, что сама производная равна нулю. Таким образом теорема доказана. Если потребовать, что бы функция была определена на отрезке, то теорема может быть неверной, например, $f(x) =x$ на $[0,1]$: производная не равна нулю а экстремум есть в нуле.

Рассмотрим следующую теорему о среднем, а именно теорему Ролля.

Пусть функция непрерывна на $[a,b]$ и дифференцируема на $(a, b)$. Тогда если $f(a) = f(b)$, то существует такая точка $\xi \in (a,b)$, такая что $f^{‘}(\xi) = 0$.

Теорема гласит, что если непрерывная и дифференцируемая функция на концах отрезка принимает одинаковые значения, то существует точка на этом отрезке, где касательная будет параллельна оси $x$. Эту теорему очень просто доказать используя теорему Ферма. И в самом деле, если функция непрерывная, то существует максимум и минимум на интервале: $M, m$. Если $M=m$, то функция постоянная и условия теоремы выполнены. Пусть они различны. Тогда либо $f(a) > m$, либо $f(a) < M$. Для определенности рассмотрим $f(a) > m$. Пусть этот минимум достигается в точке $\xi$, тогда для всех $x$ из некой окрестности этой точки выполнено, что $f(x) \geq m$. А это условие на экстремум и из дифференцирования функции на $(a,b)$ по теореме Ферма вытекает, что $f^{‘}(\xi)=0$. Заметим, что если не требовать непрерывность, то минимум функции (или максимум) может не существовать. Если не требовать дифференцируемость на всем интервале, то не сможем применить теорему Ферма.

Теперь перейдем к теореме Коши о среднем.

Пусть даны две функции $f, g$ непрерывные на $[a,b]$ и дифференцируемые на $(a,b)$. И пусть производная $g^{‘}(x) \ne 0$ для любого $x \in (a,b)$. Тогда существует такая точка $\xi \in (a,b)$, что

\[\frac{f^{'}(\xi)}{g^{'}(\xi)} = \frac{f(b) - f(a)}{g(b) - g(a)}.\]

Действительно, рассмотрим функцию $\phi(x) = f(x) - k\cdot g(x)$. Потребуем, что бы $\phi(a) = \phi(b)$, для этого надо, чтобы $f(a) - k \cdot g(a) = f(b) - k \cdot g(b)$, откуда следует, что $k = \frac{f(b) - f(b)}{g(b) - g(a)}$. С другой стороны, новая функция удовлетворяет теореме Ролля, поэтому $\exists \xi \to \phi^{‘}(\xi) =0$. Но это условие значит, что $f^{‘}(\xi) - k\cdot {g}^{‘}(\xi) = 0$. Поэтому $k = \frac{f^{‘}(\xi)}{g^{}(\xi)}$. Таким образом теорема доказана.

Ну и напоследок рассмотрим теорему Лагранжа о конечных приращениях.

Пусть функция $f$ непрерывна на $[a,b]$ и дифференцируема на $(a,b)$. Тогда

\[\exists \xi \in (a,b) \to f(b) - f(a) = f^{'}(\xi)(b-a).\]

Доказать это очень просто, применив теорему Коши о среднем для функций $f(x), g(x) =x$.

Что в итоге получается. Ввели понятие производной для функции. Рассмотрели пару ее свойств. А затем доказали несколько теорем, которые рассказывают нам о поведении функций и связи значений функций в различных точках со значением производной. Кроме того, мы можем судить об экстремумах функций и о связи экстремума и производной. Далее познакомимся с рядом Тейлора.