Aerospace Kim

[미분의 정의부터 연쇄법칙까지] ch.6 연쇄법칙

이전 읽을거리:

[미분의 정의부터 연쇄법칙까지] ch.0 미분이란?

[미분의 정의부터 연쇄법칙까지] ch.1 일변수 미분

[미분의 정의부터 연쇄법칙까지] ch.2 다변수 미분

[미분의 정의부터 연쇄법칙까지] ch.3 벡터장

[미분의 정의부터 연쇄법칙까지] ch.4 곡선

[미분의 정의부터 연쇄법칙까지] ch.5 미분 연산자의 성질


  본 포스팅은 PC chrome 환경에 최적화되어있습니다.

 

  본 포스팅에서는 미분의 의미부터 연쇄법칙의 유도까지 아주 상세하게 설명한다. 연쇄법칙의 원리를 아는 것의 가치는 태평양을 표류할 때의 나침반의 가치와 같다. 천천히, 꼼꼼하게 내용을 공부한다면, 연쇄법칙의 겉모양만 보고 기계적으로 연산하는 당신에게 커다란 통찰을 안겨줄 것이다. 이해가 안되거나 설명이 잘못되었다고 생각이 드는 부분이 있다면 얼마든지 댓글로 질문을 남겨주시기를 부탁드린다.

 

  ※ 내용이 많아서 수식 프로그램의 로딩이 다소 오래걸릴 수 있습니다.

 

 

6. 연쇄법칙 (chain rule)

 

  연쇄법칙을 알아보기 전에, 다음을 정리하자.

 

정리 6-1)  열린 영역 $U\subset\mathbb{R}$에서 정의된 미분 가능한 일변수함수 $f:U\to\mathbb{R}$은 다음 항등식을 만족한다.
$$\lim_{t\to 0}\frac{f(x+t)-f(x)-Df(x)t}{t}=0\quad\forall x\in U$$
따름정리 6-2)
$$\begin{align}f(x+t)&=f(x)+Df(x)t+o(t)\\ \iff f(p)&=f(x)+Df(x)(p-x)+o(p-x)\end{align}$$

 

정리 6-3)  열린 영역 $U\subset\mathbb{R^n}$에서 정의된 미분 가능한 다변수함수 $f:U\to\mathbb{R}$은 다음 항등식을 만족한다.
$$\begin{align}&\lim_{\vec{v}\to \vec{0}}\frac{f(X+\vec{v})-f(X)-Df(X)\vec{v}}{\left|\vec{v}\right|}=0\quad\forall X\in U\\ \iff&\lim_{\vec{v}\to \vec{0}}\frac{f(X+\vec{v})-f(X)-\nabla f(X)\cdot\vec{v}}{\left|\vec{v}\right|}=0\end{align}$$
따름정리 6-4)
$$\begin{split}f(X+\vec{v})&=f(X)+Df(X)\vec{v}+o(\left|\vec{v}\right|)\\&=f(X)+\nabla f(X)\cdot\vec{v}+o(\left|\vec{v}\right|)\\ \iff f(P)&=f(X)+Df(X)(P-X)+o(\left|P-X\right|)\\&=f(X)+\nabla f(X)\cdot(P-X)+o(\left|P-X\right|)\end{split}$$

 

정리 6-5)  열린 영역 $U\subset\mathbb{R^m}$에서 정의된 미분 가능한 벡터장 $F:U\to\mathbb{R^n}$은 다음 항등식을 만족한다.
$$\lim_{\vec{v}\to \vec{0}}\frac{\left|F(X+\vec{v})-F(X)-DF(X)\vec{v}\right|}{\left|\vec{v}\right|}=0\quad\forall X\in U$$
따름정리 6-6)
$$\begin{split}F(X+\vec{v})&=F(X)+DF(X)\vec{v}+o(\left|\vec{v}\right|)\\ \iff F(P)&=F(X)+DF(X)(P-X)+o(\left|P-X\right|)\end{split}$$

 

정리 6-7)  열린 영역 $U\subset\mathbb{R}$에서 정의된 미분 가능한 곡선 $X:U\to\mathbb{R^n}$은 다음 항등식을 만족한다.
$$\lim_{\Delta t\to 0}\frac{\left|X(t+\Delta t)-X(t)-DX(t)\Delta t\right|}{t}=0\quad\forall t\in U$$
따름정리 6-8)
$$\begin{split}X(t+\Delta t)&=X(t)+DX(t)\Delta t+o(t)\\ \iff X(p)&=X(t)+DX(t)(p-t)+o(p-t)\end{split}$$

 

정리 6-9)
$$f(t)=o(\left|g(t)\right|)\implies o(\left|f(t)+g(t)\right|)=o(\left|g(t)\right|)$$

 

  정리 6-9을 보면, 좌변은 함수 $f$는 함수 $g$보다 빠르게 감소하는 함수임을 말한다. 즉, 함수 $g$가 함수 $f$보다 느리게 감소하는 함수이다. 따라서 우변이 말하고자 하는 것은 '{빠르게 감소하는 어떤 함수 + 느리게 감소하는 어떤 함수} 보다 빠르게 감소하는 함수는 느리게 감소하는 그 어떤 함수보다 빠르게 감소한다'는 것이다. 자명한 사실이지만, 다음과 같이 증명할 수 있다.

 

proof)

$$\begin{align}\lim_{t\to 0}\frac{\left|o(\left|o(\left|g(t)\right|)+g(t)\right|)\right|}{\left|g(t)\right|}&=\lim_{t\to 0}\frac{\left|o(\left|o(\left|g(t)\right|)+g(t)\right|)\right|}{\left|o(\left|g(t)\right|)+g(t)\right|}\frac{\left|o(\left|g(t)\right|)+g(t)\right|}{\left|g(t)\right|}\\&=\left\{\lim_{t\to 0}\frac{\left|o(\left|o(\left|g(t)\right|)+g(t)\right|)\right|}{\left|o(\left|g(t)\right|)+g(t)\right|}\right\}\left\{\lim_{t\to 0}\frac{\left|o(\left|g(t)\right|)+g(t)\right|}{\left|g(t)\right|}\right\}\tag{6-1}\end{align}$$

  삼각부등식(triangle inequality)에 의해, 다음이 성립한다.

$$0\le\left|o(\left|g(t)\right|)+g(t)\right|\le\left|o(\left|g(t)\right|)\right|+\left|g(t)\right|\tag{6-2}$$

  식 (6-2)를 0이 아닌 값 $\left|g(t)\right|$로 나누고 극한을 취하면 다음과 같다.

$$0\le \lim_{t\to 0}\frac{\left|o(\left|g(t)\right|)+g(t)\right|}{\left|g(t)\right|}\le \lim_{t\to 0}\frac{\left|o(\left|g(t)\right|)\right|+\left|g(t)\right|}{\left|g(t)\right|}=1\tag{6-3}$$

$$\begin{align}\implies 0&\le\left\{\lim_{t\to 0}\frac{\left|o(\left|o(\left|g(t)\right|)+g(t)\right|)\right|}{\left|o(\left|g(t)\right|)+g(t)\right|}\right\}\left\{\lim_{t\to 0}\frac{\left|o(\left|g(t)\right|)+g(t)\right|}{\left|g(t)\right|}\right\}\\&\le\left\{\lim_{t\to 0}\frac{\left|o(\left|o(\left|g(t)\right|)+g(t)\right|)\right|}{\left|o(\left|g(t)\right|)+g(t)\right|}\right\}1=0\end{align}$$

$$\therefore\lim_{t\to 0}\frac{\left|o(\left|o(\left|g(t)\right|)+g(t)\right|)\right|}{\left|g(t)\right|}=0\tag*{$\square$}$$

 

 

6.0. 합성함수

 

  함수의 합성이란 어떤 함수의 결과값을 다른 함수의 입력값으로 사용하여 두 함수가 묶인 새로운 함수를 만들어 내는 것을 말한다. 수학적으로 설명하면 다음과 같다.

 

정의)  임의의 집합 $U,\;V,\;W$ 및 두 함수$$f:U\to V,\quad g:V\to W$$  가 주어졌다고 하자. 그렇다면 두 함수의 합성 $g\circ f$는 다음과 같은 함수이다.
$$g\circ f:U\to W,\;x\mapsto g(f(x))$$

 

  단, 함수의 합성 $g\circ f$가 정의되려면, $f$의 공역이 $g$의 정의역에 포함되어야 한다. 이해를 돕기 위해서, 아래의 예시를 보자.

 


예시 1)

$$f(x)=\sin x,\quad g(x)=x^2$$

  다음의 합성함수가 정의된다.

$$f\circ g)(x)=f(g(x))=f(x^2)=\sin(x^2)$$

  다음의 합성함수도 정의된다.

$$(g\circ f)(x)=g(f(x))=g(\sin x)=(\sin x)^2$$

 

예시 2)

$$f(x,y)=x^2+y^2,\quad g(x)=\sqrt{x}$$

  다음의 합성함수가 정의된다.

$$(g\circ f)(x,y)=g(f(x,y))=g(x^2+y^2)=\sqrt{x^2+y^2}$$

  다음의 합성함수는 정의되지 않는다.

$$(f\circ g)(x)$$

  $g$의 공역(결과값)은 1차원인데 반해, $f$의 정의역(입력값)은 2차원이다. 따라서 $f$는 $g$의 결과값을 입력받을 수 없으므로 합성함수 $(f\circ g)(x)$가 정의되지 않음을 알 수 있다.

 

예시 3)

$$f(x,y)=2x+y,\quad X(t)=(t,t^2)$$

  다음의 합성함수가 정의된다.

$$(f\circ X)(t)=f(X(t))=f(t,t^2)=2t+t^2$$

  다음의 합성함수도 정의된다.

$$(X\circ f)(x,y)=X(f(x,y))=X(2x+y)=(2x+y,4x^2+4xy+y^2)$$


 

  위의 예시들에서 합성함수 $f\circ g$의 정의역은 $g$의 정의역이고, 공역은 $f$의 공역임을 체감할 수 있다.

 

 

6.1. 일변수함수의 연쇄법칙

 

정리 6.1-1)  열린 영역 $V\subset\mathbb{R}$에서 정의된 미분 가능한 함수 $f:V\to\mathbb{R}$과 열린 영역 $U\subset\mathbb{R}$에서 정의된 미분 가능한 함수 $g:U\to V$에 대하여 다음이 성립한다.
$$D(f\circ g)(x)=Df(g(x))Dg(x)\quad\forall x\in U$$

 

  ※ 위의 식에서 $Df(g(x))$는 함수 $f(t)$의 도함수 $Df(t)$에 $t=g(x)$를 대입한 것으로 간주한다. 즉, 다음과 같이 이해하면 된다.

$$Df(g(x))\iff\left.\frac{d}{dt}\right|_{g(x)}f(t)$$

 

정리 6.1-1의 증명은 두 가지 방법이 있다.

 

proof 1)

$$\begin{align}D(f\circ g)(x)&=\lim_{t\to 0}\frac{(f\circ g)(x+t)-(f\circ g)(x)}{t}\\&=\lim_{t\to 0}\frac{f(g(x+t))-f(g(x))}{t}\\&=\lim_{t\to 0}\frac{f(g(x+t))-f(g(x))}{g(x+t)-g(x)}\frac{g(x+t)-g(x)}{t}\\&=\left\{\lim_{g(\tau)\to g(x)}\frac{f(g(\tau))-f(g(x))}{g(\tau)-g(x)}\right\}\left\{\lim_{t\to 0}\frac{g(x+t)-g(x)}{t}\right\}\\&=Df(g(x))Dg(x)\tag*{$\square$}\end{align}$$

 

proof 2)

  함수 $(f\circ g)$는 정의역이 1차원, 공역이 1차원이므로 일변수함수이다. 따라서 정리 6-1을 적용할 수 있다.

$$\begin{align}0&=\lim_{t\to 0}\frac{(f\circ g)(x+t)-(f\circ g)(x)-D(f\circ g)(x)t}{t}\\&=\lim_{t\to 0}\frac{f(g(x+t))-f(g(x))-D(f\circ g)(x)t}{t}\tag{6.1-1}\end{align}$$

  따름정리 6-2에 의하여, 다음과 같다.

$$f(g(x+t))-f(g(x))=Df(g(x))\Bigl(g(x+t)-g(x)\Bigr)+o(g(x+t)-g(x))\tag{6.1-2}$$

  또한, 식 (6.1-2)의 $g(x+t)-g(x)$는 다시 따름정리 6-2에 의하여 다음과 같다.

$$g(x+t)-g(x)=Dg(x)t+o(t)$$

  따라서 식 (6.1-2)를 다시 정리하면 다음과 같다.

$$\begin{align}f(g(x+t))-f(g(x))&=Df(g(x))\Bigl(Dg(x)t+o(t)\Bigr)+o(Dg(x)t+o(t))\\&=Df(g(x))Dg(x)t+Df(g(x))to(t)+o(Dg(x)t+o(t))\tag{6.1-3}\end{align}$$

  식 (6.1-3)에서 $Df(g(x))t$는 연속함수이므로 유한한 값이다. 따라서 $Df(g(x))to(t)=o(t)$이다. 또한 정리 6-9에 의해 $o(Dg(x)t+o(t))=o(Dg(x)t)$이고, $o(Dg(x)t)=o(t)$이다. 따라서 식 (6.1-3)은 다음과 같다.

$$f(g(x+t))-f(g(x))=Df(g(x))Dg(x)t+o(t)\tag{6.1-4}$$

  식 (6.1-4)를 식 (6.1-1)에 대입하면 다음과 같다.

$$\begin{align}&\lim_{t\to 0}\frac{Df(g(x))Dg(x)t+o(t)-D(f\circ g)(x)t}{t}=0\\ \implies&\lim_{t\to 0}\frac{Df(g(x))Dg(x)t}{t}=\lim_{t\to 0}\frac{D(f\circ g)(x)t}{t}\end{align}$$

  따라서 $Df(g(x))Dg(x)=D(f\circ g)(x)$임을 안다.   $\square$

 

  두 번째 증명 방법이 첫 번째 증명 방법보다 더 길고 복잡해 보일 수 있다. 그러나 직접 손으로 해보면 그렇게 길지도 않을 뿐더러, 증명 논리의 확장성이 좋기때문에 잘 기억해두면 다른 증명에서도 똑같이 써먹을 수 있다.

 

  정리 6.1-1은 다음과 같이도 쓸 수 있다.

$$\frac{df}{dx}(g(x))=\frac{df}{dg}(g(x))\frac{dg}{dx}(x)$$

$$\frac{df}{dx}=\frac{df}{dg}\frac{dg}{dx}\tag{6.1-5}$$

  $Df(g(x))$를 $\frac{df}{dg}$라고 쓰는 것이 정당한 이유는, 함수 $f$의 입력값으로 함수 $g$의 결과값이 들어왔으므로, 함수 $g$의 역할은 $f$의 입장에선 입력값에 불과하기 때문이다. 함수 $g$의 결과값이 $f$의 입력'변수' $g$의 값이므로, 입력값 $g$의 변화에 따른 결과값 $f$의 변화를 일컫는 것이다.

 

  정리 6.1-1이 잘 맞는지 보기 위해 다음의 예시를 보자.

 


  다음의 함수를 고려하자.

$$\mathrm{for}\;f(x)=x^2,\;g(x)=1+3x$$

  합성함수를 먼저 도출한 뒤 한꺼번에 미분하면 다음과 같다.

$$\begin{align}\frac{d}{dx}(f\circ g)(x)&=\frac{d}{dx}(1+3x)^2\\&=\frac{d}{dx}(1+6x+9x^2)\\&=6+18x\end{align}$$

  연쇄법칙을 이용하면 다음과 같다.

$$\begin{align}\frac{d}{dx}(f\circ g)(x)&=\frac{df}{dg}(g(x))\frac{dg}{dx}(x)\\&=\left\{2g(x)\right\}\left\{3\right\}\\&=\left\{2(1+3x)\right\}\left\{3\right\}\\&=6+18x\end{align}$$

  결과가 일치하는 것을 볼 수 있다.


 

  식 (6.1-5)를 보자. 마치 공식의 구조가 분모와 분자가 연결되어 결속되어있는 느낌이 든다. (아직 느낌이 오지 않는다면 조금만 더 기다려보자) 따라서 이 공식을 chain rule, 번역으로는 연쇄법칙 이라고 부른다.

 

★ 정리 6.1-2)  열린 영역 $V\subset\mathbb{R^n}$에서 정의된 미분 가능한 함수 $f:V\to\mathbb{R}$과 열린 영역 $U\subset\mathbb{R}$에서 정의된 미분 가능한 곡선 $X:U\to V$에 대하여 다음이 성립한다.
$$D(f\circ X)(t)=Df(X(t))DX(t)\quad\forall t\in U$$

★ 따름정리 6.1-3)
$$D(f\circ X)(t)=\nabla f(X(t))\cdot DX(t)\quad\forall t\in U$$

 

  정리 6.1-2은 '다변수함수(곡선(t))' 꼴에 대한 연쇄법칙이다.

 

proof)

  함수 $(f\circ X)$는 정의역이 1차원, 공역이 1차원이므로 일변수함수이다. 따라서 정리 6-1을 적용할 수 있다.
$$\begin{align}0&=\lim_{\Delta t\to 0}\frac{(f\circ X)(t+\Delta t)-(f\circ X)(t)-D(f\circ X)(t)\Delta t}{\Delta t}\\&=\lim_{\Delta t\to 0}\frac{f(X(t+\Delta t))-f(X(t))-D(f\circ X)(t)\Delta t}{\Delta t}\tag{6.1-6}\end{align}$$
  따름정리 6-4에 의하여, 다음과 같다.
$$f(X(t+\Delta t))-f(X(t))=Df(X(t))\Bigl(X(t+\Delta t)-X(t)\Bigr)+o(\left|X(t+\Delta t)-X(t)\right|)\tag{6.1-7}$$
  또한, 식 (6.1-7)의 $X(t+\Delta t)-X(t)$는 따름정리 6-8에 의하여 다음과 같다.
$$X(t+\Delta t)-X(t)=DX(t)\Delta t+o(\Delta t)$$
  따라서 식 (6.1-7)를 다시 정리하면 다음과 같다.
$$\begin{align}f(X(t+\Delta t))-f(X(t))&=Df(X(t))\Bigl(DX(t)\Delta t+o(\Delta t)\Bigr)+o(\left|DX(t)\Delta t+o(\Delta t)\right|)\\&=Df(X(t))DX(t)\Delta t+Df(X(t))\Delta to(\Delta t)+o(\left|DX(t)\Delta t+o(\Delta t)\right|)\tag{6.1-8}\end{align}$$
  식 (6.1-8)에서 $Df(X(t))\Delta t$는 연속함수이므로 유한한 값이다. 따라서 $Df(X(t))\Delta to(\Delta t)=o(\Delta t)$이다. 또한 정리 6-9에 의해 $o(\left|DX(t)\Delta t+o(\Delta t)\right|)=o(\left|DX(t)\Delta t\right|)$이고, $o(\left|DX(t)\Delta t\right|)=o(\Delta t)$이다. 따라서 식 (6.1-8)은 다음과 같다.
$$f(X(t+\Delta t))-f(X(t))=Df(X(t))DX(t)\Delta t+o(\Delta t)\tag{6.1-9}$$
  식 (6.1-9)를 식 (6.1-6)에 대입하면 다음과 같다.
$$\begin{align}&\lim_{\Delta t\to 0}\frac{Df(X(t))DX(t)\Delta t+o(\Delta t)-D(f\circ X)(t)\Delta t}{\Delta t}=0\\ \implies&\lim_{\Delta t\to 0}\frac{Df(X(t))DX(t)\Delta t}{\Delta t}=\lim_{\Delta t\to 0}\frac{D(f\circ X)(t)\Delta t}{\Delta t}\end{align}$$
  따라서 $Df(X(t))DX(t)=D(f\circ X)(t)$임을 안다. 또한 다음과 같이 기울기벡터를 이용하여 기술할 수 있음을 안다.

$$\begin{align}D(f\circ X)(t)&=Df(X(t))DX(t)\\&=\Bigl(Df(X(t))\Bigr)^T\cdot DX(t)\\&=\nabla Df(X(t))\cdot DX(t)\tag*{$\square$}\end{align}$$

  따름정리 6.1-3을 성분으로 표현하면 다음과 같다.

$$\mathrm{for}\;X(t)=\Bigl(x_1(t),\ldots,x_n(t)\Bigr)$$

$$\begin{align}D(f\circ X)(t)&=\Bigl(D_1f(X(t)),\ldots,D_nf(X(t))\Bigr)\cdot\Bigl(Dx_1(t),\ldots,Dx_n(t)\Bigr)\\&=D_1f(X(t))Dx_1(t)+\cdots+D_nf(X(t))Dx_n(t)\end{align}$$

  이는 다음과 같이도 쓸 수 있다.

$$\frac{df}{dx}(X(t))=\frac{\partial f}{\partial x_1}(X(t))\frac{dx_1}{dt}(t)+\cdots+\frac{\partial f}{\partial x_n}(X(t))\frac{dx_n}{dt}(t)$$

$$\frac{df}{dx}=\frac{\partial f}{\partial x_1}\frac{dx_1}{dt}+\cdots+\frac{\partial f}{\partial x_n}\frac{dx_n}{dt}$$

  이렇게 써보면 이러한 공식을 연쇄법칙이라고 부르는 이유가 정말 잘 느껴진다.

 

 

6.2 다변수함수의 연쇄법칙

 

정리 6.2-1)  열린 영역 $V\subset\mathbb{R}$에서 정의된 미분 가능한 함수 $f:V\to\mathbb{R}$과 열린 영역 $U\subset\mathbb{R^n}$에서 정의된 미분 가능한 함수 $g:U\to V$에 대하여 다음이 성립한다.
$$D(f\circ g)(X)=Df(g(X))Dg(X)\quad\forall X\in U$$
따름정리 6.2-2)
$$\nabla(f\circ g)(X)=Df(g(X))\nabla g(X)\quad\forall X\in U$$

 

  정리 6.2-1은 '일변수함수(다변수함수(X))' 꼴에 대한 연쇄법칙이다.

 

proof)

  함수 $(f\circ g)$는 정의역이 n차원, 공역이 1차원이므로 다변수함수이다. 따라서 정리 6-3을 적용할 수 있다.
$$\begin{align}0&=\lim_{\vec{v}\to \vec{0}}\frac{(f\circ g)(X+\vec{v})-(f\circ g)(X)-D(f\circ g)(X)\vec{v}}{\left|\vec{v}\right|}\\&=\lim_{\vec{v}\to \vec{0}}\frac{f(g(X+\vec{v}))-f(g(X))-D(f\circ g)(x)\vec{v}}{\left|\vec{v}\right|}\tag{6.2-1}\end{align}$$
  따름정리 6-2에 의하여, 다음과 같다.
$$f(g(X+\vec{v}))-f(g(X))=Df(g(X))\Bigl(g(X+\vec{v})-g(X)\Bigr)+o(g(X+\vec{v})-g(X))\tag{6.2-2}$$
  또한, 식 (6.2-2)의 $g(X+\vec{v})-g(X)$는 따름정리 6-4에 의하여 다음과 같다.
$$g(X+\vec{v})-g(X)=Dg(x)\vec{v}+o(\left|\vec{v}\right|)$$
  따라서 식 (6.2-2)를 다시 정리하면 다음과 같다.
$$\begin{align}f(g(X+\vec{v}))-f(g(X))&=Df(g(X))\Bigl(Dg(X)\vec{v}+o(\left|\vec{v}\right|)\Bigr)+o(\left|Dg(X)\vec{v}+o(\left|\vec{v}\right|)\right|)\\&=Df(g(X))Dg(X)\vec{v}+Df(g(X))\vec{v}o(\left|\vec{v}\right|)+o(\left|Dg(X)\vec{v}+o(\left|\vec{v}\right|)\right|)\tag{6.2-3}\end{align}$$
  식 (6.2-3)에서 $Df(g(X))\vec{v}$는 연속함수이므로 유한한 값이다. 따라서 $Df(g(X))\vec{v}o(\left|\vec{v}\right|)=o(\left|\vec{v}\right|)$이다. 또한 정리 6-9에 의해 $o(\left|Dg(X)\vec{v}+o(\left|\vec{v}\right|)\right|)=o(\left|Dg(X)\vec{v}\right|)$이고, $o(\left|Dg(X)\vec{v}\right|)=o(\left|\vec{v}\right|)$이다. 따라서 식 (6.2-3)은 다음과 같다.
$$f(g(X+\vec{v}))-f(g(X))=Df(g(X))Dg(X)\vec{v}+o(\left|\vec{v}\right|)\tag{6.2-4}$$
  식 (6.2-4)를 식 (6.2-1)에 대입하면 다음과 같다.
$$\begin{align}&\lim_{\vec{v}\to \vec{0}}\frac{Df(g(X))Dg(X)\vec{v}+o(\left|\vec{v}\right|)-D(f\circ g)(X)\vec{v}}{\left|\vec{v}\right|}=0\\ \implies&\lim_{\vec{v}\to \vec{0}}\frac{Df(g(X))Dg(X)\vec{v}}{\left|\vec{v}\right|}=\lim_{\vec{v}\to \vec{0}}\frac{D(f\circ g)(X)\vec{v}}{\left|\vec{v}\right|}\end{align}$$
  따라서 $Df(g(X))Dg(X)=D(f\circ g)(X)$임을 안다. 또한 기울기벡터는 다변수함수의 도함수 행렬의 전치이므로 다음과 같다.

$$\begin{align}\nabla(f\circ g)(X)&=\Bigl(D(f\circ g)(X)\Bigr)^T\\&=\Bigl(Df(g(X))Dg(X)\Bigr)^T\\&=Df(g(X))\Bigl(Dg(X)\Bigr)^T\\&=Df(g(X))\nabla g(X)\tag*{$\square$}\end{align}$$

 

  따름정리 6.2-2를 행렬로 표현하면 다음과 같다.

$$\mathrm{for}\;X=(x_1,\ldots,x_n)$$

$$\begin{align}\begin{pmatrix}D_1(f\circ g)(X)\\ \vdots\\D_n(f\circ g)(X)\end{pmatrix}&=Df(g(X))\begin{pmatrix}D_1g(X)\\ \vdots\\D_ng(X)\end{pmatrix}\\&=\begin{pmatrix}Df(g(X))D_1g(X)\\ \vdots\\ Df(g(X))D_ng(X)\end{pmatrix}\end{align}$$

  행렬(열벡터)의 성분 하나에 대한 항등식은 다음과 같다.

$$D_k(f\circ g)(X)=Df(g(X))D_kg(X)$$

  이는 다음과 같이도 쓸 수 있다.

$$\frac{\partial f}{\partial x_k}(g(X))=\frac{df}{dg}(g(X))\frac{\partial g}{\partial x_k}(X)$$

$$\frac{\partial f}{\partial x_k}=\frac{df}{dg}\frac{\partial g}{\partial x_k}$$

  정리 6.2-2가 잘 맞는지 보기 위해 다음의 예시를 보자

 


  다음의 함수를 고려하자.

$$\mathrm{for}\;f(x)=x^2,\;g(x,y)=3x+5y$$

  합성함수를 먼저 도출한 뒤, 한꺼번에 미분하면 다음과 같다.

$$\begin{align}f(g(x,y))&=f(3x+5y)=(3x+5y)^2\\&=9x^2+30xy+25y^2\end{align}$$

$$\begin{align}\nabla(f\circ g)(x,y)&=\left(\frac{\partial f}{\partial x}(x,y),\frac{\partial f}{\partial y}(x,y)\right)\\&=(18x+30y,30x+50y)\end{align}$$

  연쇄법칙을 이용하면 다음과 같다.

$$\begin{align}\nabla(f\circ g)(x,y)&=\frac{df}{dg}(g(x,y))\nabla g(x,y)\\&=\left\{2(3x+5y)\right\}(3,5)\\&=(18x+30y,30x+50y)\end{align}$$

  결과가 일치하는 것을 볼 수 있다.


 

★ 정리 6.2-3)  열린 영역 $V\subset\mathbb{R^n}$에서 정의된 미분 가능한 함수 $f:V\to\mathbb{R}$과 열린 영역 $U\subset\mathbb{R^m}$에서 정의된 미분 가능한 함수 $G:U\to V$에 대하여 다음이 성립한다.
  $$D(f\circ G)(X)=Df(G(X))DG(X)\quad\forall X\in U$$
★ 따름정리 6.2-4)
$$\nabla(f\circ G)(X)=\Bigl(DG(X)\Bigr)^T\nabla f(G(X))\quad\forall X\in U$$

 

  정리 6.2-3은 '다변수함수(벡터장(X))' 꼴에 대한 연쇄법칙이다.

 

proof)

  함수 $(f\circ G)$는 정의역이 n차원, 공역이 1차원이므로 다변수함수이다. 따라서 정리 6-3을 적용할 수 있다.
$$\begin{align}0&=\lim_{\vec{v}\to \vec{0}}\frac{(f\circ G)(X+\vec{v})-(f\circ G)(X)-D(f\circ G)(X)\vec{v}}{\left|\vec{v}\right|}\\&=\lim_{\vec{v}\to \vec{0}}\frac{f(G(X+\vec{v}))-f(G(X))-D(f\circ G)(x)\vec{v}}{\left|\vec{v}\right|}\tag{6.2-5}\end{align}$$
  따름정리 6-4에 의하여, 다음과 같다.
$$f(G(X+\vec{v}))-f(G(X))=Df(G(X))\Bigl(G(X+\vec{v})-G(X)\Bigr)+o(\left|G(X+\vec{v})-G(X)\right|)\tag{6.2-6}$$
  또한, 식 (6.2-6)의 $G(X+\vec{v})-G(X)$는 따름정리 6-6에 의하여 다음과 같다.
$$G(X+\vec{v})-G(X)=DG(x)\vec{v}+o(\left|\vec{v}\right|)$$
  따라서 식 (6.2-6)를 다시 정리하면 다음과 같다.
$$\begin{align}f(G(X+\vec{v}))-f(G(X))&=Df(G(X))\Bigl(DG(X)\vec{v}+o(\left|\vec{v}\right|)\Bigr)+o(\left|DG(X)\vec{v}+o(\left|\vec{v}\right|)\right|)\\&=Df(G(X))DG(X)\vec{v}+Df(G(X))\vec{v}o(\left|\vec{v}\right|)+o(\left|DG(X)\vec{v}+o(\left|\vec{v}\right|)\right|)\tag{6.2-7}\end{align}$$
  식 (6.2-7)에서 $Df(G(X))\vec{v}$는 연속함수이므로 유한한 값이다. 따라서 $Df(G(X))\vec{v}o(\left|\vec{v}\right|)=o(\left|\vec{v}\right|)$이다. 또한 정리 6-9에 의해 $o(\left|DG(X)\vec{v}+o(\left|\vec{v}\right|)\right|)=o(\left|DG(X)\vec{v}\right|)$이고, $o(\left|DG(X)\vec{v}\right|)=o(\left|\vec{v}\right|)$이다. 따라서 식 (6.2-7)은 다음과 같다.
$$f(G(X+\vec{v}))-f(G(X))=Df(G(X))DG(X)\vec{v}+o(\left|\vec{v}\right|)\tag{6.2-8}$$
  식 (6.2-8)를 식 (6.2-5)에 대입하면 다음과 같다.
$$\begin{align}&\lim_{\vec{v}\to \vec{0}}\frac{Df(G(X))DG(X)\vec{v}+o(\left|\vec{v}\right|)-D(f\circ G)(X)\vec{v}}{\left|\vec{v}\right|}=0\\ \implies&\lim_{\vec{v}\to \vec{0}}\frac{Df(G(X))DG(X)\vec{v}}{\left|\vec{v}\right|}=\lim_{\vec{v}\to \vec{0}}\frac{D(f\circ G)(X)\vec{v}}{\left|\vec{v}\right|}\end{align}$$
  따라서 $Df(G(X))DG(X)=D(f\circ G)(X)$임을 안다. 또한 기울기벡터는 다변수함수의 도함수 행렬의 전치이므로 다음과 같다.
$$\begin{align}\nabla(f\circ G)(X)&=\Bigl(D(f\circ G)(X)\Bigr)^T\\&=\Bigl(Df(G(X))DG(X)\Bigr)^T\\&=\Bigl(DG(X)\Bigr)^T\Bigl(Df(G(X))\Bigr)^T\\&=\Bigl(DG(X)\Bigr)^T\nabla f(G(X))\tag*{$\square$}\end{align}$$

 

  따름정리 6.2-4를 행렬로 표현하면 다음과 같다.

$$\mathrm{for}\;X=(x_1,\ldots,x_m),\;G(X)=\Bigl(g_1(X),\ldots,g_n(X)\Bigr)$$

$$\begin{align}\begin{pmatrix}D_1(f\circ G)(X)\\ \vdots\\D_m(f\circ G)(X)\end{pmatrix}&=\begin{pmatrix}D_1g_1(X)&\cdots&D_mg_1(X)\\ \vdots&\ddots&\vdots\\D_1g_n(X)&\cdots&D_mg_n(X)\end{pmatrix}^T\begin{pmatrix}D_1f(G(X))\\ \vdots\\ D_nf(G(X))\end{pmatrix}\\&=\begin{pmatrix}D_1G(X)&\cdots&D_mG(X)\end{pmatrix}^T\begin{pmatrix}D_1f(G(X))\\ \vdots\\D_nf(G(X))\end{pmatrix}\\&=\begin{pmatrix}\Bigl(D_1G(X)\Bigr)^T\\ \vdots\\ \Bigl(D_mG(X)\Bigr)^T\end{pmatrix}\begin{pmatrix}D_1f(G(X))\\ \vdots\\D_nf(G(X))\end{pmatrix}\\&=\begin{pmatrix}D_1g_1(X)&\cdots&D_1g_n(X)\\ \vdots&\ddots&\vdots\\D_mg_1(X)&\cdots&D_mg_n(X)\end{pmatrix}\begin{pmatrix}D_1f(G(X))\\ \vdots\\ D_nf(G(X))\end{pmatrix}\\&=\begin{pmatrix}D_1f(G(X))D_1g_1(X)+\cdots+D_nf(G(X))D_1g_n(X)\\ \vdots\\ D_1f(G(X))D_ng_1(X)+\cdots+D_nf(G(X))D_mg_n(X)\end{pmatrix}\end{align}$$

  성분 하나에 대한 항등식은 다음과 같다.

$$D_k(f\circ G)(X)=D_1f(G(X))D_kg_1(X)+\cdots+D_nf(G(X))D_kg_n(X)$$

  이는 다음과 같이도 쓸 수 있다.

$$\frac{\partial f}{\partial x_k}(G(X))=\frac{\partial f}{\partial g_1}(G(X))\frac{\partial g_1}{\partial x_k}(X)+\cdots+\frac{\partial f}{\partial g_n}(G(X))\frac{\partial g_n}{\partial x_k}(X)$$

$$\frac{\partial f}{\partial x_k}=\frac{\partial f}{\partial g_1}\frac{\partial g_1}{\partial x_k}+\cdots+\frac{\partial f}{\partial g_n}\frac{\partial g_n}{\partial x_k}$$

  이해를 돕기 위하여 다음의 예시를 보자.

 


  위 그림은 2차원에서 정의된 함수 $f(x,y)=xe^{-x^2-y^2}$이다. 널리 알려진 극좌표계 표현을 빌리면, 다음과 같이도 쓸 수 있다.

$$x=r\cos\theta,\;y=r\sin\theta$$

$$\begin{align}f(x,y)=f(r,\theta)&=r\cos\theta e^{-r^2\cos^2\theta-r^2\sin^2\theta}\\&=r\cos\theta e^{-r^2}\end{align}$$

  위의 식에서 좌표계 치환 과정으로서 $f(r,\theta)$라고 쓴 것을 보면, 2차원 벡터$(r,\theta)$는 분명히 함수 $f$의 정의역의 어느 점을 가리키는 벡터는 맞지만 정규직교좌표는 아니다. 이렇게 모호한 의미의 문제점이 발생하였지만, 벡터 $(x,y)$와 벡터 ($r,\theta)$가 어떤 관계를 가지고 있는지를 확인하면 문제가 빠르게 해결된다.

  극좌표계와 정규직교좌표계의 관계식은 앞서 기술하였듯이 다음과 같다.

$$x=x(r,\theta)=r\cos\theta,\;y=y(r,\theta)=r\sin\theta$$

$$\therefore X:=(x,y)=(x(r,\theta),y(r,\theta))=X(r,\theta)$$

  함수 $f$의 정의역의 한 점을 정규직교좌표로 표현할 때의 첫 번째 성분인$x$와 두 번째 성분인 $y$는 각각, 별도의 2차원 공간의 첫 번째 성분인 $r$과 두 번째 성분인 $\theta$의 함수로 표현되는 2변수 함수로 볼 수 있다.(그렇게 보지 못할 이유가 없다) 따라서 극좌표계를 사용하겠다고 세상에 선언한 순간, 당신은 새로운 2차원 평면 $(r,\theta)$을 생성한 뒤, 이 새로운 평면의 한 점을 다른 평면 $(x,y)$에 대응시키게 되는 것이다. 평면의 점은 2차원 벡터나 다름없으므로, 정의에 따라 극좌표계는 다음과 같은 벡터장이나 다름없다.

$$(x,y)=G(r,\theta)=(g_1(r,\theta),g_2(r,\theta))$$

$$x=g_1(r,\theta)=r\cos\theta,\;y=g_2(r,\theta)=r\sin\theta$$

  따라서 $f(x,y)=f(G(r,\theta))$이다. 이제야 말할 수 있는 것은, 함수 $f(x,y)$를 $f(r,\theta)$으로 쓰는 표기방법은 엄밀성을 완전히 포기하고 약간의 편리함(벡터장의 언급을 하지 않는 것)을 얻는다는 것이다. 다시 말하자면, 극좌표를 쓸 때 다음과 같이 쓰는것이 엄밀한 것이다.

$$X=(x,y),\;G(r,\theta)=(r\cos\theta,r\sin\theta)$$

$$f(X)=f(G(r,\theta))=(f\circ G)(r,\theta)$$

  이를 이용하여, 벡터장의 연쇄법칙이 잘 성립하는지를 확인해보자. 먼저, 합성함수(극좌표 치환된 이후의 함수)를 한 번에 편미분하면 다음과 같다. (그 과정에서 다변수 함수의 연쇄법칙이 자연스럽게 사용되기도 한다)

$$\begin{split}&\frac{\partial f}{\partial r}&=\cos\theta e^{-r^2}+r\cos\theta e^{-r^2}(-2r)\\&&=\cos\theta e^{-r^2}-2r^2\cos\theta e^{-r^2}\\&\frac{\partial f}{\partial \theta}&=-r\sin\theta e^{-r^2}\end{split}$$

  연쇄법칙(정리 6.2-3)을 이용하여 편미분하면 다음과 같다.

$$\begin{split}\frac{\partial f}{\partial r}(G(r,\theta))&=&\frac{\partial f}{\partial x}(G(r,\theta))\frac{\partial x}{\partial r}(r,\theta)+\frac{\partial f}{\partial y}(G(r,\theta))\frac{\partial y}{\partial r}(r,\theta)\\&=&\left\{e^{-x^2-y^2}-2x^2e^{-x^2-y^2}\right\}(G(r,\theta))\left\{\cos\theta\right\}(r,\theta)\\&&+\left\{-2xye^{-x^2-y^2}\right\}(G(r,\theta))\left\{\sin\theta\right\}(r,\theta)\\&=&\left\{e^{-r^2}-2r^2\cos^2\theta e^{-r^2}\right\}\cos\theta\\&&+\left\{-2r^2\cos\theta\sin\theta e^{-r^2}\right\}\sin\theta\\&=&\cos\theta e^{-r^2}-2r^2\cos\theta(\cos^2\theta+\sin^2\theta)e^{-r^2}\\&=&\cos\theta e^{-r^2}-2r^2\cos\theta e^{-r^2}\end{split}$$

$$\begin{split}\frac{\partial f}{\partial \theta}(G(r,\theta))&=&\frac{\partial f}{\partial x}(G(r,\theta))\frac{\partial x}{\partial \theta}(r,\theta)+\frac{\partial f}{\partial y}(G(r,\theta))\frac{\partial y}{\partial \theta}(r,\theta)\\&=&\left\{e^{-x^2-y^2}-2x^2e^{-x^2-y^2}\right\}(G(r,\theta))\left\{-r\sin\theta\right\}(r,\theta)\\&&+\left\{-2xye^{-x^2-y^2}\right\}(G(r,\theta))\left\{r\cos\theta\right\}(r,\theta)\\&=&\left\{e^{-r^2}-2r^2\cos^2\theta e^{-r^2}\right\}(-r\sin\theta)\\&&+\left\{-2r^2\cos\theta\sin\theta e^{-r^2}\right\}r\cos\theta\\&=&-r\sin\theta e^{-r^2}\end{split}$$

  결과가 일치하는 것을 볼 수 있다.

 

  연쇄법칙을 이용하는 편이 오히려 더 복잡해 보일 수 있다. 하지만 미분 연산의 일반적인 성질을 탐구하거나 매우 복잡한 함수를 편미분할 때는 연쇄법칙을 이용해야만 할 때가 있다.


 

 

6.3. 벡터장의 연쇄법칙

 

정리 6.3-1)  열린 영역 $V\subset\mathbb{R^m}$에서 정의된 미분 가능한 함수 $F:V\to\mathbb{R^n}$과 열린 영역 $U\subset\mathbb{R}^l$에서 정의된 미분 가능한 함수 $G:U\to V$에 대하여 다음이 성립한다.
$$D(F\circ G)(X)=DF(g(X))DG(X)\quad\forall X\in U$$

 

  정리 6.3-1은 '벡터장(벡터장(X))' 꼴에 대한 연쇄법칙이다.

 

proof)

  함수 $(F\circ G)$는 정의역이 $l$차원, 공역이 n차원이므로 벡터장이다. 따라서 정리 6-5를 적용할 수 있다.
$$\begin{align}0&=\lim_{\vec{v}\to \vec{0}}\frac{(F\circ G)(X+\vec{v})-(F\circ G)(X)-D(F\circ G)(X)\vec{v}}{\left|\vec{v}\right|}\\&=\lim_{\vec{v}\to \vec{0}}\frac{F(G(X+\vec{v}))-F(G(X))-D(F\circ G)(x)\vec{v}}{\left|\vec{v}\right|}\tag{6.3-1}\end{align}$$
  따름정리 6-6에 의하여, 다음과 같다.
$$F(G(X+\vec{v}))-F(G(X))=DF(G(X))\Bigl(G(X+\vec{v})-G(X)\Bigr)+o(\left|G(X+\vec{v})-G(X)\right|)\tag{6.3-2}$$
  또한, 식 (6.3-2)의 $G(X+\vec{v})-G(X)$는 따름정리 6-6에 의하여 다음과 같다.
$$G(X+\vec{v})-G(X)=DG(x)\vec{v}+o(\left|\vec{v}\right|)$$
  따라서 식 (6.3-2)를 다시 정리하면 다음과 같다.
$$\begin{align}F(G(X+\vec{v}))-F(G(X))&=DF(G(X))\Bigl(DG(X)\vec{v}+o(\left|\vec{v}\right|)\Bigr)+o(\left|DG(X)\vec{v}+o(\left|\vec{v}\right|)\right|)\\&=DF(G(X))DG(X)\vec{v}+DF(G(X))\vec{v}o(\left|\vec{v}\right|)+o(\left|DG(X)\vec{v}+o(\left|\vec{v}\right|)\right|)\tag{6.3-3}\end{align}$$
  식 (6.3-3)에서 $DF(G(X))\vec{v}$는 연속함수이므로 유한한 값이다. 따라서 $DF(G(X))\vec{v}o(\left|\vec{v}\right|)=o(\left|\vec{v}\right|)$이다. 또한 정리 6-9에 의해 $o(\left|DG(X)\vec{v}+o(\left|\vec{v}\right|)\right|)=o(\left|DG(X)\vec{v}\right|)$이고, $o(\left|DG(X)\vec{v}\right|)=o(\left|\vec{v}\right|)$이다. 따라서 식 (6.3-3)은 다음과 같다.
$$F(G(X+\vec{v}))-F(G(X))=DF(G(X))DG(X)\vec{v}+o(\left|\vec{v}\right|)\tag{6.3-4}$$
  식 (6.3-4)를 식 (6.3-1)에 대입하면 다음과 같다.
$$\begin{align}&\lim_{\vec{v}\to \vec{0}}\frac{DF(G(X))DG(X)\vec{v}+o(\left|\vec{v}\right|)-D(F\circ G)(X)\vec{v}}{\left|\vec{v}\right|}=0\\ \implies&\lim_{\vec{v}\to \vec{0}}\frac{DF(G(X))DG(X)\vec{v}}{\left|\vec{v}\right|}=\lim_{\vec{v}\to \vec{0}}\frac{D(F\circ G)(X)\vec{v}}{\left|\vec{v}\right|}\end{align}$$
  따라서 $DF(G(X))DG(X)=D(F\circ G)(X)$임을 안다.   $\square$

 

  정리 6.3-1을 행렬로 표현하면 다음과 같다.

$$\begin{align}\mathrm{for}\;&X=(x_1,\ldots,x_l)\\&G(X)=\Bigl(g_1(X),\ldots,g_m(X)\Bigr)\\&F(G)=\Bigl(f_1(G),\ldots,f_n(G)\Bigr)\end{align}$$

$$D(F\circ G)(X)=\begin{pmatrix}D_1(F\circ G)(X)&\cdots&D_l(F\circ G)(X)\end{pmatrix}$$

여기서 k번째 열벡터 성분은 다음과 같다.

$$\begin{align}D_k(F\circ G)(X)&=D_k\Bigl(f_1(G(X)),\ldots,f_n(G(X))\Bigr)\\&=\Bigl(D_kf_1(G(X)),\ldots,D_kf_n(G(X))\Bigr)\end{align}$$

$$\therefore D(F\circ G)(X)=\begin{pmatrix}D_1(f_1\circ G)(X)&\cdots&D_l(f_1\circ G)(X)\\ \vdots&\ddots&\vdots\\D_1(f_n\circ G)(X)&\cdots&D_l(f_n\circ G)(X)\end{pmatrix}$$

  행렬 연산 규칙에 따라, 행렬 $D(F\circ G)(X)$의 $(i,j)$번째 성분은 다음과 같다.

$$\begin{align}D_j(f_i\circ G)(X)&=\sum_{k=1}^m D_kf_i(G(X))D_jg_k(X)\\&=D_1f_i(G(X))D_jg_1(X)+\cdots+D_mf_i(G(X))D_jg_m(X)\end{align}$$

  이는 다음과 같이도 쓸 수 있다.

$$\frac{\partial f_i}{\partial x_j}(G(X))=\frac{\partial f_i}{\partial g_1}(G(X))\frac{\partial g_1}{\partial x_j}(X)+\cdots+\frac{\partial f_i}{\partial g_m}(G(X))\frac{\partial g_m}{\partial x_j}(X)$$

$$\frac{\partial f_i}{\partial x_j}=\frac{\partial f_i}{\partial g_1}\frac{\partial g_1}{\partial x_j}+\cdots+\frac{\partial f_i}{\partial g_m}\frac{\partial g_m}{\partial x_j}$$

  정리 6.3-1은 모든 연쇄법칙을 포함하는 정리이다. 왜냐하면 일변수 함수는 정의역이 1차원이고 공역이 1차원인 벡터장, 다변수 함수는 정의역이 n차원이고 공역이 1차원인 벡터장, 곡선은 정의역이 1차원이고 공역이 n차원인 벡터장으로 볼 수 있기 때문이다. 따라서 정리 6.3-1은 '연쇄법칙'의 일반화된 표현이라 할 수 있다.

 

 

 

  여기까지 글을 읽어주신 분들에게 감사의 인사를 드립니다. 수고하셨습니다.


다음 읽을거리: [미분의 정의부터 연쇄법칙까지] 부록


댓글