Aerospace Kim

[다변수 미분] ch4. 연쇄법칙

이전 읽을거리: ch3. 연속미분가능

다음 읽을거리: ch5. 역함수 정리


연쇄법칙

 

연쇄법칙 (chain rule)
  $f:A\subset\mathbb{R}^m\to\mathbb{R}^n$ , $g:B\subset\mathbb{R}^n\to\mathbb{R}^p$ 에 대해 $f(A)\subset B$ 가 성립한다고 가정하자. $f(a)=b$ 라고 할때 $f$ 가 $a$ 에서 미분가능하고 $g$ 가 $b$ 에서 미분가능하면 $g\circ f$ 는 $a$ 에서 미분가능하며 다음이 성립한다.$$D(g\circ f)(a)=Dg(b)Df(a)$$

 

  우리는 아직 미분가능성이 정의되는 점을 정의역의 interior 로 제한하고 있음을 기억하자. 따라서 위 정의의 증명은 $a$ 가 $g\circ f$ 의 정의역의 interior 에 포함되는지를 확인하는 것으로 시작하여야 한다.

 

  Proof.  $b$ 는 $g$ 의 미분가능한 점이므로 어떤 $\epsilon>0$ 이 존재하여 $C_\epsilon^{\mathbb{R}^n}(b)\subset B$ 이다. 그리고 $f$ 는 $a$ 에서 미분가능하므로 $a$ 에서 연속이며, 따라서 어떤 $\delta>0$ 이 존재하여 임의의 $x\in A$ 에 대해 다음이 성립한다.

$$\begin{align}x\in C_\delta^{\mathbb{R}^m}(a)&\Rightarrow f(x)\in C_\epsilon^{\mathbb{R}^n}(b)\\&\Rightarrow f(x)\in B\end{align}$$

  따라서 합성함수 $g\circ f$ 는 $C_\delta^{\mathbb{R}^m}(a)$ 에서 잘 정의된다. 다시말해 $a$ 는 $g\circ f$ 의 정의역의 interior 에 속한다.

 

  Step 1. 함수 $\frac{|f(x)-b|}{x-a}$ 가 $a$ 가 빠진 어떤 근방에서 유계임을 보이자. 함수 $F:C_\delta^{\mathbb{R}^m}(a)\to\mathbb{R}^n$ 를 다음과 같이 정의하자.

$$F(x)=\begin{cases}\frac{f(x)-f(a)-Df(a)(x-a)}{|x-a|}&\text{for }x\in C_\delta^{\mathbb{R}^m}(a)\setminus\{a\}\\0&\text{for }x=a\end{cases}$$

  $f$ 는 $a$ 에서 미분가능하므로 $F$ 는 $a$ 에서 연속이다. 즉 $\displaystyle\lim_{x\to a}F(x)=0$ 이므로, 임의의 $\alpha>0$ 에 대해 어떤 $\beta>0$ 이 존재하여 다음이 성립한다.

$$x\in C_\beta^{\mathbb{R}^m}(a)\setminus\{a\}\Rightarrow|F(x)|<\alpha$$

  따라서 $F$ 는 $a$ 가 빠진 어떤 근방에서 유계이다. 다시돌아와 $F$ 의 정의에 따라 임의의 $x\in C_\delta^{\mathbb{R}^m}(a)\setminus\{a\}$ 에 대해 다음 식이 성립한다.

$$f(x)-f(a)=Df(a)(x-a)+|x-a|F(x)\tag{1}$$

  한편 $x=a$ 인 경우에도 위 식은 자명하게 성립한다. 삼각부등식과 sup norm 의 성질에 따라 다음이 성립한다.

$$|f(x)-f(a)|\le m|Df(a)||x-a|+|x-a||F(x)|$$

$$\therefore\frac{|f(x)-b|}{|x-a|}\le m|Df(a)|+|F(x)|$$

  따라서 $\frac{|f(x)-b|}{|x-a|}$ 는 $a$ 가 빠진 어떤 근방에서 유계이다.

 

  Step 2. Step 1의 구조를 $g$ 에 대해 반복하자. 함수 $G:C_\epsilon^{\mathbb{R}^n}(b)\to\mathbb{R}^p$ 를 다음과 같이 정의하자.

$$G(y)=\begin{cases}\frac{g(y)-g(b)-Dg(b)(y-b)}{|y-b|}&\text{for }y\in C_\epsilon^{\mathbb{R}^n}(b)\setminus\{b\}\\0&\text{for }y=b\end{cases}$$

  $g$ 는 $b$ 에서 미분가능하므로 $G$ 는 $b$ 에서 연속이다. 한편 $y\in C_\epsilon^{\mathbb{R}^n}(b)$ 에 대해 다음이 성립한다.

$$g(y)-g(b)=Dg(b)(y-b)+|y-b|G(y)\tag{2}$$

 

  Step 3. 이제 본 정리를 증명하자. 임의의 $x\in C_\delta^{\mathbb{R}^m}(a)$ 에 대해 $f(x)\in C_\epsilon^{\mathbb{R}^n}(b)$ 이므로 식 (2)에 따라 다음이 성립한다.

$$g(f(x))-g(b)=Dg(b)(f(x)-b)+|f(x)-b|G(f(x))$$

  이때 식 (1)에 따라 다음이 성립한다.

$$\begin{align}&\;g(f(x))-g(b)-Dg(b)Df(a)(x-a)\\=&\;Dg(b)\big(f(x)-b-Df(a)(x-a)\big)+|f(x)-b|G(f(x))\\=&\;|x-a|Dg(b)F(x)+|f(x)-b|G(f(x))\end{align}$$

  따라서 다음을 얻는다.

$$\begin{align}&\;\frac{(g\circ f)(x)-(g\circ f)(a)-Dg(b)Df(a)(x-a)}{|x-a|}\\=&\;Dg(b)F(x)+\frac{|f(x)-b|}{|x-a|}G(f(x))\end{align}$$

  다음이 성립함을 보이자.

$$\lim_{x\to a}Dg(b)F(x)=0$$

  $Dg(b)$ 의 i행 j열 성분을 $m_{ij}$ 라고 하자. $Dg(b)F(x)$ 의 i번째 성분함수는 $F$ 의 각 성분함수 $F_j$ 에 대해 다음과 같다.

$$m_{i1}F_1(x)+\cdots+m_{in}F_n(x)$$

  한편 $F$ 는 $a$ 에서 연속이므로 각 $F_j$ 도 $a$ 에서 연속이며, $F_j(a)=0$ 이므로 $\displaystyle\lim_{x\to a}F_j(x)=0$ 이다. 따라서 다음이 성립한다.

$$\lim_{x\to a}\big(m_{i1}F_1(x)+\cdots+m_{in}F_n(x)\big)=0$$

  이는 $Dg(b)F(x)$ 의 i번째 성분함수의 극한이므로 극한의 성질(링크의 정리 5.3.)에 따라 원하는 결과를 얻는다. 다음이 성립함을 보이자.

$$\lim_{x\to a}\frac{|f(x)-b|}{|x-a|}G(f(x))=0$$

  $\frac{|f(x)-b|}{|x-a|}$ 는 $a$ 가 빠진 어떤 근방에서 유계이므로 어떤 $\delta_1>0$ 와 $M>0$ 이 존재하여 다음이 성립한다.

$$x\in C_{\delta_1}^{\mathbb{R}^m}(a)\setminus\{a\}\Rightarrow\frac{|f(x)-b|}{|x-a|}<M$$

  한편 $G$ 는 $b$ 에서 연속이고 $f$ 는 $a$ 에서 연속이므로 연속의 성질(링크의 정리 4.6.)에 따라 $G\circ f$ 는 $a$ 에서 연속이다. 즉 $\displaystyle\lim_{x\to a}G(f(x))=0$ 이 성립하며, 이는 정의에 따라 임의의 $\xi>0$ 에 대해 어떤 $\delta_2>0$ 이 존재하여 다음이 성립한다.

$$x\in C_{\delta_2}^{\mathbb{R}^m}(a)\setminus\{a\}\Rightarrow|G(f(x))|<\frac{\xi}{M}$$

  $\eta=\text{min}\{\delta_1,\delta_2\}$ 라고 하면 다음이 성립한다.

$$\begin{align}x\in C_\eta^{\mathbb{R}^m}(a)\setminus\{a\}&\Rightarrow\left\{\begin{matrix}|G(f(x))|<\frac{\xi}{M}\\\frac{|f(x)-b|}{|x-a|}<M\end{matrix}\right.\\&\Rightarrow\left|\frac{|f(x)-b|}{|x-a|}G(f(x))\right|<\xi\end{align}$$

  따라서 원하는 결과를 얻으며, 정리하면 다음과 같다.

$$\begin{align}&\;0\\=&\;\lim_{x\to a}Dg(b)F(x)+\lim_{x\to a}\frac{|f(x)-b|}{|x-a|}G(f(x))\\=&\;\lim_{x\to a}\left(Dg(b)F(x)+\frac{|f(x)-b|}{|x-a|}G(f(x))\right)\\=&\;\lim_{x\to a}\frac{(g\circ f)(x)-(g\circ f)(a)-Dg(b)Df(a)(x-a)}{|x-a|}\end{align}$$

  그러므로 $g\circ f$ 는 $a$ 에서 미분가능하며 $D(g\circ f)(a)=Dg(b)Df(a)$ 가 성립한다.   $\square$

 

 

연쇄법칙의 따름정리

 

Corollary 4.1.  $f:A\in\mathcal{T}_{\mathbb{R}^m}\to\mathbb{R}^n$ , $g:A\in\mathcal{T}_{\mathbb{R}^n}\to\mathbb{R}^p$ 에 대해 $f(A)\subset B$ 가 성립한다고 가정하자. $f$ 와 $g$ 가 $C^r$ 급이면 $g\circ f$ 도 $C^r$ 급이다.

 

  Proof.  우선 연쇄법칙에 따라 다음이 성립한다.

$$D(g\circ f)(x)=Dg(f(x))Df(x)$$

  $r$ 에 대한 귀납법으로 증명하자. $f$ 와 $g$ 가 $C^1$ 함수라고 가정하자. $g$ 의 각 성분함수의 각 편미분 $D_jg_i$ 는 연속이고 $f$ 도 연속이므로 $D_jg_i(f(x))$ 는 연속이다. 따라서 $Dg(f(x))$ 와 $Df(x)$ 의 각 성분은 연속함수로 구성된다. $D(g\circ f)(x)$ 의 각 성분은 $Dg(f(x))$ 의 성분과 $Df(x)$ 의 성분의 곱과 합으로 구성되므로 마찬가지로 연속이다. 따라서 $g\circ f$ 는 $C^1$ 함수이다.

  정리가 $C^{r-1}$ 함수에 대해 성립한다고 가정하자. $f$ 와 $g$ 가 $C^r$ 함수라고 가정하자. $f$ 는 $C^{r-1}$ 함수이기도 하며, 정리 3.3.에 따라 $g$ 의 각 성분함수의 각 편미분 $D_jg_i$ 는 $C^{r-1}$ 함수이므로 $D_jg_i(f(x))$ 는 귀납법 가정에 따라 $C^{r-1}$ 함수이다. 따라서 $Dg(f(x))$ 와 $Df(x)$ 의 각 성분은 $C^{r-1}$ 함수로 구성된다. $D(g\circ f)(x)$ 의 각 성분은 $Dg(f(x))$ 의 성분과 $Df(x)$ 의 성분의 곱과 합으로 구성되므로 마찬가지로 $C^{r-1}$ 함수이다. 다시 정리 3.3.에 따라 $g\circ f$ 는 $C^r$ 함수임을 얻는다. 귀납법에 따라 본 정리가 임의의 $r\in\mathbb{N}$ 에 대해 성립한다.

  특히 본 정리는 $C^\infty$ 함수에도 성립한다. $f$ 와 $g$ 가 $C^\infty$ 함수이면 임의의 $r\in\mathbb{N}$ 에 대해 $f$ 와 $g$ 가 $C^r$ 함수이므로 $g\circ f$ 도 $C^r$ 함수이다. 다시말해 $g\circ f$ 는 임의의 $r\in\mathbb{N}$ 에 대해 $C^r$ 함수이므로 $C^\infty$ 함수이다.   $\square$

 

 

Definition.  $a,b\in\mathbb{R}^n$ 에 대해 다음의 집합을 $a$ 와 $b$ 를 잇는 line segment 라고 한다.$$\{a+t(b-a):t\in[0,1]\}$$

 

평균값 정리 (mean-value theorem)
  미분가능함수 $f:A\in\mathcal{T}_{\mathbb{R}^m}\to\mathbb{R}$ 에 대해 $A$ 가 $a$ 와 $b$ 를 잇는 line segment 를 포함하면 line segment 위의 $a,b$ 가 아닌 어떤 점 $c$ 가 존재하여 다음이 성립한다.$$f(b)-f(a)=Df(c)(b-a)$$

 

  Proof.  다음의 함수 $\phi:[0,1]\to\mathbb{R}$ 을 생각하자.

$$\phi(t)=f(a+t(b-a))$$

  임의의 $s\in(0,1)$ 에 대해 함수 $\mathbb{R}\to\mathbb{R}$ , $t\mapsto a+t(b-a)$ 는 $s$ 에서 미분가능하고 $f$ 는 $a+s(b-a)$ 에서 미분가능하므로 $\phi$ 는 $(0,1)$ 에서 미분가능하다. 한편 $\phi$ 의 미분은 연쇄법칙에 따라 다음과 같다.

$$D\phi(t)=Df(a+t(b-a))(b-a)$$

  좁은 의미의 평균값 정리에 따라 어떤 $t_0\in(0,1)$ 이 존재하여 다음이 성립한다.

$$\phi(1)-\phi(0)=D\phi(t_0)$$

  $c=a+t_0(b-a)$ 라고 하면 $c$ 는 $a$ 와 $b$ 를 잇는 line segment 위의 점이며 $c\neq a,b$ 이다. 한편 위 식은 다음과 같으므로 원하는 결과를 얻는다.

$$f(b)-f(a)=Df(c)(b-a)\tag*{$\square$}$$

 

 

Corollary 4.2.  $f:A\in\mathcal{T}_{\mathbb{R}^n}\to\mathbb{R}^n$ 와 어떤 $a\in A$ 에 대해 $f(a)=b$ 라고 하자. $g:B\in\mathcal{N}_{\mathbb{R}^n}(b)\to\mathbb{R}^n$ 와 $b$ 의 어떤 근방 $U$ 의 모든 점 $x$ 에 대해 다음이 성립한다고 가정하자.$$g(f(x))=x$$  만약 $f$ 가 $a$ 에서 미분가능하고 $g$ 가 $b$ 에서 미분가능하면 다음이 성립한다.$$Dg(b)=Df(a)^{-1}$$

 

※ $\mathcal{N}_{\mathbb{R}^n}(b)$ 는 $b$ 의 모든 근방의 집합의 모임, 즉 $\mathbb{R}^n$ 에서 열리고 $b$ 를 포함하는 모든 집합의 모임을 의미한다.

 

  Proof.  항등함수 $\text{id}:U\to\mathbb{R}$ , $\text{id}(x)=x$ 의 미분이 대각성분이 1이고 나머지는 0인 $n\times n$ 항등행렬 $I_n$ 임을 보이자. $D\;\text{id}(a)$ 의 i행 j열 성분 $D_j\text{id}_i(a)$ 는 $i\neq j$ 인 경우 다음과 같다.

$$\begin{align}D_j\text{id}_i(a)&=\lim_{t\to 0}\frac{\text{id}_i(a+te_j)-\text{id}_i(a)}{t}\\&=\lim_{t\to 0}\frac{a_i-a_i}{t}\\&=0\end{align}$$

  $i=j$ 인 경우 다음과 같다.

$$\begin{align}D_i\text{id}_i(a)&=\lim_{t\to 0}\frac{\text{id}_i(a+te_i)-\text{id}_i(a)}{t}\\&=\lim_{t\to 0}\frac{(a_i+t)-a_i}{t}\\&=1\end{align}$$

  따라서 $D\;\text{id}(a)=I_n$ 을 얻는다. $D(g\circ f)(a)=D\;\text{id}(a)$ 임을 보이자. 편의상 $h=g\circ f$ 라고 하자. 연쇄법칙에 따라 $h$ 는 $a$ 에서 미분가능하므로 다음이 성립한다.

$$\lim_{x\to a}\frac{h(x)-h(a)-Dh(a)(x-a)}{|x-a|}=0$$

  이는 임의의 $\epsilon>0$ 에 대해 어떤 $\delta_1>0$ 이 존재하여 다음이 성립함을 의미한다.

$$0<|x-a|<\delta_1\Rightarrow\left|\frac{h(x)-h(a)-Dh(a)(x-a)}{|x-a|}\right|<\epsilon$$

  한편 $U$ 의 임의의 점에서 $h(x)=\text{id}(x)$ 가 성립하며, $C_{\delta_2}^{\mathbb{R}^n}(b)$ 가 $U$ 에 속하도록 하는 $\delta_2$ 를 선택하고 $\delta=\text{min}\{\delta_1,\delta_2\}$ 라고 하면 다음이 성립한다.

$$\begin{align}0<|x-a|<\delta&\Rightarrow\left\{\begin{matrix}\displaystyle\left|\frac{h(x)-h(a)-Dh(a)(x-a)}{|x-a|}\right|<\epsilon\\\\h(x)=\text{id}(x)\end{matrix}\right.\\\\&\Rightarrow\left|\frac{\text{id}(x)-\text{id}(a)-Dh(a)(x-a)}{|x-a|}\right|<\epsilon\end{align}$$

  즉 다음이 성립한다.

$$\lim_{x\to a}\frac{\text{id}(x)-\text{id}(a)-Dh(a)(x-a)}{|x-a|}=0$$

  이는 $Dh(a)=D\;\text{id}(a)$ 를 의미하므로 원하는 결과를 얻는다. 다시 연쇄법칙에 따라 다음이 성립한다.

$$Dh(a)=Dg(b)Df(a)$$

$$\therefore Dg(b)Df(a)=I_n\tag{1}$$

  이때 $Dg(b)$ 와 $Df(a)$ 는 각각 $n\times n$ 행렬이므로 가역행렬의 성질(링크의 정리 10.1-4)에 따라 $Dg(b)$ 와 $Df(a)$ 는 가역행렬이다. 식 (1)의 양변에 $Df(a)^{-1}$ 를 우측에 곱하면 $Dg(b)=Df(a)^{-1}$ 이므로 원하는 결과를 얻는다.   $\square$

 

 

읽어주셔서 감사합니다.

 

 

References)

[1] James R. Munkres. (1991). Analysis on manifolds. CRC press.


이전 읽을거리: ch3. 연속미분가능

다음 읽을거리: ch5. 역함수 정리


댓글