Aerospace Kim

라그랑주 승수법(Lagrange Multiplier Method)

  어떤 함수의 최대점과 최소점을 찾기 위해서는 일반적으로 어떤 점에서 함수의 일계미분이 0인가 아닌가로 판단한다. 그러나 함수의 가장자리에서 최대점과 최소점을 판단하는 것은 단순하지 않다. 이를테면 다음 문제와 같은 경우 단순히 함수의 일계미분만으로 최대값을 찾을 수 없다.

 


문제 : 타원 $g(x,y)=\frac{x^2}{9}+\frac{y^2}{4}=1$ 의 내부와 경계에서 함수 $f(x,y)=x^2+y^2$ 의 최대값을 구하시오.

평면에 그려진 2차원 함수 f. 밝은 색일수록 높은 값이다. 검은 선은 타원의 경계이다.

  수식을 늘어놓기에 앞서, 그래프를 통해 본 문제의 답을 추정해볼 수 있다. 위의 그래프에서 보다시피 타원영역(경계와 내부를 모두 포함하는) 에서 함수 $f$ 가 가장 높은 값을 가지는 점은 타원의 긴 방향의 양 끝 두 곳이 될 것임을 기대할 수 있다. 따라서 본 문제를 풀면, 최대점은 $(3,0),\;(-3,0)$ 두 곳이 나올 것이고, 이에 따라 최대값은 9일 것이다.

 

  문제를 풀기 위하여, 먼저 함수 $f$ 의 임계점을 찾아보자. 어떤 임계점 $X:=(x,y)$ 에 대하여 다음이 성립한다.

 

$$\nabla f(X)=(2x,2y)=\vec{0}\quad\therefore X=(0,0)$$

 

  함수 $f$ 의 임계점은 점 $(0,0)$ 하나가 있음을 알아냈다. 그러나 함수의 형태로부터, 이 점은 최소점임을 짐작할 수 있다.(헤세 판정법으로 극소점임을 엄밀하게 밝힐 수도 있다) 본 문제에서 찾아야 할 점은 최소점이 아니라 최대점이므로, 단순하게 함수의 임계점을 찾아보는 전략으로는 문제를 풀 수 없다는 걸 알 수 있다.

 

  그렇다면 문제를 풀기 위해선 어떻게 해야 할까?

  본 문제에서 최대값은 영역의 내부가 아닌 영역의 경계(선)에 있다는 점을 염두에 두자. 만약 함수 $f$의 정의역을 영역의 경계로 제한한다면, 함수 $f$ 는 (이 문제에서) 2차원 함수가 아닌 1차원 함수가 될 것이다. 또한 최대점에서 1차원 함수의 (일계)미분값이 0이 된다는 사실로부터 문제 풀이의 힌트를 얻을 수 있다.

 

  본격적으로 들어가기 전에, 특이한 사실 하나를 확인하자. 최대점 중 하나인 점 $(3,0)$ 에서 함수 $f$ 의 기울기 벡터(gradient vector)는 $\nabla f(3,0)=(6,0)$ 임을 안다. 그리고 타원 경계를 나타내는 함수 $g$ 의 기울기벡터는 $\nabla g(3,0)=(\frac{2}{3},0)$ 임을 안다. 따라서 최대점에서 함수와 경계의 기울기함수는 나란하다(수학적으로: 일차종속이다)는 것을 눈치챌 수 있는데, 이는 나중에 밝히겠지만 이 문제에서만 성립하는 것이 아닌 일반적인 사실이다.


 

  (좋은 공간에서 좋게 정의된) 어떤 다변수함수 $f(x_1,\ldots,x_n)$ 를 고려하자. 이 다변수 함수는 n개의 좌표, 즉 n차원 벡터를 입력받아서 1차원 값을 내놓는 함수이다. 이 함수가 내뱉는 값 중 특정 값(1이라던가, 0이라던가, 일반화해서 c라던가)을 하나 잡아보자. 그리하면 '어떤 값'이 입력될 때 이 함수가 그 특정 값을 출력하는지를 역추적할 수 있을 것이다.

 

  좋은 예시로, 위의 문제에서 함수 $f$ 의 경계를 2차원 (타원)함수 $g(x,y)=\frac{x^2}{9}+\frac{y^2}{4}$ 의 1-등위면으로 고려한 것임을 보면 이해하기 쉽다. 또한 위 문제의 그림에서 함수 $f$의 그래픽을 자세히 보면 색깔마다 매우 얇은 검정색 점선으로 구분되어 있는데, 이 점선도 각각이 하나의 등위면(2차원에선 특히 등위선)이라고 보아도 된다. 등고선도 지도(좌표평면)에서 정의된 해발고도 함수에 대한 등위면이다.

 

정의)
$\mathbb{R^n}$ 의 한 부분집합 $U$ 에서 정의된 다변수함수 $f:U\to\mathbb{R}$ 과 실수 c에 대하여, $f$ 에 대한 c의 역상(inverse image)

$$\{X\in U\;|\;f(X)=c\}$$
를 $f$ 의 c-등위면(level surface)이라고 부른다. $f$ 의 c-등위면을 $f^{-1}(c)$ 와 같이 쓰기도 한다.

  그리고, 다음의 정리는 어떤 함수 $f$ 의 특정 등위면을 고정하였을 때, 그 등위면의 임의의 점에서 $f$ 의 기울기벡터는 그 등위면과 수직하다는 것을 말한다.

 

정리 1)
$\mathbb{R^n}$ 의 열린집합 $U$ 에서 정의된 일급함수(한 번 미분가능한 함수) $f$ 에 대하여, $\nabla f(P)$ 는 점 $P$가 속하는 등위면 $S:=\{X\in U\;|\;f(X)=f(P)\}$ 에 수직이다.

  엄밀한 증명보다는 이 정리의 핵심 아이디어를 소개하는 것으로 대신한다. (엄밀한 증명을 보고싶다면 '김홍종의 미적분학 2+'에 수록된 역함수 정리와 음함수 정리를 공부하면 된다)

 


  벡터 $\nabla f(P)$ 가 등위면 $S$ 에 수직이라는 말은, 점 $P$ 에서 등위면 $S$ 의 '접평면'과 수직이라는 말이다. 접평면과 수직이라는 말은 다시, 접평면 위에 놓여지는 모든 벡터와 수직이라는 말이다.

 

  점 $P$ 를 포함하는 등위면에 속하는 임의의 곡선 $X:[0,1]\to S$ 을 고려해보자. 이때 이 곡선은 0과 1 사이의 어떤 값 $t_0$ 에서 점 $P$ 를 지난다고 하자. 점 $P$ 에서 곡선 $X$ 의 미분 $X'(t_0)$ 은 점 $P=X(t_0)$ 에서 곡선 $X$ 와 접함을 안다. (증명: 속도곡선은 곡선에 접한다.) 이는 동시에 접평면 $S$ 와 접함, 즉 접평면 $S$ 에 놓여진다는 것과 같다. 따라서 접평면에 속하며 점 $P$ 를 지나는 모든 곡선의 점 $P$ 에서의 미분은 접평면 $S$ 에 놓여진다.

 

  등위면 $S$ 에 속하는 임의의 곡선 $X(t)$ 에 대하여, 합성함수 $(f\circ X)(t)=f(X(t))$ 를 고려해보자. 곡선 $X$ 가 어떻게 제한되었는지를 기억해보면 $f(X(t))=f(P)$ 임을 알 수 있다. 점 $P$ 는 공간상에 고정된 점이므로, $f(P)$ 는 상수이다. 따라서 이 합성함수의 미분은 다음과 같다. (합성함수의 미분에 대한 정보는 ch6. 연쇄법칙 참조)

 

$$\frac{d}{dt}f(X(t))=\nabla f(X(t))\cdot X'(t)=0$$

 

  특히, $t=t_0$ 일 경우 다음과 같다.

 

$$X(t_0)=P\implies\nabla f(X(t_0))\cdot X'(t_0)=\nabla f(P)\cdot X'(t_0)=0$$

 

  $X'(t_0)$ 는 앞서 살펴보았듯이, 점 $P$ 에서 등위면 $S$ 의 접평면에 속하는 임의의 벡터이다. 따라서 벡터 $\nabla f(P)$ 는 이 접평면에 놓인 모든 벡터와 수직이고, 따라서 이 접평면과 수직이다. 즉, 점 $P$ 에서 등위면 $S$ 와 수직이다. 점 $P$ 는 등위면 $S$ 에 놓인 임의의 점으로 고정한 것이므로, 다변수함수 $f$ 는 임의의 점을 통과하는 등위면과 그 점에서의 기울기벡터가 항상 수직이다.


  이제 경계가 주어진 최대최소 문제를 푸는 해법인 '라그랑주 승수법'을 이해할 수 있다.

 

정리 2) (라그랑주 승수법)
$\mathbb{R^n}$ 의 열린집합 $U$ 에서 정의된 일급함수 $f$ 와 $g$ 에 대하여 함수 $f$ 를 등위면

$$S:=\{X\in U\;|\;g(X)=c\}$$
에 제한하였을 때, $S$ 의 점 $P$ 가 $f$ 의 극점이라고 하자. 이때 $\nabla f(P)$ 와 $\nabla g(P)$ 는 일차종속이다. 특히, $\nabla g(P)\ne \vec{0}$ 이면, 등식

$$\nabla f(P)=\lambda\nabla g(P)$$
를 만족시키는 실수 $\lambda$ 가 존재한다.

  위의 정리에서 실수 $\lambda$ 를 라그랑주 승수(Lagrange multiplier) 라고 부른다.

 

proof)

  함수 $f$ 를 등위면 $S$ 에 제한하였을 때, $S$ 의 점 $P$ 가 $f$ 의 극점이라는 것은 점 $P$와 그 근방의 모든 점에 대해 $f(P)$ 가 그 근방의 다른 점에서의 함수값보다 국소적으로 제일 작거나 제일 크다는 것을 의미한다. 대략 비유하면 산의 정상이나 둥근 바구니의 중심점에 해당한다. 페르마의 임계점 정리(어려운 내용이 아니니 찾아보자)에 따르면, 등위면 $S$ 위에 놓이며 점 $P$ 를 지나는 임의의 곡선 $X(t)$ 가 $X(t_0)=P$ 이라면 곡선으로 정의역이 제한된 함수 $f$ 라고 볼 수 있는 일변수함수 $(f\circ X)(t)$ 에 대하여

 

$$\left.\frac{d}{dt}\right|_{t_0}f(X(t))=0$$

 

  이다.(논리의 흐름을 수식으로 이해하려 하지 말고 상황을 상상함이 좋다) 위의 식을 연쇄법칙으로 다시 쓰면 다음과 같다.

 

$$\nabla f(X(t_0))\cdot X'(t_0)=\nabla f(P)\cdot X'(t_0)=0$$

 

  여기서 $X'(t_0)$ 는 점 $P$ 에서 등위면 $S$ 의 접평면에 놓여지는 벡터임을 알고 있다. (잘 모르겠다면 정리 1을 다시보자) 임의의 곡선 $X$ 에 대하여 논하고 있으므로, 점 $P$에서 등위면 $S$ 의 접평면에 놓여지는 모든 벡터와 $\nabla f(P)$가 수직임을 알 수 있다.

  정리 1에 의해, 등위면의 주인인 함수 $g$ 의 기울기벡터 $\nabla g$ 는 점 $P$ 에서 등위면 $S$ 의 접평면과 수직이다. 어떤 곡면의 특정 점에서의 접평면은 (아마)유일하므로, $\nabla f(P)$ 와 $\nabla g(P)$ 는 하나의 평면 위에서 동시에 평면에 수직임을 알 수 있다. 따라서 두 기울기벡터는 서로 나란하며(수학적으로: 일차종속), 따라서 원하는 결론을 얻는다.   $\square$

 

  라그랑주 승수법이 잘 작동하는지 확인하기 위해 문제를 하나 풀어보자.

 


문제 : 원 $g(x,y):=x^2+y^2=1$ 에서 함수 $f(x,y)=2x+y^2$ 의 최댓값을 구하여 보자.

  원에서 방정식 $\nabla f=\lambda\nabla g$ 를 살펴보면

 

$$(2,2y)=\lambda(2x,2y),\quad x^2+y^2=1$$

 

  이다. 따라서 $2=2\lambda x$ , $2y=2\lambda y$ 이다. 경우의 수를 하나씩 확인해보면 식을 만족하는 점은 $(1,0),\;(-1,0)$ 둘임을 알 수 있다. 이 점들에서 함수값은 각각 2, -2 이므로 최대값은 2이며 최대점은 $(1,0)$ 이다. 또한 최소값은 -2이며 최소점은 $(-1,0)$ 임을 알 수 있다.


 

  원래는 이 다음에 라그랑주 승수법을 이용하여 p-norm과 generalized mean에 대하여 order number가 다른 것의 대소비교에 대한 포스팅을 기획하였으나, 이를 위해선 헤세 판정법을 소개해야 하고 이를 위해선 이차형식을 소개해야 하므로 시간이 꽤나 오래 걸린다는 계산이 되어 일단은 하지 않는것으로 결정하였습니다. 만약에 다음의 정리가 왜 성립하는지 궁금한 분이 계시다면 다시 고려하겠습니다.

 

정의) (p-norm)
$$\lVert\vec{x}\rVert_p:=\sqrt[p]{\left|x_1\right|^p+\cdots+\left|x_n\right|^p}=\left(\sum_{i=1}^n \left|x_i\right|^p\right)^{\frac{1}{p}}$$
정의) (generalized mean, power mean)
음이 아닌 실수 $x_1,\ldots,x_n$ 에 대하여
$$M_p(x_1,\ldots,x_n):=\sqrt[p]{\frac{x_1^p+\cdots+x_n^p}{n}}=\left(\frac{1}{n}\sum_{i=1}^n x_i^p\right)^{\frac{1}{p}}$$
정리)
각 성분이 0보다 큰 실수인 벡터 $\vec{x}:=(x_1,\ldots,x_n)$ 에 대하여, $p<q$ 일때 다음의 두 식이 성립한다.

(ⅰ) : $\lVert\vec{x}\rVert_{\infty}\le\lVert\vec{x}\rVert_q\le\lVert\vec{x}\rVert_p\le\lVert\vec{x}\rVert_{-\infty}$
(ⅱ) : $M_{-\infty}(\vec{x})\le M_p(\vec{x})\le M_q(\vec{x})\le M_{\infty}(\vec{x})$

특히 식 (ⅰ)은 벡터 $\vec{x}$ 의 각 성분이 실수 전체일 때도 성립한다.

 

  읽어주셔서 감사합니다.

 


댓글