IDL/Math

GAUSS_PDF 및 GAUSS_CVF 함수의 이해

이상우_idl 2018. 8. 21. 12:03
728x90
반응형

오늘은 IDL에서 지원되는 통계 관련 내장함수들 중에서 GAUSS_PDF, GAUSS_CVF 함수에 관하여 다뤄보고자 합니다. 함수의 명칭에서 짐작할 수 있듯이 이 함수들은 우리가 흔히 가우스 분포(Gaussian Distribution)라고도 부르는 정규분포(Normal Distribution) 확률 밀도 함수와 관련된 연산을 담당합니다. 기초 통계에서 흔히 언급되는 1-sigma, 2-sigma, 3-sigma 확률이 각각 68.3%, 95.4%, 99.7%에해당된다는 계산 결과는, 예를 들면 정규분포를 나타내는 데이터 값들 중에서 표준편차의 2배 이내의 값일 확률이 95.4%가 된다는 얘기입니다. 물론 이러한 값들은 다음 그림과 같은 평균이 0이고 표준편차가 1인 정규분포를 근거로 하여 산출된 것입니다.



그리고 이러한 연산을 수행하는 내장함수가 IDL에서는 GAUSS_PDF, GAUSS_CVF입니다. 그러면 먼저 GAUSS_PDF 함수부터 얘기해보겠습니다. IDL 도움말에서 이 함수에 관한 설명을 보면 다음과 같습니다.


This is the probability P that, in a Gaussian distribution with a mean of 0.0 and a variance of 1.0, a random variable X is less than or equal to a user-specified cutoff value V.


이 얘기는 평균이 0이고 표준편차가 1인 정규분포상에서 특정 컷오프 값 V보다 작거나 같을 확률임을 뜻합니다. 그런데 이 내용에 대해서는 어느 정도 유의가 필요합니다. 예를 들어 아까 언급했던 2-sigma 이내에 해당되는 확률을 구하려면, 얼핏 생각하면 GAUSS_PDF 함수를 다음과 같이 사용해야 할 것처럼 보일 수도 있습니다.


IDL> PRINT, GAUSS_PDF(2)

     0.977250


그런데 산출된 결과값을 보면 이와 같이 95.4%가 아니라 97.7%라고 나옵니다. 그 이유는 컷오프 값이 2라고 할 때 다음 그림과 같이 정규분포상에서 2보다 작거나 같은 범위를 모두 포함하기 때문입니다.



따라서 우리가 흔히 얘기하는 2-sigma가 95.4%라는 결과를 얻으려면 사실은 다음과 같이 -2인 경우의 값을 빼줘야 합니다.


IDL> PRINT, GAUSS_PDF(2)-GAUSS_PDF(-2)

     0.954500


이렇게 해야 다음 그림과 같은 범위를 커버하는 확률인 95.4%라는 결과를 얻을 수 있습니다.



그래서 동일한 방식으로 1-sigma, 3-sigma에 대한 확률을 계산하려면 다음과 같이 해야 한다는 것을 이제는 알 수 있습니다.


IDL> PRINT, GAUSS_PDF(1)-GAUSS_PDF(-1)

     0.682690

IDL> PRINT, GAUSS_PDF(3)-GAUSS_PDF(-3)

     0.997300


따라서 GAUSS_PDF 함수의 사용에 있어서는 이러한 점만 유의하면 됩니다. 이번에는 GAUSS_CVF 함수입니다. 이 함수는 앞서 언급했던 GAUSS_PDF와는 사용법이 반대입니다. 즉 GAUSS_PDF 함수는 컷오프 값을 입력인자로 받아서 확률값을 산출해주는 역할이라고 한다면, GAUSS_CVF는 확률값을 입력인자로 받아서 컷오프값을 산출해주는 역할입니다. 따라서 만약 80% 확률에 해당되는 컷오프 값을 구하려면 GAUSS_CVF 함수를 다음과 같이 사용해야 할 것처럼 보일 수도 있습니다.


IDL> PRINT, GAUSS_CVF(0.8)

    -0.841621


그런데 산출된 값이 좀 이상합니다. 사실 이 80%라는 값(0.8)을 아까 우리가 GAUSS_PDF함수를 얘기할 때처럼, 컷오프 값보다 작거나 같을 확률로 생각하면 안됩니다. 사실 이 GAUSS_CVF 함수가 입력인자로 받는 확률은, 산출될 컷오프 값보다 크거나 같을 확률로 산출됩니다. 즉 실제로는 다음 그림과 같은 방식으로 해석됩니다.



따라서 컷오프 값보다 작거나 같을 확률이 되도록 결과를 얻고자 한다면 다음과 같이 (-)부호만 붙여주면 됩니다.


IDL> PRINT, -GAUSS_CVF(0.8)

     0.841621


이렇게 해야 다음 그림과 같은 방식으로 해석되는 결과를 얻게 됩니다.



그래서 정리해보면, GAUSS_PDF와 GAUSS_CVF는 컷오프 기준으로 확률을 산정하는데 있어서 그 방향이 서로 반대라는 점만 유의하면 됩니다. IDL에는 이외에도 유사한 성격의 다음과 같은 계산함수들이 있습니다.


Chi-Square 분포를 기반으로 하는 CHISQR_PDF 및 CHISQR_CVF 함수

F 분포를 기반으로 하는 F_PDF 및 F_CVF 함수

Student's t 분포를 기반으로 하는 T_PDF, T_CVF 함수


이러한 함수들도 개념 및 사용 방식은 오늘 소개한 GAUSS_PDF, GAUSS_CVF 함수와 유사합니다. 이러한 함수들을 잘 활용하면 통계 관련 연산에 있어서 편리하게 사용이 가능하다는 점 염두에 두시면 좋을 것 같습니다.

반응형