오늘은 IDL에서 지원되는 통계 관련 내장함수들 중에서 GAUSS_PDF, GAUSS_CVF 함수에 관하여 다뤄보고자 합니다. 함수의 명칭에서 짐작할 수 있듯이 이 함수들은 우리가 흔히 가우스 분포(Gaussian Distribution)라고도 부르는 정규분포(Normal Distribution) 확률 밀도 함수와 관련된 연산을 담당합니다. 기초 통계에서 흔히 언급되는 1-sigma, 2-sigma, 3-sigma 확률이 각각 68.3%, 95.4%, 99.7%에해당된다는 계산 결과는, 예를 들면 정규분포를 나타내는 데이터 값들 중에서 표준편차의 2배 이내의 값일 확률이 95.4%가 된다는 얘기입니다. 물론 이러한 값들은 다음 그림과 같은 평균이 0이고 표준편차가 1인 정규분포를 근거로 하여 산출된 것입니다.
그리고 이러한 연산을 수행하는 내장함수가 IDL에서는 GAUSS_PDF, GAUSS_CVF입니다. 그러면 먼저 GAUSS_PDF 함수부터 얘기해보겠습니다. IDL 도움말에서 이 함수에 관한 설명을 보면 다음과 같습니다.
This is the probability P that, in a Gaussian distribution with a mean of 0.0 and a variance of 1.0, a random variable X is less than or equal to a user-specified cutoff value V.
이 얘기는 평균이 0이고 표준편차가 1인 정규분포상에서 특정 컷오프 값 V보다 작거나 같을 확률임을 뜻합니다. 그런데 이 내용에 대해서는 어느 정도 유의가 필요합니다. 예를 들어 아까 언급했던 2-sigma 이내에 해당되는 확률을 구하려면, 얼핏 생각하면 GAUSS_PDF 함수를 다음과 같이 사용해야 할 것처럼 보일 수도 있습니다.
IDL> PRINT, GAUSS_PDF(2)
0.977250
그런데 산출된 결과값을 보면 이와 같이 95.4%가 아니라 97.7%라고 나옵니다. 그 이유는 컷오프 값이 2라고 할 때 다음 그림과 같이 정규분포상에서 2보다 작거나 같은 범위를 모두 포함하기 때문입니다.
따라서 우리가 흔히 얘기하는 2-sigma가 95.4%라는 결과를 얻으려면 사실은 다음과 같이 -2인 경우의 값을 빼줘야 합니다.
IDL> PRINT, GAUSS_PDF(2)-GAUSS_PDF(-2)
0.954500
이렇게 해야 다음 그림과 같은 범위를 커버하는 확률인 95.4%라는 결과를 얻을 수 있습니다.
그래서 동일한 방식으로 1-sigma, 3-sigma에 대한 확률을 계산하려면 다음과 같이 해야 한다는 것을 이제는 알 수 있습니다.
IDL> PRINT, GAUSS_PDF(1)-GAUSS_PDF(-1)
0.682690
IDL> PRINT, GAUSS_PDF(3)-GAUSS_PDF(-3)
0.997300
따라서 GAUSS_PDF 함수의 사용에 있어서는 이러한 점만 유의하면 됩니다. 이번에는 GAUSS_CVF 함수입니다. 이 함수는 앞서 언급했던 GAUSS_PDF와는 사용법이 반대입니다. 즉 GAUSS_PDF 함수는 컷오프 값을 입력인자로 받아서 확률값을 산출해주는 역할이라고 한다면, GAUSS_CVF는 확률값을 입력인자로 받아서 컷오프값을 산출해주는 역할입니다. 따라서 만약 80% 확률에 해당되는 컷오프 값을 구하려면 GAUSS_CVF 함수를 다음과 같이 사용해야 할 것처럼 보일 수도 있습니다.
IDL> PRINT, GAUSS_CVF(0.8)
-0.841621
그런데 산출된 값이 좀 이상합니다. 사실 이 80%라는 값(0.8)을 아까 우리가 GAUSS_PDF함수를 얘기할 때처럼, 컷오프 값보다 작거나 같을 확률로 생각하면 안됩니다. 사실 이 GAUSS_CVF 함수가 입력인자로 받는 확률은, 산출될 컷오프 값보다 크거나 같을 확률로 산출됩니다. 즉 실제로는 다음 그림과 같은 방식으로 해석됩니다.
따라서 컷오프 값보다 작거나 같을 확률이 되도록 결과를 얻고자 한다면 다음과 같이 (-)부호만 붙여주면 됩니다.
IDL> PRINT, -GAUSS_CVF(0.8)
0.841621
이렇게 해야 다음 그림과 같은 방식으로 해석되는 결과를 얻게 됩니다.
그래서 정리해보면, GAUSS_PDF와 GAUSS_CVF는 컷오프 기준으로 확률을 산정하는데 있어서 그 방향이 서로 반대라는 점만 유의하면 됩니다. IDL에는 이외에도 유사한 성격의 다음과 같은 계산함수들이 있습니다.
Chi-Square 분포를 기반으로 하는 CHISQR_PDF 및 CHISQR_CVF 함수
F 분포를 기반으로 하는 F_PDF 및 F_CVF 함수
Student's t 분포를 기반으로 하는 T_PDF, T_CVF 함수
이러한 함수들도 개념 및 사용 방식은 오늘 소개한 GAUSS_PDF, GAUSS_CVF 함수와 유사합니다. 이러한 함수들을 잘 활용하면 통계 관련 연산에 있어서 편리하게 사용이 가능하다는 점 염두에 두시면 좋을 것 같습니다.
'IDL > Math' 카테고리의 다른 글
사분위수(Quartile) 값의 계산 (0) | 2019.02.25 |
---|---|
INTERPOLATE 함수를 이용한 2차원 내삽(Interpolation) (0) | 2018.09.10 |
비선형(Non-linear) 함수의 근사(Fitting) (Part 2) (0) | 2018.08.10 |
비선형(Non-linear) 함수의 근사(Fitting) (Part 1) (0) | 2018.08.09 |
불규칙 분포 데이터를 규칙 격자화된 데이터로 만들기 [3] (0) | 2018.01.30 |