들어가면서

​ 이번 글은 p-value, t-value, 그리고 F-value에 대해 알아보겠습니다. 최근 다시 공부를 시작했는데, 그 김에 정리해봅니다.

통계 프로그램을 통해 분석을 하면, F값, t값, p값이 출력되는 것을 확인할 수 있습니다. 보통 분석 방법에 따라 나오는 값들이 다른데, 회귀 분석의 경우 F,t,p값이 모두 나오게 되고, T-test에서는 T, p값이, ANOVA에서는 F,p값이 나오게 됩니다. 이 값들의 역할에 대해 알아보겠습니다.


p-value

    p-value는 유의확률이라고도 부르며, 검정 통계량이 얼마나 극단적인 결과인지를 나타내는 지표입니다. 어떤 가설이 참이라고 가정했을 때, 표본에서 계산된 검정통계량이 그 가설로부터 예상되는 값과 얼마나 다른지를 나타내는 확률값입니다. 유의수준을 얼마로 설정하느냐에 따라 다르지만, 보통 0.05를 기준으로 p-value가 0.05보다 작을 때 대립가설이 유의하다고 판단합니다. 이는 우연히 이러한 차이가 나타날 확률이 5% 이하라는 것을 의미합니다. 이 경우, 우연히 발생한 것이 아니라고 판단하여 우리는 귀무가설(차이가 없다는 가설)을 기각하고, 대립가설을 채택할 수 있습니다.


t-value

t-value는 t-test와 회귀분석에 사용됩니다.

t-test

t-test에서는 두 그룹간의 차이를 비교하는데 사용합니다. 각 그룹의 샘플 크기가 작을 때 유용합니다. 두 집단의 평균 차이를 그들의 분산에 비례하여 표준화한 값으로, t-value가 클 수록 두 집단의 평균 차이가 크다는 것을 나타냅니다. 예를 들어 제품 A와 제품 B를 비교할 때, 두 제품의 평균 판매량이 유의미하게 차이가 있는지 등을 확인할 수 있습니다. 이렇듯 두 집단의 평균 차이를 평가하는 데 중요한 역할을 합니다.

t-value는 t분포를 따르며, p-value와 함께 검정의 유의성을 평가합니다. 일반적으로 t-value가 크고, p-value가 작을수록 두 집단의 평균값이 유의미하게 차이가 있다는 것을 나타내며, 이 경우에 귀무가설을 기각합니다.

회귀분석

회귀분석에서의 t-value는 독립변수들의 영향력을 평가할 수 있습니다. 일반적으로 회귀분석에서는 각 독립변수의 계수(coefficients)와 t-value를 함께 보고, 이를 통해 해당 독립변수가 종속변수에 미치는 영향을 평가합니다. t-value는 해당 독립변수의 계수를 해당 독립변수의 표준오차로 나눈 값으로 계산됩니다. 이 때 부호와 크기가 중요하며, t-value가 크면 해당 독립변수가 종속변수에 미치는 영향력이 더 크다는 것을 나타냅니다. t-value의 부호는 가설검증 판단 시 참고합니다.


F-value

F-value는 ANOVA와 회귀분석에서 사용됩니다.

ANOVA (분산분석)

세 개 이상의 그룹간의 차이를 비교하는 데 사용됩니다. 그룹간 평균제곱/그룹 내 평균제곱으로 계산되며 모집단에서의 그룹간 분산과 그룹 내 분산의 비율을 나타냅니다. 각 그룹의 샘플 크기가 크고, 그룹간 차이가 클 때 더욱 유용하게 사용됩니다.

회귀분석

회귀분석에서는 전체 모델의 설명력(예측력)이 유의한지를 검정하는 데 사용됩니다. 이 때 F-value는 전체 모델의 평균제곱오차/전체모델의 평균제곱합으로 계산됩니다. 전체 모델의 평균제곱합은 모델이 설명한 변동량의 제곱합, 평균제곱오차는 모델에서 설명하지 못한 나머지 오차의 제곱합을 나타냅니다. F-value가 높을수록 모델의 예측력이 높아지며, 유의미한 모델이라고 판단됩니다.

회귀분석시에는 F값을 통해서 모형의 설명력이 유의한지를 가장 먼저 알아봐야합니다. p-value와 마찬가지로 모형의 결과가 F-value가 0.05보다 작은 경우 적합하다고 판단됩니다. F-value가 유의하지 않다면 p-value로 가설이 유의미하다고 검정되었더라도 모형 자체가 설명력이 없기 때문에 무의미한 결과가 됩니다.