본문 바로가기

Statistics

t-test 쉽게 이해하기

이 글은 곽기영 교수님의 통계데이터분석 - 평균검정 - t검정 강의를 참고하였음을 밝힙니다.

t-test

표본 집단의 평균과 모집단의 평균이 동일한지, 두 표본집단의 평균에 차이가 있는지 알고 싶을 때 우리는 평균검정을 하게된다. t-test는 평균에 대한 가설 검정을 수행해준다.

Assumption

t-test는 두 가지의 가정을 전제로 한다.

1) 수치형 변수 (평균을 구해야 하니깐 당연..)

2) 표본집단이 정규분포(Normal distribution)를 따라야 한다는 것이다! (정규성이 없는 t-test는 의미가 없다..)

그럼, 어떻게 정규분포 여부를 확인할까?

- qqplot: 직선에 가까이 모여있는가?

- qqline: 기울기가 1인 직선과 근접한가?

- boxplot: 치우침이 없는 분포인가?

- hist: 치우쳐지지 않았는가?

 

그런데, 위 방법은 연구자에 따라 주관적일 수가 있어서 shapiro-wilk normality test 와 같은 정규성 검정을 사용하여 p값을 구할 수 있다. 

+ 샘플 수가 충분히 커지면 (30 이상) 중심극한정리에 의해 정규분포를 따른다고 본다. 그래서, 샘플 수가 많아지면 정규성을 고려하지 않아도 된다.

t 값과 t 분포

아래의 t값을 검정통계량으로 사용하여, 모집단의 평균과 표본평균이 동일한지 확인한다.

t-통계랑
t 분포

1) t 분포는 정규분포(Z 분포)와 비슷하게 생겼지만, 꼬리 부분이 조금 더 두터움.

2) 표본의 크기가 클수록 종 모양이 더 뾰족해짐.

3) 표본의 크기가 커질수록 t분포와 Z분포는 비슷해짐.

예시

벤처기업의 경영자 혈압과 일반인 혈압이 다르다는 대립가설을 세우고, 평균검정을 해보자.

위 검정은 양측 검정(two-tailed test) 이므로 0.025 씩 양쪽에 기각역을 둔다. 

t분포의 중앙인 t=0은 모집단 평균에 115에 대응된다. t 값이 3.58로 기각역인 2.09보다 크므로, 귀무가설이 기각된다.

t-test 단계

위의 예시는 one sample test의 구체적인 예시에 해당하고 두 개의 표본집단 평균을 비교하는 two sample test도 있다. 

t-test는 한 개, 혹은 두 개 그룹의 평균을 비교하는 통계적 가설 검정이기 때문이다.

순서를 정리해보자면,

 

one sample test

한 개의 표본(변수)에 대해서 모평균을 추정하는 가설 검정이다. 

two sample test

두 개의 그룹에 대해 평균을 비교할 때 사용되는 검정 기법이다. 이 때, 연구자는 두 개의 표본에 대해 다음을 확인해야 한다.

- 두 변수가 독립적인가? 종속적인가? 두 표본을 샘플링 할 때, 서로의 표본이 관계가 있는지 여부를 말한다.

    

  • 독립적이라면, 각각의 샘플이 정규분포 이루는지 확인 
    • 분산이 동일한가 다른가? variance test → F-통계량을 통해 확인!
      (t-test는 등분산 가정, welch t-test는 이분산 가정)

 

  • 종속적이라면, paired t-test 를 한다. → 두 표본의 차이로 검정하는 기법

'Statistics' 카테고리의 다른 글

시계열 데이터  (0) 2024.05.26
ANOVA 란?  (1) 2023.12.11
통계적 가설검정 쉽게 이해하기  (2) 2023.11.30