본문 바로가기

Statistics

(4)
시계열 데이터 정상성(stationary)평균, 분산이 시간에 따라 일정한 성질이다. 즉, 시계열 데이터의 특성이 시간의 흐름에 따라 변하지 않음을 의미한다. 이렇듯 정상성을 나타내지 않는 데이터는 복잡한 패턴을 모델링하여 분석하기 어렵기 때문에, 정상성을 갖도록 로그 변환, 차분 등 전처리 후 분석을 시행한다.정상 시계열 변환정상성을 나타내지 않는 데이터를 정상 시계열로 변환하는 방법은 다음과 같다.변동폭이 일정하지 않은 경우 -> 로그 변환추세, 계절성이 존재하는 경우 -> 차분(differencing, y_t - y_{t-1})단, 1차 차분으로 정상성을 띄지 않으면, 차분을 반복한다.예측 기법을 고려하기 전 시계열 패턴이 어떤지에 대해 파악해야 한다. 시계열 데이터 특성 추세(Trend)추세는 시간이 지남에 따..
ANOVA 란? ANOVA t-test는 하나 혹은 두 개의 모집단의 평균이 비슷한지 추정하는 것이라면, ANOVA는 여러 집단의 평균이 다른지를 보는 검정 기법이다. ANOVA는 ANalysis Of VAriance 의 약자로 직역하면 '분산분석'이다. 평균의 차이를 알아보는데 분산의 개념이 왜 나올까? 여러 그룹 간의 표본 평균들의 차이를 표본 평균 간의 분산(between variance)과 한 표본 집단 내의 분산(within variance)을 이용해서 나타내기 때문이다. between var 을 withing var로 나눠줌(이 값을 F-통계량이라고 함)으로써 여러 표본 집단의 모집단의 평균이 동일한지 확인한다. F 분포 ANOVA는 F-통계량을 통하여 검정하게 되는데, F-통계량은 위의 F 분포를 따른다.F..
t-test 쉽게 이해하기 이 글은 곽기영 교수님의 통계데이터분석 - 평균검정 - t검정 강의를 참고하였음을 밝힙니다.t-test표본 집단의 평균과 모집단의 평균이 동일한지, 두 표본집단의 평균에 차이가 있는지 알고 싶을 때 우리는 평균검정을 하게된다. t-test는 평균에 대한 가설 검정을 수행해준다.Assumptiont-test는 두 가지의 가정을 전제로 한다.1) 수치형 변수 (평균을 구해야 하니깐 당연..)2) 표본집단이 정규분포(Normal distribution)를 따라야 한다는 것이다! (정규성이 없는 t-test는 의미가 없다..)그럼, 어떻게 정규분포 여부를 확인할까?- qqplot: 직선에 가까이 모여있는가?- qqline: 기울기가 1인 직선과 근접한가?- boxplot: 치우침이 없는 분포인가?- hist: ..
통계적 가설검정 쉽게 이해하기 우리는 일반적으로 어떠한 집단 전체에 대한 정보를 알고 싶지만, 전수조사를 하기 힘든 경우가 많다. 예를 들어, 전국 대학생의 토익 영어 평균, 30대 한국 남성의 비만율 등.. 이런 정보를 일일이 조사하기는 사실 상 불가능 하다. 이런 전체 집단을 모집단이라고 한다. 그래서, 연구자는 모수에 대한 주장을 세우고(대립가설) 모집단에서 표본(샘플)을 추출하여 모집단을 추정한다. 그리고, 세웠던 가설이 맞는지 확인한다. 이러한 단계가 통계적 가설 검정에 해당한다. 같은 내용을 딱딱하게 써보면... 통계적 가설 검정(Hypothesis testing) 이란? 모집단에 대한 분포의 모양이나 *모수(parameter)에 대한 *가설을 새우고, 모집단으로부터 추출한 표본을 기초로 가설을 기각하거나 채택하는 통계적 ..