[데이터 분석] 통계 기반 분석 모형
📌 기술 통계 (Descriptive Statistics)
- 확률ㆍ통계적으로 정리ㆍ요약하는 기초적 통계
- 평균, 분산, 표준편차, 왜도와 첨도, 빈도 등 데이터에 대한 대략적 통계적 수치를 계산하고 도출
- 그래프를 활용하여 데이터 파악
- 데이터 분포의 특징 파악
📌 상관 분석 (Correlation Analysis)
- 두 개 이상의 변수 간에 존재하는 상호 연관성의 정도를 측정하여 분석하는 방법
① 단순상관 분석 : 두 변수 사이의 연관 관계 분석
② 다중상관 분석 : 셋 이상의 변수들 사이의 연관 정도 분석
③ 변수 간 상관 분석 : 데이터의 속성(수치적, 명목적, 순서적)에 따른 변수 간 분석
📌 회귀 분석 (Regression Analysis)
- 하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법
① 단순선형 회귀 : 독립변수 - 1개 & 종속변수와 관계 - 직선
② 다중선형 회귀 : 독립변수 - K개 & 종속변수와 관계 - 선형 (1차 함수)
③ 다항 회귀 : 독립변수와 종속변수의 관계 - 1차 함수 이상
(단, 독립변수가 1개일 경우 독립변수와 종속변수의 관계 - 2차 함수 이상)
④ 곡선 회귀 : 독립변수 - 1개 & 종속변수와 관계 - 곡선
⑤ 로지스틱 회귀 : 종속변수가 범주형(2진 변수)인 경우 적용
→ 단순 로지스틱 회귀 및 다중, 다항 로지스틱 회귀로 확장 가능
⑥ 비선형 회귀 : 회귀식 모양이 선형관계가 아닌 모형
📌 분산 분석 (Analysis of Variance; ANOVA)
- 두 개 이상의 집단 간 비교를 수행하고자 할 때 집단 내의 분산의 비교로 얻은 분포를 이용하여
가설 검정 수행
- 복수의 집단을 비교할 때 분산을 계산함으로써 집단 간 통계적 차이를 판정
① 일원 분산 분석 : 종속변수 1개 & 독립변수 1개
② 이원 분산 분석 : 종속변수 1개 & 독립변수 2개
③ 다변량 분산 분석 : 종속변수 2개 이상
📌 주성분 분석 (Principal Component Analysis; PCA)
- 주성분 변수를 원래 변수의 선형 결합으로 추출
(주성분 변수 : 많은 변수의 분산 방식의 패턴을 간결하게 표현)
- 일부 주성분에 의해 원래 변수의 변동이 충분히 설명되는지 확인하는 분석
📌 판별 분석 (Discriminant Analysis)
- 집단에 대한 정보로부터 집단을 구별할 수 있는 판별규칙 혹은 판별함수를 만들고,
다변량 기법으로 조사된 집단에 대한 정보를 활용하여 새로운 개체가 어떤 집단인지 탐색
※ 참고문헌 : 수제비 2022 빅데이터 분석기사 필기