DATA/analysis

[데이터 분석] 통계 기반 분석 모형

웅덩이 2022. 4. 20. 22:34

📌 기술 통계 (Descriptive Statistics)

   - 확률ㆍ통계적으로 정리ㆍ요약하는 기초적 통계
   - 평균, 분산, 표준편차, 왜도와 첨도, 빈도 등 데이터에 대한 대략적 통계적 수치를 계산하고 도출
   - 그래프를 활용하여 데이터 파악
   - 데이터 분포의 특징 파악

 

📌 상관 분석 (Correlation Analysis)

   - 두 개 이상의 변수 간에 존재하는 상호 연관성의 정도를 측정하여 분석하는 방법
   ① 단순상관 분석 : 두 변수 사이의 연관 관계 분석
   ② 다중상관 분석 : 셋 이상의 변수들 사이의 연관 정도 분석
   ③ 변수 간 상관 분석 : 데이터의 속성(수치적, 명목적, 순서적)에 따른 변수 간 분석

 

📌 회귀 분석 (Regression Analysis)

   - 하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법

   ① 단순선형 회귀 : 독립변수 - 1개 & 종속변수와 관계 - 직선

   ② 다중선형 회귀 : 독립변수 - K개 & 종속변수와 관계 - 선형 (1차 함수)

   ③ 다항 회귀 : 독립변수와 종속변수의 관계 - 1차 함수 이상
      (단, 독립변수가 1개일 경우 독립변수와 종속변수의 관계 - 2차 함수 이상)

   ④ 곡선 회귀 : 독립변수 - 1개 & 종속변수와 관계 - 곡선

   ⑤ 로지스틱 회귀 : 종속변수가 범주형(2진 변수)인 경우 적용

      → 단순 로지스틱 회귀 및 다중, 다항 로지스틱 회귀로 확장 가능

   ⑥ 비선형 회귀 : 회귀식 모양이 선형관계가 아닌 모형

 

📌 분산 분석 (Analysis of Variance; ANOVA)

   - 두 개 이상의 집단 간 비교를 수행하고자 할 때 집단 내의 분산의 비교로 얻은 분포를 이용하여
     가설 검정 수행

   - 복수의 집단을 비교할 때 분산을 계산함으로써 집단 간 통계적 차이를 판정

   ① 일원 분산 분석 : 종속변수 1개 & 독립변수 1개

   ② 이원 분산 분석 : 종속변수 1개 & 독립변수 2개

   ③ 다변량 분산 분석 : 종속변수 2개 이상

 

📌 주성분 분석 (Principal Component Analysis; PCA)

   - 주성분 변수를 원래 변수의 선형 결합으로 추출

    (주성분 변수 : 많은 변수의 분산 방식의 패턴을 간결하게 표현)

   - 일부 주성분에 의해 원래 변수의 변동이 충분히 설명되는지 확인하는 분석

 

📌 판별 분석 (Discriminant Analysis)

   - 집단에 대한 정보로부터 집단을 구별할 수 있는 판별규칙 혹은 판별함수를 만들고,
     다변량 기법으로 조사된 집단에 대한 정보를 활용하여 새로운 개체가 어떤 집단인지 탐색

 

 

 

※ 참고문헌 : 수제비 2022 빅데이터 분석기사 필기