DATA/analysis (4) 썸네일형 리스트형 [ML] 데이터 정규화, 표준화의 차이와 하는 이유 📌 데이터 스케일링 : 데이터 표준화 or 정규화하여 데이터셋을 정제하는 것 ▶ 왜 필요할까 ? 특성들의 단위가 모두 다르고, 범위도 다르기 때문에 직접적으로 비교할 수 없다 따라서 각 특성들의 단위를 무시하고 단순 비교할 수 있게 만들어준다 ex) 토익 750점 vs 영어 모의고사 80점 → 누가 더 영어 잘하는지 판단하기 어려움 또한 범위(scale)가 너무 크면 노이즈 데이터가 생성되거나 오버피팅될 가능성이 높아져서 이를 방지하기 위해 진행한다 📌 정규화 : 값의 범위를 0~1 사이의 값으로 바꿔준다 - 데이터의 여러 특성(칼럼) 값이 평등하게 0~1사이로 바뀌기때문에 기계가 평등하게 학습할 수 있다 - scikit-learn에서 MinMaxScaler 사용 📌 표준화 : 데이터가 정규분포를 따른다.. [데이터 분석] 회귀 분석 해석 📌 회귀 분석 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법 변수들 사이의 인과관계를 밝히고 모형을 적합하여 관심있는 변수를 예측 및 추론하기 위한 분석 방법 [ 회귀분석의 가설 검정 ] 1) 단순선형회귀분석 : 변수간 선형성을 점검하기 위해 산점도 확인 2) 다중선형회귀분석 : 선형성, 등분산성, 독립성, 정상성이 모두 만족하는지 확인 📝선형회귀분석의 가정 ① 선형성 : 입력 변수와 출력변수의 관계가 선형이다. ② 등분산성 : 오차의 분산이 입력변수와 무관하게 일정하다. ③ 독립성 : 입력변수와 오차는 관련이 없다. ④ 비상관성 : 오차들끼리 상관이 없다. ⑤ 정상성(정규성) : 오차의 분포가 정규분포를 따른다. [ 회귀분석의 검토 사항] 1) 회귀계수들이 유의미한가? - t 통계량의 .. [데이터 분석] 상관 분석 해석 📌 상관 분석 두 변수 간의 관계의 정도를 알아보기 위한 분석 방법이다. 두 변수의 상관관계를 알아보기 위하여 상관계수를 이용한다. 상관계수 범위 해석 0.7 < r [데이터 분석] 통계 기반 분석 모형 📌 기술 통계 (Descriptive Statistics) - 확률ㆍ통계적으로 정리ㆍ요약하는 기초적 통계 - 평균, 분산, 표준편차, 왜도와 첨도, 빈도 등 데이터에 대한 대략적 통계적 수치를 계산하고 도출 - 그래프를 활용하여 데이터 파악 - 데이터 분포의 특징 파악 📌 상관 분석 (Correlation Analysis) - 두 개 이상의 변수 간에 존재하는 상호 연관성의 정도를 측정하여 분석하는 방법 ① 단순상관 분석 : 두 변수 사이의 연관 관계 분석 ② 다중상관 분석 : 셋 이상의 변수들 사이의 연관 정도 분석 ③ 변수 간 상관 분석 : 데이터의 속성(수치적, 명목적, 순서적)에 따른 변수 간 분석 📌 회귀 분석 (Regression Analysis) - 하나 이상의 독립변수들이 종속변수에 미치는.. 이전 1 다음