상관분석 ==> <메디컬 빅 데이터 연구를 위한 R 통계의 정석(김종엽 저) p177
>> 두변수 간 관계성이 얼마나 큰가를 알아볼 때
>> 관찰값들의 분포를 설명
- 회귀분석으로 가기위해 꼭 거치는 관문 ** '상관'없는 '회귀'는 팥소없는 붕어빵과 같음
- 상관분석에서 가장 중요하게 다루는 것: 상관계수(correlation coefficient)
단순 회귀 분석
*상관계수를 제곱한 값
>> 하나의 요인으로 현상을 설명하기
>> 다음 관찰값들이 어떻게 관찰될지에 대한 예측
- 하나의 독립변수로 또 다른 종속 변수(결과 변수)를 예측하는 것 => 단순 선형 회귀 분석
** 대개 우리의 연구는 관심을 두는 종속 변수(결과값)가 하나의 독립 변수로 충분히 설명되는 경우는 거의 없음!!
>> 즉, 대개 적게는 서너개 또는 그 이상의 독립변수들을 고려해야 종속 변수가 그나마 예측되는 경우가 많음
>> 다중 회귀 분석
- 1) 상관계수 계산시 0.99549... 로 계산된 경우 ==> 상관성이 매우 크다고 판단
- 2) 상관 계수를 제곱한 실행력이 0.999100... 이 됨 ==> 이 경우 독립변수와 종속변수는 서로를 99.1%나 설명한다고 알 수 있음
- 3) 관찰한 값을 표시 하는 좌표들과 이 사이를 지나는 직선과의 수직적 길이를 가장 짧게 하는 최소 제곱법을 이용해 선형 모형을 만들수 있음 ==> <메디컬 빅 데이터 연구를 위한 R 통계의 정석(김종엽 저) p190
- 선형 회귀 모형(회귀식의 함수/그래프)을 구했다고 끝?? ==>( 아님 )
==> <메디컬 빅 데이터 연구를 위한 R 통계의 정석(김종엽 저) 13강
- 4) 최소 제곱법으로 추정한 선형 회귀 모형을 수용하기 위한 기본 가정 4가지를 만족해야 함
>> 1. 정규성(normality) => Normal Q-Q <= 정규성 확인을 위한 그래프
>> 2. 선형성(linearity) => Residuals vs. Fitted <= 선형성을 확인하기위한 예측값에 따른 잔차의 분포 그래프
>> 3. 독립성(independence) => Scale - Location <= 예측값에 대한 표준 편차 그래프
>> 4. 등분산성(homoscedasticity) => Residuals vs. Leverage <= 영향력이 큰 관찰값들에 대한 그래프
다중 회귀 분석
>> 여러 요인을 통해 현상 분석하기
기타 회귀 분석 **간략 설명만
- 로지스틱스 회귀 분석
>> 분석 결과가 두 가지로 양분되는 경우
>> 이분형 결과 변수 예측
- 푸아송 회귀 분석
>> 결과 변수가 빈도(;확률)인 경우 (=> 분석 결과가 연속형 변수가 아닌 도수 자료(count data)일 때 사용)
>> 확률을 예측하기 위한 방법
*** 엑셀로 카이제곱 교차분석 ==>> https://blog.naver.com/stat833/220064862005
*엑셀로 t-검정 => https://blog.naver.com/stat833/220068721499
*엑셀로 분산분석 => https://blog.naver.com/stat833/220069870037
*엑셀로 상관계수 산출 => https://blog.naver.com/stat833/220064833463
*엑셀로 회귀분석 하기 => https://blog.naver.com/stat833/220060189937

'샐러던트 > 석사논문 쓰기' 카테고리의 다른 글
| 그룹간의 평균/비율 비교 (0) | 2023.10.30 |
|---|---|
| 기초통계적인 검정 및 분석 (1) | 2023.10.29 |
| 데이터 준비 (0) | 2023.10.28 |
| 참고문헌 (0) | 2023.09.13 |
| W05/06-03-다중회귀분석 (0) | 2023.09.09 |