사회조사분석사 2급 필기, 필답형 정리 - 3. 사회통계(2)

2022-01-18 10 분 소요

본 글은 사회조사분석사 2급. 한권으로 끝내기(2020) 책의 내용을 자격증 취득을 위해 요약 및 정리한 내용입니다.
사회조사분석사 2급 자격증을 20년 8월에 취득했기 때문에 21년 문제는 업데이트하지 못했습니다. (2012 ~ 2020년 기출문제들은 모두 포함되어 있습니다.)
그럼에도 불구하고 그때 기억을 살려 최대한 정리하고 공유하도록 해보겠습니다.
중요도(==빈출도)는 별표로 표시했습니다.(1개 ~ 3개)
오타나 오류는 알려주시길 바라며, 도움이 되길 바랍니다.

혹시 해당 글을 pdf로 받고 싶으신 분은 이메일과 함께 댓글로 남겨주세요~

3_3. 통계적 추정

통계적 추정 : 모집단의 특정인 모수를 추측하는 통계적 분석방법
종류
1. 점추정 : 모수를 단일치로 추측하는 방법으로, 그 신뢰도를 나타낼 수 없다는 단점이 있다.
2. 구간추정 : 모수를 포함한다고 추측되는 구간을 구하는 방법.구간추정은 모수의 추정치와 신뢰도를 함께 구할 수 있다.

모분산의 추정량으로써 편차제곱합을 n으로 나눈 것보다는 (n-1)로 나눈 것을 사용하는 이유는 불편성 기준에서 편향이 더 없어 바람직하다.

바람직한 통계적 추정량의 결정기준 ($\star\star\star$)

불편성(=편의가 없다.)
- 추정량의 기대치가 추정할 모수의 실제값과 같을 때, 이 추정량은 불편성을 가졌다고 한다.
- 모수 $\theta$의 추정량을 $\hat \theta$으로 나타내면 $\hat \theta$의 기댓값이 $\theta$가 되는 성질
  - $E(\hat \theta) = \theta$이면, $\hat \theta$을 불편추정량이라 한다.
효율성(=유효성)
- 추정량 $\hat \theta$을 불편추정량이고, 그 분산이 다른 추정량 $\hat \theta_i$에 비해 최소의 분산을 갖는 성질
- $Var(\hat \theta_1)\ge Var(\hat \theta_2)$일 때 $\hat \theta_2$가 $\hat \theta_1$보다 효율성(유효성)이 크다.
일치성
- 표본의 크기(n)가 커짐에 따라 추정량 $\hat \theta$이 확률적으로 모수 $\theta$에 가깝게 수렴하는 성질
- $\lim_{n \to \infty}P(\mid \hat \theta - \theta \mid < \varepsilon)=1$
충분성
- 모수에 대하여 가능한 많은 표본정보를 내포하고 있는 추정량의 성질

점추정 : 모집단으로부터 추출된 표본을 이용하여 하나의 수치로 모수를 추정하는 것

표준오차 ($\star\star$)

통계량의 표준편차를 표준오차라 한다.
- $\frac{\sigma}{\sqrt n}$ (n은 표본의 크기, $\sigma$는 모집단의 표준편차)
표준오차는 모집단의 표준편차보다 언제나 작다.
- $\sigma$을 알 수 없는 경우 $\sigma$대신 표본표준편차인 $s=\sqrt{\frac{\Sigma(x_i-\bar x)^2}{n-1}}$을 대입
모집단의 표준편차가 클수록 표준오차는 커진다.
표본크기가 클수록 표준오차는 작아진다.
일반적으로 어떤 불편추정량이 얼마나 좋은 추정량인가를 나타내는 방법으로 그 추정량의 표준편차를 이용한다.
- 표준편차가 작은 추정량이 더 좋은 추정량

표본오차 : 모집단과 표본의 차이
표준오차 : 통계량의 분포인 표본분포의 표준편차

모평균의 점추정 : 모평균의 점추정량은 표본평균과 같다.
- 즉, 모집단 평균 $\mu$의 불편추정량은 $\bar x$이다.
모분산의 점추정 : 모분산의 점추정량은 표본분산과 같다. 즉, 모집단 분산 $\sigma^2$의 불편추정량은 $s^2$이다.
모표준편차의 점추정 : 모표준편차의 점추정량은 표본푠편차와 같다. 즉, 모집단 표준편차 $\sigma$의 추정량은 $s$이다.
모비율의 점추정 : 모비율의 점추정량은 표본비율과 같다. 즉, 모집단 비율 p의 불편추정량은 $\hat p$이다.
모비율 : 모집단 속에서 어떤 특정한 속성을 갖는 것의 비율

신뢰도

신뢰도(신뢰수준) : 신뢰수준 95%라 함은, 동일한 추정방법을 사용하여 신뢰구간을 100회 반복하여 추정한다면, 95회 정도는 동일한 결과가 나오는 것을 의미한다.
신뢰구간 ($\star$) : 일정한 구간을 제시하여 모수가 포함되었을 것이라고 제시한 구간
- 신뢰구간을 100회 반복하여 측정했을 때 95번은 그 구간 내에 모평균이 포함된다는 의미.
신뢰계수
- 오차율은 신뢰구간 내에 모집단 평균이 포함되지 않을 확률(신뢰도 = 1 – $\alpha$)

신뢰도(=1-$\alpha$)	$z_{\frac{\alpha}{2}}$
0.90(90%)	1.64
0.95(95%)	1.96
0.99(99%)	2.57

모수 $\mu$에 대한 각각의 신뢰구간

$Z_{0.05}= 1.645 \qquad \bar x \pm 1.645\frac{\sigma}{\sqrt n}$
$Z_{0.025}= 1.96 \qquad \bar x \pm 1.96\frac{\sigma}{\sqrt n}$
$Z_{0.005}= 2.575 \qquad \bar x \pm 2.57\frac{\sigma}{\sqrt n}$

표본의 크기를 구하는 공식

모평균 추정시 표본의 크기
- 추정식 양쪽에서 D(오차 한계) = $z$(신뢰계수) x $\sigma$(표준오차) 단위만큼만 벌어지는 구간을 가지려 가정한다.
  - 허용오차(최대한으로 허용하는 오차) = $z$(신뢰계수) x $\sigma$(표준오차)
- $n\ge \frac{z_{\alpha /2}^2\times \sigma^2}{D^2}$
모비율 추정시 표본의 크기 ($\star\star\star$)
- 모집단의 추정이라는 원리상 모비율을 모르고 있는 것이 일반적이다. 따라서 모비율에 대해 대체적인 값을 알고 있으면 이를 이용하도록 하고, 이것이 불가능하면 소규모의 예비조사에 의해서 대체적인 값을 추정하도록 하되, 이값마저 알 수 없다면 $\hat p = \frac{1}{2}$을 사용하여 표본의 크기를 결정하는 것이 완정성이 크다.
- $n\ge \hat p(1- \hat p)(\frac{z_{\alpha/2}}{D})^2$

표본의 크기 결정요인

신뢰도 : 일정한 오차의 범위 내로 신뢰구간을 설정하고자 할 때 신뢰도에 의해서 Z나 t가 결정되기 때문에 신뢰도를 높일수록 표본의 크기 는 커야 한다.
표준편차 : 일정한 범위 내로 신뢰구간을 설정하고자 하는 경우 모집단의 분산 또는 표준편차가 ㅋ르수록 표본의 크기는 커야 한다.
오차의 크기 : 오차를 적게 하기를 원하면 표본의 크기를 크게 해야 한다.

모평균의 100(1-α)% 신뢰구간 ($\star\star$)

모분산을 알고 있을 경우 ($\star\star$)
- $\bar x - z_{\alpha/2}\frac{\sigma}{\sqrt n}\le \mu \le \bar x + z_{\alpha/2}\frac{\sigma}{\sqrt n}$
모분산을 모르는 대표본($n\ge30$)일 경우 ($\star\star$)
- $\bar x - z_{\alpha/2}\frac{s}{\sqrt n}\le \mu \le \bar x + z_{\alpha/2}\frac{s}{\sqrt n}$
모분산을 모르는 소표본($n\le30$)일 경우 ($\star$)
- $(\bar x_1 - \bar x_2) - t_{\alpha/2}S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}$ $\le \mu_1-\mu_2$ $\le (\bar x_1 - \bar x_2) + t_{\alpha/2}S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}$

대응표본인 경우 모평균 차이의 100(1-α)% 신뢰구간

대표본($n\ge 30$)일 경우
- $\bar D - z_{\alpha/2}\frac{S_D}{\sqrt n}\le \mu_1 - \mu_2 \le \bar D + z_{\alpha/2}\frac{S_D}{\sqrt n}$
- 모평균의 차 $\mu_1 - \mu_2$에 대한 추정량은 $\bar D = \bar X_1 - X_2$
소표본($n<30$)일 경우
- $\bar D - t_{\alpha/2}\frac{S_D}{\sqrt n}\le \mu_1 - \mu_2 \le \bar D + t_{\alpha/2}\frac{S_D}{\sqrt n}$

모비율차이의 100(1-α)% 신뢰구간

모비율의 신뢰구간 ($\star\star$)
- $\hat p - z_{\alpha/2}\sqrt{\frac{\hat p(1- \hat p)}{n}}\le p \le \hat p + z_{\alpha/2}\sqrt{\frac{\hat p(1- \hat p)}{n}} $
두 모비율 차이의 신뢰구간
- $(\hat p_1 - \hat p_2) - z_{\alpha/2}\sqrt{\frac{\hat p_1(1- \hat p_1)}{n_1}+\frac{\hat p_2(1- \hat p_2)}{n_2}}$ $\le p_1 - p_2$ $\le (\hat p_1 - \hat p_2) + z_{\alpha/2}\sqrt{\frac{\hat p_1(1- \hat p_1)}{n_1}+\frac{\hat p_2(1- \hat p_2)}{n_2}} $

3_4. 가설검정

가설검정 : 가설을 기각할 것인가 또는 채택할 것인가를 판정
- 통계학에서는 이론과의 차이가 확률적인 오차의 범위를 넘어 오류라고 판단되어질 때 ‘가설을 기각한다‘라고 한다.
- 가설을 기각 혹은 채택하는 판단기준이 되는 것을 유의수준($\alpha$)이라 한다.
- 가설이 기각된 경우는 ‘유의하다‘라고 하다.
귀무가설 ($\star$) : 모집단의 모수에 대해서 어떤 조건을 가정하여 가설을 설정
- 귀무가설을 설정할 때는 무조건 등호(=)를 포함해야 한다.
- 아무런 차이가 없다
- 전혀 효과가 없다.
- 귀무가설의 내용이 신뢰구간에 속하면 귀무가설을 채택할 수 있다.
대립가설 ($\star$) : 귀무가설과 반대되는 가설
- 차이가 있다
- 효과가 있다
- 표본에 근거한 강력한 증거에 의해서 입증한다.
가설 : 일련의 현상을 설명하기 위하여 어떤 학설을 논리적으로 구성하는 명제
검정통계량 : 귀무가설의 채택 또는 기각 여부를 결정하는 데 사용되는 표본통계치
- 검정통계량의 관측값이 기각역에 속하면 귀무가설을 기각한다.
임계치 : 주어진 유의수준에서 귀무가설의 채택 또는 기각을 결정하는 데 기준이 되는 값
1. 임계치 > 검정통계량 : 귀무가설 채택
2. 임계치 < 검정통계량 : 귀무가설 기각
위험률 : 귀무가설이 참인데도 불구하고 이를 기각하는 확률
유의수준 : 귀무가설이 옳을 때 모집단에서 추출한 임의 표본의 함수로서 정한 어떤 통계량의 실현 값이 미리 결정한 영역(기각역)에 포함될 확률
- 1종 오류를 범할 수 있는 최대허용한계
유의확률(p- Value) ($\star\star$) : 귀무가설이 사실이라는 전제하에 검정통계량이 표본에서 계산된 값과 값거나 그 값보다 대립가설 방향을 더 극단적인 값을 가질 확률
- 귀무가설을 기각시킬 수 있는 최소의 유의수준으로 귀무가설이 사실일 확률
- p-Value가 1종오류를 범할 확률
  1. $\alpha$ > p-Value : 귀무가설 기각
  2. $\alpha$ <> p-Value : 귀무가설 채택
자유도 : 사례수. 주어진 조건 아래에서 자유롭게 변화할 수 있는 점수나 변인의 수
양측검정 : 가설검정에서 귀무가설을 기각할 영역이 양쪽에 위치하고 있는 것
- 양측검정은 모평균이 어느 가정치와 동일한지 아닌지를 조사할 경우에 사용된다. 단측검정 ($\star$) : 가설검정에서 귀무가설을 기각할 영역이 한쪽에 위치하고 있는 것
- 모수의 크기가 이론적•경험적으로 얼마 이상 혹은 얼마 이하로 예상될 경우에 사용된다.

가설검정의 오류

제1종 오류와 제2종 오류 ($\star\star\star$)

모평균에 대한 검정통계량

모분산을 알고 있을 경우 $\star$ : $z=\frac{\bar x -\mu_o}{\sigma/{\sqrt n}}$
모분산을 모르는 경우
1. 대표본($n\ge 30$)일 경우 : $z=\frac{\bar x -\mu_o}{s/{\sqrt n}}$
2. 대표본($n< 30$)일 경우 : $t=\frac{\bar x -\mu_o}{s/{\sqrt n}}$

모평균 차이에 대한 검정통계량

모분산을 알고 있을 경우 : $z=\frac{\bar x_1 - \bar x_2}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}$
모분산을 모르는 경우
- 모분산이 알려져있지 않으나 동일한 경우 (자유도가 $n_1+n_2-2$인 t-분포 이용)
  - $t=\frac{\bar x_1 - \bar x_2}{S_p\sqrt{1/n_1+1/n_2}}$
- 합동표본분산($S_p^2$)
  - $S_p^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}$
    - $S_1^2=\frac{\Sigma(X_1-\bar X_1)^2}{n_1-1}$
    - $S_2^2=\frac{\Sigma(X_2-\bar X_2)^2}{n_2-1}$
- 모분산이 알려져 있지 않고 동일하지도 않은 경우 : $z=\frac{\bar X_1 - \bar X_2}{\sqrt{\frac{S_1^2}{n_1}+ \frac{S_2^2}{n_2}}}$

대응표본의 모평균 차이에 대한 가설검정 ($\star\star$)

대응표본인 경우 : 두 집단 간의 차이 $D=\mu_1-\mu_2$에 대한 검정통계량은 자유도가 n-1인 t-분포를 이용한다.
- $t=\frac{\bar D}{S_D/\sqrt n}$
  - $S_D=\sqrt{E(D^2)-E(D)^2}$
대응표본 t검정과 독립표본 t검정 ($\star\star\star$)
- t검정 : 두 집단의 평균차이가 통계적으로 유의한가를 검증하는 분석방법
- 조사대상의 개체가 같고 반드시 짝을 이루는 경우 대응표본 t검정(쌍체비교)을 실시한다.
- 독립표본 t검정은 조사대상의 개체가 다르고 반드시 짝을 이룰 필요가 없다.

모비율/모비율 차이에 대한 검정통계량

모비율에 대한 가설검정 ($\star\star\star$) : $z=\frac{\hat p - p}{\sqrt{p(1-p)/n}}$
- 비율의 표본분포는 $np\ge 5$, $n(1-p)\ge 5$ 일때 정규분포와 비슷한 모양을 이루게 된다.
모비율 차이에 대한 가설검정 : $z=\frac{\hat p_1-\hat p_2}{\sqrt{\hat p(1- \hat p)(\frac{1}{n_1} + \frac{1}{n_2})}}$
- $\hat p$는 합동표본비율 $\frac{x_1+x_2}{n_1+n_2}$

모분산에 대한 검정통계량

모분산에 대한 가설검정 ($\star$) : $\chi^2=\frac{(n-1)S^2}{\sigma_0^2}$
모분산 $\sigma_1^2=\sigma_2^2$에 대한 가설검정
- $F=\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}$
  - ($H_0: \sigma_1^2=\sigma_2^2$, $H_1: \sigma_1^2>\sigma_2^2$ or $H_1: \sigma_1^2\ne \sigma_2^2$)
- $F=\frac{S_2^2/\sigma_2^2}{S_1^2/\sigma_1^2}$
  - ($H_0: \sigma_1^2=\sigma_2^2$, $H_1: \sigma_1^2<\sigma_2^2$)

3_5. 통계분석

척도와 변인에 따른 분석방법

spss

통계분석에 사용하는 검정통계량 ($\star$)

	독립변수	종속변수
t검정	질적(범주형)	양적(연속형)
교차분석	질적(범주형)	질적(범주형)
분산분석	질적(범주형)	양적(연속형)
상관분석	양적(연속형)	양적(연속형)
회귀분석	양적(연속형)	양적(연속형)

교차분석

범주형인 명목척도와 서열척도의 성격을 가진 두 변수가 가진 각 범주를 교차하여 해당 도수를 표시하는 교차분석표를 작성하여 두 변수 간의 관련성을 분석하는 기법
교사분석은 범주형인 두 변수에 대한 교차표를 작성하여 교차표의 각 셀의 관찰도수와 기대도수 간의 차이 를 검정하기 위하여 카이제곱 검정통계량을 사용한다.
카이제곱검정은 교차표에 나타난 변수 간의 유의성을 알아보는 방법

검정

독립성 검정 : 두 가지 변수 A, B 사이에 연관성이 있는지를 검정하는 것
동일성 검정 : 모집단을 주어진 변수 A에 따라 R개의 속성으로 범주화한 뒤 R개의 부분 모집단으로부터 추출한 각 표본을 C개의 범주로 주어졌을 때 이들 각 모집단의 분포가 동일한가의 여부를 판단하는 것

분석 절차

가설 설정
1. 독립성 검정
2. 동일성 검정
기대도수 구하기 ($\star$) : $E_{ij}=\frac{O_i\times O_j}{n}$
- $O_i$ : 행의 합
- $O_j$ : 열의 합
- n : 전체관측도수
검정통계량 구하기 ($\star\star$) : $\chi^2=\sum_{i=1}^r\sum_{j=1}^c \frac{(O_{ij}-E_{ij})^2}{E_{ij}} \sim \chi_{(r-1)(c-1)}^2$
- $O_{ij}$ : 관찰도수
- $E_{ij}$ : 기대도수
자유도 ($\star\star$) : r행 c열 분할표에서 카이제곱 통계량의 자유도는 (r - 1) x (c - 1)이다.

카이제곱 적합성 검정 ($\star\star$)

카이제곱 적합성 검정 : 모집단의 분포에 대한 가정이 옳은지를 실제 관측된 자료를 바탕으로 검정하는 것
- n개의 표본자료를 k개의 범주로 분류하여 각 범주에 속하는 관측도수(관찰빈도)와 귀무가설하에서 주어진 확률분포에 대해 각 범주에 속하는 기대도수(기대빈도) 간에 잘 적합되는지를 검정하는 것.
분석 절차
1. 가설 설정
2. 기대도수 구하기 : $E_i=n\pi_i$
  - $\pi_i$ : 미리 주어진 확률
3. 검정통계량 구하기 : $\chi^2=\sum_{i=1}^k \frac{(O_i-E_i)^2}{E_i} \sim \chi_{k-1}^2$
  - $O_i$ : 관찰도수
  - $E_i$ : 기대도수, i=1,2,…,k
4. 자유도 : 카이제곱 적합성 검정에서 통계량의 자유도는 k - 1 이다.

분산분석 ($\star$)

분산분석 : 세 집단 이상의 평균차이가 통계적으로 유의한가를 검정하는 분석방법. ANOVA
- cf) t검정 : 두 집단의 평균차이가 통계적으로 유의한가를 검정하는 분석방법
- 독립변수는 범주형 척도이고 종속변수는 연속형 척도이어야 한다.
- 독립변수를 요인(인자)이라고도 하며, 요인이 가지는 값을 요인수준(인자수준, 처리)이라고 한다.

분산분석을 위한 기본 가정

종속변수는 등간척도 또는 비율척도이어야 한다.
모집단의 분포는 정규분포를 이루어야 한다.
각 모집단의 분산(표준편차)은 동일해야 한다.
각 집단의 표본은 독립적이어야 한다.

분산분석의 특징 ($\star$)

세 개 이상 집단 간의 모평균을 비교함이 목적이다
검정통계량은 F-분포를 사용한다.
F값은 집단 간 분산을 집단 내 분산으로 나눈 값이다.
모수적 가설검정법이다.
집단 간 차이가 커지면 F값이 커진다.
각 집단별 자료의 수가 다를 수 있다.

분산분석의 오차항에 대한 기본 가정 ($\star\star\star$)

독립성 : 임의의 오차 $\varepsilon_{ij}와 \varepsilon_{ij}$는 서로 독립이다.
정규성 : 오차 $\varepsilon_{ij}$의 분포는 정규분포를 따른다.
등분산성 : 오차 $\varepsilon_{ij}$의 분산은 $\sigma_{\varepsilon}^2$으로 어떤 i, j에 대해서도 같다.

분산분석 종류

일원배치 분산분석 ($\star$) : 요인이 1개인 경우의 종속변수(반응변수)의 평균차이 분석에 사용
- 예를 들면, 교육수준에 따라 임금 차이를 분석하고자 할 때 사용
이원분산분석법 : 요인이 2개인 경우의 종속변수(반응변수)의 평균차이 분석에 사용한다.
- 예를 들면, 성별, 교육수준에 따라 임금 차이를 분석하고자 할 때 사용
다윈분산분석법 : 요인이 3개 이상인 경우의 종속변수(반응변수)의 평균차이 분석에 사용한다. 예를 들면 지역별, 성별, 교육 수준에 따라 임금 차이를 분석하고자 할 때 사용

구조식 ($\star$) : $y_{i,j}=\mu+a_i+\varepsilon_{ij}$
- $a_i=\mu_i-\mu$
- $\Sigma a_i=0$
- 모평균 $\mu_i$는 i번째 요인수준에서의 모평균을 나타낸다. $\varepsilon_{ij}$는 $y_{ij}$를 측정할 때 발생하는 오차를 나타나는 항
가설 설정 ($\star\star$)
- 귀무가설($H_o$) : $\mu_1=\mu_2=…=\mu_p$
- 대립가설($H_1$) : 모든 $\mu_i$가 같은 것은 아니다. (=적어도 한 쌍 이상의 평균이 다르다.)

일원배치 분산분석표 ($\star\star\star$)

변동의 분해
- p개의 요인수준을 각 r회 반복할 경우, 총변동량을 요인 간에 발생하는 변동과 잔차에 의해서 발생하는 변동으로 분해하면 $y_{ij}- \bar{\bar y}=(\bar y_i - \bar{\bar y}) + (y_{ij}-\bar y_i)$로 분해할 수 있다.
위의 식에서 양변을 제곱하여 모든 i, j에 대하여 정리하면 다음과 같다.
- $\sum_{i=1}^p\sum_{j=1}^r (y_{ij}-\bar{\bar y})^2$ = $\sum_{i=1}^p\sum_{j=1}^r (y_{i}-\bar{\bar y})^2$ $+ \sum_{i=1}^p\sum_{j=1}^r (y_{ij}-\bar y_i)^2$
  - 총제곱합(SST) = $\sum_{i=1}^p\sum_{j=1}^r (y_{ij}-\bar{\bar y})^2$
  - 처리(집단 간) 제곱합(SSR) : $\sum_{i=1}^p\sum_{j=1}^r (y_{i}-\bar{\bar y})^2$
  - 잔차(집단 내) 제곱합(SSE) : $\sum_{i=1}^p\sum_{j=1}^r (y_{ij}-\bar y_i)^2$

일원배치 분산분석표

요인	제곱합(SS)	자유도(df)	평균제곱(ms)	F
처리(집단 간)	SSR=$\sum_{i=1}^p\sum_{j=1}^r (y_{i}-\bar{\bar y})^2$	p-1	MSR=SSR/(p-1)	MSR/MSE $\sim F_{\alpha, p-1, N-1}$
잔차(집단 내)	SSE=$\sum_{i=1}^p\sum_{j=1}^r (y_{ij}-\bar y_i)^2$	N-P	MSE=SSE/(N-p)
총계	SST=$\sum_{i=1}^p\sum_{j=1}^r (y_{ij}-\bar{\bar y})^2$	N-1

$N=n_1+n_2+…+np$, 즉 총 관찰계수

상관분석

상관분석 : 하나의 변수가 다른 변수와 어느정도 접한 관련성을 갖고 변화하는 지를 알아보가 위하여 사용
상관분석의 기본 가정
1. 상관분석은 변수들 간의 선형성을 충족시켜야 한다. 즉, 두 변수 간에 정(+)의 상관이거나 부(-)의 상관의 형태로 나타난다.
2. 등분산성이 갖을 충족시켜야 한다.
3. 이상치 유무를 파악하여 제거해야 한다.
4. 변수는 등간 또는 비율척도로 구성되어야 한다. 서열척도는 순위 상관을 사용한다.

공분산 : X의 증감에 따른 Y의 증감에 대한 척도
각 확률변수들이 어떻게 퍼져있는지를 나타내는 것
(두 변수 사이의 상관성을 나타내주는 지표는 기본적으로 두 변수 간의 공분산이다.)
1. $Cov(X,Y)=\sigma_{XY}=E[(X-\mu_X)(Y- \mu_Y)]$
- X의 편차와 Y의 편차를 곱한 값의 평균
- ($\mu_X=E(X), \mu_Y=E(Y)$)
  1. $Cov(X,Y)=E(XY)-E(X)E(Y)$
  2. $Cov(X,Y)=Cov(Y,X)$
  3. $Cov(aX+b, cY+d) = acCov(X, Y)$, 단, a,b,c,d는 상수

산점도 ($\star$)

산점도 : 좌표평면상에 이차원 자료 (x, y)를 타점하여 나타낸 통계 그래프이다. 상관분석 또는 회귀분석을할 때 산점도를 그려서 변수들 간의 상 연관성(선형•비선형의 여부, 이상점 존재 여부, 자료의 군집 형태, 회귀직선의 타당성, 오차항의 등분산성•독립성 등)을 대략적으로 파악할 수 있다.

상관계수

상관계수 : 피어슨 상관계수를 간단히 지칭한 것. 대상변수들의 측정에 사용된 척도가 등간•비율척도일 때 하나의 변수와 다른 변수와의 선형 관련성을 분석하는 데 이용된다.
상관계수 공식 ($\star\star$) : 공분산을 X, Y의 표준편차로 나누어 표준화하여 구한다.
$Corr(X,Y)=\frac{Cov(X,Y)}{\sigma_X\sigma_Y}$ $\qquad \qquad = \frac{\Sigma(X_i-\mu_X)(Y_i-\mu_Y)}{\sqrt{\Sigma(X_i-\mu_X)^2}\sqrt{\Sigma(Y_i-\mu_Y)^2}}$
- $-1\le Corr\le 1$

두 변수에 대한 n개 표본이 주어졌을 때, 이들 표본에 대한 상관계수를 표본상관계수 r로 나타낸다.
$r=\frac{Cov(X,Y)}{S_xS_Y}=\frac{S_{XY}}{S_XS_Y}$ $\ =\frac{\Sigma (X_i-\bar X)(Y_i-\bar Y)}{\sqrt{\Sigma (X_i-\bar X)^2}\sqrt{\Sigma (Y_i-\bar Y)^2}}$ $\ = \frac{\Sigma {X_iY_i}-n\bar X\bar Y}{\sqrt{\Sigma X_i^2 - n\bar X^2}\sqrt{\Sigma Y_i^2 - n\bar Y^2}}$
- $-1\le r \le 1$
- $S_X$ : X의 표준편차
- $S_Y$ : Y의 표준편차

상관계수의 특징 ($\star\star\star$)

-1에서 1 사이의 값을 갖는다.
상관계수가 음의 값을 가지면 부의 상관관계가, 양의 값을 가지면 정의 상관관계가 있음을 의미한다. 또한 r값이 0에 가까울수록 상관관계가 약한 것을 의미하고 $\pm 1$에 가까울수록 강한 상관관계가 있음을 의미한다.
상관계수가 0이면 변수 간에 선형연관성이 없는 것이지 곡선의 연관성은 있을 수 있다.
두 확률변수가 서로 독립이면 상관계수는 0이다.
$Corr(X,Y)=Corr(aX+b, cY+d)$ (단, ac>0)
$Corr(X,Y)=-Corr(aX+b, cY+d)$ (단, ac<0)
임의의 상수 a, b에 대하여 Y=a +bX와 같이 X와 선형관계가 있다면, b>0일 때 상관계수는 1이고 b<0일 때 상관계수는 -1이다.

상관계수의 유의성 검정
1. 가설설정
  - 귀무가설($H_o$) : 두 변수 간에 상관관계가 없다.
  - 대립가설($H_1$) : 두 변수 간에 상관관계가 있다.
2. 검정통계량 : $t=r\frac{\sqrt{n-2}}{\sqrt{1-r^2}} \sim t_{n-2}$

회귀분석

회귀분석 : 독립변수가 종속변수에 미치는 영향력을 분석하거나, 독립변수에 따라 종속변수의 변화를 예측하기 위해서 사용하는 통계기법
- 독립변수 = 설명변수(원인변수)
- 종속변수 = 반응변수(결과변수)
단순회귀분석 : 독립변수가 1개일 때, 독립변수와 종속변수 간의 선형관계를 분석한다.
다중회귀분석 : 독립변수가 2개 이상일 때, 독립변수와 종속변수 간의 선형관계를 분석한다.

회귀분석의 사용

회귀분석은 변수들 중 하나를 종속변수로 나머지를 독립변수로 하여 변수들 간에 상관관계가 존재할 때, 독립변수가 한 단위 변화함에 따라 종속변수가 어떻게 변화하는지를 분석하는 기법이다.
- 자료의 척도는 일반적으로 등간척도, 또는 비율척도이어야 한다.
- 독립변수가 범주형 척도이면, 이를 가변수로 만들어서 이용한다.
- 종속변수가 이변량 변수이면 로지스틱 회귀분석을 한다.
회귀분석에서는 t-검정과 F-검정을 모두 사용한다. 회귀모형의 유의성 검정에서 검정통계량은 F-검정을 사용하고 회귀계수의 유의성 검정에서 검정통계량은 t-검정을 사용한다.

구조식

$y_i=\alpha+\beta x_i + \varepsilon_i$
오차항의 기본 가정 ($\star$)
1. 정규성 : 오차항 $\varepsilon_i$은 정규분포를 따른다.
2. 등분산성 : 오차항 $\varepsilon_i$의 분산은 모든 i에 대하여 같다.
3. 독립성 : 임의의 오차항 $\varepsilon_i$와 $\acute{\varepsilon_i}$는 독립이다.

최소제곱법 ($\star\star\star$)

최소제곱법 : 회귀계수의 추정방법 중에서 잔차($e_i=y_i-\hat y_i$)의 제곱합을 최소로 하는 방법
$b=\frac{S_{xy}}{S_{xx}}=\frac{\Sigma(x_i-\bar x)(y_i-\bar y)}{\Sigma (x_i-\bar x)^2}=\frac{\Sigma{x_iy_i}-n\bar x\bar y}{\Sigma (x_i -\bar x)^2} \Rightarrow$ 추정된 회귀직선은 $\hat y_i = a+ bx_i$
$a=\bar y - b\bar x= \frac{1}{n}\Sigma y_i - b\frac{1}{n}\Sigma x_i$
$b = r\frac{S_y}{S_x}=r\frac{\sqrt{\Sigma(y_i-\bar y)^2}}{\sqrt{\Sigma (x_i-\bar x)^2}}=\frac{\Sigma (x_i-\bar x)(y_i - \bar y)}{\Sigma (x_i-\bar x)^2}$
- b>0이면, r>0 이어서 양의 상관관계를 갖는다.
- b<0이면, r<0 이어서 음의 상관관계를 갖는다.
- b=0이면, r=0 이어서 상관관계가 없다.

총변동의 분해

회귀선 y의 한 관측값 $y_i$가 가지는 편차 $y_i -\bar y$를 분석하면, 이 편차를 두 가지의 다른 종류의 편차 항 $y_i-\bar y=(\hat y_i - \bar y) + (y_i - \hat y_i)$으로 나타낼 수 있다.
$\sum_{i=1}^n (y_i-\bar y)^2=$ $\sum_{i=1}^n (\hat y_i - \bar y)^2 + \sum_{i=1}^n (y_i - \hat y_i)^2$

단순회귀모형 분산분석표 ($\star$)

요인	제곱합(SS)	자유도(df)	평균제곱(ms)	F
회귀	SSR=$\sum_{i=1}^n (\hat y_i - \bar y)^2$	1	MSR=SSR/1	MSR/MSE $\sim F_{\alpha, 1, n-2}$
잔차	SSE=$\sum_{i=1}^n (y_i - \hat y_i)^2$	n-2	MSE=SSE/(n-2)
전체	SST=$\sum_{i=1}^n (y_i-\bar y)^2$	n-1

잔차의 성질 ($\star$)

$e_i=y_i-\hat y_i$

$\Sigma e_i = 0$
$\Sigma x_ie_i = 0$
$\Sigma \hat y_i^2e_i = 0$
$\Sigma y_i = \Sigma \hat y_i$

단순회귀모형의 적합성 ($\star\star\star$)

결정계수($R^2$) : 총 변동 SST 중에서 SSR이 차지하는 비중
- 회귀모형이 적합한지 확인하기 위해 사용. 회귀모형의 독립변수가 종속변수 변동의 %를 설명하고 있는지를 나타내는 지표
- $R^2=\frac{SSR}{SST}=1-\frac{SSE}{SST}$
단순선형회귀에서는 상관계수(r)의 제곱이 결정계수($R^2$)이 된다.
- $R^2=r^2=(\frac{S_{xy}}{S_xS_y})^2$

결정계수의 특성 ($\star\star\star$)

$0\le R^2 \le 1$
결정계수는 설명력을 의미하는 수치
모든 측정값이 한 직선 상에 놓이면 $R^2$의 값은 1이 된다.
$R^2$은 독립변수의 수가 늘어날수록 증가하는 경향이 있다.

단순회귀계수의 유의성 검정 ($\star$)

검정통계량 : $t=\frac{b-\beta}{\sqrt{Var(b)}}=\frac{b-\beta}{\sqrt{MSE/S_{xx}}} \sim t_{n-2}$

다중회귀분석

다중회귀분석 : 독립변수의 수가 2개 이상을 포함하는 모형
구조식 : $y_i=\beta_9+\beta_1x_{1i}+\beta_2x_{2i}+…+\beta_kx_{ki}+\varepsilon_i$
- $k$ : 독립변수의 개수, i=1,2,…,n
$\Rightarrow$ 행렬로 표시하면 $Y=Xb + \varepsilon$. 회귀계수 벡터 $\beta$의 추정량은 $b=(\beta_0, \beta_1,…,\beta_k)^1$. 이때 b의 추정치는 $\hat b = (\acute XX)^{-1}\acute X Y$, 분산-공분산 행렬은 $Var(b) = (\acute XX)^{-1}\sigma^2$

다중회귀분석의 분산분석표 ($\star\star\star$)

요인	제곱합(SS)	자유도(df)	평균제곱(ms)	F
회귀	SSR=$\sum_{i=1}^n (\hat y_i - \bar y)^2$	k	MSR=SSR/k	MSR/MSE $\sim F_{\alpha, k, n-k-1}$
잔차	SSE=$\sum_{i=1}^n (y_i - \hat y_i)^2$	n-k-1	MSE=SSE/(n-k-1)
전체	SST=$\sum_{i=1}^n (y_i-\bar y)^2$	n-1

더비변수를 이용한 회귀분석 ($\star\star$)

더미변수 : 질적효과를 고려할 수 있는 독립변수
- 범주형 척도의 자료를 독립변수의 더미변수로 변환하여 회귀분석하는 것.
더미변수 선택 : k개 그룹의 질적 차이를 구분하는 경우, k-1개의 더미변수 사용

KakaoTalk Twitter Facebook LinkedIn

poeun 🔅