8 분 소요

본 글은 사회조사분석사 2급. 한권으로 끝내기(2020) 책의 내용을 자격증 취득을 위해 요약 및 정리한 내용입니다.
사회조사분석사 2급 자격증을 20년 8월에 취득했기 때문에 21년 문제는 업데이트하지 못했습니다. (2012 ~ 2020년 기출문제들은 모두 포함되어 있습니다.)
그럼에도 불구하고 그때 기억을 살려 최대한 정리하고 공유하도록 해보겠습니다.
중요도(==빈출도)는 별표로 표시했습니다.(1개 ~ 3개)
오타나 오류는 알려주시길 바라며, 도움이 되길 바랍니다.

혹시 해당 글을 pdf로 받고 싶으신 분은 이메일과 함께 댓글로 남겨주세요~







3_1. 기술통계

대푯값

  • 대푯값 : 분포의 중심위치를 나타내는 측정치


대푯값의 구분

  1. 계산적인 대푯값 : 산술평균, 기하평균, 조화평균, 평방평균 등
  2. 위치적인 대푯값 : 중위수, 최빈수, 사분위수, 백분위수



계산적인 대푯값(추상적인 대푯값) ($\star$)

  • 대푯값에 있어서 그중 평균은 이상치에 영향을 많이 받는다.
  1. 산술평균 ($\star\star\star$)
    • n개의 수가 있을 때, 이들의 합을 개수로 나눈 값
    • 산술평균$(\bar x) = \frac {1}{n}\sum_{} x_i=\frac {x_1+x_2+…+x_n}{n}$) ($\star\star\star$)
  2. 기하평균
    • 변화율이나 비율의 평균을 구할 때 이용하는 수치
    • 가중산술평균 = $\frac {\sum_{} f_ix_i}{\sum_{} f_i}$
    • 기하평균(G) = $\sqrt[n]{x_1\times x_2\times … \times x_n}$ (단, n은 변수의 개수)
  3. 조화평균
    • N개의 양수에 대하여 그 역수들을 산술평균한 것의 역수
    • 추상적인 대푯값으로 극단적인 값의 영향을 받으며, 시간적으로 계속하여 변하는 변량, 속도 등에 사용하는 대푯값으로 역수를 갖는 변량 외에는 거의 사용하지 않는다.
    • 조화평균(H) = $\frac {n}{\sum_{} \frac{1}{x_i}} = \frac {1}{\frac{1}{n}(\frac{1}{x_1}+\frac{1}{x_2}+…+\frac{1}{x_n})}$



위치적인 대푯값(구체적인 대푯값)

  1. 중위수 ($\star\star\star$)(중앙값, 중앙치)
    • 중앙에 위치한 수치 ($M_e$)
    • N이 홀수일 경우 중위수는 $\frac{n+1}{2}$번째의 값이 되고, n이 짝수일 경우 중위수는 $\frac{n}{2}$번째의 값과 $\frac{n}{2}+1$번째의 값의 평균값이 된다.
    • 극단적인 값의 영향을 받지 않으며, 중위수에 대한 편차의 절대치의 합은 다른 어떤 수에 대한 편차의 절대치의 합보다 작다.
    • 분포모양이 비대칭인 경우에는 중앙값이 산술평균이나 최빈수보다 자료의 대표성을 높일 수 있다.
    • 분포모양이 대칭일 경우에는 중앙값과 산술평균은 일치한다.(중앙값과 산술평균이 일치한다고 해서 분포모양이 반드시 대칭인 것은 아니다.)
  2. 최빈수(최빈값)
    • 변량 X의 측정값 중에서 출현도수가 가장 많은 값 ($M_o$)
    • 극단적인 이상점에 영향을 받지 않는다.
    • 경우에 따라 하나도 없거나 두 개 이상 존재할 수도 있다.
    • 명목수준의 측정에서 사용하는 통계기법
  3. 사분위수
    • 변량 X의 n개의 측정값을 작은 것부터 크기순으로 배열하였을 때 전체 측정값을 4등분하는 위치에 오는 값
      • 줄기와 잎 그림 : 데이터를 줄기와 잎으로 나누어 대략적인 분포를 확인하는 기법. 일반적으로 자료의 일의 단위를 잎으로, 십의 자리 이상을 줄기로 구분한다.
      • 상자그림(상자와 수염그림) : 자료로부터 얻어낸 통계량인 다섯 수치요약을 이용하여 그린다.
      • 이상값은 *로 표시한다. 분포의 모양, 중심 위치, 이상치 등 자료의 특성을 파악할 수 있다.



산술평균, 중위수, 최빈수의 관계(그래프) ($\star$)

image



산포도

  • 산포도(분산도) : f(x)의 m주위에서 흩어져 있는 정도
  • 산포도가 클수록 그 분포의 흩어진 폭이 넓고, 산포도가 작을수록 분포의 흩어진 폭은 좁다.


산포도의 종류 ($\star\star$)

  1. 절대적인 분포의 산포도 : 범위, 사분위수 범위, 평균편차, 사분편차, 분산•표준편차
  2. 상대적인 분포의 산포도 : 변이계수(변동계수), 사분위편차계수, 평균편차계수


절대적인 분포의 산포도

  1. 범위 ($\star$) : 자료의 관측치 가운데 가장 큰 최댓값과 최솟값의 차이
    • 범위(R) = 자료의 최댓값 - 자료의 최솟값
  2. 사분위수 범위($IQR$) ($\star$) : 제3사분위수($Q_3$)와 제1사분위수($Q_1$)의 차이
  3. 평균편차 : 관측치들의 평균값으로부터 떨어져 있는 거리
  4. 사분편차 : 제3사분위수에서 제1사분위를 뺀 값(사분위수 범위)의 1/2값
  5. 분산과 표준편차 ($\star\star$)
    • 분산 : 편차의 제곱의 합을 자료의 수로 나눈 값
    • 분산과 표준편차의 관계
      • $표준편차(\sigma) = \sqrt{분산}$
      • $\sigma^2 = \frac{\sum_{} (X_i-\mu)^2}{N} = \frac{1}{N}\sum_{} X_i^2 - \mu^2$ (모분산의 분산)
      • $s^2 = \frac{\sum_{} (X_i-\bar X)^2}{n-1}=\frac{\sum_{} X_i^2 - n\bar X^2}{n-1}$ (표본의 분산)
      • 분산이 0이면 모든 변량이 평균값에 집중되고 있음을 의미하며, 분산의 값이 크면 클수록 변량이 평균에서 멀리 떨어져 있다는 것을 의미한다.



상대적인 분포의 산포도

  1. 변이계수(변동계수) ($\star\star\star$)
    • 표준편차를 평균으로 나눈 값 (CV)
    • 변이계수 = $\frac{S}{\bar X}$
    • 단위가 다른 두 집단의 산포를 비교할 때 이용한다.
    • 변이계수의 값이 큰 분포보다 작은 분포가 상대적으로 평균에 더 밀집되어 있는 분포
  2. 사분위편차계수 : 사분편차를 중위수로 나눈 몫
  3. 평균편차계수 : 평균편차를 중위수 또는 산술평균으로 나눈 몫



비대칭도

  1. 왜도 : 자료분포의 모양이 어느 쪽으로 얼마만큼 기울어져 있는가
    • 비대칭 정도를 나타내는 척도
    • 왜도의 특징 ($\star\star\star$)
      1. 왜도가 0이면 대칭분포를 이룬다. (정규분포)
      2. 왜도가 0보다 크면 왼쪽으로 기울어진 분포이다.
      3. 왜도가 0보다 작으면 오른쪽으로 기울어진 분포이다.
      4. 왜도의 절댓값이 클수록 비대칭정도는 커진다.
    • 피어슨 계수 ($\star$)
      • $S_k \simeq \frac{\bar X - M_o}{S} \simeq \frac{3(\bar X - M_e)}{S}$
        1. $S_k$가 0이면 대칭분포를 이룬다. ($M_o = \bar X$)
        2. $S_k$가 0보다 크면 왼쪽으로 기울어진 분포 ($M_o < \bar X$)
        3. $S_k$가 0보다 작으면 오른쪽으로 기울어진 분포 ($M_o > \bar X$)
        4. $-1<S_k<1$
  2. 첨도 (Kurtosis) : 분포도가 얼마나 중심에 집중되어 있는가
    • 분포의 중심이 얼마나 뾰족한가
    • 첨도의 특징 ($\star$)
      1. K = 3 이면 표준정규분포로 중첨이라고 한다.
      2. K > 3 이면 표준정규분포보다 정점이 높고 뾰족한 모양으로 급첨이라고 한다.
      3. K < 3 이면 표준정규분포보다 낮고 무딘 모양으로 완첨이라고 한다.



3_2. 확률과 확률분포

  • 확률 : 사건이 일어날 가능성의 정도
    • 확률은 0과 1을 포함한 그 사이의 실수
    • 확률의 정리
      1. 고전적인 방법 : 어떤 실험의 가능한 결과가 모두 n가지이고, 각 결과가 나타날 가능성이 모두 동일하고, 서로 중복되지 않는다고 할 때 사상 A에 속하는 결과가 a가지이면 사건 A의 확률은 $\frac{a}{n}$로 정하는 방법
        1. 경험적 확률(상대도수에 의한 방법) : 충분히 많은 횟수의 반복 시행에서 어떤 사상의 확률로 정하는 방법. 경험적인 결과에 기초를 두어 정하는 확률



표본공간과 사상

  • 표본공간 : 한 실험에서 나타날 수 있는 가능한 모든 결과의 집합 S.
    • 즉, 시행에 의하여 일어날수 있는 가능한 모든 결과로 된 집합
  • 사상 : 표본공간의 부분집합
    • 공사상 : 표본공간의 어떤 원소도 갖고 있지 않은 사상
    • 여사상 : 사상 A가 일어나지 않을 사상. 전체 확률 1에서 사상 A가 일어날 확률을 뺀 것
      • $P(A^c) = 1 - P(A)$
      • $P(A) + P(A^c)= 1$
    • 배반사상 : A와 B 두 사상이 동시에 일어날 수 없는 사상
      • $A \cap B= \varnothing$
    • 독립사상 : A와 B 두 사상이 서로 영향을 미치지 않으면 두 사상 A와 B는 독립
  • 조건부 확률 ($\star\star\star$) : 한 사건이 일어날 것을 전제로 다른 사건이 일어날 확률
    • 일반적으로 $P(A\mid B) \ne P(B\mid A)$
      1. B가 일어날 조건하에서 A가 일어날 확률 : $P(A\mid B) \frac{P(A \cap B)}{P(B)}$
      2. A가 일어날 조건하에서 B가 일어날 확률 : $P(B\mid A) \frac{P(B \cap A)}{P(A)}$
      3. A와 B가 상호독립일 경우 조건부 확률 : $P(A\mid B) = P(A), P(B\mid A)=P(B)$



확률의 성질과 계산 ($\star\star$)

  • 확률의 기본성질
    1. 모든 사상 A에 대하여 $0\le P(A)\le 1$이다.
    2. $P(S)=1$
    3. $P(\varnothing)=0$
    4. $P(A\cup B) = P(A) + P(B) - P(A \cap B)$
    5. $P(A\cap B)=0이면, P(A\cup B)=P(A) + P(B)$
    6. $A_1, A_2, …, A_n$이 서로 배반사건이면 $P(A_i \cap A_j)=0$
    7. $P(A)=1-P(A^c)$ or $P(A)+P(A^c)=1$



확률의 계산 ($\star\star$)

  • 배타적(상호독립적) 사건 : 한 사건의 발생이 다른 사건의 발생에 전형 영향을 미치지 않는 것
  • 배타적 X $\Rightarrow P(A \cup B)=P(A)+P(B)-P(A\cap B)$
  • 배타적 O $\Rightarrow P(A \cup B)=P(A)+P(B)$
  • $P(A\cap B) = P(B)P(A\mid B)$
  • $P(A\cap B) = P(A)P(B\mid A)$
  • 사건 A와 B가 독립이면 $P(A\cap B)=P(A)P(B)$



기본 확률 단어

  • 순열 : n개의 원소로 된 집합으로부터 한 번에 x개의 원소를 선택하여 이들 간에 순서를 정하여 늘어 놓는 방법
    • $_nP_x=n(n-1)(n-2)…(n-x+1)=\frac{n!}{(n-x)!}$ (단, $n\ge x$)
    • $_nP_n=n!$
    • $_nP_0=1$
    • $0!=1$
  • 조합 ($\star\star$) : n개의 원소로 된 집합으로부터 한 번에 x개의 원소를 순서에 관계없이 비복원으로 선택하는 방법
    • $_nC_x=\frac{_nP_x}{x!}=\frac{n(n-1)(n-2)…(n-x+1)}{x!}=\frac{n!}{x!(n-x)!}$

    • image

    • $_nC_n=_nC_0=1$
    • $_nC_1=n$
  • 중복조합 ($\star$) : 서로 다른 m개 중에서 중복을 허락하여 k개를 선택하는 조합의 수
    • image
  • 확률변수 : 어떤 실험의 단순 사상들에 각각 하나의 숫자를 부여한 것
    1. 이산확률변수 : 확률변수가 어떤 구간 내의 특정한 값만을 취하는 경우
    2. 연속확률변수 : 어떤 구간 내의 임의의 값을 취할 경우

기댓값과 분산•표준편차 ($\star\star\star$)

  • 기댓값 : 평균과 같은 것으로 확률변수가 취할 수 있는 각 값에 해당하는 확률을 곱하여 모두 더하는 것
    • 평균적으로 기대할 수 있는 값 ($E(X)=\Sigma[x\times p(x)]$)
  • 기댓값의 성질
    • $E(a)=a$
    • $E(aX)=aE(X)$
    • $E(x+b)=E(x)+b$
    • $E(aX+b) = aE(X)+b$
    • $E(X+Y) = E(X) + E(Y)$
    • $E(X-Y) = E(X) - E(Y)$
    • $E(XY) = E(X)E(Y)$


  • 분산•표준편차 : 확률변수의 산포도를 나타내는 특성치
    • 분산은 확률변수가 취하는 값들이 기대치로부터 얼마나 흩어져 있는가
      • $Var(X)=E(X^2)-(E(X))^2$
    • 분산의 성질
      • $Var(a)=0$
      • $Var(aX)=a^2Var(X)$
      • $Var(X+b) = Var(X)$
      • $Var(aX+b) = a^2Var(X)$
      • $Var(X\pm Y) = Var(X) + Var(Y) \pm 2Cov(X,Y)$
    • 표준편차 : 분산에 양의 제곱근을 취한 것



이산확률분포

  1. 이항분포 : 확률실험에서 나타날 수 있는 기본결과가 두 가지뿐일 경우 확률실험을 몇 번 실행하여 어떤 한 가지 결과가 나오는 수를 변수값으로 부여할 때 이 변수를 이항확률변수라 한다.
    • 이항확률분포 ($\star\star\star$) : 어떤 시행에서 사건 A가 일어날 확률을 p, 사건 A가 일어나지 않을 확률을 q(q=1-p)라 하고 이 시행을 독립적으로 n회 되풀이할 때, 그 중에서 x회만 A가 일어날 확률은 $_nC_xp^xq^{n-x}$이다. $\Rightarrow B(n,p)$
    • $f(x)=_nC_xp^xq^{n-x}$ $, x=0,1,…,n$ $, q=1-p$



이항분포 $B(n,p)$의 특징 ($\star\star\star$)

  • 기댓값 $E(x)=nP$
  • 분산 $Var(x) =npq = np(1-p)$
  • 표준편차 $\sqrt{Var(x)}=\sqrt{npq}=\sqrt{np(1-p)}$
  • $p$가 1/2에 가까워짐에 따라 그래프는 좌우대칭의 산 모양곡선이 된다.
  • $p\le 0.1$이고 $n\ge 50$일때는 포아송분포에 근사된다.
  • 이항분포 $B(n,p)$에 n이 크면 정규분포
    • $\Rightarrow$ 표본비율 $\hat p$ 근사적으로 정규분포 $N(p, \frac{pq}{n})$



이항분포의 정규근사치 ($\star$)

  • 이항분포의 시행횟수가 많아지면 이항분포는 정규분포와 모양이 유사해진다. 즉, 시행횟수가 n이고 성공확률이 p이 이항분포는 $np\ge 5$ 또는 $n(1-p)\ge 5$일 경우 평균이 $np$이고 분산이 $np(1-p)$인 정규분포와 비슷한 모양이 된다.
  • 시행횟수 n이 클 때에는 정규분포를 이용하여 이항확률의 근사치를 구할 수 있다.



베르누이 시행 ($\star$)

  • 각 시행의 결과는 상호 배타적인 두 사건으로 구분된다.
    • 즉, 성공 또는 실패이다.
  • 각 시행에서 성공확률과 실패확률의 합은 1이다.
  • 각 시행은 서로 독립적이다.
  • 베르누이 시행을 n번 독립적으로 반복 시행하였을 때의 확률변수 x를 성공(x=1) 또는 실패(x=0)라 하면 x의 분포는 이항분포를 따른다.
  • $f(x)=_nC_xp^x(1-p)^{n-x}=_nC_xp^xq^{n-x}$
    • $x=0, 1$
    • $p$ : 한 시행에서 성공일 확률
    • $q(1-p)$ : 한 시행에서 실패할 확률



포아송분포 ($\star\star$)

  • 일반적으로 단위시간, 단위면적 또는 단위공간 내에서 발생하는 어떤 사건의 횟수를 확률변수 X라 하면, 확률변수 X는 $\lambda$를 모수로 갖는 포아송분포를 따른다고 한다.
  • $f(x)=\frac{e^{-\lambda}\lambda^x}{x!}$
    • $x=0,1,2…$
    • $e=2.71818… = \lim_{n \to \infty}(1+\frac{1}{n})^n$
    • $\lambda$ = 단위시간, 단위면적 또는 단위공간 내에서 발생하는 사건의 평균값



기하분포

  • 단 한번의 성공을 위해 실패를 거듭해야 하는 경우 기하분포를 이용한다.
  • 성공 확률 p인 베르누이 시행을 처음으로 성공할 때까지 반복 시행할 때 그 시행횟수를 x라고 하면 첫 번째 성공을 얻을 확률의 확률함수 f(x)는 다음과 같다.
  • $f(x)=pq^{x-1}$, $x=1,2,3…$, $q=1-p$
    1. 기댓값 $E(X)=\frac{1}{p}$
    2. 분산 $Var(X)=\frac{q}{p^2}$



연속확률분포

정규분포 ($\star\star$)

  • 가장 많이 사용되는 분포
  • 가설검정이론의 기본
  • 확률변수 X가 평균 $\mu$, 표준편차 $\sigma$를 갖는 정규분포를 따를 때 다음과 같이 표현한다.
    • $X \sim N(\mu, \sigma^2)$


정규분포의 특징

  1. 평균과 표준편차에 의해 그 위치와 모양이 결정된다
  2. 분산이 클수록 정규분포곡선이 양옆으로 퍼지는 모양이며 꼬리 부분이 두꺼워진다.
  3. 정규분포의 평균($\mu$)에 관해서 좌우대칭이고 이 점에서 최댓값을 가진다.
  4. 첨도는 3, 왜도는 0이다.
  5. 산술평균=중위수=최빈수 ($\bar X= M_e =M_o$)
  6. 분포의 평균과 표준편차가 어떠한 값을 가지더라도 저유곡선과 X축 사이의 전체면적은 1이다.
  7. 정규분포곡선은 x축과 맞닿지 않으므로 확률변수가 취할 수 있는 값의 범위는 $\infty < X <\infty$이다.
  8. 정규분포는 자연현상이나 사회현상의 대부분, 특히 관찰대상의 수가 클수록 그 분포는 정규분포와 유사하다.
  9. 이항분포의 확률 근사치를 계산하는 데 매우 유용하다.
  10. 개별치의 확률분포가 정규분포가 아니더라도 표본평균의 분포, 특히 표본의 크기가 클수록 그 분포는 정규분포에 가까워진다.



확률밀도함수와 평균 및 표준편차와의 관계

image

  • 연속성 수정 ($\star$) :정수형 변수 X에 대한 확률이 정규분포로 근사하는 과정에서 적용되는 기법
    • $a\le X \le b \Rightarrow a-0.5\le X \le b+0.5$


  • 표준정규분포 ($\star\star$) : 일반 정규분포의 개별값에 상응하는 표준값의 분포
  • 서로 다른 두 정규분포의 성격을 비교하거나 확률을 계산하기 위해서는 표준화가 필요
  • 표준화 : 평균이 0이고, 표준편차가 1이 되도록 만들어 주는 작업이다.
    • $Z=\frac{X-\mu}{\sigma}$, $Z \sim N(0,1)$
      • $X$ : 확률변수
      • $\mu$ : 평균
      • $\sigma$ : 표준편차
      • $X \sim N(\mu, \sigma^2)$



t-분포 ($\star\star$)

  • 자유도에 따라 그 모양이 변하며, 0을 중심으로 하는 좌우대칭형으로서 자유도가 일때는 표준정규분포에 접근한다.
    • $X \sim t_{(n)}$


  • t-분포의 특징 ($\star\star$)

    1. 평균은 0이다
    2. 평균을 중심으로 좌우대칭이다.
    3. 일반적으로 분산은 1보다 크나, 표본수가 커질수록 1에 접근한다.
    4. 자유도는 n-1이며 자유도에 따라 다른 t-분포를 갖는다. 자유도가 클수록 중심부가 더 솟은 모양이 된다.
    5. 정규분포보다 꼬리가 두꺼우며 첨도는 3보다 크다. N-1이 무한대로 접근할수록 t-분포는 정규분포로 접근한다.
    6. 표본의 크기 n이 작을 때 즉, n 30일 경우에 주로 이용하며 모평균, 모평균의 차 또는 회귀계수의 추정이나 검정에 쓰인다.



F-분포

  • $X \sim F_{(m,n)}$
  • 특징
    1. 왼쪽으로 비스듬히기울어져 있지만 그 정도는 자유도가 증가함에 따라 대칭성에 가까워진다.
    2. 항상 양의 값을 가지며 오른쪽 긴 꼬리 비대칭분포 형태를 이루고 있다.
    3. 두 정규모집단에서 확률로 추출한 표본으로부터 구한 두 표본분산과 두 모분산과의 관계를 이용하여 모분산비에 대한 추론을 하는 데 사용한다.
    4. 두 개의 분산은 비교, 추론하는 데 사용되는 것으로 두 집단의 분산의 동일성 검정에 사용된다.



카이제곱분포

  • 자유도의 크기에 따라 분포의 모양이 변하고, 자유도가 커지면 대칭에가까워지며 여러 집단들사이의 독립성 검정과 적합도 검정을 하는 데 주로 사용된다.
    • $Z^2$는 자유도 1인 카이제곱$(\chi^2)$ 분포를 따르며 $Z_1^2+Z_2^2+…+Z_n^2$는 자유도가 n인 카이제곱$(\chi^2)$ 분포를 따른다.
  • 특징
    1. 왼쪽으로 기울어진 연속형의 분포이다.
    2. 자유도가 커질수록 $\chi^2$분포는 오른쪽으로 폭넓게 기울어지는 모양을 나타내며 정규분포를 이루게 된다.
    3. 자유도가 n인 카이제곱 분포의 평균은 n이고, 분산은 2n이다.
    4. 모분산 $\sigma^2$이 특정한 값을 갖는지 여부를 검정하는 데 사용되는 분포이며, 두 범주형 변수간의 독립성 검정과 적합도 검정을 하는 데 주로 사용된다.



표본분포

  • 모집단으로부터 채택된 일정한 크기의 표본들을 대상으로 분석한 결과 나타난 통계량들의 분포


표본평균의 분포 ($\star\star\star$)

  1. 표본평균의 분포는 모집단이 정규모집단이냐 아니냐에 따라서 그 분포가 다르게 나타난다. 또한, 모집단으로부터 표본을 복원으로 추출하느냐 비복원으로 추출하느냐에 따라 표본평균의 분포에 대한 분산의 형태가 달라진다.
  2. 모집단분포가 $N(\mu, \sigma^2)$일 때 무한모집단(복원추출)에 의한 표본평균의 분포
    • 모집단분포가 정규분포를 따를 때, 표본평균의 분포도 정규분포를 따른다.
    • 정규모집단 $N(\mu, \sigma^2)$에서 크기 n인 표본의 표본평균 $\bar x$는 정규분포 $N(\mu, \frac{\sigma^2}{n})$를 따른다.
    • 표본평균 $\bar x$을 표준화시킨 표준화 확률변수 $Z=\frac{\bar x -\mu}{\sigma/\sqrt{n}}$ 는 표준정규분포 $N(0, 1)$을 따른다.
  3. 모집단분포가 정규분포가 아닐 때 표본평균의 분포
    • 모집단의 분포가 정규분포가 아닐 경우 표본평균 $\bar x$가 정규분포를 따른다고 할 수 없다. 그러나 표본의 크기가 충분히 클 때는 표본평균 $\bar x$의 분포는 정규분포로 볼 수 있다. 이것은 중심극한정리에 근거를 두고 있다.



체비세프 부등식

  • $P(\mid X - \mu \mid \le k\sigma) \ge 1-\frac{1}{k^2}$
  • 특징
    1. 표본의 평균으로 모평균이 속해있는 구간을 추정할 때, 구간의 길이를 조정하기 위해 유용하게 쓰인다.
    2. 확률변수의 값이 평균으로부터 표준편차의 일정 상수배 이상 떨어진 확률의 상한값 또는 하한값을 제시해 준다.

댓글남기기