본문 바로가기

마케팅울타리/일반

통계요약[스크랩-출처 모름]

1장 요약

 

통계학

관심대상에 대해 관련된 자료를 수집하고, 그 자료를 요약정리하여 이로부터 불확실한 사실에 대한 결론이나 일반적인 규칙성을 이끌어내는 방법을 연구하는 자료의 과학

 

통계학의 역할

① 자료의 수집
② 자료의 요약
③ 자료로부터 결론유도

 

통계학의 연구분야

기술통계 : 수집된 자료를 요약 정리하여 자료의 특징을 설명하는 분야
추측통계 : 조사된 자료를 분석하여 관심의 대상에 대하여 일반화된 결론을 얻는 분야

 

모집단

관심의 대상 전체

 

유한모집단

모집단의 크기가 유한인 경우

 

무한모집단

모집단의 크기가 무한인 경우

 

표본

실제로 조사 및 측정되는 일부

 

임의추출법

모집단의 구성요소 하나 하나가 표본으로 뽑힐 확률이 같은 상황에서 표본을 뽑는 방법

 

모수(parameter)

모집단에 대한 수치 특성값

 

통계값(statistics)

표본에서 얻은 수치 특성값

 

통계분석의 수행과정

문제의 정의 → 자료수집 → 자료의 정리, 분석 → 결과해석/의사결정

 

2장 요약

 

양적 변수(quantitative variable)

원자료의 수치가 크기로 측정된 변수
· 이산형 : 측정결과를 셀 수 있는 경우 (예 : 몸무게, 키, 병원비, 소득 등)
· 연속형 : 실수 구간 안에 모든 값을 가질 수 있는 자료 (예 : 체중, 키, 소득 등) 

 

질적 변수(qualitative variable)

변수의 특성에 의해 조사되어 분류된 변수
(예 : 종교에 의한 구분, 학력에 의한 구분 성별에 의한 구분)

 

도수분포표(frequency table)

조사된 원자료를 몇 개의 군으로 나누고 그 군에 해당되는 도수를 정리함으로써 자료의 분포개형을 파악하고 자료의 특징을 요약해 주는 표

 

원 그래프(pie graph)

전체의 구성비를 파악하기 위해 원의 각도를 도수의 비에 따라 나눠준 그림

 

막대그래프

각 범주에 속한 도수나 비율을 막대로 나타내어 상대적 비교를 쉽게 해 주는 그래프

 

히스토그램(histogram)

도수분포표의 계급값들을 X축으로 하고 구간폭을 막대의 폭으로 하여 도수를 기둥의 길이로 나타낸 그래프

 

히스토그램의 검토 요령

①자료의 중심위치
②자료의 산포
③대칭성
④봉우리의 개수
⑤이상치 유무

 

줄기-잎그림

자료를 줄기 부분과 잎 부분으로 나누어 나타냄으로써 전체 분포 개형을 파악하는 그림

 

점 그래프(dot diagram)

관찰치를 X축상에 점으로 나타내어 자료의 분포특징을 나타내는 그림

 

시계열그래프

시간이 변함에 따라 수집된 자료를 자료가 수집된 순서대로 연결하여 나타낸 그래프

 

3장 요약

 

모수

분포의 특징을 나타내는 수치(모평균, 모분산 등)

 

평균

자료의 총합을 표본의 크기로 나누어 준 값으로 분포의 무게중심에 해당한다.
 

 

중앙값

자료를 크기순으로 나열했을 때 가장 중앙에 위치한 값
 

 

최빈값

자료 중에서 가장 빈도가 높은 관찰값

 

범위(range)

최대값에서 최소값을 뺀 것
범위 = 최대값 - 최소값

 

사분위간 범위

자료 중 가운데 부분 50% 자료의 범위로 자료의 산포 정도의 측도
사분위간 범위(IQR) = 3사분위수(Q3) - 1사분위수(Q1)

 

다섯수치 요약

최소값, 1사분위수(Q1), 중앙값(Q2), 3사분위수(Q3), 최대값

 

안울타리

 

분산

평균을 중심으로 관찰값들이 얼마나 떨어져 분포하는가를 나타낸다.
표본분산 :  

 

표준편차

분산의 양의 제곱근으로 원자료의 측정단위와 같은 단위로 퍼짐 정도를 나타낸다.
표본표준편차 :

 

4장 요약

 

확률의 덧셈법칙

P(A∪B) = P(A) + P(B) - P(A∩B)

 

표본공간(sample space)

통계적 실험의 모든 가능한 결과의 집합

 

사건(event)

표본공간의 한 부분집합

 

조건부확률(conditional probability)

(단,  P(B) > 0)

 

확률의 곱셈법칙

P(A) > 0, P(B) > 0 이면,
P(A∩B) = P(A)P(B|A) = P(B)P(A|B)

만일  P(B|A) = P(B)이면 사건 A와 B를 서로 독립사건(independent event) 이라고 함. 이 때는  P(A∩B) = P(A)P(B)이 성립

 

여사건을 이용한 확률계산

P( ) = 1 - P(A)

 

확률변수

표본공간의 각 원소에 하나의 실수값을 대응시켜 주는 함수

 

이산형 확률변수

확률변수의 가능한 값들이 유한개(finite) 또는 무한개이나 셀 수 있는 변수

 

연속형 확률변수

확률변수의 가능한 값들이 무한개이며 셀 수 없는 변수

 

확률변수 X의 기대값

이산형 :

연속형 :   

 

함수 g(X)의 기대값

이산형 :

연속형 : 

 

X의 분산

    

 

기대값  및 분산의 성질

 

표준화된 확률변수

     (X:  평균이 , 표준편차가 인 확률변수)

 

이항분포

성공의 확률이 p인 베르누이 실험을 n번 독립적으로 반복 시행하였을 '성공의 회수(X)'가 일 확률은
,  x = 0, 1, 2 , ……, n

평균 = np
분산 = np(1-p)

 

초기하분포

N = 모집단의 크기, D = 모집단에서 특성값 1의 개수
n = 표본의 크기, x = 표본에서 특성값 1의개수일 때,

 (x = 0, 1, 2, ……, n)

             (단, n ≤ N, x ≤ D)

평균 = np 단,  p = D/N
분산 =

 

포아송 분포

 (x=0, 1, 2, …)

평균 = m, 분산 = m

 

정규분포함수

   - ∞ < x < ∞

평균 = , 분산 =  

 

표준정규분포

X가 평균이 이고 분산이 인 정규분포 N( , ) 일 때 변환
  
는 평균이 0 이고, 표준편차가 1인 표준정규분포 N(0, 1)을 따름

 

정규분포 계산

X가 평균이 , 분산이   인 정규 확률변수라면 구간[a, b] 의 확률은

 

5장 요약

 

통계적 추론(statistical inference)

모집단으로부터 표본을 수집하고 여기서 얻은 정보를 분석하여 모집단의 특성을 알아내는 것

 

중심극한정리

평균이 이고, 분산이 인 임의의 무한모집단에서 표본의 크기이 충분히 크면 다음이 성립한다
 

 

표본분산의 분포

이 정규분포 로부터의 랜덤표본일 때, 를 따른다

 

모수(parameter)

모집단의 특성을 나타내는 수치

 

점추정(point estimation)

미지의 모수에 가장 가까우리라고 생각되는 하나의 값을 표본으로부터 구하는 것

 

구간추정(interval estimation)

표본의 정보를 이용하여 모수의 참값이 속할 것으로 기대되는 범위를 구하는 것

 

신뢰수준(confidence level)

모수의 참값이 속할 것으로 기대되는 구간안에 모수가 포함될 가능성을 나타낸 확률

 

모평균의 100(1- )% 구간추정

· 모집단이 정규분포이고 모분산 을 아는 경우

· 모집단이 정규분포이고 모분산 을 모르는 경우

 

모비율 p의 100(1- )% 구간추정( 표본의 크기가 충분히 큰 경우)

  , n은 표본의 크기이고 는 표본의 비율.

 

모분산( )의 100(1- )% 신뢰구간(모집단이 정규분포를 따르는 경우)

 

모표준편차 의 100(1- )% 신뢰구간(모집단의 정규분포이고 표본의 크기가 큰 경우)


 은 표본분산, 는 자유도 k인 분포의 p백분위수를 뜻함 

 

6장 요약

 

통계적 추론(Statistical Inference)

모집단으로부터 뽑은 표본의 정보로부터 모집단에 대한결론을 이끌어내는 과정

 

귀무가설(Null Hypothesis)

차이가 없다는 개념을 기본으로 하는 모집단에 대한 가설

 

대립가설(Alternative Hypothesis)

차이가 있다는 개념으로 정의되고 연구자가 밝히고자하는 내용을 담고있는 가설

 

제I종오류(Type I error)

사실인 귀무가설을 기각했을 때 발생하는 오류

 

제II종오류(Type II error)

사실이 아닌 귀무가설을 받아들였을때 발생하는 오류

 

유의수준(α)

귀무가설이 사실일 때 이 귀무가설을 기각함으로써 발생되는 오류

 

유의확률(p-값)

검정통계량의 관측값에 대하여 귀무가설을 기각 할 수 있는 최소의 유의수준으로, 이 값이 작으면 작을수록 귀무가설을 기각할 강한 증거가 됨

 

모평균의 가설검정 (모표준편차를 알 경우)

가설의 종류

선택기준

1)
    

  이면 기각

2)
      

  이면 기각

3)
      

  이면 기각

 

모평균의 가설검정 (모표준편차를 모르는 경우)

가설의 종류

선택기준

1)
    

  이면 기각

2)
      

  이면 기각

3)
      

  이면 기각

 

p-값을 이용한 가설 선택

p-값이 유의수준보다 작으면  기각, 아니면  채택

 

모분산의 가설검정 (모집단이 정규분포인 경우)

가설의 종류

선택기준

1)
    

  이면 기각

2)
      

  이면 기각

3)
      

  또는
이면 기각

 

두 모평균의 가설검정 (표본이 서로 독립적으로 추출되었으며, 두 모집단이 정규분포를 따르고, 두 모분산이 같은 경우)

가설의 종류

선택기준

1)
    

  이면 기각

2)
      

  이면 기각

3)
      

  이면 기각

 

두 모평균의 가설검정 (대응비교) (모집단이 정규분포이고 두 표본이 쌍(종속적)으로 추출되었을 경우)

가설의 종류

선택기준

1)
    

  이면 기각

2)
      

  이면 기각

3)
      

  이면 기각

 

두 모분산의 가설검정 (두 모집단이 정규분포인 경우)

가설의 종류

선택기준

1)
    

  이면 기각
※ 여기서 x는 큰 표본분산에 해당하는 표본의 크기이고 y는 작은 표본분산에 해당하는 표본의 크기이다.

 

7장 요약

7장 요약

 

실험계획

실험계획이란 해결하고자 하는 문제에 대하여 실험을 어떻게 행하고, 자료를 어떻게 취하며, 어떠한 통계적 방법을 사용하면 최소횟수의 실험으로 최대의 정보를 얻을 수 있는가를 계획하는 것이다

 

분산분석

분산분석이란 실험계획법에 의하여 얻어진 특성치의 분포를 총제곱합으로 나타내고, 이 총제곱합을 요인마다의 제곱합으로 분해하여 오차에 비해 특히 큰 영향을 주는 요인이 무엇인가를 검토하는 분석방법이다

 

일원배치법


 이고 서로 독립
i=1, 2, ……, l
l=1, 2, ……, m

 

일원배치법에서의 신뢰구간

의 100(1- )% 신뢰구간은 이고,   의 100(1- )%의 신뢰구간은 이다. 위의 신뢰구간에서 신뢰구간의 폭이 최소유의차(LSD)가 된다

 

분산분석에서의 요인의 효과

분산분석에서 요인이 효과가 있는지에 대한 검정은 A요인에 의한 평균변동( )과 오차에 의한 평균변동( )의 비로 표현된다. 만약 이면 ‘유의수준 에서 요인이 유의하다’라고 말한다

 

반복이 없는 이원배치법

반복이 없는 이원배치법의 자료 구조식은 다음과 같이 표현된다

이고 서로 독립
i=1, 2, ……, l
l=1, 2, ……, m

 

반복이 없는 이원배치법에서의 요인의 효과

반복이 없는 이원배치법도 일원배치법과 비슷한 방법으로 F검정을 실시한다

 

반복이 없는 이원배치법에서의 신뢰구간

의  신뢰구간은 각각 다음과 같이 얻어진다


 
단, (유효반복수)

 

8장 요약

 

두 변수간 상호관계

두 변수간 상호관계는 표본상관계수와 산점도를 이용하여 분석

 

회귀분석이란?

회귀분석(regression analysis)은 변수들간의 관계를 나타내는 수학적 모형을 설정하고, 변수들로부터 측정된 값을 이용하여 모형을 추정하고, 이를 이용하여 변수들간의 관계를 설명하고 예측하는 통계적 분석방법이다

 

회귀식(regression equation)

회귀분석에서 변수들 간의 관계를 나타내는 수학적 모형

 

종속변수(dependent variable)

서로 관계를 가지고 있는 변수들 중에서 다른 변수에 의해 영향을 받는 변수

 

독립변수(independent variable)

종속변수에 영향을 주는 변수

 

단순 선형회귀분석(simple linear regression analysis)

1개의 독립변수만을 다루며 그 회귀식은 다음과 같이 나타내어진다
,  i=1, 2, ……, n
여기에서 i는 전체 n개의 관측값 중 i번째 값을 나타내는 첨자이고, 들은 평균이 0, 분산이 인 서로 독립인 오차를 나타내는 확률변수이다

 

회귀계수에 대한 검정

회귀계수는 잔차의 제곱합을 최소로 하는 값으로 정하며 회귀직선을 추정한 후에는 그 회귀식이 얼마나 타당한가를 검토해야 한다. 즉 종속변수를 독립변수가 얼마나 잘 설명하는 지를 알아 볼 필요가 있다. 회귀식의 타당성 조사에는 추정의 표준오차와 결정계수가 사용된다

 

중선형 회귀분석

하나의 종속변수와 여러 개의 독립변수들 사이의 관계를 규명하고자 할 때 사용되는 통계적 방법이 중선형 회귀분석이다.    종속변수 Y와 k개의 독립변수 가 있고 관측치들이 일때 중선형 회귀모형에서는 다음과 같이 설정할 수 있다.

즉, 종속변수는 각 독립변수의 선형결합으로 표현되며 여기에 단순 선형회귀모형에서와 같이 오차항을 나타내는 확률변수 이 더해진다

 

9장 요약

 

분류된 자료란

변수의 속성에 따라 몇 개의 기준으로 분류된 자료이다

 

분류된 자료의 통계적 검정

분류된 자료의 통계적 검정에는 주로 검정이 쓰이며, 구체적으로는 두 표본분포의 독립성에 대한 검정과 표본분포와 이론분포간의 적합도 검정 등에 사용되고 있다

 

분할표

분할표란, 자료를 변수의 기준에 따라 해당되는 도수를 해당군에 표시한 것으로, 자료를 일목요연하게 정리해주는 역할을 한다

 

분할표에서의 통계량

통계량은 관찰수와 기대도수의 차에 제곱에 기대도수를 나눈 것들의 총합으로 계산된다

 

분할표에서의 통계량의 비교

표본에서 구한 통계량의 값이 주어진 유의수준 α와 자유도 υ에 대한 값을 비교하여 값이 더 크면 귀무가설을 기각한다. 즉 ‘두 변수를 서로 독립임을 기각한다.’ 또는 ‘이론분포와 표본분포는 일치함을 기각한다’는 결론을 얻는다

 

적합도 검정

적합도 검정은 관찰된 표본으로부터 그 모집단의 분포가 이론분포를 따르는가를 검정하는 통계적 절차이다

 

10장 요약

 

시계열 자료란

시계열 자료는 시간의 흐름에 따라 순서대로 관측되는 자료이다

 

시계열 분석이란

시계열 자료를 통계적으로 분석하는 것을 시계열분석이라 하는데 시계열분석의 목적은 시계열이 생성되는 과정을 체계적으로 이해하는 것과 미래를 예측하는 것이다

 

시계열의 구성

시계열은 그 변동주기에 따라 추세변동, 순환변동, 계절변동, 불규칙변동으로 구성된다고 가정하고 있다. 추세변동, 순환변동, 계절변동은 어느 정도 규칙적으로 움직이기 때문에 계통요인이라 부른다

 

시계열 분석 과정

시계열 자료가 준비되었다면 먼저 시계열 자료에 대한 도표로 시계열의 전체적인 모습을 파악하고, 시계열 자료의 특징을 자기상관계수와 부분자기상관계수를 이용하여 파악한다

 

ARIMA모형

 Box와 Jenkins(1976)는 ARIMA모형을 체계적으로 추정하고 예측하는 방법을 제시하였다. Box-Jenkins의 모형작성과정은 ① 모형의 식별, ② 모형의 추정, ③ 모형의 진단의 3가지 단계로 구분할 수 있다. 위 과정을 통해 시계열 모형이 만들어지면 시계열 모형의 형태가 미래에도 지속될 것으로 가정하고 미래에 대한 예측을 실시하게 된다

 

계절조정(계절변동조정)

계절조정(또는 계절변동조정)이란 시계열 내에 존재하는 1년 주기의 계절요인을 통계적으로 추출하여 원래의 시계열로부터 제거하는 절차를 의미한다. 통계청 및 한국은행에서는 우리나라 현실을 감안하여 X-12-ARIMA방법을 이용하여 계절조정을 실시하고 있다