1장 요약 |
통계학 |
관심대상에 대해 관련된 자료를 수집하고, 그 자료를 요약정리하여 이로부터 불확실한 사실에 대한 결론이나 일반적인 규칙성을 이끌어내는 방법을 연구하는 자료의 과학 |
통계학의 역할 |
① 자료의 수집 |
통계학의 연구분야 |
기술통계 : 수집된 자료를 요약 정리하여 자료의 특징을 설명하는 분야 |
모집단 |
관심의 대상 전체 |
유한모집단 |
모집단의 크기가 유한인 경우 |
무한모집단 |
모집단의 크기가 무한인 경우 |
표본 |
실제로 조사 및 측정되는 일부 |
임의추출법 |
모집단의 구성요소 하나 하나가 표본으로 뽑힐 확률이 같은 상황에서 표본을 뽑는 방법 |
모수(parameter) |
모집단에 대한 수치 특성값 |
통계값(statistics) |
표본에서 얻은 수치 특성값 |
통계분석의 수행과정 |
문제의 정의 → 자료수집 → 자료의 정리, 분석 → 결과해석/의사결정 |
2장 요약 |
양적 변수(quantitative variable) |
원자료의 수치가 크기로 측정된 변수 |
질적 변수(qualitative variable) |
변수의 특성에 의해 조사되어 분류된 변수 |
도수분포표(frequency table) |
조사된 원자료를 몇 개의 군으로 나누고 그 군에 해당되는 도수를 정리함으로써 자료의 분포개형을 파악하고 자료의 특징을 요약해 주는 표 |
원 그래프(pie graph) |
전체의 구성비를 파악하기 위해 원의 각도를 도수의 비에 따라 나눠준 그림 |
막대그래프 |
각 범주에 속한 도수나 비율을 막대로 나타내어 상대적 비교를 쉽게 해 주는 그래프 |
히스토그램(histogram) |
도수분포표의 계급값들을 X축으로 하고 구간폭을 막대의 폭으로 하여 도수를 기둥의 길이로 나타낸 그래프 |
히스토그램의 검토 요령 |
①자료의 중심위치 |
줄기-잎그림 |
자료를 줄기 부분과 잎 부분으로 나누어 나타냄으로써 전체 분포 개형을 파악하는 그림 |
점 그래프(dot diagram) |
관찰치를 X축상에 점으로 나타내어 자료의 분포특징을 나타내는 그림 |
시계열그래프 |
시간이 변함에 따라 수집된 자료를 자료가 수집된 순서대로 연결하여 나타낸 그래프 |
3장 요약 |
모수 |
분포의 특징을 나타내는 수치(모평균, 모분산 등) |
평균 |
자료의 총합을 표본의 크기로 나누어 준 값으로 분포의 무게중심에 해당한다. |
중앙값 |
자료를 크기순으로 나열했을 때 가장 중앙에 위치한 값 |
최빈값 |
자료 중에서 가장 빈도가 높은 관찰값 |
범위(range) |
최대값에서 최소값을 뺀 것 |
사분위간 범위 |
자료 중 가운데 부분 50% 자료의 범위로 자료의 산포 정도의 측도 |
다섯수치 요약 |
최소값, 1사분위수(Q1), 중앙값(Q2), 3사분위수(Q3), 최대값 |
안울타리 |
|
분산 |
평균을 중심으로 관찰값들이 얼마나 떨어져 분포하는가를 나타낸다. |
표준편차 |
분산의 양의 제곱근으로 원자료의 측정단위와 같은 단위로 퍼짐 정도를 나타낸다. |
4장 요약 |
확률의 덧셈법칙 |
P(A∪B) = P(A) + P(B) - P(A∩B) |
표본공간(sample space) |
통계적 실험의 모든 가능한 결과의 집합 |
사건(event) |
표본공간의 한 부분집합 |
조건부확률(conditional probability) |
(단, P(B) > 0) |
확률의 곱셈법칙 |
P(A) > 0, P(B) > 0 이면, |
여사건을 이용한 확률계산 |
P( ) = 1 - P(A) |
확률변수 |
표본공간의 각 원소에 하나의 실수값을 대응시켜 주는 함수 |
이산형 확률변수 |
확률변수의 가능한 값들이 유한개(finite) 또는 무한개이나 셀 수 있는 변수 |
연속형 확률변수 |
확률변수의 가능한 값들이 무한개이며 셀 수 없는 변수 |
확률변수 X의 기대값 |
이산형 : 연속형 : |
함수 g(X)의 기대값 |
이산형 : 연속형 : |
X의 분산 |
|
기대값 및 분산의 성질 |
|
표준화된 확률변수 |
(X: 평균이 , 표준편차가 인 확률변수) |
이항분포 |
성공의 확률이 p인 베르누이 실험을 n번 독립적으로 반복 시행하였을 '성공의 회수(X)'가 일 확률은 평균 = np |
초기하분포 |
N = 모집단의 크기, D = 모집단에서 특성값 1의 개수 (x = 0, 1, 2, ……, n) (단, n ≤ N, x ≤ D) 평균 = np 단, p = D/N |
포아송 분포 |
(x=0, 1, 2, …) 평균 = m, 분산 = m |
정규분포함수 |
- ∞ < x < ∞ 평균 = , 분산 = |
표준정규분포 |
X가 평균이 이고 분산이 인 정규분포 N( , ) 일 때 변환 |
정규분포 계산 |
X가 평균이 , 분산이 인 정규 확률변수라면 구간[a, b] 의 확률은 |
5장 요약 |
통계적 추론(statistical inference) |
모집단으로부터 표본을 수집하고 여기서 얻은 정보를 분석하여 모집단의 특성을 알아내는 것 |
중심극한정리 |
평균이 이고, 분산이 인 임의의 무한모집단에서 표본의 크기이 충분히 크면 다음이 성립한다 |
표본분산의 분포 |
이 정규분포 로부터의 랜덤표본일 때, 를 따른다 |
모수(parameter) |
모집단의 특성을 나타내는 수치 |
점추정(point estimation) |
미지의 모수에 가장 가까우리라고 생각되는 하나의 값을 표본으로부터 구하는 것 |
구간추정(interval estimation) |
표본의 정보를 이용하여 모수의 참값이 속할 것으로 기대되는 범위를 구하는 것 |
신뢰수준(confidence level) |
모수의 참값이 속할 것으로 기대되는 구간안에 모수가 포함될 가능성을 나타낸 확률 |
모평균의 100(1- )% 구간추정 |
· 모집단이 정규분포이고 모분산 을 아는 경우 · 모집단이 정규분포이고 모분산 을 모르는 경우
|
모비율 p의 100(1- )% 구간추정( 표본의 크기가 충분히 큰 경우) |
, n은 표본의 크기이고 는 표본의 비율. |
모분산( )의 100(1- )% 신뢰구간(모집단이 정규분포를 따르는 경우) |
|
모표준편차 의 100(1- )% 신뢰구간(모집단의 정규분포이고 표본의 크기가 큰 경우) |
|
6장 요약 | ||||||||
통계적 추론(Statistical Inference) | ||||||||
모집단으로부터 뽑은 표본의 정보로부터 모집단에 대한결론을 이끌어내는 과정 | ||||||||
귀무가설(Null Hypothesis) | ||||||||
차이가 없다는 개념을 기본으로 하는 모집단에 대한 가설 | ||||||||
대립가설(Alternative Hypothesis) | ||||||||
차이가 있다는 개념으로 정의되고 연구자가 밝히고자하는 내용을 담고있는 가설 | ||||||||
제I종오류(Type I error) | ||||||||
사실인 귀무가설을 기각했을 때 발생하는 오류 | ||||||||
제II종오류(Type II error) | ||||||||
사실이 아닌 귀무가설을 받아들였을때 발생하는 오류 | ||||||||
유의수준(α) | ||||||||
귀무가설이 사실일 때 이 귀무가설을 기각함으로써 발생되는 오류 | ||||||||
유의확률(p-값) | ||||||||
검정통계량의 관측값에 대하여 귀무가설을 기각 할 수 있는 최소의 유의수준으로, 이 값이 작으면 작을수록 귀무가설을 기각할 강한 증거가 됨 | ||||||||
모평균의 가설검정 (모표준편차를 알 경우) | ||||||||
| ||||||||
모평균의 가설검정 (모표준편차를 모르는 경우) | ||||||||
| ||||||||
p-값을 이용한 가설 선택 | ||||||||
p-값이 유의수준보다 작으면 기각, 아니면 채택 | ||||||||
모분산의 가설검정 (모집단이 정규분포인 경우) | ||||||||
| ||||||||
두 모평균의 가설검정 (표본이 서로 독립적으로 추출되었으며, 두 모집단이 정규분포를 따르고, 두 모분산이 같은 경우) | ||||||||
| ||||||||
두 모평균의 가설검정 (대응비교) (모집단이 정규분포이고 두 표본이 쌍(종속적)으로 추출되었을 경우) | ||||||||
| ||||||||
두 모분산의 가설검정 (두 모집단이 정규분포인 경우) | ||||||||
|
7장 요약
7장 요약 |
실험계획 |
실험계획이란 해결하고자 하는 문제에 대하여 실험을 어떻게 행하고, 자료를 어떻게 취하며, 어떠한 통계적 방법을 사용하면 최소횟수의 실험으로 최대의 정보를 얻을 수 있는가를 계획하는 것이다 |
분산분석 |
분산분석이란 실험계획법에 의하여 얻어진 특성치의 분포를 총제곱합으로 나타내고, 이 총제곱합을 요인마다의 제곱합으로 분해하여 오차에 비해 특히 큰 영향을 주는 요인이 무엇인가를 검토하는 분석방법이다 |
일원배치법 |
|
일원배치법에서의 신뢰구간 |
의 100(1- )% 신뢰구간은 이고, 의 100(1- )%의 신뢰구간은 이다. 위의 신뢰구간에서 신뢰구간의 폭이 최소유의차(LSD)가 된다 |
분산분석에서의 요인의 효과 |
분산분석에서 요인이 효과가 있는지에 대한 검정은 A요인에 의한 평균변동( )과 오차에 의한 평균변동( )의 비로 표현된다. 만약 이면 ‘유의수준 에서 요인이 유의하다’라고 말한다 |
반복이 없는 이원배치법 |
반복이 없는 이원배치법의 자료 구조식은 다음과 같이 표현된다 |
반복이 없는 이원배치법에서의 요인의 효과 |
반복이 없는 이원배치법도 일원배치법과 비슷한 방법으로 F검정을 실시한다 |
반복이 없는 이원배치법에서의 신뢰구간 |
의 신뢰구간은 각각 다음과 같이 얻어진다 |
8장 요약 |
두 변수간 상호관계 |
두 변수간 상호관계는 표본상관계수와 산점도를 이용하여 분석 |
회귀분석이란? |
회귀분석(regression analysis)은 변수들간의 관계를 나타내는 수학적 모형을 설정하고, 변수들로부터 측정된 값을 이용하여 모형을 추정하고, 이를 이용하여 변수들간의 관계를 설명하고 예측하는 통계적 분석방법이다 |
회귀식(regression equation) |
회귀분석에서 변수들 간의 관계를 나타내는 수학적 모형 |
종속변수(dependent variable) |
서로 관계를 가지고 있는 변수들 중에서 다른 변수에 의해 영향을 받는 변수 |
독립변수(independent variable) |
종속변수에 영향을 주는 변수 |
단순 선형회귀분석(simple linear regression analysis) |
1개의 독립변수만을 다루며 그 회귀식은 다음과 같이 나타내어진다 |
회귀계수에 대한 검정 |
회귀계수는 잔차의 제곱합을 최소로 하는 값으로 정하며 회귀직선을 추정한 후에는 그 회귀식이 얼마나 타당한가를 검토해야 한다. 즉 종속변수를 독립변수가 얼마나 잘 설명하는 지를 알아 볼 필요가 있다. 회귀식의 타당성 조사에는 추정의 표준오차와 결정계수가 사용된다 |
중선형 회귀분석 |
하나의 종속변수와 여러 개의 독립변수들 사이의 관계를 규명하고자 할 때 사용되는 통계적 방법이 중선형 회귀분석이다. 종속변수 Y와 k개의 독립변수 가 있고 관측치들이 일때 중선형 회귀모형에서는 다음과 같이 설정할 수 있다. |
9장 요약 |
분류된 자료란 |
변수의 속성에 따라 몇 개의 기준으로 분류된 자료이다 |
분류된 자료의 통계적 검정 |
분류된 자료의 통계적 검정에는 주로 검정이 쓰이며, 구체적으로는 두 표본분포의 독립성에 대한 검정과 표본분포와 이론분포간의 적합도 검정 등에 사용되고 있다 |
분할표 |
분할표란, 자료를 변수의 기준에 따라 해당되는 도수를 해당군에 표시한 것으로, 자료를 일목요연하게 정리해주는 역할을 한다 |
분할표에서의 통계량 |
통계량은 관찰수와 기대도수의 차에 제곱에 기대도수를 나눈 것들의 총합으로 계산된다 |
분할표에서의 통계량의 비교 |
표본에서 구한 통계량의 값이 주어진 유의수준 α와 자유도 υ에 대한 값을 비교하여 값이 더 크면 귀무가설을 기각한다. 즉 ‘두 변수를 서로 독립임을 기각한다.’ 또는 ‘이론분포와 표본분포는 일치함을 기각한다’는 결론을 얻는다 |
적합도 검정 |
적합도 검정은 관찰된 표본으로부터 그 모집단의 분포가 이론분포를 따르는가를 검정하는 통계적 절차이다 |
10장 요약 |
시계열 자료란 |
시계열 자료는 시간의 흐름에 따라 순서대로 관측되는 자료이다 |
시계열 분석이란 |
시계열 자료를 통계적으로 분석하는 것을 시계열분석이라 하는데 시계열분석의 목적은 시계열이 생성되는 과정을 체계적으로 이해하는 것과 미래를 예측하는 것이다 |
시계열의 구성 |
시계열은 그 변동주기에 따라 추세변동, 순환변동, 계절변동, 불규칙변동으로 구성된다고 가정하고 있다. 추세변동, 순환변동, 계절변동은 어느 정도 규칙적으로 움직이기 때문에 계통요인이라 부른다 |
시계열 분석 과정 |
시계열 자료가 준비되었다면 먼저 시계열 자료에 대한 도표로 시계열의 전체적인 모습을 파악하고, 시계열 자료의 특징을 자기상관계수와 부분자기상관계수를 이용하여 파악한다 |
ARIMA모형 |
Box와 Jenkins(1976)는 ARIMA모형을 체계적으로 추정하고 예측하는 방법을 제시하였다. Box-Jenkins의 모형작성과정은 ① 모형의 식별, ② 모형의 추정, ③ 모형의 진단의 3가지 단계로 구분할 수 있다. 위 과정을 통해 시계열 모형이 만들어지면 시계열 모형의 형태가 미래에도 지속될 것으로 가정하고 미래에 대한 예측을 실시하게 된다 |
계절조정(계절변동조정) |
계절조정(또는 계절변동조정)이란 시계열 내에 존재하는 1년 주기의 계절요인을 통계적으로 추출하여 원래의 시계열로부터 제거하는 절차를 의미한다. 통계청 및 한국은행에서는 우리나라 현실을 감안하여 X-12-ARIMA방법을 이용하여 계절조정을 실시하고 있다 |