벼락치기 연구소

통계학개론

1강 ~ 7강

데이터와 통계학

📊 통계학이란?

한마디로: 데이터를 모아서 → 정리하고 → 결론을 내리는 학문

데이터 수집
잘 모으기

→

데이터 요약
잘 정리하기

→

추론
결론 내리기

너가 학교 앞 분식집을 차리려고 해.

"학생들이 떡볶이를 좋아할까, 김밥을 좋아할까?"

① 학생 100명한테 물어봄 → 데이터 수집

② 떡볶이 70명, 김밥 30명 정리 → 데이터 요약

③ "떡볶이를 주력 메뉴로!" → 추론

🧩 데이터의 기본 요소

시연이

여

161

이안이

남

175

연하

여

163

가현이

여

171

→ 단위(unit) = 각 행 = 시연이, 이안이, 연하, 가현이 (관측 대상 한 명 한 명)

→ 변수(variable) = 각 열 제목 = 성별, 키, 몸무게 (뭘 측정했느냐)

→ 관찰값(observation) = 각 칸의 값 = "시연이는 여, 161cm, 50kg"

엑셀로 생각하면 쉬워!

단위 = 엑셀의 행(row) 하나하나

변수 = 엑셀의 열(column) 제목

관찰값 = 각 셀(cell)에 적힌 값

🎯 모집단 vs 표본

상황: 대한민국 전체 가구의 평균 주거비를 알고 싶어.

전국 모든 가구를 다 조사할 수 있을까? 못하지.

그래서 1,000가구만 랜덤으로 뽑아서 조사하는 거야.

개념	뜻	이 상황에서는?
모집단	알고 싶은 전체	대한민국 모든 가구
표본	실제로 조사한 일부	랜덤으로 뽑은 1,000가구

🔢 모수 vs 통계량

모수 (Parameter)

모집단의 대푯값

값이 고정되어 있음
대부분 알 수 없음

예: 전국 가구의 진짜 평균 주거비

통계량 (Statistic)

표본의 대푯값

표본을 새로 뽑으면 값이 달라짐
계산으로 알 수 있음

예: 1,000가구의 평균 주거비

모수모수 (Parameter)
모집단의 대푯값. 고정되어 있지만 대부분 알 수 없음. 예: 전국 평균 주거비 = 냄비 안 국 전체의 간 → 국을 다 먹어봐야 정확히 앎

통계량통계량 (Statistic)
표본의 대푯값. 표본마다 값이 달라짐. 모수를 추정하기 위해 사용 = 국자로 한 숟갈 떠서 맛본 간 → 뜨는 위치마다 조금씩 다름

모수는 고정값이지만 모른다. 통계량은 알 수 있지만 표본마다 변한다.

이 차이를 묻는 문제가 자주 나와!

🎲 단순랜덤표집

모든 부분집합이 같은 확률로 뽑히는 표본 추출 방법

✗

나쁜 표본

강남에서만 1,000명 조사
→ 편향된 결과

✓

좋은 표본

전국에서 랜덤으로 1,000명
→ 전체를 잘 반영

📚 기술통계 vs 추론통계

기술통계 (Descriptive)

데이터의 특징을 정리·요약하는 것

예: 평균, 그래프, 분산 등으로 데이터 패턴을 드러내기

추론통계 (Inferential)

표본 → 모집단에 대해 추측·결론

예: 평균 연봉 추정, 95% 신뢰구간, 가설검정

🌐 모집단의 종류

유한 모집단

개체 수가 유한개

예: 한 학교의 전체 학생, 특정 공장의 제품

개체 수 적으면 전수조사로 모수를 알아낼 수 있음!

무한 모집단

개체 수가 무한개

예: 공장에서 계속 생산되는 제품, 동전 던지기의 모든 결과

전수조사 불가능 → 반드시 표본 필요

📋 데이터 수집의 실제 사례

사례 1 - 설문조사: 대통령 선거 전 유권자의 연령별, 성별 분포를 고려하여 전체를 대표할 수 있는 일부를 뽑아 지지성향 조사

사례 2 - 실험: 백신 효과를 알기 위해 3만 명을 랜덤으로 두 그룹(백신 vs 플라시보)으로 나눠 3개월 추적관찰

추론의 예시:

랜덤 표집한 300명의 연봉을 조사하여 평균 연봉 추정치와 95% 신뢰구간을 구한다.

→ "신뢰구간"은 추정의 신뢰성을 계량화하는 것! (7강 이후 자세히 배움)

1강 핵심 정리

통계학 = 데이터 수집 → 요약(기술통계) → 추론(추측통계)
데이터 = 단위(누구) + 변수(뭘 측정) + 관찰값(측정 결과)
모집단: 전체 (유한/무한) / 표본: 실제 조사한 일부
모수: 모집단의 진짜 값 (고정, 대부분 모름) / 통계량: 표본의 계산값 (표본마다 다름)
단순랜덤표집: 모든 부분집합이 같은 확률로 선택

데이터 요약 I

🏷️ 변수의 종류

연속 vs 이산 구분법: "0.5명"이 가능한가? → 안 되면 이산형. "65.3kg"이 가능한가? → 가능하면 연속형

📋 도수분포표

"각 값이 몇 번 나왔는지" 세서 정리한 표

질적변수 (범주별)

혈액형	학생 수
A형	10
B형	8
AB형	3
O형	9

양적변수 (계급별)

키(cm)	학생 수
150~160	4
160~170	11
170~180	13
180~190	2

양적변수는 계급(구간)을 나누는데, 폭이 너무 좁으면 칸이 너무 많고, 너무 넓으면 특징이 묻혀버려.

📊 그래프로 데이터 보기

막대그래프 → 질적 데이터용

예: 학생들의 등하교 교통수단

버스

자전거

도보

막대 사이에 간격이 있음 (범주가 별개니까)

히스토그램 → 양적 데이터용

예: 학생들의 키 분포

150~160

160~170

170~180

180~190

막대가 붙어 있음 (연속된 숫자 구간이니까)

막대그래프 vs 히스토그램: 막대 사이 간격 여부! 질적 = 간격 있음, 양적 = 붙어 있음

원그래프

각 범주의 비율을 원의 면적으로 표현. 하지만 최근에는 선호되지 않음 — 막대그래프에 비해 정보 파악이 어렵기 때문!

📈 분포의 모양 4가지

종모양 (Bell-shaped)

가운데 높고 좌우 대칭
예: 대부분의 시험 점수

오른쪽 꼬리 (Right-skewed)

오른쪽 꼬리가 긺
예: 연봉 (대부분 낮고 소수가 높음)

왼쪽 꼬리 (Left-skewed)

왼쪽 꼬리가 긺
예: 쉬운 시험 (대부분 높고 소수가 낮음)

균등분포 (Uniform)

전체가 고르게 평평
예: 주사위 눈 (각 1/6)

헷갈리는 포인트: 이름은 꼬리가 긴 방향을 말하는 거야!
"Right-skewed" = 오른쪽 꼬리가 긺 = 데이터가 왼쪽에 몰림

⚡ 특이점 (Outlier)

대부분의 데이터에서 혼자 동떨어진 값

한 달 독서량 데이터

67권이 특이점! 혼자 저 멀리 떨어져 있지?

🏆 최빈값 (Mode)

관찰값 중에서 발생 빈도가 가장 높은 값

데이터: 57, 61, 45, 57, 48, 58, 57, 61, 54, 50, 68, 51

57이 3번으로 가장 많이 나옴 → 최빈값 = 57

최빈값은 여러 개일 수도 있고, 하나도 없을 수도 있다!

모든 값이 1번씩만 나오면 → 최빈값 없음

분포의 중심위치에서 멀리 떨어져 있을 수도 있어서 주의!

⚖️ 평균 (Mean)

표본평균

x̄ = (x₁ + x₂ + ⋯ + xₙ) / n

전체 합 ÷ 개수

평균 = 시소의 무게중심

점도표 위에 데이터를 올려놓은 시소를 상상해봐. 시소가 균형 잡히는 위치가 바로 평균이야.

평균의 약점: 특이점에 끌려간다

독서량: 6, 0, 1, 3, 1, 5, 2, 3, 1, 3

특이점 값: 67

평균 = 8.36

평균

100

슬라이더를 움직여서 특이점을 바꿔봐! 값 하나가 평균을 얼마나 끌고 다니는지 볼 수 있어.

평균은 특이점에 민감하다! 이건 시험에 정말 자주 나오는 포인트야.

📏 분산과 표준편차

"데이터가 평균으로부터 얼마나 퍼져 있느냐"를 숫자로 나타낸 것. 분산Var(X) = σ²
평균에서 얼마나 퍼져 있나.

간편공식: E(X²)−[E(X)]² = 제기−기제

은 편차 제곱의 평균, 표준편차σ = √분산
평균에서 보통 얼마나 떨어져 있나. 분산은 단위가 제곱이라 해석 어려움 → √ 씌워서 원래 단위로!는 그 제곱근이야.

편차

xᵢ − x̄

각 값 - 평균

표본분산

s² = Σ(xᵢ − x̄)² / (n−1)

편차 제곱합 ÷ (n-1)

표본표준편차

s = √s²

분산의 제곱근

왜 편차를 제곱하나?

편차를 그냥 다 더하면 양수+음수 = 항상 0이 돼버려. 의미가 없지.

그래서 제곱해서 전부 양수로 만든 뒤 더하는 거야.

왜 n이 아니라 (n−1)로 나누나?

표본은 모집단의 일부라서 변동이 약간 작게 나와. (n−1)로 나누면 그걸 보정해줘서 모집단 분산에 더 가깝게 추정할 수 있어.

분산 계산 예제 (교재 예제 2-11)

학생 10명의 윗몸일으키기: 25, 41, 35, 8, 52, 23, 32, 37, 42, 28

평균 구하기

x̄ = (25+41+35+8+52+23+32+37+42+28) / 10 = 32.3

각 편차와 편차 제곱 구하기

xᵢ	xᵢ − x̄	(xᵢ − x̄)²
25	−7.3	53.29
41	8.7	75.69
8	−24.3	590.49
합계		1336.1

s² = 1336.1 / (10−1) = 148.5

s = √148.5 = 12.2

분산의 단위
= 데이터 측정단위의 제곱
예: cm → cm²

표준편차의 단위
= 데이터 측정단위와 동일
예: cm → cm (해석 쉬움!)

분산이 작다 vs 크다

분산 작음

평균 주변에 모여 있음

분산 큼

평균에서 멀리 퍼져 있음

🔄 변이계수 (CV)

단위나 평균이 다른 두 변수의 변동을 공평하게 비교하려면?

CV = 표준편차 / 평균

상대적인 퍼짐 정도

만 21세 남자

평균 72kg / 표준편차 11kg

0.153

11 ÷ 72

만 9세 남아

평균 32kg / 표준편차 7kg

0.219

7 ÷ 32

→ 9세 그룹이 상대적으로 변동이 더 크다!

표준편차σ = √분산
평균에서 보통 얼마나 떨어져 있나. 분산은 단위가 제곱이라 해석 어려움 → √ 씌워서 원래 단위로!만 보면 21세(11kg)가 더 크지만, 평균 자체가 다르잖아.

72kg에서 11kg 차이 vs 32kg에서 7kg 차이 → 비율로 보면 9세가 더 들쭉날쭉해!

2강 핵심 정리

질적변수 = 범주 (명목형: 순서X, 순서형: 순서O)
양적변수 = 숫자 (연속형: 소수점 가능, 이산형: 셀 수 있음)
막대그래프 = 질적 데이터 (막대 간격 O) / 히스토그램 = 양적 데이터 (막대 붙어 있음)
평균은 특이점에 약하다
표본분산은 (n-1)로 나눈다
변이계수로 단위가 다른 변수의 변동을 비교한다

데이터 수치요약

🎯 중앙값 (Median)

데이터를 크기순으로 정렬했을 때, 정확히 가운데에 있는 값

홀수개 (5개)

중앙값 = 3

짝수개 (6개)

중앙값 = (3+4)/2 = 3.5

중앙값중앙값 (Median)
데이터를 크기순 정렬 후 가운데 값. 특이점 영향 거의 안 받음!의 장점: 특이점의 영향을 거의 받지 않는다!

독서량 {0,1,1,1,2,3,3,3,5,6,67} → 중앙값 = 3 (67이 있어도 안 흔들림)

반면 평균은 8.36으로 뻥튀기됨

📐 사분위수 (Quartiles)

데이터를 크기순으로 정렬한 뒤 4등분하는 값. IQR사분위수 범위 (IQR)
Q1(25%), Q2=중앙값(50%), Q3(75%).

IQR = Q3−Q1 = 가운데 50% 범위

= Q3−Q1.

사분위수 범위 (IQR)

IQR = Q3 − Q1 = 41 − 25 = 16

데이터의 가운데 50%가 퍼진 범위

백분위수

p백분위수 = 전체 데이터의 p%가 이 값보다 작거나 같은 값

사분위수	= 백분위수
Q1	25백분위수
Q2 (중앙값)	50백분위수
Q3	75백분위수

📦 상자그림 (Boxplot)

다섯수치요약을 그래프로 나타낸 것

상자그림 읽는 법을 외워봐:

상자 = 데이터의 가운데 50% (Q1~Q3)

빨간 선 = 중앙값

수염 = 나머지 데이터 (최솟값~Q1, Q3~최댓값)

상자가 넓으면 → 데이터가 퍼져 있음. 좁으면 → 모여 있음.

↔️ 범위 (Range)

범위 = 최댓값 − 최솟값

데이터의 산포를 나타내는 가장 간단한 통계량

범위의 약점: 특이점의 영향을 심하게 받는다!

데이터 99개가 모여 있어도 특이점 1개가 범위를 엄청 크게 만들 수 있어.

📊 산포 통계량 비교

통계량	특이점 영향	특징
분산 / 표준편차	크게 받음	가장 널리 사용, 편차 기반
범위	심하게 받음	가장 간단, 최댓값−최솟값
IQR (사분위수범위)	거의 안 받음	가운데 50% 범위, 상자그림에 사용

특이점이 있는 데이터에는 중앙값중앙값 (Median)
데이터를 크기순 정렬 후 가운데 값. 특이점 영향 거의 안 받음! + IQR사분위수 범위 (IQR)
Q1(25%), Q2=중앙값(50%), Q3(75%).

IQR = Q3−Q1 = 가운데 50% 범위

을 쓰고,

대칭적인 분포에는 평균 + 표준편차σ = √분산
평균에서 보통 얼마나 떨어져 있나. 분산은 단위가 제곱이라 해석 어려움 → √ 씌워서 원래 단위로!를 쓰는 게 좋아!

3강 핵심 정리

중앙값 = 크기순 정렬 후 가운데 값. 특이점에 강하다.
사분위수: Q1(25%), Q2=중앙값(50%), Q3(75%)
IQR = Q3 − Q1 (가운데 50%의 범위)
상자그림 = 다섯수치요약(최솟값, Q1, 중앙값, Q3, 최댓값)을 그래프로 표현
평균은 긴 꼬리 쪽으로 끌려감. 대칭이면 평균 ≈ 중앙값

확률

🎲 확률의 개념

확률 = 어떤 사건이 일어날 가능성을 0과 1 사이의 숫자로 표현한 것

동전을 1,000번 던졌더니 앞면이 503번 나왔어.

앞면 확률 ≈ 503/1000 ≈ 0.5

이렇게 무한히 반복했을 때 비율이 수렴하는 값 = 확률 (상대도수적 정의)

🔬 확률적(통계적) 실험

결과가 구체적으로 뭔지 미리 알 수 없지만, 가능한 모든 결과를 알고 있고, 반복이 가능한 경우

사례 1: 공장에서 제품을 반복 생산 → 정상품 or 불량품 (뭐가 될지 모름)

사례 2: 피자 주문 → 배달시간이 보통 30분 이내이지만 정확히는 모름

📖 확률의 3가지 정의

① 고전적 정의 — "모든 결과가 동등할 때"

모든 원소의 발생 가능성이 같을 때

P(A) = A의 측도 / S의 측도

이산형: 원소 수 세기 / 연속형: 길이(면적) 비율

이산형: 주사위 짝수 확률 = {2,4,6} → 3개/6개 = 1/2

연속형: 배달 [10,30] 중 20~25분 확률 = 길이 5/20 = 1/4

⚠ 한계: 찌그러진 동전처럼 가능성이 "같지 않으면" 사용 불가!

② 상대도수적 정의 — "무한히 반복해서 비율 보기"

같은 실험을 수없이 반복했을 때, 사건 A가 발생한 비율이 수렴하는 값

P(A) = lim (A 발생 횟수 / 전체 시행 횟수)

찌그러진 동전: 고전적 정의를 못 쓰니까, 실제로 던져본다!

1,000번 → 앞면 630번 → P ≈ 0.63

10,000번 → 더 정확해짐 → 무한번 → 진짜 확률에 수렴!

장점: 동등하지 않아도 OK! 한계: 실제로 무한번 반복은 불가능 (이론적 극한)

③ 공리적 정의 (콜모고로프) — "규칙만 지키면 확률"

"확률이 뭔지"를 직접 말하지 않고, 3가지 규칙을 만족하면 그걸 확률이라 부른다

공리	수식	쉬운 말
공리 1	0 ≤ P(A) ≤ 1	확률은 0~1 사이. 음수나 150% 같은 건 없다
공리 2	P(S) = 1	"뭔가는 반드시 일어난다"
공리 3	배반이면 P(A∪B) = P(A)+P(B)	겹치지 않으면 그냥 더해도 됨

가장 일반적인 정의. ①과 ②는 ③의 특수한 경우!

①② = 확률을 "어떻게 구하냐"에 대한 정의

③ = 확률이 "어떤 성질을 가져야 하냐"에 대한 정의

현대 통계학에서는 ③을 표준으로 쓰고, ①②는 실제 계산 방법으로 활용해!

Q&A — 내가 헷갈렸던 것

확률의 공리적 정의 — 3가지 공리를 배울 때

Q: 공리 3 "배반사건이면 P(A∪B) = P(A)+P(B)"가 정확히 뭐야?

배반사건 = 두 사건이 동시에 일어날 수 없는 관계 (겹침 = ∅)

배반 예시: 주사위 A={1,2}, B={5,6} → 동시에 못 일어남

P(A∪B) = 2/6 + 2/6 = 4/6 ← 겹침 없으니 그냥 더하기!

배반 아닌 예시: 경제학 25명, 경영학 30명, 둘 다 20명

P(A∪B) = 25/40 + 30/40 − 20/40 ← 겹침을 빼야!

공리 3은 결국 덧셈법칙의 기본 버전이야. "겹침 없으면 더하기만 하면 된다"를 수학적으로 보장해주는 규칙. 4강 뒤에 나오는 일반 덧셈법칙(−P(A∩B))은 이걸 확장한 것!

🗂️ 표본공간과 사건

표본공간 (S)

일어날 수 있는 모든 가능한 결과의 모임

사건 (A, B, ...)

표본공간의 부분집합 (우리가 관심 있는 결과)

주사위를 한 번 던지는 실험

표본공간: S = {1, 2, 3, 4, 5, 6}

짝수가 나오는 사건: A = {2, 4, 6}

P(A) = 3/6 = 1/2

피자 배달 시간 (10분~30분 균등)

표본공간: S = [10, 30]

20~25분 사이 배달 사건: B = [20, 25]

P(B) = 5/20 = 1/4 (구간 길이의 비율!)

이산형 표본공간 = 원소를 하나하나 셀 수 있음 (주사위 눈)

연속형 표본공간 = 구간으로 되어 있음 (배달 시간) → 길이의 비율로 확률 계산

Q&A — 내가 헷갈렸던 것

표본공간 — 피자 배달시간 예제에서 S = [10, 30]을 봤을 때

Q: S = [10, 30]에서 15, 20, 25 같은 값은 왜 안 써있어?

[10, 30]은 10~30 사이의 모든 실수를 포함한다!

15, 20, 25는 물론이고 17.3, 22.847 같은 값도 전부 들어있어. { }는 원소를 하나하나 나열한 것이고, [ ]는 구간 전체를 의미해.

표기	의미	예시
`{ }` 중괄호	원소 나열 (이산형)	S = {1, 2, 3, 4, 5, 6}
`[ ]` 대괄호	구간 전체 (연속형)	S = [10, 30] = 10~30 모든 실수
`[a, b]`	a 이상 b 이하 (양쪽 포함)
`(a, b)`	a 초과 b 미만 (양쪽 불포함)

{15, 20, 25}로 쓰면 딱 그 3개 값만 가능하다는 뜻이 돼버려! 배달이 17.3분에 올 수도 있으니까 구간 표기를 써야 해.

Q&A — 내가 헷갈렸던 것

연속형 확률 계산 — P(B) = 5/20 = 1/4 를 봤을 때

Q: 연속형에서 "길이의 비율"이란? 칸 세기가 아니라 어떻게 계산해? 복잡한 숫자면?

구간의 "끝 − 시작"이 길이다. 소수점이든 뭐든 그냥 빼기!

      # 예: S = [10, 30], B = [20, 25]

      전체 길이 = 30 − 10 = 20

      사건 길이 = 25 − 20 = 5

      P(B) = 5/20 = 1/4

      # 복잡한 수도 똑같아!

      # S = [7.3, 42.8], 사건 = [15.5, 28.1]

      P = (28.1−15.5) / (42.8−7.3) = 12.6/35.5 = 0.355

⚠ 주의: 이건 "균등분포"일 때만 성립!

균등분포 = 어디든 밀도가 같음 → 길이 비율 = 확률

정규분포 = 가운데가 높고 양쪽이 낮음 → 길이 비율 ≠ 확률 (표준화 + 표 필요!)

Q&A — 내가 헷갈렸던 것

확률의 고전적 정의 — 이산형/연속형 확률 계산을 배울 때

Q: 강의록에 나오는 "측도"가 뭐야?

측도 = "크기를 재는 방법". 이산형이면 "세기", 연속형이면 "재기"를 하나로 묶은 표현!

유형	측도	확률 계산
이산형	원소의 개수	A의 원소 수 / S의 원소 수
연속형	구간의 길이	A의 길이 / S의 길이

P(A) = A의 측도 / S의 측도 → 이산이든 연속이든 같은 공식! "측도"만 달라지는 것.

🔢 순열과 조합

이산형 표본공간에서 확률을 구하려면 "경우의 수"를 세야 해! 순열ₙPᵣ = n!/(n-r)!
n개에서 r개를 뽑아 줄 세우기. 순서가 중요할 때은 순서를 따지고, 조합ₙCᵣ = n!/[r!(n-r)!]
n개에서 r개를 그냥 뽑기. 순서 무관은 순서를 안 따져.

순열 (Permutation) - 순서 O

ₙPᵣ = n! / (n−r)!

n개에서 r개를 뽑아 줄 세우기

4명(A,B,C,D)을 4자리에 배치

전체: ₄P₄ = 4! = 4×3×2×1 = 24가지

A가 맨 왼쪽이면?

A (고정!)

3가지

2가지

1가지

A 고정 → 나머지 B,C,D를 3자리에 배치 = 3! = 6가지

확률 = 6/24 = 1/4 (직관: 4자리 중 A가 첫째일 확률 = 1/4)

조합 (Combination) - 순서 X

ₙCᵣ = n! / [r!(n−r)!]

n개에서 r개를 그냥 뽑기

5명(A,B,C,D,E)에서 2명 뽑아 청소

₅C₂ = 5!/(2!·3!) = 10가지

A가 포함될 경우: ₄C₁ = 4가지

확률 = 4/10 = 2/5

순서가 중요하면 순열, 아니면 조합!

"회장·부회장 뽑기" → 순열 (누가 회장이냐가 중요)

"청소 당번 뽑기" → 조합 (뽑히기만 하면 됨)

Q&A — 내가 헷갈렸던 것

조합 공식 ₙCᵣ = n!/[r!(n-r)!] — 순열과 비교할 때

Q: 조합에서 왜 r!을 또 나눠? (n-r)!로 이미 안 뽑힌 부분은 잘랐잖아?

순열에서는 같은 조합이 r!번 중복 등장하니까, 그 중복을 제거하는 것!

5명 중 3명 뽑기 — 순열(60개) 안에 중복이 있다:

      {A,B,C}라는 같은 조합이 순열에서는:

      A-B-C, A-C-B, B-A-C, B-C-A, C-A-B, C-B-A

      → 3! = 6번 중복 등장! (3명을 줄 세우는 경우의 수)

그래서 나눠서 중복 제거:

      ₅C₃ = ₅P₃ / 3! = 60 / 6 = 10
    

순열 → 조합, 전체 과정 정리:

단계	하는 일	5명 중 3명
n!	전체 줄 세우기	5! = 120
÷ (n-r)!	안 뽑힌 꼬리 제거 → 순열	÷ 2! → 60
÷ r!	뽑힌 애들 순서 중복 제거 → 조합	÷ 3! → 10

Q&A — 내가 헷갈렸던 것

순열 공식 ₙPᵣ = n!/(n-r)! 을 배울 때

Q: 순열에서 왜 n!을 r!이 아니라 (n-r)!로 나눠?

(n-r)! = "안 뽑힌 나머지"를 잘라내기 위한 것!

4명에서 3명 뽑아 줄 세우기:

      첫 번째 자리: 4가지 (아무나)

      두 번째 자리: 3가지 (1명 빠짐)

      세 번째 자리: 2가지 (2명 빠짐)

      = 4 × 3 × 2 = 24

이걸 n!로 표현하면:

      4! = 4 × 3 × 2 × 1

                          ↑ 이 부분이 필요없어! (안 뽑힌 1명의 나열)

      "필요없는 꼬리" = (4-3)! = 1! = 1

      → 4! / (4-3)! = 24 / 1 = 24

더 큰 예로 확인:

식	풀어쓰면	약분	결과
₅P₂ = 5!/3!	5×4×~~3×2×1~~ / ~~3×2×1~~	5×4	20
₆P₄ = 6!/2!	6×5×4×3×~~2×1~~ / ~~2×1~~	6×5×4×3	360

n!에서 (n-r)!로 나누면 뒷부분이 약분돼서 사라지고, 앞의 r개 곱만 딱 남아!

Q&A — 내가 헷갈렸던 것

순열 공식 — 전체를 다 뽑는 ₙPₙ의 경우

Q: ₙPₙ이면 n-r=0이 되는데, 0!은 오류 아니야?

0! = 1 이다! 오류 안 나고 완벽하게 작동해.

      ₄P₄ = 4! / (4-4)! = 4! / 0! = 24 / 1 = 24 ✓
    

왜 0! = 1인가?

직관: "0명을 줄 세우는 방법" = 아무것도 안 하는 것 = 딱 1가지

패턴: 팩토리얼을 역으로 따라가면 자연스럽게 나옴 ↓

      4! = 5!/5 = 24

      3! = 4!/4 = 6

      2! = 3!/3 = 2

      1! = 2!/2 = 1

      0! = 1!/1 = 1 ← 패턴이 자연스럽게 1!

0! = 1이 아니면 ₙPₙ = n! 이라는 당연한 결과가 깨지니까, 수학에서 0! = 1로 약속한 거야.

📐 확률의 덧셈법칙

P(A∪B) = P(A) + P(B) − P(A∩B)

"A 또는 B" = A확률 + B확률 − 겹치는 부분

왜 빼줘야 하나? A에도 들어있고 B에도 들어있는 부분을 두 번 더했으니까 한 번 빼줘야 해!

학생 40명: 경제학 25명, 경영학 30명, 둘 다 수강 20명

경제학 또는 경영학 수강 확률 = ?

P(A) = 25/40, P(B) = 30/40, P(A∩B) = 20/40

P(A∪B) = 25/40 + 30/40 − 20/40 = 35/40

서로 배반사건 (A∩B = ∅)이면: P(A∪B) = P(A) + P(B) (겹침이 없으니 그냥 더하면 됨). 반대로 여사건P(Aᶜ) = 1−P(A)
적어도 1개 문제에서 필살기!

P(적어도1개) = 1−P(하나도없음)

은 "A가 안 일어나는 것"!

🔍 조건부확률

B가 일어났을 때 A가 일어날 확률

P(A|B) = P(A∩B) / P(B)

"B라는 조건 하에서 A의 확률"

전체 세상을 B로 축소해서 생각하는 거야. 조건부확률P(A|B) = P(A∩B)/P(B)
B일 때 A의 확률. B로 세상을 축소해서 봄 = "B라는 조건 하에서 A의 확률"

"여자인 걸 이미 아는 상태에서, 안경 쓸 확률은?" → 전체가 아니라 여자 중에서만 보면 돼.

학과: 남자 30명 (안경 10명), 여자 20명 (안경 8명)

한 명 뽑았더니 여자. 이 학생이 안경 쓸 확률은?

F = 여자, G = 안경 착용

P(F) = 20/50, P(G∩F) = 8/50

P(G|F) = P(G∩F)/P(F) = (8/50)/(20/50) = 8/20 = 2/5

Q&A — 내가 헷갈렸던 것

조건부확률 예제 — 남자 30명(안경10), 여자 20명(안경8) 문제에서

Q: 여자 중 안경 확률이면 그냥 8/20 아니야? 왜 굳이 P(G∩F)/P(F)로 풀어?

직관(8/20)이 맞아! 공식으로 풀어도 같은 답이 나와:

      # 직관: 여자 20명으로 세상 축소 → 그 중 안경 8명

      = 8/20 = 2/5

      # 공식: 전체 50명 기준으로 계산

      = P(G∩F)/P(F) = (8/50)/(20/50) = 2/5

      # ↑ 분자분모에서 /50이 약분돼서 결국 8/20!

그럼 공식은 왜 배워? → 숫자가 아닌 확률값만 주어질 때 필요해!

예: P(A∩B)=0.15, P(B)=0.3만 알 때 → P(A|B) = 0.15/0.3 = 0.5 (직관으로 못 풀어!)

Q&A — 내가 헷갈렸던 것

조건부확률 예제 — P(G∩F) = 8/50의 의미를 이해할 때

Q: P(G∩F)는 P(G) × P(F)가 아니야? "교집합"이니까 각각의 확률을 곱하는 거 아닌가?

아니야! ∩(교집합)은 "곱하기"가 아니라 "동시에 만족하는 것"

P(G∩F) = 전체 50명 중 "여자이면서 안경 쓴 사람" = 8/50

	안경 O	안경 X	합계
남자	10	20	30
여자	8 ← G∩F!	12	20
합계	18	32	50

      P(G∩F) = 8/50 = 0.16  ← 표에서 교차 칸 읽기

      P(G)×P(F) = 18/50 × 20/50 = 0.144  ← 다른 값!

      P(G∩F) = P(G)×P(F)가 성립하는 건 "독립"일 때만!

이 문제에서는 0.16 ≠ 0.144이니까 성별과 안경은 독립이 아니다.

Q&A — 내가 헷갈렸던 것

조건부확률 P(A|B) = P(A∩B)/P(B)를 배울 때

Q: P(A∩B) "A이면서 B일 확률"과 P(A|B) "B일 때 A일 확률"이 뭐가 달라? 같은 말 아니야?

분자는 같고, 분모(기준)가 다르다!

      # 1년 365일, 비 온 날 110일, 비+사고 7일

      P(비 ∩ 사고) = 7 / 365 = 0.02  ← 전체 날 기준

      P(사고|비)   = 7 / 110 = 0.067 ← 비 온 날만 기준

      분자(7일)는 같은데, 분모가 다르다!

	P(A ∩ B)	P(A \| B)
읽기	A 그리고 B (동시에)	B 일 때 A
분모 (기준)	전체	B만
느낌	전체 중 얼마나?	B 안에서 얼마나?

곱셈법칙 (조건부확률 뒤집기)

P(A∩B) = P(B) × P(A|B)

동시에 일어날 확률 = 하나 먼저 × 그 조건에서 나머지

🔗 독립사건

독립 ✓

A가 일어나든 말든 B의 확률에 영향 없음. 독립독립사건
P(A∩B) = P(A)×P(B)이면 독립. 하나를 알아도 다른 하나의 확률이 안 변함이란 이런 것!

P(A∩B) = P(A) × P(B)

예: 동전 첫번째 앞면 & 두번째 앞면

종속 (독립 아님) ✗

A가 일어나면 B의 확률이 바뀜

P(A∩B) ≠ P(A) × P(B)

예: 주사위 "첫눈=2" & "합=5"

주사위 두 번 던지기: A = 첫눈 2, B = 합이 5

P(A) = 6/36 = 1/6, P(B) = 4/36 = 1/9

P(A)×P(B) = 1/54

P(A∩B) = P({(2,3)}) = 1/36

1/36 ≠ 1/54 → 독립이 아니다!

여사건의 확률

P(Aᶜ) = 1 − P(A)

"A가 안 일어날 확률" = 1 - "A가 일어날 확률"

"적어도 1개" 문제는 여사건P(Aᶜ) = 1−P(A)
적어도 1개 문제에서 필살기!

P(적어도1개) = 1−P(하나도없음)

이 훨씬 쉬워!

P(적어도 1개) = 1 − P(하나도 없음)

상자에 6개 제품 중 불량 2개. 3개 추출할 때 적어도 1개 불량 확률?

Aᶜ = 불량 0개 = 양품 4개 중 3개 뽑기

P(Aᶜ) = ₄C₃ / ₆C₃ = 4/20 = 1/5

P(A) = 1 − 1/5 = 4/5

4강 핵심 정리

표본공간(S) = 모든 가능한 결과, 사건 = 관심 있는 결과의 부분집합
순열 ₙPᵣ (순서 O) vs 조합 ₙCᵣ (순서 X)
덧셈법칙: P(A∪B) = P(A) + P(B) − P(A∩B)
조건부확률: P(A|B) = P(A∩B) / P(B)
곱셈법칙: P(A∩B) = P(B) × P(A|B)
독립: P(A∩B) = P(A)×P(B)이면 독립
여사건: P(Aᶜ) = 1−P(A), "적어도" 문제에 활용

확률변수

🎰 확률변수란?

표본공간의 각 결과에 숫자를 붙여주는 함수

동전 2번 던지기에서 "앞면 수"를 X라 하면:

{앞,앞} → X=2 / {앞,뒤}, {뒤,앞} → X=1 / {뒤,뒤} → X=0

이렇게 실험 결과를 숫자로 번역해주는 게 확률변수야!

이산형 확률변수
셀 수 있는 값
불량품 수, 사고 건수

연속형 확률변수
구간의 모든 값
전구 수명, 몸무게

📊 확률분포함수

이산형: 확률분포함수 p(x)

각 값의 확률을 표로 정리

X	0	1	2
P(X=x)	1/4	2/4	1/4

성질: 모든 확률 ≥ 0, 전체 합 = 1

연속형: 확률밀도함수 f(x)

확률 = 곡선 아래 넓이(적분)

📈 누적확률분포함수 F(x)

P(X ≤ x)를 나타내는 함수. 확률을 "이하"로 누적해서 표현한 것.

동전 2개 던지기 (X = 앞면 수)

X	P(X=x)	F(x) = P(X≤x)
0	1/4	1/4
1	2/4	3/4
2	1/4	4/4 = 1

F(x)는 왼쪽부터 확률을 쌓아올리는 것! 항상 0에서 시작해서 1로 끝남.

주사위 2개 합의 확률분포 vs 누적확률분포

확률분포함수 p(x) — 산 모양

7이 꼭대기, 양쪽으로 대칭

누적확률분포함수 F(x) — S자 모양

가운데서 가파르게 올라가고, 끝에서 1에 도달

주사위 2개 합 (X = 두 눈의 합) 누적확률분포표

X	2	3	4	5	6	7	8	9	10	11	12
P(X)	1/36	2/36	3/36	4/36	5/36	6/36	5/36	4/36	3/36	2/36	1/36
F(X)	1/36	3/36	6/36	10/36	15/36	21/36	26/36	30/36	33/36	35/36	1

p(x) = 산 모양: 각 X값의 확률. 7 근처가 가장 높음

F(x) = S자 모양: 왼쪽부터 쌓아올린 것. p(x)가 큰 구간(7 근처)에서 가장 가파르게 올라감!

F(x)의 마지막은 반드시 1 (전체 확률의 합)

예제 3: 200가구 병원 방문 횟수 (강의록)

200가구를 조사 대상으로 지난 1년 동안 각 가구에서 병원 방문 횟수 조사

확률변수 X = "병원 방문 횟수"

병원방문 횟수	0	1	2	3	4	계
가구 수	74	80	30	10	6	200

확률분포함수 p(x):

각 가구 수 / 전체 200으로 나눔

X = x	0	1	2	3	4
P(X=x)	0.37	0.40	0.15	0.05	0.03

누적확률분포함수 F(x):

왼쪽부터 확률을 쌓아올림

X = x	0	1	2	3	4
P(X≤x)	0.37	0.77	0.92	0.97	1.00

P(X=0) = 74/200 = 0.37

P(X=1) = 80/200 = 0.40

F(1) = P(X≤1) = 0.37 + 0.40 = 0.77

F(2) = P(X≤2) = 0.77 + 0.15 = 0.92

이전 누적값에 현재 확률을 더하면 됨!

이 예제의 포인트:

실제 데이터(가구 수)에서 확률분포를 만드는 과정을 보여줘!

가구 수 / 전체 → 확률분포 → 누적하면 → 누적확률분포

주사위 예제와 달리 오른쪽 꼬리 형태 (0~1회 방문이 대부분, 4회는 극소수)

📋 이산형 확률분포의 성질

확률분포함수 p(x) = P(X = x)가 되려면 3가지 조건을 만족해야 해:

성질 1: 0 ≤ p(x) ≤ 1

각각의 확률은 0 이상 1 이하

음수 확률이나 1을 넘는 확률은 불가능!

성질 2: Σ p(x) = 1 (모든 확률의 합 = 1)

모든 x에 대해 확률을 다 더하면 반드시 1

= P(S) = 1 (4강 공리 2: "뭔가는 반드시 일어난다")

병원 예제: 0.37 + 0.40 + 0.15 + 0.05 + 0.03 = 1.00 ✓

성질 3: P(a < X ≤ b) = Σ p(x) (범위 안의 확률 합)

특정 범위의 확률 = 해당 범위에 있는 p(x)들만 더하면 됨

        예: P(1 < X ≤ 3) = ?

        → X가 2, 3인 경우만 (1은 "초과"라 불포함!)

        = P(X=2) + P(X=3) = 0.15 + 0.05 = 0.20

4강 확률의 공리와 연결:

이산형 확률분포 성질	4강 확률의 공리
0 ≤ p(x) ≤ 1	공리 1: 0 ≤ P(A) ≤ 1
Σ p(x) = 1	공리 2: P(S) = 1
범위 확률 = 해당 p(x) 합	공리 3: 배반사건 확률의 합

결국 4강에서 배운 확률 공리를 확률변수 버전으로 다시 쓴 것!

시험 함정! 부등호 방향 주의:

표현	포함 범위	병원 예제 (P)
P(1 < X ≤ 3)	X = 2, 3 (1 불포함)	0.15 + 0.05 = 0.20
P(1 ≤ X ≤ 3)	X = 1, 2, 3 (1 포함!)	0.40 + 0.15 + 0.05 = 0.60
P(1 ≤ X < 3)	X = 1, 2 (3 불포함)	0.40 + 0.15 = 0.55

< (미만/초과) = 그 값 불포함 / ≤ (이하/이상) = 그 값 포함

🔀 이산형 vs 연속형 확률변수 비교

이산형

값을 하나하나 셀 수 있음

예: 불량품 수, 사고 건수, 앞면 수

P(X=특정값) → 가능!

각 막대에 확률이 붙어있음

함수: 확률분포함수 p(x)

연속형

값이 무한히 많음 (실수)

예: 몸무게, 출근시간, 전구 수명

P(X=특정값) = 항상 0!

구간의 넓이만 구할 수 있음

함수: 확률밀도함수 f(x)

	이산형	연속형
확률 구하는 법	해당 값의 확률 더하기	구간의 넓이(적분)
기댓값E(X) = μ 평균적으로 기대하는 값. 이산형: Σxᵢ·f(xᵢ) = 각 값 × 확률, 전부 더하기	Σ xᵢ · f(xᵢ)	∫ x · f(x) dx
P(X < 3) vs P(X ≤ 3)	다르다! X=3 확률이 있으니까	같다! X=3 하나의 확률이 0이니까

시험 포인트: 연속형에서 P(X < 3) = P(X ≤ 3) 이건 함정으로 나올 수 있어!

이산형에서는 <와 ≤가 다르지만, 연속형에서는 같다!

🔄 연속형: 히스토그램 → 확률밀도함수

출근 소요시간 X: 100일간 데이터를 상대도수 히스토그램으로 그려보면...

P(30 ≤ X < 50) = 10/100 + 20/100 = 0.3 (해당 구간의 상대도수 합)

데이터를 무한히 모으면 히스토그램 → 매끄러운 곡선 = 확률밀도함수 f(x)

연속형의 확률 = 곡선 아래 넓이

P(a ≤ X ≤ b) = 색칠된 넓이 = ∫f(x)dx

확률밀도함수 f(x)의 성질 3가지:

① f(x) ≥ 0 (음수 없음)

② 전체 곡선 아래 넓이 = 1

③ P(a ≤ X ≤ b) = ∫f(x)dx (a에서 b까지 넓이)

적분 계산은 이 수업에서 직접 안 해! 6강에서 정규분포 표를 써서 구하는 법을 배워.

P(X = 특정값) = 0인 이유:

출근시간이 "정확히 32.000000...분"일 확률?

32.0분? 32.00001분? 32.000001분? 무한히 많은 값 중 딱 하나 = 확률 0

그래서 연속형은 항상 P(a ≤ X ≤ b) 구간으로 물어봐!

🎯 기댓값(평균)과 분산

먼저, 기호 읽는 법

기호	읽기	의미
E(X)	"X의 기댓값"	평균적으로 기대하는 값
μ	"뮤"	기댓값의 다른 이름. E(X) = μ
Var(X)	"X의 분산"	평균에서 얼마나 퍼져 있나
σ²	"시그마 제곱"	분산의 다른 이름. Var(X) = σ²
σ	"시그마"	표준편차 = √분산
Σ	"시그마" (대문자)	"전부 더해라"
xᵢ	"x i"	X가 될 수 있는 각 값
f(xᵢ)	"f of x i"	P(X = xᵢ), 그 값의 확률

기댓값 (이산형)

E(X) = μ = Σ xᵢ · f(xᵢ)

각 값 × 확률의 합

분산 (이산형)

Var(X) = σ² = Σ(xᵢ−μ)² · f(xᵢ)

편차제곱 × 확률의 합

풀어서 읽으면:

E(X) = (값₁ × 확률₁) + (값₂ × 확률₂) + (값₃ × 확률₃) + ...

Var(X) = ((값₁−평균)² × 확률₁) + ((값₂−평균)² × 확률₂) + ...

2강과의 차이:

2강 표본평균: x̄ = Σxᵢ / n → 개수로 나누기

5강 기댓값: E(X) = Σxᵢ · f(xᵢ) → 확률을 곱하기

확률이 이미 비율이니까 나눌 필요 없이 곱하면 됨!

자동차 판매소 1주일 판매대수

X (대수)	0	1	2	3	4	5
P(X=x)	0.1	0.1	0.2	0.3	0.2	0.1

E(X) = 0×0.1 + 1×0.1 + 2×0.2 + 3×0.3 + 4×0.2 + 5×0.1 = 2.7대

기댓값E(X) = μ
평균적으로 기대하는 값.

이산형: Σxᵢ·f(xᵢ) = 각 값 × 확률, 전부 더하기

= "평균적으로 기대할 수 있는 값"

표본평균(x̄)은 실제 데이터의 평균이고,

기댓값(μ)은 확률적으로 이론상 "나올 것 같은" 평균이야.

무한히 반복하면 표본평균 → 기댓값으로 수렴해!

✏️ 기댓값·분산 계산 예제

X = 동전 2개 던질 때 앞면 횟수

X	P(X=x)	x·P	(x−μ)²·P
0	1/4	0	(0−1)²×1/4 = 1/4
1	2/4	2/4	(1−1)²×2/4 = 0
2	1/4	2/4	(2−1)²×1/4 = 1/4
합계		E(X)=1	Var(X)=1/2

기댓값과 표본평균의 관계:

표본평균(x̄)은 실제 데이터의 평균, 기댓값(μ)은 이론적 평균.

실험을 무한히 반복하면 x̄ → μ로 수렴! (나중에 7강 '표본분포'와 연결)

⚡ 분산 간편 공식 — E(X²) 활용

분산Var(X) = σ²
평균에서 얼마나 퍼져 있나.

간편공식: E(X²)−[E(X)]² = 제기−기제

을 매번 (값−평균)² 으로 구하면 귀찮아. 더 빠른 방법이 있어!

분산 간편 공식

Var(X) = E(X²) − [E(X)]²

"X제곱의 기댓값" − "기댓값의 제곱"

E(X) — 값 × 확률

Σ xᵢ · f(xᵢ)

E(X²) — 값² × 확률

Σ xᵢ² · f(xᵢ)

x를 제곱해서 넣기!

자동차 판매소 예제로 계산:

xᵢ	0	1	2	3	4	5
f(xᵢ)	0.1	0.1	0.2	0.3	0.2	0.1
xᵢ·f(xᵢ)	0	0.1	0.4	0.9	0.8	0.5
xᵢ²·f(xᵢ)	0	0.1	0.8	2.7	3.2	2.5

E(X) = 0+0.1+0.4+0.9+0.8+0.5 = 2.7

E(X²) = 0+0.1+0.8+2.7+3.2+2.5 = 9.3

Var(X) = E(X²) − [E(X)]² = 9.3 − 2.7² = 9.3 − 7.29 = 2.01

왜 간편 공식이 더 좋아?

원래 공식: (0−2.7)²×0.1 + (1−2.7)²×0.1 + ... → 매번 빼고 제곱 😩

간편 공식: E(X²) − [E(X)]² → 두 값만 구하면 끝! 😊

시험에서는 거의 간편 공식으로 풀어!

🔄 aX + b의 기댓값과 분산

E(aX + b) = a·E(X) + b

기댓값: a도 곱하고 b도 더함

Var(aX + b) = a²·Var(X)

분산: a의 제곱만 곱함! b는 사라짐!

분산에서 b가 사라지는 이유: 데이터 전체에 같은 수를 더하면(+b) 위치만 옮겨가고 퍼진 정도는 안 변해!

a가 제곱되는 이유: 분산은 편차의 "제곱"이니까, a배 늘리면 a²배 늘어나!

📏 표준화 (Standardization)

평균 μ, 표준편차 σ인 확률변수 X를

Z = (X − μ) / σ

로 변환하면 → E(Z) = 0, Var(Z) = 1

왜 표준화Z = (X−μ)/σ
평균에서 표준편차 몇 개만큼 떨어져 있나.

결과: 평균=0, 분산=1

하나?

수학 점수(평균 60, 표준편차 10)와 영어 점수(평균 80, 표준편차 5)를 직접 비교할 수 없지?

둘 다 표준화하면 "평균에서 몇 표준편차σ = √분산
평균에서 보통 얼마나 떨어져 있나. 분산은 단위가 제곱이라 해석 어려움 → √ 씌워서 원래 단위로! 떨어져 있나"로 공정하게 비교 가능!

5강 핵심 정리

확률변수 = 실험 결과에 숫자를 대응시키는 함수
기댓값 E(X) = Σ xᵢ·f(xᵢ), 분산 Var(X) = Σ(xᵢ−μ)²·f(xᵢ)
E(aX+b) = aE(X)+b, Var(aX+b) = a²Var(X)
표준화: Z = (X−μ)/σ → 평균 0, 분산 1

확률분포와 표본분포 1

🪙 이항분포 B(n, p)

성공률 p인 실험을 n번 독립독립사건
P(A∩B) = P(A)×P(B)이면 독립. 하나를 알아도 다른 하나의 확률이 안 변함 반복 → 성공 횟수 X의 분포. 이항분포X~B(n,p)
성공률p인 실험을 n번 반복 → 성공횟수.

E(X)=np, Var(X)=np(1-p)

는 가장 기본적인 이산형 확률분포야!

조건 1
결과가 2가지
(성공/실패)

조건 2
매번 같은 확률 p

조건 3
각 시행이 독립

P(X=x) = ₙCₓ · pˣ · (1−p)ⁿ⁻ˣ

E(X) = np

Var(X) = np(1−p)

공식의 각 항목 해설

기호	읽기	의미	예: 동전5번 중 앞면2번
X ~ B(n, p)	"X는 B(n,p)를 따른다"	시행n번, 성공률p인 이항분포	X ~ B(5, 0.5)
n		시행 횟수 (몇 번 하나)	5번 던짐
p		한 번에 성공할 확률	1/2 (앞면)
(1−p)		한 번에 실패할 확률	1/2 (뒷면)
x		구하려는 성공 횟수	2 (앞면 2번)
ₙCₓ	"n choose x"	n번 중 x번 성공하는 조합 수	₅C₂ = 10가지
pˣ	"p의 x제곱"	성공 x번의 확률	(1/2)² = 1/4
(1−p)ⁿ⁻ˣ		실패 (n-x)번의 확률	(1/2)³ = 1/8

한국어로 읽으면:

P(X=x) = (어떤 순서로) × (성공이 x번) × (실패가 나머지번)

조합(ₙCₓ)을 곱하는 이유: "앞앞뒤뒤뒤", "앞뒤앞뒤뒤" 등 같은 성공 횟수여도 배치가 여러 가지니까!

사례: 공정한 동전을 5번 던지는 실험 (강의록)

X = 5번 던져서 나온 앞면의 수 → x = 0, 1, 2, 3, 4, 5

n = 5, p = 0.5 → X ~ B(5, 0.5)

앞면이 한 번도 안 나올 확률 P(X=0) = ?

P(X=0) = ₅C₀ × (1/2)⁰ × (1/2)⁵

= 1 × 1 × 1/32 = 1/32

₅C₀ = 1 (아무것도 안 뽑는 방법 = 1가지), (1/2)⁰ = 1 (뭐든 0제곱은 1)

R 함수: dbinom(x, n, p) → dbinom(0, 5, 0.5) = 1/32

R에서 이항분포 계산하기

R 함수	하는 일	예시
dbinom(x, n, p)	P(X = x) 정확히 x번 성공 확률	`dbinom(0, 5, 0.5)` → 1/32
pbinom(x, n, p)	P(X ≤ x) 누적확률 (x 이하)	`pbinom(2, 5, 0.5)` → P(X≤2)
qbinom(p, n, prob)	누적확률이 p가 되는 x값	`qbinom(0.5, 5, 0.5)`
rbinom(k, n, p)	랜덤으로 k번 시뮬레이션	`rbinom(1000, 5, 0.5)`

d/p/q/r 패턴: 모든 분포에서 같아!

d = density (확률값) p = probability (누적확률) q = quantile (역함수) r = random (시뮬레이션)

정규분포면 dnorm, pnorm, qnorm, rnorm — 앞글자만 바뀌고 구조는 같아!

R에서 정규분포 계산하기 — pnorm()

R 함수	하는 일	예시
pnorm(x, μ, σ)	P(X ≤ x) 누적확률	`pnorm(94.3, 70, 10)` → 0.9925
pnorm(z, 0, 1)	P(Z ≤ z) 표준정규 누적확률	`pnorm(2.43, 0, 1)` → 0.9925
dnorm(x, μ, σ)	f(x) 확률밀도값	거의 안 씀
qnorm(p, μ, σ)	누적확률 p가 되는 x값	`qnorm(0.975, 0, 1)` → 1.96
rnorm(k, μ, σ)	랜덤 k개 생성	`rnorm(1000, 70, 10)`

실전 사용법:

        # P(X < 94.3), X~N(70, 10²) — 두 가지 방법 다 같은 답!

        pnorm(94.3, 70, 10)    # X값 직접 넣기

        pnorm(2.43, 0, 1)     # Z로 변환해서 넣기

        # P(X > 57.7) — "보다 큰"이니까 1에서 빼기!

        1 - pnorm(57.7, 70, 10) # → 0.8907

        # P(60 < X < 90) — 빼기!

        pnorm(90, 70, 10) - pnorm(60, 70, 10)

pnorm 핵심 패턴:

"이하/미만": pnorm(x, μ, σ) 그대로

"이상/초과": 1 - pnorm(x, μ, σ) 1에서 빼기

"사이": pnorm(b, μ, σ) - pnorm(a, μ, σ) 두 개 빼기

보험 영업사원: 가입 확률 20%, 오늘 고객 10명 방문

3명이 가입할 확률? → n=10, p=0.2, X~B(10, 0.2)

P(X=3) = ₁₀C₃ × 0.2³ × 0.8⁷

= 120 × 0.008 × 0.2097 = 0.2013

평균기댓값 E(X)
"평균적으로 기대하는 값"

E(X) = np (이항분포)

일반: E(X) = Σ xᵢ · f(xᵢ)
= 각 값 × 확률, 전부 더하기 = 10×0.2 = 2명, 분산Var(X) = σ²
"평균에서 얼마나 퍼져 있나"

Var(X) = np(1−p) (이항분포)

일반: Var(X) = E(X²) − [E(X)]²
= "제기 − 기제" = 10×0.2×0.8 = 1.6

2명 이상 가입 확률? → "이상"은 여사건이 편해!

P(X ≥ 2) = 1 − P(X=0) − P(X=1)

또는 누적확률분포표에서 P(X ≤ 1)을 찾아서 1에서 빼기!

이항분포 확률 계산 팁:

"이하": 누적확률분포표에서 바로 읽기

"이상": 1 − P(X ≤ k-1)

"~에서 ~까지": P(X ≤ b) − P(X ≤ a-1)

5강과 6강의 관계:

5강 = "확률분포함수를 일일이 만드는 원리" (표본공간 나열 → 확률 계산)

6강 = "자주 나오는 패턴에 공식을 줌" (이항분포면 공식에 대입만!)

"이항분포 확률"이란? = 이항분포 공식에 x값을 넣어서 나온 P(X=x) 값들. 이걸 전부 모으면 확률분포표!

이항분포 확률계산 2: 당첨률 30% 복권 8장 구입 (강의록)

X = 당첨된 복권 수 → X ~ B(8, 0.3)

누적확률분포표 (n=8, p=0.3):

x	0	1	2	3	4	5	6	7	8
P(X≤x)	.058	.255	.552	.806	.942	.989	.999	1.00	1.00

4장이 당첨될 확률? → "딱 4장"

P(X=4) = P(X≤4) − P(X≤3) = .942 − .806 = 0.136

누적표에서 "딱 그 값" 구하기: P(X=k) = P(X≤k) − P(X≤k-1)

3장에서 7장이 당첨될 확률? → "~에서 ~까지"

P(3≤X≤7) = P(X≤7) − P(X≤2) = 1.00 − .552 = 0.448

P(a≤X≤b) = P(X≤b) − P(X≤a-1)

6장 이상이 당첨될 확률? → "이상" = 여사건!

P(X≥6) = 1 − P(X≤5) = 1 − .989 = 0.011

P(X≥k) = 1 − P(X≤k-1)

누적확률분포표 활용법 정리:

문제 키워드	수식	표에서 하는 일
"딱 x개"	P(X=x) = P(X≤x) − P(X≤x-1)	두 칸 빼기
"x개 이하"	P(X≤x)	표에서 바로 읽기
"x개 이상"	1 − P(X≤x-1)	1에서 빼기
"a~b개 사이"	P(X≤b) − P(X≤a-1)	두 칸 빼기

이항분포 B(5, 0.5) 모양

1/32

5/32

10/32

5/32

1/32

동전 5번 던질 때 앞면 수의 확률분포 (대칭!)

🎱 초기하분포

N개(성공 D개, 실패 N-D개)에서 n개를 비복원추출할 때 성공 수

P(X=x) = ᴅCₓ · ₍ₙ₋ᴅ₎C₍ₙ₋ₓ₎ / ₙCₙ

E(X) = np (p=D/N)

Var(X) = np(1-p)·(N-n)/(N-1)

흰공 3개 + 검은공 2개에서 2개 뽑기. X = 검은공 수

P(X=0) = ₂C₀·₃C₂ / ₅C₂ = 1×3/10 = 3/10

P(X=2) = ₂C₂·₃C₀ / ₅C₂ = 1×1/10 = 1/10

이항분포X~B(n,p)
성공률p인 실험을 n번 반복 → 성공횟수.

E(X)=np, Var(X)=np(1-p)

vs 초기하분포:

이항 = 복원추출 (매번 확률 같음) / 초기하 = 비복원추출 (뽑을수록 확률 변함)

N이 n에 비해 매우 크면 초기하 ≈ 이항 (비복원이어도 확률 변화가 미미)

분산의 (N−n)/(N−1)은 "유한모집단 보정인수"야.

N이 매우 크면 이 값 ≈ 1이 되어 이항분포 분산 np(1−p)와 같아져!

N이 n에 가까우면 보정인수가 작아져서 분산도 작아짐 (거의 다 뽑으면 변동이 줄어드니까)

⚡ 포아송분포 Poisson(m)

단위 시간/공간당 드물게 발생하는 사건의 횟수. 포아송분포X~Poisson(m)
단위당 드문 사건 횟수.

E(X)=Var(X)=m (평균=분산!)

의 핵심은 평균과 분산이 같다는 것!

P(X=x) = e⁻ᵐ · mˣ / x!

E(X) = m포아송 기댓값
m = 단위당 평균 발생률

E(X) = m

일반: E(X) = Σxᵢ · f(xᵢ)

Var(X) = m포아송 분산
포아송의 특징: 평균 = 분산!

Var(X) = m

일반: Var(X) = E(X²)−[E(X)]² (평균 = 분산!)

은행 하루 평균 불량수표 6건. 어떤 날 정확히 4건 받을 확률?

P(X=4) = e⁻⁶ × 6⁴ / 4! = 0.00248 × 1296 / 24 ≈ 0.1339

포아송분포를 적용하기 위한 3가지 가정

① 독립성
서로 다른 단위에서의
발생이 독립

② 비집락성
극히 작은 단위에서
둘 이상 발생 확률 ≈ 0

③ 비례성
단위당 평균 발생률이
일정

포아송분포 적용 예시들:

하루 교통사고 사망자 수

1시간 전화 통화 수

야구 한 경기 홈런 수

1주일 사망신고 수

포아송의 핵심 특징: 평균 = 분산 = m (둘이 같다!)

📐 확률밀도함수 f(x)의 성질 (연속형 확률분포의 기본!)

연속형 확률분포에서는 확률분포함수 대신 확률밀도함수 f(x)를 쓴다. 3가지 성질:

성질 1: f(x) ≥ 0

확률밀도는 항상 0 이상. 곡선이 x축 아래로 내려가지 않음!

성질 2: ∫f(x)dx = 1 (전체 넓이 = 1)

곡선 아래 전체 넓이가 1. "뭔가는 반드시 일어난다"

= P(−∞ < X < ∞) = 1 (이산형의 Σp(x)=1과 같은 뜻!)

성질 3: P(a < X ≤ b) = ∫ₐᵇ f(x)dx

구간 확률 = 곡선 아래 넓이(적분)

P(a < X ≤ b) = 보라색 넓이 = ∫ₐᵇ f(x)dx

이산형 vs 연속형 비교:

이산형: P(X=x) = 막대 하나의 높이 → 전부 더하면 1

연속형: P(a넓이 → 전체 넓이가 1

적분 직접 계산은 안 해! 정규분포 표를 써서 구해 (바로 다음에 배움)

🔔 정규분포 N(μ, σ²)

통계학에서 가장 중요한 분포. 정규분포X~N(μ,σ²)
종모양, μ에 대해 대칭.

표준화: Z=(X-μ)/σ → N(0,1)

는 종모양, μ에 대해 좌우 대칭.

"확률변수 X는 평균 μ, 표준편차 σ인 정규분포를 따른다"

X ~ N(μ, σ²)

확률밀도함수:

f(x) = (1/√2πσ) × exp[−(x−μ)²/2σ²]

−∞ < x < ∞ (모든 실수값 가능)

이 공식을 외울 필요는 없어! 시험에서 직접 계산 안 함.

알아야 할 것: μ와 σ만 알면 정규분포의 모양이 완전히 결정된다!

μ와 σ가 정규분포를 결정:

바꾸면	효과
μ (평균)	종이 좌우로 이동
σ (표준편차)	종이 넓어지거나 좁아짐

μ는 중심 위치, σ는 퍼진 정도를 결정

μ를 바꾸면 → 종이 좌우로 이동

σ를 바꾸면 → 종이 넓어지거나 좁아짐

μ와 σ만 알면 정규분포의 모양이 완전히 결정돼!

📋 표준정규분포와 확률 계산

어떤 정규분포X~N(μ,σ²)
종모양, μ에 대해 대칭.

표준화: Z=(X-μ)/σ → N(0,1)

든 표준화Z = (X−μ)/σ
평균에서 표준편차 몇 개만큼 떨어져 있나.

결과: 평균=0, 분산=1

하면 N(0,1)이 되고, 표준정규분포표로 확률을 구할 수 있어!

X ~ N(μ, σ²)

→

Z = (X−μ)/σ

→

Z ~ N(0, 1)

→

표에서 확률 찾기

예제 1: X ~ N(70, 10²). P(X < 94.3) = ?

Z = (94.3 − 70) / 10 = 2.43

표준정규분포표에서 Z=2.43 찾기 → P(Z < 2.43) = 0.9925

예제 2: 통근시간 X ~ N(40, 5²). P(X ≥ 50) = ?

Z = (50 − 40) / 5 = 2.0

P(Z ≥ 2.0) = 1 − P(Z < 2.0) = 1 − 0.9772 = 0.0228

P(X > a) 구할 때: 표는 보통 P(Z < z) 형태이므로 1에서 빼야 해!

P(Z > z) = 1 − P(Z < z)

공식을 한국어로 읽기

공식 1: P(X < x)

P(X < x) = P(Z < (x−μ)/σ)

"X가 x보다 작을 확률" = "Z가 (x를 표준화한 값)보다 작을 확률"

하는 일: x라는 숫자를 Z세계 숫자로 바꾼 것. 확률은 그대로!

공식 2: P(a < X < b)

P(a < X < b) = P((a−μ)/σ < Z < (b−μ)/σ)

"X가 a~b 사이일 확률" = "Z가 (a를 표준화)~(b를 표준화) 사이일 확률"

양쪽 다 표준화했을 뿐, 확률은 그대로!

원리: 부등호 양쪽에 같은 연산(−μ, ÷σ)을 하는 것!

양변에 같은 걸 빼고 나눠도 부등호 방향은 안 변해 → 확률 그대로!

Q&A — 내가 헷갈렸던 것

정규분포의 표준화 공식을 볼 때

Q: Z가 뭐야? 왜 x를 표준화한 건 z라고 안 써?

Z = (X−μ)/σ = "평균에서 표준편차 몇 개만큼 떨어져 있나"

      X = 확률변수 → Z = X를 표준화한 확률변수

      x = 구체적 숫자 → (x−μ)/σ = x를 표준화한 숫자

      강의록에서 z 대신 (x−μ)/σ를 그대로 쓴 이유:

      "이 숫자가 어떻게 나왔는지" 보여주려고!

      z라고 쓰면 깔끔하지만 유도 과정이 안 보임

Q&A — 외계어 → 한국어 번역 모음

수학 기호가 한국어로 읽히면 공식이 무섭지 않다!

기호	읽기	한국어 뜻
~	"따른다"	X ~ N(0,1) = "X는 N(0,1)을 따른다"
E(X)	"X의 기댓값"	평균적으로 기대하는 값
Var(X)	"X의 분산"	얼마나 퍼져 있나
Σ	"시그마 (합)"	전부 더해라
μ	"뮤"	평균
σ / σ²	"시그마 / 시그마제곱"	표준편차 / 분산
P(X=x)		X가 딱 x일 확률
P(X≤x)		X가 x 이하일 확률
P(A\|B)	"B given A"	B일 때 A일 확률
P(A∩B)	"A 교집합 B"	A이면서 동시에 B일 확률
∫f(x)dx	"적분"	곡선 아래 넓이
ₙCᵣ	"n choose r"	n개에서 r개 뽑기 (순서 무관)
n!	"n 팩토리얼"	n부터 1까지 곱하기
Z=(X−μ)/σ	"표준화"	평균 빼고 표준편차로 나누기

📊 표준정규분포표 실전 사용법

시험에서 주어지는 표의 형태: P(0 ≤ Z ≤ z)

"0에서 z까지의 넓이만" 알려줌. 전체 확률을 구하려면 0.5를 활용!

Z가 양수인지 음수인지는 자동으로 결정!

    X ~ N(70, 10²) 일 때:

    X = 94.3 → Z = (94.3−70)/10 = +2.43  ← 평균보다 크니까 양수!

    X = 57.7 → Z = (57.7−70)/10 = −1.23  ← 평균보다 작으니까 음수!

    X = 70.0 → Z = (70.0−70)/10 = 0      ← 딱 평균이면 0!

부등호 방향 = 색칠 방향

P(Z < 2.43) — 왼쪽 색칠

P(Z > −1.23) — 오른쪽 색칠

표에서 확률 구하기 패턴 (P(0≤Z≤z) 형태 표 기준)

구하려는 것	계산법	그림	예시
P(Z < +z)	0.5 + 표값	왼쪽절반 + 0~z	P(Z<2.43) = 0.5+0.4925 = 0.9925
P(Z > +z)	0.5 − 표값	오른쪽절반 − 0~z	P(Z>1.23) = 0.5−0.3907 = 0.1093
P(Z < −z)	0.5 − 표값	대칭! = P(Z>+z)	P(Z<−1.23) = 0.5−0.3907 = 0.1093
P(Z > −z)	0.5 + 표값	대칭! = P(Z<+z)	P(Z>−1.23) = 0.5+0.3907 = 0.8907
P(a < Z < b)	표값(b) − 표값(a)	두 구간 차이	P(0.5<Z<2.0) = 0.4772−0.1915

정규분포 확률계산 1 (강의록)

X ~ N(70, 10²)

P(X < 94.3) = ?

Z = (94.3−70)/10 = +2.43 (양수 → 평균 오른쪽)

P(Z < 2.43) = 0.5 + P(0≤Z≤2.43) = 0.5 + 0.4925 = 0.9925

R: pnorm(94.3, 70, 10) 또는 pnorm(2.43, 0, 1)

P(X > 57.7) = ?

Z = (57.7−70)/10 = −1.23 (음수 → 평균 왼쪽)

P(Z > −1.23) = 0.5 + P(0≤Z≤1.23) = 0.5 + 0.3907 = 0.8907

"보다 큰" + "음수Z" → 0.5 + 표값! (대칭이니까 P(Z<+1.23)과 같음)

R: 1 - pnorm(57.7, 70, 10)

표 읽기 핵심 원리:

표는 항상 "0에서 z까지 넓이"만 알려줌 → 0.5를 기준으로 더하거나 빼는 것!

정규분포는 좌우 대칭이니까 → 음수 Z는 양수로 바꿔서 표에서 찾고, 방향만 조절!

정규분포 확률계산 2: 통근시간 (강의록)

집에서 회사까지 통근 시간 X(분)는 정규분포 N(40, 5²)를 따름.

통근 시간이 50분 이상 걸릴 확률은?

정보 정리: X ~ N(40, 5²), μ=40, σ=5

구하려는 것: P(X ≥ 50) → "이상"이니까 1에서 빼기 패턴!

표준화:

Z = (50 − 40) / 5 = 2.0

50은 평균(40)보다 크니까 → Z = 양수!

부등호 변환:

P(X ≥ 50) = P(Z ≥ 2.0) = 1 − P(Z < 2.0)

표에서 찾기 (P(0≤Z≤z) 표 기준):

P(Z < 2.0) = 0.5 + P(0≤Z≤2.0) = 0.5 + 0.4772 = 0.9772

1에서 빼기:

P(Z ≥ 2.0) = 1 − 0.9772 = 0.0228 (약 2.28%)

R: 1 - pnorm(50, 40, 5)

50분 이상 = 오른쪽 꼬리 부분 = 2.28%만!

예제: 제품 무게 X ~ N(500, 30²)일 때, 550g 이상일 확률은?

풀이: Z = (550−500)/30, P(X≥550) = 1 − pnorm(550, 500, 30)

6강 핵심 정리

이항분포 B(n,p): 성공률p, n번 독립시행, 성공횟수. E=np, V=np(1-p)
초기하분포: 비복원추출. N이 크면 이항분포와 비슷
포아송분포 Poisson(m): 희귀 사건 횟수. E=V=m (평균=분산!)
정규분포 N(μ,σ²): 종모양, μ에 대칭, μ와 σ가 모양 결정
표준화: Z=(X−μ)/σ → N(0,1) → 표에서 확률 찾기
표 사용: P(0≤Z≤z) 형태 → 0.5 기준으로 더하기/빼기

확률분포와 표본분포 2

📖 기본용어 복습 (1강 → 7강 연결)

통계적 추론 (Statistical Inference)

모집단에서 추출한 표본을 이용하여 모집단에 관한 추측이나 결론을 이끌어내는 과정

1강에서 배운 "추론"이 바로 이것! 7강에서 드디어 구체적인 방법을 배워.

모수 (Parameter)

모집단의 특성값 (예: 평균, 비율, 분산 등)

고정되어 있지만 대부분 알 수 없음 → 표본으로 추정해야!

1강 → 7강 흐름:

1강: 모집단/표본/모수/통계량이 뭔지 배움

2~3강: 데이터를 요약하는 법 (기술통계)

4~6강: 확률과 확률분포의 도구를 익힘

7강: 드디어 "표본으로 모집단을 추론"하는 핵심 이론! ← 지금 여기!

📖 기본용어 2

랜덤표본 (Random Sample)

모집단에서 랜덤하게 추출된 일부로, 서로 독립이며 동일한 분포를 따름

1강의 "단순랜덤표집"으로 뽑은 표본이 바로 이것!

표본추출변동

통계량 값이 표본에 따라 달라지는 것

같은 모집단에서 표본을 다시 뽑으면 평균이 조금씩 달라지지? 그게 표본추출변동!

표본분포 (표집분포, Sampling Distribution)

표본 통계량의 분포

표본을 수없이 뽑아서 매번 평균을 구하면 → 그 평균값들의 분포 = 표본분포!

표본분포를 쉽게 이해하면:

1000명 학생 중 10명씩 뽑아서 평균 키를 구하는 걸 100번 반복

→ 평균 키가 100개 나옴 (170.2, 169.8, 171.1, ...)

→ 이 100개의 평균값들이 만드는 분포 = 표본분포!

매번 값이 달라지는 것(표본추출변동)이 당연하고, 그 변동 패턴을 분석하는 거야.

📊 표본평균의 표본추출변동 사례

표본평균 X̄도 확률변수야! 표본을 새로 뽑을 때마다 X̄ 값이 달라지니까. 통계량통계량 (Statistic)
표본의 대푯값. 표본마다 값이 달라짐. 모수를 추정하기 위해 사용인 X̄의 분포가 바로 표본분포야.

사례: 이산형 균등분포에서 랜덤추출 (강의록)

0, 1, 2, ..., 9의 정수값이 될 확률이 각각 0.1인 이산형 균등분포

0.1

원래 모집단: 평평한 균등분포 (종모양 아님!)

      모집단의 평균: μ = E(X) = 4.5

      모집단의 분산: σ² = Var(X) = 8.25

여기서 표본을 뽑아 평균을 구하면 매번 다른 값이 나와 (표본추출변동!)

이 표본평균들을 모아보면 → 원래 균등분포였는데 점점 종모양에 가까워져!

이게 바로 중심극한정리(CLT)의 핵심이야 — 바로 다음에 배움!

표본평균 X̄의 기댓값과 분산

X̄의 기댓값

E(X̄) = μ

모평균과 같다!

X̄의 분산

Var(X̄) = σ²/n

n이 커지면 분산이 줄어든다!

균등분포 사례에 적용:

      # n=5로 뽑으면:

      E(X̄) = μ = 4.5 (모평균과 같음!)

      Var(X̄) = 8.25/5 = 1.65 (모분산의 1/5로 줄어듦!)

      # n=100으로 뽑으면:

      E(X̄) = 4.5 (여전히 같음!)

      Var(X̄) = 8.25/100 = 0.0825 (엄청 작아짐!)

n이 커질수록 X̄이 μ 근처에 모여 → 추정이 정확해져!

핵심 직관: 표본 크기 n이 커질수록 X̄은 μ에 점점 가까워져!

1명한테만 물어보면 답이 들쭉날쭉하지만, 1000명한테 물어보면 평균이 안정적이잖아?

그게 바로 Var(X̄) = σ²/n → n이 커지면 분산이 줄어드는 거야.

n이 커질수록 X̄의 분포가 μ 주변에 더 모여!

👑 중심극한정리 (CLT)

통계학에서 가장 중요한 정리!

아까 배운 것 (정규모집단)

모집단이 정규분포면

→ X̄는 정확히 정규분포

n이 작아도 OK!

CLT (아무 모집단)

모집단이 아무 분포든

→ n이 크면 X̄가 근사적으로 정규분포

이게 핵심 차이!

모집단이 어떤 분포든 상관없이

표본 크기 n이 충분히 크면

① X̄ ~ N(μ, σ²/n)

표본평균은 근사적으로 정규분포를 따른다!

② (X̄ − μ) / (σ/√n) ~ N(0, 1)

①을 표준화하면 표준정규분포!

②를 한국어로 읽으면:

(X̄ − μ) → 표본평균에서 모평균 빼기 (편차)

÷ (σ/√n) → 표본평균의 표준편차로 나누기

~ N(0,1) → 표준정규분포를 따른다

6강 표준화와 비교:

	6강 (개인값)	7강 (표본평균)
표준화	Z = (X−μ) / σ	Z = (X̄−μ) / (σ/√n)
뭐가 다름?	X 하나	X̄ (n개의 평균)
분모	σ	σ/√n (더 작음!)

σ/√n은 Var(X̄)=σ²/n의 제곱근! 표본평균의 표준편차야.

중심극한정리CLT (Central Limit Theorem)
어떤 모집단이든 n이 크면 X̄ ≈ N(μ, σ²/n).

통계학에서 가장 중요한 정리!

가 왜 대단한가?

원래 모집단이 균등분포든, 지수분포든, 어떤 이상한 모양이든...

표본을 충분히 많이 뽑아서 평균을 내면 → 무조건 종모양(정규분포X~N(μ,σ²)
종모양, μ에 대해 대칭.

표준화: Z=(X-μ)/σ → N(0,1)

)에 가까워져!

덕분에 모집단의 분포를 몰라도 정규분포 표를 써서 추론할 수 있어.

정규모집단이면 → X̄는 정확히 정규분포 (n이 작아도)

비정규모집단이면 → n이 충분히 클 때만 근사적으로 정규분포 (보통 n ≥ 30)

🔄 이항분포의 정규근사

이항분포X~B(n,p)
성공률p인 실험을 n번 반복 → 성공횟수.

E(X)=np, Var(X)=np(1-p)

B(n, p)에서 n이 크면 정규분포로 근사할 수 있어!

왜 필요해?

이항분포 B(100, 0.3)에서 P(X ≥ 40) 구하려면 → P(X=40) + P(X=41) + ... + P(X=100) → 61개를 다 계산?!

정규근사: 정규분포로 바꿔서 Z표 하나로 끝!

X ~ B(n, p)이고 n이 충분히 크면

X ≈ N(np, np(1−p))

이항분포의 평균(np)과 분산(np(1-p))을 그대로 정규분포에 넣기!

표준화하면:

(X − np) / √(np(1−p)) ~ N(0, 1)

이항분포 평균 빼고, 이항분포 표준편차로 나누기 → Z표에서 찾기!

이건 CLT의 직접적인 응용이야!

이항분포 = 베르누이 시행을 n번 더한 것 → n이 크면 CLT에 의해 정규분포에 가까워짐

"근사적"이란? = 정확히 같진 않지만 n이 클수록 거의 같아짐! (대략적으로 맞다는 뜻)

n이 커질수록 이항분포 → 정규분포에 가까워지는 모습 (p=0.5)

n=2 — 각진 삼각형

n=5 — 좀 둥글어짐

n=10 — 종모양 보임!

n=25 — 정규분포 곡선과 거의 일치!

빨간 곡선 = N(np, np(1-p))

불량률 5%, 100개 추출. 불량품 3~7개일 확률?

X ~ B(100, 0.05) → 근사: X ~ N(5, 4.75)

μ = 100×0.05 = 5, σ² = 100×0.05×0.95 = 4.75, σ ≈ 2.179

P(3≤X≤7) = P((3-5)/2.179 ≤ Z ≤ (7-5)/2.179)

= P(-0.92 ≤ Z ≤ 0.92)

표에서: P(Z<0.92) − P(Z<−0.92) = 0.8212 − 0.1788 = 0.6424

📉 t-분포

σ를 모를 때 표본표준편차 S로 대체하면 → 정규분포가 아니라 t-분포t-분포
σ를 모를 때 사용.

t=(X̄−μ)/(S/√n) ~ t(n-1)

정규분포보다 꼬리가 두꺼움를 따라!

X₁,...,Xₙ이 N(μ, σ²)에서 온 표본이고 σ를 모르면

t = (X̄ − μ) / (S/√n) ~ t(n−1)

자유도 = n−1

t-분포는 정규분포보다 꼬리가 두꺼움 (불확실성이 더 크니까)

σ를 아느냐 모르느냐가 갈림길!

σ 알면 → Z = (X̄−μ)/(σ/√n) ~ N(0,1)

σ 모르면 → t = (X̄−μ)/(S/√n) ~ t(n−1)

자유도 n이 커지면 t-분포 → 정규분포에 가까워짐

📏 모평균 μ의 구간추정

모수모수 (Parameter)
모집단의 대푯값. 고정되어 있지만 대부분 알 수 없음. 예: 전국 평균 주거비인 μ를 점추정(하나의 값)이 아니라, 신뢰구간으로 범위를 제시하는 것

σ를 알 때 (100(1-α)% 신뢰구간)

X̄ ± z_α/2 · σ/√n

σ를 모를 때 (t-분포 사용)

X̄ ± t_α/2(n-1) · S/√n

신뢰구간이란? "이 범위 안에 진짜 모평균이 있을 거라고 95% 확신해!"

n이 커지면 → 구간이 좁아짐 (더 정밀한 추정)

신뢰수준을 높이면 → 구간이 넓어짐 (더 확실하려면 범위를 넓혀야)

🏭 모분산 추정이 왜 필요해? (강의록 사례)

지금까지 모평균(μ) 추정을 배웠는데, 모분산(σ²)도 추정해야 할 때가 있어!

사례 1: 거리측정기 정밀도 평가

같은 거리를 여러 번 측정했을 때

편차 작음 → 99.9, 100.0, 100.1 → 정밀! 양품!

편차 큼 → 97.0, 100.0, 103.0 → 불량!

→ 모분산이 작아야 좋은 제품!

사례 2: 플라스틱판 공정관리

판 두께의 표준편차가 1.5mm보다 크면 → 공정 이상!

1.5mm 이하면 → 정상!

→ 모표준편차(σ)를 추정해서 기준과 비교!

평균이 맞아도 분산이 크면 불량이야!

모평균 추정: "평균적으로 얼마야?" → μ 추정

모분산 추정: "얼마나 들쭉날쭉해?" → σ² 추정

모분산(σ²)의 점추정량 = 표본분산 S², 모표준편차(σ)의 점추정량 = 표본표준편차 S

📐 카이제곱(χ²) 분포와 F-분포

χ²-분포 → 모분산 추정용

(n−1)S²/σ² ~ χ²(n−1)

한국어: "(표본크기−1) × 표본분산 ÷ 모분산"은 자유도(n−1)인 카이제곱분포를 따른다

특징: 비대칭 분포, 자유도에 따라 모양 결정

F-분포 → 두 모분산 비교용

(S₁²/σ₁²) / (S₂²/σ₂²) ~ F(n₁−1, n₂−1)

특징: 분자·분모 자유도 2개, 비대칭 분포

모분산 추정이 중요한 사례:

거리측정기 → 측정 거리의 편차가 크면 불량품

플라스틱판 공장 → 두께의 표준편차가 1.5mm보다 크면 공정 이상

모분산(σ²)의 점추정량 = 표본분산 S², 모표준편차(σ)의 점추정량 = 표본표준편차 S

어떤 분포를 쓰느냐? → 뭘 추정하느냐에 따라 다름!

추정 대상	σ 아는지	사용 분포	통계량 (한국어)
모평균 μ	σ 알 때	N(0,1)	"(표본평균−모평균) ÷ (σ/√n)"
모평균 μ	σ 모를 때	t(n-1)	"(표본평균−모평균) ÷ (S/√n)" ← σ→S
모분산 σ²	-	χ²(n-1)	"(n-1)×표본분산 ÷ 모분산"
두 모분산 비교	-	F(n₁-1, n₂-1)	"표본분산1 ÷ 표본분산2"의 비율

패턴이 보여? 전부 "아는 것(표본)과 모르는 것(모수)을 엮어서 특정 분포를 따르게 만든 것!"

모평균 추정: 표본평균과 모평균의 관계 → Z 또는 t

모분산 추정: 표본분산과 모분산의 관계 → χ²

두 모분산 비교: 표본분산끼리의 비율 → F

7강 핵심 정리

표본평균 X̄: E(X̄) = μ, Var(X̄) = σ²/n → n 커지면 분산 줄어듦
중심극한정리(CLT): 어떤 모집단이든 n이 크면 X̄ ≈ N(μ, σ²/n)
이항분포 정규근사: X~B(n,p), n 클 때 → X ≈ N(np, np(1-p))
t-분포: σ 모를 때 t=(X̄−μ)/(S/√n) ~ t(n-1), 정규보다 꼬리 두꺼움
χ²-분포: 모분산 추정, (n-1)S²/σ² ~ χ²(n-1)
F-분포: 두 모분산 비교

★

1~7강 핵심요약

1 데이터와 통계학

통계학 = 데이터 수집 → 요약(기술통계) → 추론(추측통계)

데이터 = 단위(누구) + 변수(뭘 측정) + 관찰값(측정 결과)

모집단(전체) → 표본(일부) / 모수(진짜값, 모름) → 통계량(계산값, 표본마다 다름)

좋은 표본 = 단순랜덤표집 (모든 부분집합이 같은 확률로 선택)

2 데이터 요약 I

변수: 질적(명목형/순서형) vs 양적(연속형/이산형)

그래프: 질적→막대그래프(간격O) / 양적→히스토그램(붙어있음)

분포 모양: 종모양, 쌍봉우리, 오른쪽꼬리(평균>중앙값), 왼쪽꼬리(평균<중앙값), 균등

평균 = 특이점에 약함 / 분산 = 편차제곱합÷(n-1) / 표준편차 = √분산

변이계수(CV) = 표준편차/평균 → 단위 다른 변수 비교용

3 데이터 수치요약

중앙값 = 크기순 정렬 후 가운데 값. 특이점에 강함!

사분위수: Q1(25%), Q2=중앙값(50%), Q3(75%) / IQR = Q3−Q1

상자그림 = 다섯수치요약(최솟값, Q1, 중앙값, Q3, 최댓값)을 그래프로

평균은 긴 꼬리 쪽으로 끌려감 / 대칭이면 평균 ≈ 중앙값 ≈ 최빈값

특이점 있으면 → 중앙값+IQR 사용 / 대칭이면 → 평균+표준편차 사용

4 확률

표본공간(S) = 모든 가능한 결과 / 사건(A) = 관심 있는 부분집합

순열 ₙPᵣ = 줄 세우기(순서O) / 조합 ₙCᵣ = 그냥 뽑기(순서X)

덧셈법칙: P(A∪B) = P(A)+P(B)−P(A∩B) / 배반이면 그냥 더하기

조건부확률: P(A|B) = P(A∩B)/P(B) → "B일 때 A" = B로 세상 축소

독립: P(A∩B) = P(A)×P(B)이면 독립 (∩은 곱하기가 아니라 "동시에"!)

여사건: P(Aᶜ) = 1−P(A) → "적어도" 문제 필살기!

5 확률변수

확률변수 = 실험 결과를 숫자로 바꿔주는 함수 (문제에서 정의해줌)

기댓값 E(X) = Σxᵢ·f(xᵢ) = "각 값 × 확률, 전부 더하기" = 이론적 평균

분산 Var(X) = E(X²)−[E(X)]² = "제기 − 기제" (간편공식)

E(aX+b) = aE(X)+b / Var(aX+b) = a²Var(X) (b는 분산에서 사라짐!)

표준화: Z = (X−μ)/σ → 평균 0, 분산 1 → "표준편차 몇 개만큼 떨어졌나"

이산형: P(X=특정값) 가능 / 연속형: P(X=특정값)=0, 구간 넓이로만!

6 확률분포와 표본분포 1

이항분포 B(n,p): 성공/실패 n번 반복 → P(X=x) = ₙCₓ·pˣ·(1-p)ⁿ⁻ˣ / E=np, V=np(1-p)

초기하분포: 비복원추출 / N 크면 ≈ 이항분포

포아송 Poisson(m): "단위당 평균 m건" → E=V=m (평균=분산!)

정규분포 N(μ,σ²): 종모양, μ에 대칭 / μ=위치, σ=폭

표준화: Z=(X−μ)/σ → N(0,1) → 표준정규분포표에서 확률 찾기

표 형태 P(0≤Z≤z): P(Z<+z) = 0.5+표값 / P(Z>+z) = 0.5−표값

R: dbinom(딱 그 값) / pbinom(누적) / pnorm(x,μ,σ)(정규 누적)

7 확률분포와 표본분포 2

표본평균 X̄: E(X̄)=μ (모평균과 같다!) / Var(X̄)=σ²/n (n 커지면 줄어듦)

중심극한정리(CLT): 아무 모집단이든 n 크면 → X̄ ≈ N(μ, σ²/n) (가장 중요!)

이항분포 정규근사: B(n,p), n 클 때 → X ≈ N(np, np(1-p))

t-분포: σ 모를 때! t=(X̄−μ)/(S/√n) ~ t(n-1) / 정규보다 꼬리 두꺼움

구간추정: σ알면 X̄±z·σ/√n / σ모르면 X̄±t·S/√n

χ²-분포: 모분산 추정 / F-분포: 두 모분산 비교

문제에서 "모표준편차"→Z / "표본표준편차"→t / "분산 추정"→χ² / "분산 비교"→F

전체 공식 정리

📐 2~3강: 데이터 요약 공식

공식	수식	한국어
표본평균	x̄ = Σxᵢ / n	전부 더하고 개수로 나누기
표본분산	s² = Σ(xᵢ−x̄)² / (n−1)	편차 제곱합 ÷ (n-1)
표본표준편차	s = √s²	분산에 루트
변이계수	CV = s / x̄	표준편차 ÷ 평균 (상대 비교)
중앙값	크기순 정렬 후 가운데	홀수: 가운데값 / 짝수: 가운데 2개 평균
IQR	Q3 − Q1	3사분위수 − 1사분위수
범위	최댓값 − 최솟값	가장 간단한 산포 측정

📐 4강: 확률 공식

공식	수식	한국어
순열	ₙPᵣ = n! / (n-r)!	n개에서 r개 뽑아 줄 세우기
조합	ₙCᵣ = n! / [r!(n-r)!]	n개에서 r개 그냥 뽑기
덧셈법칙	P(A∪B) = P(A)+P(B)−P(A∩B)	A 또는 B = 각각 더하고 겹침 빼기
조건부확률	P(A\|B) = P(A∩B)/P(B)	B일 때 A = B로 세상 축소
곱셈법칙	P(A∩B) = P(B)×P(A\|B)	동시에 = 하나먼저 × 조건에서 나머지
독립	P(A∩B) = P(A)×P(B)	이게 성립하면 독립!
여사건	P(Aᶜ) = 1−P(A)	"적어도" 문제 → 1−P(하나도 없음)

📐 5강: 확률변수 공식

공식	수식	한국어
기댓값 (이산)	E(X) = Σxᵢ·f(xᵢ)	각 값 × 확률, 전부 더하기
분산 (이산)	Var(X) = Σ(xᵢ−μ)²·f(xᵢ)	편차제곱 × 확률, 전부 더하기
분산 간편	Var(X) = E(X²)−[E(X)]²	"제기 − 기제"
기댓값 변환	E(aX+b) = aE(X)+b	a 곱하고 b 더함
분산 변환	Var(aX+b) = a²Var(X)	a² 곱함. b는 사라짐!
표준화	Z = (X−μ)/σ	평균 빼고 표준편차로 나누기 → N(0,1)

📐 6강: 확률분포 공식

분포	확률함수 / 핵심공식	평균	분산
이항 B(n,p)	P(X=x) = ₙCₓ·pˣ·(1-p)ⁿ⁻ˣ	np	np(1-p)
초기하	P(X=x) = ᴅCₓ·₍ₙ₋ᴅ₎C₍ₙ₋ₓ₎/ₙCₙ	np (p=D/N)	np(1-p)·(N-n)/(N-1)
포아송 Poi(m)	P(X=x) = e⁻ᵐ·mˣ/x!	m	m
정규 N(μ,σ²)	표준화: Z = (X−μ)/σ → N(0,1)	μ	σ²

표준정규분포표 사용 (P(0≤Z≤z) 형태)

구하려는 것	계산
P(Z < +z)	0.5 + 표값
P(Z > +z)	0.5 − 표값
P(Z < −z)	0.5 − 표값 (대칭)
P(Z > −z)	0.5 + 표값 (대칭)
P(a < Z < b)	표값(b) − 표값(a)

R 함수 (d/p/q/r 패턴)

분포	P(X=x) 딱 그 값	P(X≤x) 누적	"이상" 구하기
이항	dbinom(x,n,p)	pbinom(x,n,p)	1−pbinom(k-1,n,p)
포아송	dpois(x,m)	ppois(x,m)	1−ppois(k-1,m)
정규	dnorm(x,μ,σ)	pnorm(x,μ,σ)	1−pnorm(x,μ,σ)

📐 7강: 표본분포 공식

공식	수식	한국어
표본평균 기댓값	E(X̄) = μ	표본평균의 평균 = 모평균!
표본평균 분산	Var(X̄) = σ²/n	n 커지면 줄어듦 → 추정 정확해짐
CLT	X̄ ~ N(μ, σ²/n) (n 클 때)	아무 분포든 n 크면 X̄는 정규분포!
CLT 표준화	(X̄−μ)/(σ/√n) ~ N(0,1)	표본평균 표준화 (분모가 σ/√n)
이항 정규근사	X ≈ N(np, np(1-p))	이항분포 n 크면 → 정규분포로!

추정 시 분포 선택

추정 대상	조건	분포	통계량
모평균 μ	σ 알 때	Z ~ N(0,1)	(X̄−μ)/(σ/√n)
모평균 μ	σ 모를 때	t(n-1)	(X̄−μ)/(S/√n)
모분산 σ²	-	χ²(n-1)	(n-1)S²/σ²
두 모분산 비교	-	F(n₁-1, n₂-1)	(S₁²/σ₁²)/(S₂²/σ₂²)

구간추정 공식

조건	신뢰구간
σ 알 때	X̄ ± z(α/2) · σ/√n
σ 모를 때	X̄ ± t(n-1, α/2) · S/√n

95% → z=1.96 / 99% → z=2.575 / 90% → z=1.645

시험 직전 치트시트

🗺️ 전체 분포 한눈에 보기

분포	상황	평균	분산
이항 B(n,p)	성공률p, n번 독립시행	np	np(1-p)
초기하	비복원추출 (N개 중 n개)	np	np(1-p)·(N-n)/(N-1)
포아송 Poi(m)	희귀사건 횟수	m	m (평균=분산!)
정규 N(μ,σ²)	종모양, 대칭	μ	σ²

핵심 공식 모음

이름	공식
표본평균x̄ (x bar) 실제 데이터의 평균. 관찰값의 합 ÷ 개수. 기댓값(μ)과 비슷하지만, 이건 실제 데이터용!	x̄ = Σxᵢ / n
표본분산s² 데이터가 평균에서 얼마나 퍼져 있나. 편차 제곱의 합을 (n-1)로 나눔. (n-1)인 이유: 표본이 모집단보다 작아서 보정!	s² = Σ(xᵢ−x̄)² / (n−1)
변이계수CV (Coefficient of Variation) 단위가 다른 변수의 변동을 비교할 때 사용. 표준편차를 평균으로 나눈 상대적 퍼짐.	CV = s / x̄
조합ₙCᵣ (n choose r) n개에서 r개를 순서 없이 뽑는 경우의 수. (n-r)!로 안 뽑힌 부분 제거, r!로 순서 중복 제거.	ₙCᵣ = n! / [r!(n-r)!]
조건부확률P(A\|B) "B일 때 A의 확률". B로 세상을 축소! 분자: A이면서 B (동시) / 분모: B (기준) P(A∩B)와 다름! 분모가 전체 vs B만.	P(A\|B) = P(A∩B)/P(B)
기댓값 변환E(aX+b) 확률변수를 a배 하고 b를 더하면 기댓값도 a배 하고 b 더함. 예: 시급(a) × 시간 + 교통비(b)	E(aX+b) = aE(X)+b
분산 변환Var(aX+b) a²만 곱하고 b는 사라짐! b(위치이동)는 퍼진 정도를 안 바꾸고 a(스케일)는 편차를 a배 → 분산은 a²배	Var(aX+b) = a²Var(X)
표준화Z = (X−μ)/σ "평균에서 표준편차 몇 개만큼 떨어졌나" 결과: 평균=0, 분산=1로 기준 통일. 단위가 달라도 비교 가능하게 만듦!	Z = (X−μ)/σ
표본평균 분산Var(X̄) = σ²/n 표본평균도 확률변수! 표본마다 달라지니까. n이 커지면 분산이 줄어듦 → 평균이 안정적. 이게 중심극한정리(7강)의 기반!	Var(X̄) = σ²/n
이항→정규근사이항분포의 정규근사 이항분포 B(n,p)에서 n이 충분히 크면 정규분포로 근사 가능! 계산이 훨씬 쉬워짐. 평균=np, 분산=np(1-p)로 변환.	X~B(n,p) ≈ N(np, np(1-p)) (n 클 때)

어떤 상황에 어떤 도구?

상황	중심위치	산포
대칭 분포, 특이점 없음	평균	표준편차
기울어진 분포 or 특이점 있음	중앙값	IQR
단위가 다른 변수 비교	변이계수 (CV = s/x̄)

분포 판별 가이드

σ 아는지?	정규모집단?	n 크기?	사용 분포
σ 알 때	정규	상관없음	N(0,1)
σ 모를 때	정규	상관없음	t(n-1)
σ 알/모름	비정규	n ≥ 30	N(0,1) (CLT)
모분산 추정			χ²(n-1)
두 모분산 비교			F(n₁-1, n₂-1)

1강 - 데이터와 통계학

객관식 20문항 | 문제를 풀고 실력을 확인해 보세요

객관식

통계학의 세 가지 핵심 역할을 올바르게 나열한 것은?

데이터 수집 → 가설 검증 → 결과 발표
데이터 수집 → 데이터 요약 → 통계적 추론
표본 추출 → 그래프 작성 → 모수 결정
실험 설계 → 데이터 정제 → 머신러닝

통계학의 기본 과정은 '수집 → 요약 → 추론' 3단계로 구성됩니다.

해설

핵심 개념: 통계학의 3단계

통계학은 데이터 수집(Collection) → 데이터 요약(Summarization) → 통계적 추론(Inference)의 과정으로 정의됩니다.

① 수집 단계: 현상을 왜곡 없이 반영하는 데이터를 모읍니다.
② 요약 단계: 기술통계를 사용해 패턴을 파악합니다 (평균, 그래프 등).
③ 추론 단계: 표본으로부터 모집단에 대한 결론을 도출합니다.

💡 Tip: '가설 검증', '머신러닝' 등은 통계학의 3대 핵심 역할에 해당하지 않습니다.

객관식

어떤 조사에서 전국 대학생 10,000명의 월평균 생활비를 알기 위해 500명을 무작위로 선정해 조사했다. 이때 모수(parameter)에 해당하는 것은?

조사에 응답한 500명의 평균 생활비
500명을 뽑는 방법
전국 대학생 10,000명의 실제 평균 생활비
조사 결과로 만든 그래프

모수(parameter)는 '모집단 전체'의 특성값이고, 통계량(statistic)은 '표본'에서 계산한 값입니다.

해설

핵심 개념: 모수 vs 통계량

모수(parameter)는 모집단 전체의 특성값으로, 고정된 값이지만 대부분 알 수 없습니다.
통계량(statistic)은 표본 데이터로부터 계산한 값으로, 표본마다 값이 달라집니다.

이 문제에서:
- 모집단 = 전국 대학생 10,000명
- 모수 = 10,000명의 실제 평균 생활비 (고정된 미지의 값)
- 표본 = 무작위로 선정된 500명
- 통계량 = 500명의 평균 생활비 (표본마다 변함)

💡 주의: '500명을 뽑는 방법'은 표집방법이지 모수가 아닙니다.

객관식

데이터의 세 가지 기본 요소로 올바르게 짝지어진 것은?

모집단, 표본, 통계량
평균, 분산, 표준편차
단위, 변수, 관찰값
행, 열, 셀

데이터 테이블에서 행(관찰 대상), 열(측정 특성), 셀(측정 값)을 떠올려 보세요.

해설

핵심 개념: 데이터의 3대 요소

데이터를 표(table)로 생각하면 이해가 쉽습니다.
- 단위(Unit): 관찰 대상 하나하나 (표의 각 행)
- 변수(Variable): 측정하는 특성 (표의 각 열)
- 관찰값(Observation): 특정 단위에서 특정 변수를 측정한 값 (표의 각 셀)

💡 주의: 모집단·표본·통계량은 통계학의 구성 요소이지 데이터의 기본 요소가 아닙니다.

객관식

단순랜덤표집(Simple Random Sampling)을 사용하지 않을 때 발생할 수 있는 문제는?

표본의 크기가 너무 커진다
선택 편향(selection bias)이 발생한다
모수와 통계량이 같아진다
표준편차가 0이 된다

단순랜덤표집을 하지 않으면 특정 집단이 과대/과소 대표될 수 있습니다.

해설

핵심 개념: 단순랜덤표집과 선택 편향

단순랜덤표집(SRS)은 모집단의 모든 부분집합이 동일한 확률로 선택될 수 있도록 보장합니다.

이를 사용하지 않으면:
- 특정 집단이 과대/과소 대표될 수 있음
- 선택 편향(selection bias)이 발생
- 편향된 결론을 내릴 위험이 높아짐

💡 주의: 표본 크기가 커진다거나 표준편차가 0이 되는 것은 비랜덤표집의 문제가 아닙니다.

객관식

다음 중 기술통계(descriptive statistics)에 해당하는 것을 모두 고르면?

ㄱ. 표본의 평균과 표준편차를 계산한다
ㄴ. 표본 결과로 모집단의 평균을 추정한다
ㄷ. 데이터를 히스토그램으로 시각화한다
ㄹ. 신뢰구간을 구한다

ㄱ, ㄴ
ㄱ, ㄷ
ㄴ, ㄹ
ㄱ, ㄴ, ㄷ

기술통계는 '주어진 데이터를 정리·요약'하는 것이고, 추론통계는 '표본→모집단 일반화'입니다.

해설

핵심 개념: 기술통계 vs 추론통계

기술통계(descriptive): 주어진 데이터를 정리·요약하는 것
→ ㄱ(평균·표준편차 계산), ㄷ(히스토그램 시각화)

추론통계(inferential): 표본에서 모집단으로 일반화하는 것
→ ㄴ(모집단 평균 추정), ㄹ(신뢰구간 구하기)

따라서 정답은 ㄱ, ㄷ입니다.

💡 구분법: "표본→모집단"이 들어가면 추론통계, "있는 그대로 정리"이면 기술통계입니다.

객관식

통계량(statistic)에 대한 설명으로 옳지 않은 것은?

표본 데이터로부터 계산할 수 있다
어떤 표본을 뽑느냐에 따라 값이 달라진다
모집단의 고정된 특성값이다
모수를 추정하기 위해 사용한다

'모집단의 고정된 특성값'이 모수인지 통계량인지 구분해 보세요.

해설

핵심 개념: 통계량(statistic)의 정의

통계량은 표본에서 계산한 값으로 다음 성질을 가집니다:
✓ 표본 데이터로부터 계산 가능 (A)
✓ 표본이 바뀌면 값도 바뀜 (B)
✓ 모수를 추정하는 데 사용 (D)

✗ "모집단의 고정된 특성값"은 모수(parameter)에 대한 설명입니다 (C가 오답).

💡 기억법: 모수 = 고정(모집단), 통계량 = 변동(표본)

객관식

다음 중 무한 모집단에 해당하는 것은?

한 반 학생 35명의 시험 점수
2025년 한국에 등록된 자동차 전체
어떤 회사의 전체 직원 500명
공장에서 계속 생산되는 제품의 수명

무한 모집단은 이론적으로 끝없이 늘어날 수 있는 집단입니다. 계속 생산되는 경우를 생각해 보세요.

해설

핵심 개념: 유한 모집단 vs 무한 모집단

유한 모집단: 구성원의 수가 정해져 있는 집단
→ A(학생 35명), B(등록 자동차), C(직원 500명)

무한 모집단: 이론적으로 끝없이 늘어날 수 있는 집단
→ D(공장에서 계속 생산되는 제품의 수명)

💡 Tip: '계속', '앞으로', '모든 잠재적' 같은 표현이 나오면 무한 모집단을 의심해 보세요.

객관식

"한 대학교의 재학생 15,000명 중 400명을 무작위로 뽑아 통학 시간을 조사했다." 이 상황에서 모집단은?

재학생 15,000명 전체
무작위로 뽑힌 400명
400명의 평균 통학 시간
통학 시간이라는 변수

모집단은 '알고 싶은 전체 집단'이고, 표본은 '실제로 조사한 부분집합'입니다.

해설

핵심 개념: 모집단·표본·통계량 구분

- 모집단 = 알고 싶은 전체 집단 → 재학생 15,000명 전체
- 표본 = 실제로 조사한 부분집합 → 무작위로 뽑힌 400명
- 통계량 = 표본에서 계산한 값 → 400명의 평균 통학 시간
- 변수 = 측정하는 특성 → 통학 시간

💡 Tip: "~를 알기 위해"가 나오면 '알고 싶은 전체'가 모집단입니다.

객관식

다음 표에서 변수의 개수는?

학생	나이	전공	GPA
A	21	통계	3.8
B	23	경영	3.2

2개
3개
4개
8개

'학생' 열은 단위를 식별하는 이름이지 변수가 아닙니다. 나머지 열만 세어보세요.

해설

핵심 개념: 변수의 개수 세기

변수는 각 단위에 대해 측정하는 특성(열)입니다.
- 나이, 전공, GPA → 변수 3개
- "학생" 열 → 단위(관찰 대상)를 식별하는 이름이므로 변수 아님

추가로:
- 단위(행) = A, B → 2명
- 관찰값(셀) = 2명 × 3변수 = 6개

💡 주의: 열 수(4개)와 변수 수(3개)를 혼동하지 마세요. ID 열은 변수가 아닙니다.

객관식

유한 모집단에서도 전수조사 대신 표본조사를 하는 이유로 가장 적절한 것은?

전수조사는 법적으로 금지되어 있다
표본조사가 항상 더 정확하다
모집단이 유한하면 표본을 뽑을 수 없다
비용·시간이 많이 들거나 파괴검사처럼 전수조사가 불가능한 경우가 있다

파괴검사나 비용·시간 문제를 생각해 보세요. 전수조사가 물리적으로 불가능한 경우가 있습니다.

해설

핵심 개념: 표본조사의 필요성

유한 모집단이라도 표본조사를 하는 이유:
① 비용·시간: 대규모 모집단은 전수조사가 비효율적
② 파괴검사: 전구 수명 테스트처럼 조사 자체가 대상을 소모하는 경우
③ 물리적 불가능: 접근이 어려운 대상

💡 주의: 전수조사가 법적으로 금지된 것은 아니며, 표본조사가 항상 더 정확한 것도 아닙니다.

객관식

다음 중 전수조사가 반드시 필요한 경우는?

공장에서 생산된 전구 10만 개의 수명 테스트
전국 대학생의 평균 용돈 조사
5명으로 구성된 소규모 팀의 업무 만족도 조사
대한민국 전체 가구의 연간 소득 조사

모집단이 매우 작으면 표본을 뽑는 것보다 전수조사가 더 합리적입니다.

해설

핵심 개념: 전수조사가 필요한 경우

모집단의 크기가 매우 작을 때는 표본을 따로 뽑는 것보다 전수조사가 더 효율적이고 정확합니다.

각 선택지 분석:
- A: 전구 수명 테스트 → 파괴검사이므로 전수조사 불가능
- B: 전국 대학생 → 모집단이 너무 커서 표본조사가 적절
- C: 5명 → 매우 작으므로 전수조사가 합리적 ✓
- D: 전체 가구 → 모집단이 너무 커서 표본조사가 적절

💡 Tip: 모집단이 작으면 전수조사, 크면 표본조사가 원칙입니다.

객관식

인터넷 포털 사이트에서 "당신의 정치 성향은?"이라는 자발적 온라인 설문을 실시했다. 이 조사에서 발생할 수 있는 가장 큰 문제는?

자기선택 편향(self-selection bias)으로 특정 성향의 사람만 응답할 가능성이 높다
표본 크기가 너무 작아서 신뢰할 수 없다
변수가 질적 변수이므로 통계 분석이 불가능하다
모집단이 무한하므로 전수조사를 해야 한다

자발적 응답 조사에서는 관심이 강한 사람만 응답하는 경향이 있습니다.

해설

핵심 개념: 자기선택 편향(self-selection bias)

자발적 응답 조사(voluntary response survey)에서는 관심이 강한 사람만 응답하는 경향이 있어 자기선택 편향이 발생합니다.

이는 랜덤표집 원칙을 위반한 것으로, 응답자가 아무리 많아도 모집단을 대표하지 못합니다.

💡 주의: 표본 크기가 작아서가 아니라, 표집 방법 자체의 문제입니다. 질적 변수도 통계 분석이 가능합니다.

객관식

같은 모집단에서 서로 다른 두 표본을 뽑아 평균을 구했더니 하나는 72.3, 다른 하나는 68.7이었다. 이처럼 값이 달라지는 근본적 이유는?

조사원이 측정을 잘못했기 때문이다
모수가 변했기 때문이다
표본의 크기가 다르기 때문이다
표본추출의 랜덤성에 의한 표집변동(sampling variability) 때문이다

같은 모집단에서 다른 표본을 뽑으면 통계량이 달라지는 것은 자연스러운 현상입니다.

해설

핵심 개념: 표집변동(sampling variability)

표집변동은 서로 다른 표본이 뽑힐 때마다 통계량이 달라지는 자연스러운 현상입니다.

- 모수(모평균)는 고정값으로 변하지 않음
- 통계량(표본평균)은 어떤 표본을 뽑느냐에 따라 달라짐
- 이는 측정 오류가 아니라 랜덤 표본추출의 본질적 특성

💡 Tip: 이것이 바로 추론통계가 필요한 이유이기도 합니다.

객관식

다음 중 유한 모집단과 무한 모집단을 올바르게 분류한 것은?

ㄱ. 2025년 서울시에 등록된 택시 전체
ㄴ. 특정 기계로 앞으로 생산할 모든 나사
ㄷ. 어떤 약의 효과를 검증하기 위한 모든 잠재적 환자

유한: ㄱ, ㄴ / 무한: ㄷ
유한: ㄱ / 무한: ㄴ, ㄷ
유한: ㄱ, ㄷ / 무한: ㄴ
유한: ㄴ / 무한: ㄱ, ㄷ

현재 시점에 수가 정해져 있으면 유한, 이론적으로 끝이 없으면 무한 모집단입니다.

해설

핵심 개념: 유한 vs 무한 모집단 분류

ㄱ. 2025년 서울시 택시 → 특정 시점에 수가 정해짐 → 유한
ㄴ. 기계로 생산할 모든 나사 → 끝없이 생산 가능 → 무한
ㄷ. 모든 잠재적 환자 → 현재+미래 포함 → 무한

따라서 유한: ㄱ / 무한: ㄴ, ㄷ

💡 판단 기준: "특정 시점에 수가 확정"이면 유한, "이론적으로 끝이 없으면" 무한입니다.

객관식

연구자가 다음과 같은 데이터를 수집했다:

환자	체온(°C)	증상 등급	성별
1	37.2	경증	남
2	38.5	중증	여

이 데이터에서 관찰값(observation)의 총 개수는?

2개
3개
6개
8개

관찰값의 수 = 단위(행) × 변수(열)입니다. 단위를 식별하는 열은 변수가 아닙니다.

해설

핵심 개념: 관찰값의 개수 = 단위 × 변수

- 단위(행): 환자 1, 환자 2 → 2명
- 변수(열): 체온, 증상 등급, 성별 → 3개 ("환자" 열은 ID이므로 변수 아님)
- 관찰값(셀): 2 × 3 = 6개

💡 주의: "환자" 열은 단위를 식별하는 이름이지 측정한 특성이 아니므로 변수에 포함하지 않습니다.

객관식

모수(parameter)와 통계량(statistic)에 대한 설명으로 모두 올바른 것은?

모수는 표본에서 계산하고, 통계량은 모집단에서 계산한다
모수와 통계량 모두 표본마다 값이 달라진다
모수는 항상 정확히 알 수 있고, 통계량은 추정치이다
모수는 고정된 미지의 값이고, 통계량은 표본에서 계산한 모수의 추정치이다

모수는 모집단에서, 통계량은 표본에서 계산합니다. 어느 쪽이 고정값인지 생각해 보세요.

해설

핵심 개념: 모수와 통계량의 구분

모수(parameter): 모집단 전체의 특성값 → 고정된 미지의 값
통계량(statistic): 표본 데이터에서 계산한 값 → 표본마다 달라지는 추정치

각 선택지 분석:
- A: 설명이 반대 → ✗
- B: 모수는 고정값(변하지 않음) → ✗
- C: 모수는 대부분 알 수 없음 → ✗
- D: 올바른 설명 → ✓

객관식

어떤 연구자가 신제품 효과를 검증하기 위해 자원자를 무작위로 실험군과 대조군에 배정하여 실험했다. 이 데이터 수집 방법은?

관찰연구(observational study)
실험(experiment)
설문조사(survey)
전수조사(census)

연구자가 처리(treatment)를 직접 부여하면 실험, 개입 없이 관찰하면 관찰연구입니다.

해설

핵심 개념: 데이터 수집 방법 구분

실험(experiment): 연구자가 처리(treatment)를 직접 부여하고 효과 측정
관찰연구: 개입 없이 있는 그대로 관찰
설문조사: 질문을 통해 데이터 수집

이 문제에서 연구자는 자원자를 무작위로 실험군/대조군에 배정하고 실험했으므로 실험입니다.

💡 Tip: 실험은 인과관계 파악에 가장 강력한 방법입니다.

객관식

어느 대학이 졸업생 연봉을 조사하기 위해 동문회에 등록된 졸업생에게만 설문을 보냈다. 이 조사의 문제점은?

동문회 미등록 졸업생이 배제되어 랜덤표집이 위반되었다
연봉은 양적 변수가 아니므로 조사할 수 없다
전수조사를 하지 않았으므로 결과가 무의미하다
모집단이 무한하므로 표본조사가 불가능하다

특정 집단만 대상으로 하면 랜덤표집 원칙이 위반됩니다.

해설

핵심 개념: 편의표본과 선택 편향

동문회에 등록한 사람만 대상으로 하면:
- 등록하지 않은 졸업생이 체계적으로 배제됨
- 예: 연봉이 낮은 사람은 동문회에 관심이 적을 수 있음
- 이는 편의표본(convenience sample)
- 선택 편향(selection bias) 발생

💡 핵심: 모집단 전체를 대표하지 못하는 표본은 아무리 커도 편향된 결론을 줍니다.

객관식

"A 지역 20~30대 1,000명을 조사한 결과 평균 수면 시간이 6.2시간이었다"는 결과에 대해 올바른 해석은?

이것은 모수이며, A 지역 20~30대 전체의 수면 시간이 정확히 6.2시간이다
기술통계는 불가능하고 추론통계만 할 수 있다
6.2시간은 통계량(표본평균)이며, 이를 바탕으로 모집단 평균을 추정할 수 있다
1,000명은 전수조사이므로 표본이 아니다

1,000명에서 계산한 값은 모수가 아니라 통계량(표본에서 계산한 값)입니다.

해설

핵심 개념: 통계량과 추론통계

- 1,000명에서 계산한 6.2시간 = 통계량(표본평균) (모수가 아님)
- 이 통계량으로 모집단(A 지역 20~30대 전체)의 평균을 추정 가능
- 다른 표본을 뽑으면 다른 값이 나올 수 있음 (표집변동)

💡 주의: "정확히 6.2시간이다"라고 단정할 수 없으며, 추론통계는 항상 불확실성이 따릅니다.

객관식

추론통계(inferential statistics)의 궁극적 목적으로 가장 적절한 것은?

표본 데이터를 그래프로 시각화하는 것
표본 정보를 이용하여 모집단에 대한 결론을 불확실성과 함께 도출하는 것
모집단의 모든 개체를 직접 측정하는 것
데이터의 평균과 분산을 정확히 계산하는 것

추론통계의 핵심은 '표본 → 모집단'으로의 일반화이며, 항상 불확실성이 따릅니다.

해설

핵심 개념: 추론통계의 목적

추론통계(inferential statistics)의 궁극적 목적:
→ 표본 정보를 이용하여 모집단에 대한 결론을 불확실성과 함께 도출하는 것

각 선택지 분석:
- A: 그래프 시각화 → 기술통계
- B: 정답 ✓
- C: 전체 측정 → 전수조사
- D: 평균·분산 계산 → 기술통계

2강 - 데이터 요약 I

객관식 20문항

객관식

다음 중 양적 변수 - 이산형에 해당하는 것은?

몸무게 (65.3kg)
혈액형 (A, B, O, AB)
자녀 수 (0, 1, 2, 3명)
키 (172.5cm)

이산형은 '셀 수 있는' 값, 연속형은 '소수점이 가능한' 값, 질적 변수는 숫자가 아닌 범주입니다.

해설

핵심 개념: 변수의 유형 분류

양적 변수(quantitative): 숫자로 측정
- 이산형: 셀 수 있는 값 (0, 1, 2, 3...)
- 연속형: 소수점이 가능한 값 (65.3, 172.5...)

질적 변수(qualitative): 범주로 분류
- 명목형: 순서 없음 (혈액형: A, B, O, AB)
- 순서형: 순서 있음 (학점: A > B > C)

자녀 수는 "0.5명"이 불가능하므로 양적-이산형입니다.

💡 구분법: "셀 수 있으면" 이산형, "잴 수 있으면" 연속형, "숫자가 아니면" 질적 변수입니다.

객관식

막대그래프와 히스토그램의 차이로 옳은 것은?

막대그래프는 양적 데이터, 히스토그램은 질적 데이터에 사용
막대그래프는 막대 사이에 간격이 있고, 히스토그램은 막대가 붙어 있다
둘 다 동일하며 이름만 다르다
히스토그램은 3차원이고 막대그래프는 2차원이다

막대그래프는 질적 데이터(간격 있음), 히스토그램은 양적 데이터(막대 붙어 있음)에 사용됩니다.

해설

핵심 개념: 막대그래프 vs 히스토그램

막대그래프(bar chart):
- 질적 데이터(범주형)용
- 막대 사이에 간격이 있음
- 막대 순서 변경 가능

히스토그램(histogram):
- 양적 데이터(연속형)용
- 막대가 붙어 있음
- 연속된 숫자 구간을 나타내므로 순서 변경 불가

💡 기억법: 히스토그램에서 막대가 붙어 있는 이유 = 연속된 숫자 구간이므로 빈틈이 없습니다.

객관식

데이터 {1, 2, 3, 4, 100}의 평균은 22이다. 이 상황에 대한 설명으로 가장 적절한 것은?

평균이 데이터의 중심을 잘 나타내고 있다
분산을 (n)으로 나누어야 한다
데이터를 더 많이 모으면 해결된다
특이점(100) 때문에 평균이 왜곡되었으므로 중앙값이 더 적절하다

특이점이 있으면 평균이 왜곡됩니다. 이런 경우 어떤 대표값이 더 적절할까요?

해설

핵심 개념: 평균의 특이점 민감성

데이터 {1, 2, 3, 4, 100}에서:
- 평균 = (1+2+3+4+100)/5 = 22 → 대부분의 데이터(1~4)와 동떨어짐
- 중앙값 = 3 → 데이터의 중심을 더 잘 표현

100이라는 특이점(outlier)이 평균을 크게 끌어올렸습니다.

💡 원칙: 특이점이 있거나 분포가 치우쳐 있으면 → 중앙값, 대칭이면 → 평균이 적절합니다.

객관식

표본분산을 구할 때 n이 아닌 (n-1)로 나누는 이유는?

계산을 더 간편하게 하기 위해
표본이 모집단보다 항상 크기 때문
불편추정(unbiased estimation)을 위해 — n으로 나누면 분산이 과소추정됨
자유도를 n+1로 맞추기 위해

표본분산에서 나누는 수에 주목하세요. n-1로 나누는 것은 불편추정과 관련됩니다.

해설

핵심 개념: 불편추정과 자유도

표본분산을 n이 아닌 (n-1)로 나누는 이유:

① 표본은 모집단의 일부이므로, n으로 나누면 분산이 과소추정됨
② (n-1)로 나누면 모분산에 더 가까운 불편추정값(unbiased estimate)을 얻음
③ (n-1)은 자유도(degrees of freedom)라고 하며, 표본평균을 하나 고정하면 나머지 n-1개만 자유롭게 변할 수 있기 때문

💡 주의: 모분산(σ²)은 N으로 나누고, 표본분산(s²)은 (n-1)로 나눕니다.

객관식

21세 남자의 몸무게 (평균 72kg, 표준편차 11kg)와 9세 남아의 몸무게 (평균 32kg, 표준편차 7kg)를 변이계수(CV)로 비교할 때 올바른 것은?

21세 CV가 더 크므로 21세 그룹의 변동이 더 크다
9세 CV(0.219)가 21세 CV(0.153)보다 크므로 9세 그룹의 변동이 더 크다
표준편차가 11 > 7이므로 21세 그룹의 변동이 더 크다
변이계수로는 두 그룹을 비교할 수 없다

변이계수(CV) = 표준편차/평균입니다. 단위나 평균 크기가 다른 데이터를 비교할 때 사용하세요.

해설

핵심 개념: 변이계수(CV)로 상대적 비교

CV(변이계수) = 표준편차 / 평균

21세: CV = 11/72 = 0.153 (약 15.3%)
9세: CV = 7/32 = 0.219 (약 21.9%)

표준편차만 보면 11 > 7로 21세가 크지만, 평균 대비 상대적 퍼짐을 비교하면 9세 그룹이 더 큽니다.

💡 핵심: 평균이나 단위가 다른 데이터를 비교할 때는 반드시 CV(무차원)를 사용해야 합니다.

객관식

도수분포표에 대한 설명으로 옳지 않은 것은?

데이터를 일정한 구간(계급)으로 나누어 빈도를 정리한 표이다
상대도수는 각 계급의 도수를 전체 도수로 나눈 값이다
누적도수는 해당 계급까지의 도수를 모두 합한 값이다
계급의 수가 많을수록 항상 더 정확한 분포를 나타낸다

계급의 수가 너무 많거나 너무 적으면 어떤 문제가 생기는지 생각해 보세요.

해설

핵심 개념: 도수분포표와 계급 수의 선택

도수분포표의 올바른 설명:
✓ A: 데이터를 구간(계급)으로 나누어 빈도 정리
✓ B: 상대도수 = 해당 계급 도수 / 전체 도수
✓ C: 누적도수 = 해당 계급까지의 도수 합

✗ D: 계급 수가 많을수록 항상 정확하지는 않습니다. 너무 많으면 각 계급의 도수가 작아져 패턴 파악이 어렵고, 너무 적으면 정보가 손실됩니다.

💡 Tip: 적절한 계급 수를 선택하는 것이 중요합니다.

객관식

분포의 모양 4가지 중, 히스토그램이 왼쪽에 봉우리가 있고 오른쪽으로 긴 꼬리를 가지는 형태는?

오른쪽 꼬리 분포(right-skewed)
왼쪽 꼬리 분포(left-skewed)
대칭 분포(symmetric)
균등 분포(uniform)

분포의 이름은 '긴 꼬리의 방향'으로 정합니다. 왼쪽 봉우리 + 오른쪽 꼬리라면?

해설

핵심 개념: 분포 모양의 4가지 유형

① 대칭(symmetric): 좌우가 거울상
② 오른쪽 꼬리(right-skewed): 왼쪽 봉우리 + 오른쪽 긴 꼬리 (양의 왜도)
③ 왼쪽 꼬리(left-skewed): 오른쪽 봉우리 + 왼쪽 긴 꼬리 (음의 왜도)
④ 균등(uniform): 모든 구간이 비슷

💡 기억법: 분포 이름은 긴 꼬리의 방향으로 정합니다. 예: 소득 분포 = 오른쪽 꼬리.

객관식

데이터 {2, 3, 3, 5, 5, 5, 7, 8}의 최빈값(mode)은?

3
4.75
5
8

최빈값(mode)은 데이터에서 가장 많이 나타나는 값입니다.

해설

핵심 개념: 최빈값(mode)

최빈값 = 데이터에서 가장 많이 나타나는 값

데이터 {2, 3, 3, 5, 5, 5, 7, 8}에서:
- 2: 1번, 3: 2번, 5: 3번(최다), 7: 1번, 8: 1번
- 최빈값 = 5

참고: 평균 = (2+3+3+5+5+5+7+8)/8 = 38/8 = 4.75

💡 Tip: 최빈값이 여러 개일 수도 있고(다봉분포), 없을 수도 있습니다(모든 값이 1번씩).

객관식

데이터 {4, 7, 10}의 평균은 7이다. 표본표준편차(s)는?

√(6) ≈ 2.45
3
√(18) ≈ 4.24
6

표본표준편차: 편차제곱합을 (n-1)로 나눈 후 제곱근을 구합니다.

해설

핵심 개념: 표본표준편차 계산

데이터 {4, 7, 10}, 평균 = 7

단계별 풀이:
① 편차: (4−7)=−3, (7−7)=0, (10−7)=3
② 편차제곱: 9, 0, 9
③ 편차제곱합 = 9+0+9 = 18
④ 표본분산 s² = 18/(3−1) = 18/2 = 9
⑤ 표본표준편차 s = √9 = 3

💡 주의: 표본이므로 (n-1)로 나눕니다. n으로 나누면 s² = 6이 됩니다.

객관식

데이터의 편차(각 값 − 평균)를 모두 합하면 항상 0이 되는 이유는?

평균이 데이터의 무게중심이므로, 양의 편차와 음의 편차가 정확히 상쇄된다
표준편차로 나누어 정규화하기 때문이다
데이터가 대칭 분포일 때만 0이 된다
편차를 절댓값으로 변환하기 때문이다

평균의 정의를 수식으로 써보면 Σ(xᵢ − x̄) = 0이 됩니다. 분포 모양과는 관계없습니다.

해설

핵심 개념: 편차의 합 = 0인 이유

수학적 증명:
Σ(xᵢ − x̄) = Σxᵢ − nx̄ = Σxᵢ − n × (Σxᵢ/n) = Σxᵢ − Σxᵢ = 0

이는 분포의 모양과 관계없이 항상 성립합니다.
평균이 데이터의 무게중심(balancing point)이므로, 양의 편차와 음의 편차가 정확히 상쇄됩니다.

💡 Tip: 편차의 합이 항상 0이기 때문에, 산포를 측정할 때는 편차의 제곱합을 사용합니다.

객관식

어떤 히스토그램에서 오른쪽으로 긴 꼬리가 관찰되었다. 이 분포에서 평균, 중앙값, 최빈값의 대소 관계로 올바른 것은?

평균 < 중앙값 < 최빈값
평균 = 중앙값 = 최빈값
최빈값 < 중앙값 < 평균
중앙값 < 최빈값 < 평균

오른쪽 꼬리 분포에서는 큰 극단값이 평균을 오른쪽으로 끌어당깁니다.

해설

핵심 개념: 비대칭 분포에서의 평균·중앙값·최빈값 관계

오른쪽 꼬리 분포(양의 왜도)에서는:
- 극단적으로 큰 값들이 평균을 오른쪽으로 끌어당김
- 최빈값 < 중앙값 < 평균 순서가 됨

반대로 왼쪽 꼬리 분포에서는: 평균 < 중앙값 < 최빈값
대칭 분포에서는: 평균 ≈ 중앙값 ≈ 최빈값

💡 기억법: 평균은 항상 긴 꼬리 방향으로 끌려갑니다.

객관식

데이터 {2, 4, 6, 8, 10}의 모분산(σ²)은? (모집단 전체라고 가정)

모분산은 N으로 나누고, 표본분산은 (n-1)로 나눕니다.

해설

핵심 개념: 모분산 vs 표본분산

데이터 {2, 4, 6, 8, 10} (모집단 전체)
평균 = (2+4+6+8+10)/5 = 6

편차제곱: (−4)²+(−2)²+0²+2²+4² = 16+4+0+4+16 = 40

모분산 σ² = 40/5 = 8 (N으로 나눔)
참고) 표본분산이라면 s² = 40/4 = 10 (n-1로 나눔)

💡 핵심 구분: 모집단 전체 → N으로 나눔, 표본 → (n-1)로 나눔

객관식

반 A의 평균 점수는 80점, 표준편차는 5점이고, 반 B의 평균 점수는 60점, 표준편차는 6점이다. 두 반의 변이계수(CV)를 비교하면?

반 A의 CV가 더 크다 (A: 0.1, B: 0.0625)
반 B의 CV가 더 크다 (A: 0.0625, B: 0.1)
두 반의 CV가 같다
표준편차가 더 큰 반 B가 항상 CV도 크다

CV = 표준편차/평균으로 계산합니다. 두 반의 CV를 각각 구해보세요.

해설

핵심 개념: 변이계수(CV) 비교

CV = 표준편차 / 평균

반 A: CV = 5/80 = 0.0625 (6.25%)
반 B: CV = 6/60 = 0.1 (10%)

표준편차만 보면 B(6) > A(5)이지만, 평균 대비 상대적 변동을 보면 B가 더 큽니다.

💡 Tip: CV는 단위나 평균 크기가 다른 데이터의 변동을 공정하게 비교할 때 유용합니다.

객관식

데이터 {10, 20, 30, 40, 200}에서 특이점(200)을 제거하면 평균은 어떻게 변하는가?

60에서 25로 크게 감소한다
60에서 55로 약간 감소한다
변하지 않는다
60에서 75로 증가한다

특이점 제거 전후의 평균을 각각 계산해 보세요. 평균은 특이점에 매우 민감합니다.

해설

핵심 개념: 특이점이 평균에 미치는 영향

제거 전: (10+20+30+40+200)/5 = 300/5 = 60
제거 후: (10+20+30+40)/4 = 100/4 = 25

평균이 60에서 25로 크게 감소(-35)했습니다.
반면 중앙값은 제거 전 30, 제거 후 25로 변화가 작습니다(-5).

💡 핵심: 평균은 특이점에 매우 민감하고, 중앙값은 강건(robust)합니다.

객관식

다음 중 변수의 유형이 올바르게 짝지어진 것은?

ㄱ. 학점(A, B, C, D, F) → ?
ㄴ. 하루 커피 섭취량(잔) → ?
ㄷ. 몸무게(kg) → ?

ㄱ 명목형, ㄴ 연속형, ㄷ 이산형
ㄱ 이산형, ㄴ 이산형, ㄷ 연속형
ㄱ 명목형, ㄴ 이산형, ㄷ 연속형
ㄱ 순서형, ㄴ 이산형, ㄷ 연속형

순서가 있는 범주는 순서형, 셀 수 있는 숫자는 이산형, 소수점이 가능한 숫자는 연속형입니다.

해설

핵심 개념: 변수 유형의 정확한 분류

ㄱ. 학점(A, B, C, D, F): 순서가 있는 범주 → 순서형(ordinal)
ㄴ. 커피 잔 수(0, 1, 2, 3): 셀 수 있는 숫자 → 이산형(discrete)
ㄷ. 몸무게(kg): 소수점 가능 → 연속형(continuous)

💡 주의: 학점은 순서가 있으므로 명목형이 아닌 순서형입니다. 순서가 없는 범주(혈액형, 성별)만 명목형입니다.

객관식

어떤 도수분포표에서 전체 데이터 수가 200개이고, 60~80점 구간의 도수가 50개이다. 이 구간의 상대도수는?

0.50
0.20
0.25
50

상대도수 = 해당 계급의 도수 ÷ 전체 도수입니다.

해설

핵심 개념: 상대도수 계산

상대도수 = 해당 계급의 도수 / 전체 도수
= 50 / 200 = 0.25 (= 25%)

성질:
- 0과 1 사이의 값
- 모든 계급의 상대도수 합 = 1
- 백분율로 환산: 0.25 × 100 = 25%

💡 주의: D(50)는 도수(절대도수)이지 상대도수가 아닙니다.

객관식

데이터 {1, 3, 5, 7, 9}의 평균이 5일 때, 편차제곱합(SS = Σ(xᵢ − x̄)²)은?

각 값에서 평균을 빼고 제곱한 후 모두 더하면 편차제곱합(SS)이 됩니다.

해설

핵심 개념: 편차제곱합(SS) 계산

데이터 {1, 3, 5, 7, 9}, 평균 = 5

편차: (1−5)=−4, (3−5)=−2, (5−5)=0, (7−5)=2, (9−5)=4
편차제곱: 16, 4, 0, 4, 16
SS = 16+4+0+4+16 = 40

이 값을 활용하면:
- 표본분산 s² = SS/(n-1) = 40/4 = 10
- 모분산 σ² = SS/n = 40/5 = 8

객관식

히스토그램의 왼쪽에 긴 꼬리가 있는 분포를 무엇이라 하며, 이 분포의 왜도(skewness)는?

오른쪽 꼬리 분포, 왜도 > 0
왼쪽 꼬리 분포, 왜도 < 0
왼쪽 꼬리 분포, 왜도 > 0
대칭 분포, 왜도 = 0

분포의 이름과 왜도의 부호는 '긴 꼬리의 방향'과 같습니다.

해설

핵심 개념: 왜도(skewness)와 분포 이름

왜도의 부호 = 긴 꼬리의 방향

- 왼쪽 긴 꼬리 → 왼쪽 꼬리 분포(left-skewed) → 왜도 < 0 (음의 왜도)
- 오른쪽 긴 꼬리 → 오른쪽 꼬리 분포(right-skewed) → 왜도 > 0 (양의 왜도)
- 대칭 → 왜도 = 0

💡 예시: 왼쪽 꼬리 분포의 대표적 예 = 쉬운 시험의 점수 분포 (대부분 높은 점수, 일부만 낮은 점수)

객관식

표준편차가 0이 되려면 데이터가 어떤 조건을 만족해야 하는가?

데이터가 대칭 분포를 이루어야 한다
평균이 0이어야 한다
데이터의 개수가 1개여야 한다
모든 데이터 값이 동일해야 한다

표준편차 = 0이면 모든 편차가 0이어야 합니다. 이것이 의미하는 바를 생각해 보세요.

해설

핵심 개념: 표준편차가 0인 조건

표준편차 = 0이면 모든 편차(xᵢ − x̄)가 0이어야 합니다.
즉, 모든 데이터 값이 평균과 같다 = 모든 값이 동일합니다.

예: {5, 5, 5, 5}의 표준편차 = 0

각 선택지 분석:
- A: 대칭이어도 퍼짐이 있으면 표준편차 > 0 → ✗
- B: 평균이 0이어도 값이 다르면 표준편차 > 0 → ✗
- C: 1개인 경우 표본분산은 정의되지 않음(n-1=0) → ✗
- D: 정답 ✓

객관식

데이터 {3, 5, 7, 9, 11}의 각 값에 상수 10을 더하면, 평균과 표준편차는 각각 어떻게 변하는가?

평균은 10 증가하고, 표준편차는 변하지 않는다
평균과 표준편차 모두 10 증가한다
평균은 변하지 않고, 표준편차가 10 증가한다
평균과 표준편차 모두 변하지 않는다

모든 값에 상수를 더하면 위치만 이동합니다. 퍼짐 정도(표준편차)는 바뀔까요?

해설

핵심 개념: 데이터 변환과 통계량의 변화

모든 값에 상수 c를 더하면:
- 새 평균 = 원래 평균 + c (위치 이동)
- 새 표준편차 = 원래 표준편차 (변화 없음)

원래 평균 = (3+5+7+9+11)/5 = 7
새 평균 = 7 + 10 = 17 (10 증가)
표준편차: 모든 값을 같은 양만큼 이동시키면 퍼짐은 변하지 않음

💡 Tip: 상수를 곱하면(×c) 표준편차도 |c|배가 됩니다.

3강 - 데이터 수치요약

객관식 20문항

객관식

데이터 {3, 5, 7, 8, 12, 15}의 중앙값은?

7
8
7.5
8.33

짝수 개의 데이터에서 중앙값은 가운데 두 값의 평균입니다.

해설

핵심 개념: 짝수 개 데이터의 중앙값

데이터가 짝수개이면 가운데 두 값의 평균을 구합니다.

정렬: 3, 5, 7, 8, 12, 15 (6개 데이터)
중앙값 = (7 + 8) ÷ 2 = 7.5

💡 기억법: 홀수 개 → 가운데 값, 짝수 개 → 가운데 두 값의 평균

객관식

오른쪽 꼬리 분포(right-skewed)에서 평균과 중앙값의 관계는?

평균 > 중앙값
평균 < 중앙값
평균 = 중앙값
알 수 없다

평균은 항상 '긴 꼬리 쪽'으로 끌려갑니다.

해설

핵심 개념: 비대칭 분포에서 평균과 중앙값의 관계

평균은 항상 긴 꼬리 쪽으로 끌려갑니다.

- 오른쪽 꼬리(right-skewed) → 평균 > 중앙값 (예: 연봉 분포)
- 왼쪽 꼬리(left-skewed) → 평균 < 중앙값 (예: 쉬운 시험)
- 대칭 → 평균 ≈ 중앙값

💡 Tip: 극단적으로 큰 값이 있으면 평균이 오른쪽으로 끌려가 중앙값보다 커집니다.

객관식

데이터의 다섯수치요약이 다음과 같다: 최솟값=10, Q1=25, 중앙값=40, Q3=55, 최댓값=80.
IQR은?

IQR = Q3 − Q1입니다. 범위(최댓값 − 최솟값)와 혼동하지 마세요.

해설

핵심 개념: IQR(사분위수 범위)

IQR = Q3 − Q1 = 55 − 25 = 30

IQR은 데이터의 가운데 50%가 퍼진 범위입니다.

혼동하기 쉬운 것들:
- 범위(Range) = 최댓값 − 최솟값 = 80 − 10 = 70 (전체 범위)
- IQR = Q3 − Q1 = 30 (중앙 50%의 범위)

💡 Tip: IQR은 특이점에 덜 민감하여 데이터의 퍼짐을 측정하기에 더 안정적입니다.

객관식

데이터에 특이점(outlier)이 있을 때, 중심위치와 산포를 측정하기 위해 적절한 통계량 조합은?

평균 + 표준편차
중앙값 + IQR
최빈값 + 범위
평균 + IQR

특이점에 민감하지 않은(robust한) 통계량 조합을 생각해 보세요.

해설

핵심 개념: 특이점에 강건한 통계량

특이점에 민감한 통계량: 평균, 표준편차, 범위
특이점에 강건한 통계량: 중앙값, IQR

따라서 특이점이 있을 때:
- 중심위치 → 중앙값
- 산포 → IQR

대칭이고 특이점이 없으면 → 평균 + 표준편차가 더 정보를 많이 담고 있습니다.

💡 원칙: 분포 확인 → 대칭이면 평균+SD, 치우쳐 있으면 중앙값+IQR

객관식

데이터 {8, 23, 25, 28, 32, 35, 37, 41, 42, 52}의 다섯수치요약으로 올바른 것은?

8, 23, 32, 42, 52
8, 25, 32, 41, 52
8, 25, 33.5, 41, 52
8, 28, 33.5, 37, 52

다섯수치요약: 최솟값, Q1, 중앙값, Q3, 최댓값을 순서대로 구합니다.

해설

핵심 개념: 다섯수치요약 계산

데이터 10개 (이미 정렬): {8, 23, 25, 28, 32, 35, 37, 41, 42, 52}

- 최솟값 = 8
- Q1 = 하위 5개 {8,23,25,28,32}의 중앙값 = 25
- 중앙값 = (32+35)/2 = 33.5
- Q3 = 상위 5개 {35,37,41,42,52}의 중앙값 = 41
- 최댓값 = 52
- IQR = 41 − 25 = 16

객관식

범위(Range)가 산포를 측정하는 데 갖는 가장 큰 약점은?

계산이 복잡하다
최댓값과 최솟값, 두 극단값에만 의존하여 특이점에 매우 민감하다
음수가 될 수 있다
단위가 원래 데이터와 다르다

범위는 오직 최댓값과 최솟값, 두 극단값에만 의존합니다.

해설

핵심 개념: 범위(Range)의 약점

범위 = 최댓값 − 최솟값

장점: 계산이 매우 간단
약점:
- 오직 2개의 극단값만 사용
- 나머지 데이터의 분포를 전혀 반영하지 못함
- 특이점이 하나만 있어도 크게 왜곡됨

💡 Tip: 범위는 음수가 될 수 없고(최댓값 ≥ 최솟값), 단위는 원래 데이터와 같습니다.

객관식

어떤 학생의 시험 점수가 80번째 백분위수(P₈₀)에 해당한다. 이것의 의미로 올바른 것은?

100점 만점에서 80점을 받았다
상위 80%에 해당한다
전체 학생 중 80%가 이 학생보다 낮은 점수를 받았다
전체 학생 중 80%가 이 학생보다 높은 점수를 받았다

k번째 백분위수(Pₖ)는 데이터의 k%가 그 값 이하인 지점입니다.

해설

핵심 개념: 백분위수의 의미

k번째 백분위수(Pₖ) = 데이터의 k%가 그 값 이하인 지점

P₈₀이면:
- 전체의 80%가 그 값보다 같거나 낮음
- 상위 20%에 해당

💡 주의: 점수 자체(80점)와 백분위수(80번째)는 다른 개념입니다. P₈₀ = 65점일 수도 있습니다.

객관식

상자그림(box plot)에서 상자 안의 선과 상자의 양 끝이 나타내는 것으로 올바른 것은?

상자 안의 선 = 평균, 상자 양 끝 = 최솟값과 최댓값
상자 안의 선 = 최빈값, 상자 양 끝 = Q1과 Q3
상자 안의 선 = 평균, 상자 양 끝 = Q1과 Q3
상자 안의 선 = 중앙값, 상자 양 끝 = Q1과 Q3

상자그림의 구조: 상자 안의 선은 중앙값, 양 끝은 Q1과 Q3입니다.

해설

핵심 개념: 상자그림(box plot)의 구조

상자그림의 5가지 요소:
- 상자 왼쪽 끝 = Q1
- 상자 안의 선 = 중앙값(Q2)
- 상자 오른쪽 끝 = Q3
- 수염(whisker) = Q1−1.5×IQR ~ Q3+1.5×IQR 범위
- 수염 바깥의 점 = 특이점(outlier)

💡 주의: 상자 안의 선은 평균이 아닌 중앙값입니다.

객관식

중앙값이 평균보다 더 적절한 대표값이 되는 경우는?

데이터에 극단적인 특이점이 있어 분포가 심하게 치우쳐 있을 때
데이터가 완벽하게 대칭일 때
모든 데이터 값이 동일할 때
데이터의 개수가 짝수일 때

중앙값은 순서만 고려하므로 극단값의 영향을 거의 받지 않습니다.

해설

핵심 개념: 중앙값의 강건성

중앙값의 최대 장점 = 특이점에 강건(robust)

- 평균: 극단값에 의해 크게 끌려감
- 중앙값: 순서만 고려하므로 극단값의 영향을 거의 받지 않음

예: {1,2,3,4,1000}에서 평균=202, 중앙값=3

💡 활용: 연봉 분포처럼 치우친 데이터에서는 중앙값이 더 적절합니다.

객관식

다음 산포 통계량 중 단위가 원래 데이터와 같은 것은?

분산
표준편차
분산과 표준편차 모두
변이계수

분산은 편차를 제곱하므로 단위도 제곱됩니다. 표준편차는 루트를 씌우면?

해설

핵심 개념: 분산, 표준편차, 변이계수의 단위

분산: 편차를 제곱하므로 단위도 제곱 (예: cm²)
표준편차: 분산에 루트를 씌우므로 원래 데이터와 같은 단위 (예: cm)
변이계수(CV): 표준편차/평균이므로 단위 없음(무차원 수)

💡 Tip: 해석의 직관성 면에서 표준편차 > 분산입니다. "평균에서 ±3cm" 같은 해석이 가능합니다.

객관식

데이터 {2, 4, 6, 8, 10, 12, 14, 16}의 Q1과 Q3를 구하면?

Q1 = 4, Q3 = 14
Q1 = 5, Q3 = 13
Q1 = 6, Q3 = 12
Q1 = 4, Q3 = 12

데이터를 반으로 나누고, 하위 절반의 중앙값이 Q1, 상위 절반의 중앙값이 Q3입니다.

해설

핵심 개념: Q1, Q3 계산법

데이터 8개: {2, 4, 6, 8, 10, 12, 14, 16}

반으로 나누기:
하위 4개: {2, 4, 6, 8} → Q1 = (4+6)/2 = 5
상위 4개: {10, 12, 14, 16} → Q3 = (12+14)/2 = 13
IQR = 13 − 5 = 8

💡 기억법: Q1은 하위 절반의 중앙값, Q3은 상위 절반의 중앙값입니다.

객관식

다섯수치요약이 Q1=20, Q3=40일 때, 1.5×IQR 규칙으로 특이점을 판별하면 다음 중 특이점은?

1.5×IQR 규칙: 하한 = Q1 − 1.5×IQR, 상한 = Q3 + 1.5×IQR 바깥이면 특이점입니다.

해설

핵심 개념: 1.5×IQR 규칙으로 특이점 판별

IQR = Q3 − Q1 = 40 − 20 = 20
1.5 × IQR = 30

하한 울타리: Q1 − 30 = 20 − 30 = −10
상한 울타리: Q3 + 30 = 40 + 30 = 70

−10 미만이거나 70 초과인 값이 특이점:
- 15 (범위 안) ✗ | 45 (범위 안) ✗ | 60 (범위 안) ✗
- 75 > 70 → 특이점 ✓

객관식

두 데이터셋의 상자그림을 비교했을 때, A의 상자가 B보다 훨씬 넓다. 이에 대한 해석으로 가장 적절한 것은?

A의 IQR이 B보다 크므로, A의 중앙 50% 데이터가 더 넓게 퍼져 있다
A의 평균이 B보다 크다
A의 데이터 수가 B보다 많다
A에 특이점이 더 많다

상자그림에서 상자의 너비는 IQR(중앙 50%의 퍼짐)을 나타냅니다.

해설

핵심 개념: 상자그림의 너비 해석

상자그림에서 상자의 너비 = IQR(Q3 − Q1)

상자가 넓다 = 중앙 50%의 데이터가 더 넓은 범위에 퍼져 있다

💡 주의: 상자의 너비는 다음과 직접적 관련이 없습니다:
- 평균의 크기
- 데이터의 수
- 특이점의 수

객관식

100명의 시험 점수에서 어떤 학생이 72번째 백분위수(P₇₂)에 해당한다. 이 학생보다 높은 점수를 받은 학생은 약 몇 명인가?

72명
38명
28명
82명

k번째 백분위수면 k%가 그 값 이하이므로, 상위는 (100-k)%입니다.

해설

핵심 개념: 백분위수에서 순위 계산

72번째 백분위수(P₇₂)의 의미:
- 전체의 72%가 이 학생 이하
- 이 학생보다 높은 점수 = 상위 28%

100명 기준: 약 100 − 72 = 28명이 이 학생보다 높은 점수를 받았습니다.

💡 Tip: Pₖ에 해당하면 상위 (100-k)%에 위치합니다.

객관식

데이터의 다섯수치요약이 최솟값=30, Q1=45, 중앙값=50, Q3=55, 최댓값=70일 때, 이 분포의 모양은?

왼쪽 꼬리 분포(left-skewed)
대략 대칭에 가까운 분포
오른쪽 꼬리 분포(right-skewed)
균등 분포(uniform)

중앙값을 기준으로 Q1까지의 거리와 Q3까지의 거리를 비교해 보세요.

해설

핵심 개념: 다섯수치요약으로 분포 모양 판단

대칭 여부: 중앙값을 기준으로 양쪽을 비교합니다.

중앙값 − Q1 = 50 − 45 = 5
Q3 − 중앙값 = 55 − 50 = 5 (같음)
중앙값 − 최솟값 = 50 − 30 = 20
최댓값 − 중앙값 = 70 − 50 = 20 (같음)

양쪽이 대칭적이므로 대략 대칭에 가까운 분포입니다.

💡 판단법: 간격이 비슷하면 대칭, 한쪽이 크면 그 쪽으로 꼬리가 길다.

객관식

데이터 {5, 5, 5, 5, 5, 5, 5, 5, 5, 100}의 중앙값과 평균을 구하면?

중앙값 = 14.5, 평균 = 14.5
중앙값 = 52.5, 평균 = 14.5
중앙값 = 5, 평균 = 14.5
중앙값 = 5, 평균 = 5

특이점이 있을 때 평균과 중앙값 중 어느 것이 더 영향을 받는지 비교해 보세요.

해설

핵심 개념: 특이점이 평균과 중앙값에 미치는 영향 비교

데이터: {5, 5, 5, 5, 5, 5, 5, 5, 5, 100}

중앙값 = (5번째+6번째)/2 = (5+5)/2 = 5
평균 = (5×9 + 100)/10 = 145/10 = 14.5

특이점 100이 평균을 14.5로 끌어올렸지만, 중앙값은 5로 거의 영향을 받지 않았습니다.

💡 핵심: 이것이 중앙값이 특이점에 강건(robust)한 이유입니다.

객관식

데이터 {10, 20, 30, 40, 50}에서 범위(Range)와 IQR을 구하면?

범위 = 40, IQR = 20
범위 = 40, IQR = 30
범위 = 50, IQR = 20
범위 = 30, IQR = 40

범위 = 최댓값 − 최솟값, IQR = Q3 − Q1입니다.

해설

핵심 개념: 범위(Range)와 IQR 비교

데이터: {10, 20, 30, 40, 50}

범위 = 최댓값 − 최솟값 = 50 − 10 = 40
Q1 = 20 (2번째), Q3 = 40 (4번째)
IQR = Q3 − Q1 = 40 − 20 = 20

💡 차이: 범위는 극단값 2개만 사용(특이점에 민감), IQR은 중앙 50%의 퍼짐(더 안정적)

객관식

다섯수치요약이 최솟값=10, Q1=30, 중앙값=35, Q3=60, 최댓값=90일 때, 이 분포의 왜도(치우침) 방향은?

왼쪽 꼬리 분포(음의 왜도)
대칭 분포
판단할 수 없다
오른쪽 꼬리 분포(양의 왜도)

중앙값에서 Q1까지의 거리와 Q3까지의 거리를 비교하여 치우침 방향을 판단합니다.

해설

핵심 개념: 다섯수치요약으로 왜도 판단

중앙값 기준 양쪽 간격 비교:
중앙값 − Q1 = 35 − 30 = 5 (왼쪽 간격)
Q3 − 중앙값 = 60 − 35 = 25 (오른쪽 간격)

오른쪽 간격이 왼쪽보다 훨씬 크므로 → 오른쪽 꼬리 분포(양의 왜도)

💡 시각화: 상자그림에서 중앙값 선이 상자의 왼쪽에 치우쳐 있는 모양이 됩니다.

객관식

두 데이터셋 X와 Y의 상자그림에서, X는 상자가 좁고 수염이 짧으며, Y는 상자가 넓고 수염이 길며 특이점이 여러 개 있다. 가장 적절한 해석은?

X의 평균이 Y보다 크다
Y가 X보다 데이터의 변동성(산포)이 훨씬 크다
X의 데이터 수가 Y보다 적다
두 데이터셋의 분포는 동일하다

상자그림에서 상자가 넓고 수염이 길면 데이터의 변동성(산포)이 크다는 의미입니다.

해설

핵심 개념: 상자그림으로 변동성 비교

상자그림에서:
- 상자의 너비 = IQR (중앙 50%의 퍼짐)
- 수염의 길이 = 데이터의 범위 반영
- 특이점 = 극단적 값

Y의 상자가 넓고 수염이 길며 특이점까지 있다면 → 데이터가 훨씬 넓게 퍼져 있음(변동성이 크다)

💡 주의: 평균의 크기나 데이터 수와는 직접적 관련이 없습니다.

객관식

데이터의 중앙값이 평균보다 크다면, 이 분포의 모양은 어떤 형태일 가능성이 높은가?

오른쪽 꼬리 분포(right-skewed)
대칭 분포
왼쪽 꼬리 분포(left-skewed)
균등 분포

평균이 긴 꼬리 쪽으로 끌려간다면, 중앙값 > 평균일 때 꼬리는 어느 쪽에 있을까요?

해설

핵심 개념: 평균·중앙값 관계로 분포 모양 추정

평균은 항상 긴 꼬리 쪽으로 끌려갑니다.

- 중앙값 > 평균 → 평균이 왼쪽으로 끌림 → 왼쪽 꼬리 분포(left-skewed)
- 중앙값 < 평균 → 평균이 오른쪽으로 끌림 → 오른쪽 꼬리 분포(right-skewed)
- 중앙값 ≈ 평균 → 대칭 분포

💡 기억법: 평균이 끌려간 방향 = 긴 꼬리의 방향

4강 - 확률

객관식 20문항

객관식

₇C₃의 값은?

₇C₃ = 7! / (3! × 4!)로 계산합니다. 분자를 (7×6×5), 분모를 (3×2×1)로 간단히 할 수 있습니다.

해설

핵심 개념: 조합(Combination) 계산

₇C₃ = 7! / (3! × 4!) = (7×6×5) / (3×2×1) = 210 / 6 = 35

💡 빠른 방법: 분자는 위에서 3개(7,6,5)만 곱하고, 분모는 3!로 나누기

객관식

P(A) = 0.4, P(B) = 0.5, P(A∩B) = 0.2일 때, P(A∪B)는?

이 문제는 덧셈법칙 P(A∪B) = P(A) + P(B) − P(A∩B)를 활용합니다.

해설

핵심 개념: 덧셈법칙(Addition Rule)

P(A∪B) = P(A) + P(B) − P(A∩B)
= 0.4 + 0.5 − 0.2 = 0.7

💡 주의: P(A∩B)를 빼지 않으면(=0.9) 교집합 부분을 이중으로 세게 됩니다. 배반(P(A∩B)=0)일 때만 단순 합산이 됩니다.

객관식

제품 6개 중 불량 2개가 있다. 3개를 뽑을 때 적어도 1개 불량이 나올 확률은?

'적어도 1개'는 여사건을 이용하면 쉽습니다: 1 − P(0개).

해설

핵심 개념: 여사건을 이용한 확률 계산

"적어도 1개" = 1 − P(0개)

P(불량 0개) = ₄C₃ / ₆C₃ = 4/20 = 1/5
P(적어도 1개 불량) = 1 − 1/5 = 4/5

💡 Tip: "적어도 하나"가 나오면 여사건(전혀 없는 경우)을 빼는 것이 훨씬 쉽습니다.

객관식

P(A) = 0.3, P(B|A) = 0.5일 때, P(A∩B)는?

0.80
0.15
0.50
0.30

곱셈법칙: P(A∩B) = P(A) × P(B|A)를 적용하세요.

해설

핵심 개념: 곱셈법칙(Multiplication Rule)

P(A∩B) = P(A) × P(B|A) = 0.3 × 0.5 = 0.15

이는 조건부 확률의 정의를 변형한 것입니다:
P(B|A) = P(A∩B)/P(A) → P(A∩B) = P(A) × P(B|A)

💡 Tip: 독립이면 P(B|A) = P(B)이므로 P(A∩B) = P(A)×P(B)로 단순화됩니다.

객관식

두 사건 A, B가 독립일 때 성립하는 식은?

P(A∩B) = P(A) × P(B)
P(A∩B) = P(A) + P(B)
P(A|B) = P(B)
P(A∪B) = P(A) × P(B)

독립이면 한 사건의 발생이 다른 사건의 확률에 영향을 주지 않습니다.

해설

핵심 개념: 사건의 독립

두 사건이 독립이면 한 사건의 발생이 다른 사건의 확률에 영향을 주지 않습니다.

독립의 조건: P(A∩B) = P(A) × P(B)
동치 조건: P(A|B) = P(A), P(B|A) = P(B)

💡 주의: 독립 ≠ 배반. 배반(P(A∩B)=0)인 두 사건이 확률>0이면 절대 독립이 아닙니다.

객관식

5명 중 3명을 뽑아 일렬로 세우는 경우의 수(순열, ₅P₃)는?

순열은 순서가 중요하므로 ₅P₃ = 5!/(5-3)!로 계산합니다.

해설

핵심 개념: 순열(Permutation) 계산

₅P₃ = 5!/(5−3)! = 5!/2! = (5×4×3×2×1)/(2×1) = 60

빠른 방법: 위에서 3개만 곱하기 = 5×4×3 = 60

💡 순열 vs 조합: 순열은 순서 중요(₅P₃=60), 조합은 순서 무관(₅C₃=10). 순열 = 조합 × r!

객관식

P(A) = 0.7일 때, 사건 A가 일어나지 않을 확률 P(Aᶜ)는?

0.3
0.7
1.0
−0.3

여사건의 확률: P(Aᶜ) = 1 − P(A)입니다.

해설

핵심 개념: 여사건의 확률

여사건 공식: P(Aᶜ) = 1 − P(A) = 1 − 0.7 = 0.3

핵심 성질: P(A) + P(Aᶜ) = 1 (항상)

💡 주의: 확률은 항상 0과 1 사이이므로 음수(-0.3)는 불가능합니다.

객관식

주사위 1개를 던지는 실험의 표본공간(S)으로 올바른 것은?

S = {짝수, 홀수}
S = {1, 2, 3, 4, 5}
S = {1, 2, 3, 4, 5, 6}
S = {0, 1, 2, 3, 4, 5, 6}

표본공간(S)은 실험에서 나올 수 있는 모든 가능한 결과의 집합입니다.

해설

핵심 개념: 표본공간(Sample Space)

표본공간(S) = 실험에서 나올 수 있는 모든 가능한 결과의 집합

주사위 1개: S = {1, 2, 3, 4, 5, 6}
- 0은 나올 수 없으므로 포함 안 됨
- {짝수, 홀수}는 사건(event)이지 표본공간이 아님

💡 Tip: 표본공간은 가장 세밀한 수준에서 모든 결과를 나열한 것입니다.

객관식

확률의 공리(axiom)로 올바르지 않은 것은?

모든 사건 A에 대해 0 ≤ P(A) ≤ 1
표본공간 전체의 확률 P(S) = 1
서로 배반인 사건들의 합사건 확률은 각 확률의 합과 같다
임의의 두 사건 A, B에 대해 P(A∪B) = P(A) + P(B)

P(A∪B) = P(A) + P(B)는 서로 배반일 때만 성립합니다.

해설

핵심 개념: 확률의 공리와 덧셈법칙

확률의 3대 공리:
① 0 ≤ P(A) ≤ 1
② P(S) = 1
③ 서로 배반인 사건들: P(A∪B) = P(A) + P(B)

D가 틀린 이유: P(A∪B) = P(A) + P(B)는 서로 배반일 때만 성립합니다.
일반적으로: P(A∪B) = P(A) + P(B) − P(A∩B)

💡 핵심: 중복(교집합)을 빼는 것을 잊지 마세요!

객관식

P(A) = 0.6, P(B|A) = 0.4일 때, 곱셈법칙을 사용하여 구한 P(A∩B)는?

1.0
0.24
0.20
0.60

곱셈법칙: P(A∩B) = P(A) × P(B|A)를 사용하세요.

해설

핵심 개념: 곱셈법칙 적용

곱셈법칙: P(A∩B) = P(A) × P(B|A)
= 0.6 × 0.4 = 0.24

이는 조건부 확률의 정의를 변형한 것:
P(B|A) = P(A∩B)/P(A) → P(A∩B) = P(A) × P(B|A)

💡 Tip: A가 독립이면 P(B|A) = P(B)이므로 P(A∩B) = 0.6 × P(B)가 됩니다.

객관식

빨간 공 4개, 파란 공 6개가 들어 있는 주머니에서 공을 2개 동시에 뽑을 때, 2개 모두 빨간 공일 확률은?

4/25
2/15
6/45
1/5

비복원추출에서는 조합을 사용합니다. 빨간 공에서 2개, 전체에서 2개를 뽑는 조합을 구하세요.

해설

핵심 개념: 비복원추출의 확률 계산

빨간 공 4개, 파란 공 6개 (총 10개)에서 2개 동시 추출:

빨간 공 2개 선택: ₄C₂ = 6
전체에서 2개 선택: ₁₀C₂ = 45
P = 6/45 = 2/15 ≈ 0.133

💡 주의: 4/25 = 0.16은 복원추출(독립)일 때의 값 (4/10)² 입니다. 비복원에서는 조합을 사용하세요.

객관식

어떤 질병의 유병률이 1%이다. 검사의 민감도(양성일 때 양성 판정)는 99%, 특이도(음성일 때 음성 판정)는 95%일 때, 양성 판정을 받은 사람이 실제로 질병이 있을 확률(양성예측도)은 약?

약 99%
약 50%
약 17%
약 1%

베이즈 정리를 사용합니다. 먼저 P(양성) = P(양성|질병)P(질병) + P(양성|정상)P(정상)을 구하세요.

해설

핵심 개념: 베이즈 정리와 양성예측도

베이즈 정리: P(질병|양성) = P(양성|질병)×P(질병) / P(양성)

P(양성) = P(양성|질병)×P(질병) + P(양성|정상)×P(정상)
= 0.99×0.01 + 0.05×0.99 = 0.0099 + 0.0495 = 0.0594

P(질병|양성) = 0.0099/0.0594 ≈ 0.167 (약 17%)

💡 핵심 교훈: 유병률이 낮으면 양성 판정을 받아도 실제 질병일 확률이 생각보다 낮습니다.

객관식

P(A) = 0.5, P(B) = 0.4, P(A∩B) = 0.2일 때, P(B|A)는?

조건부 확률: P(B|A) = P(A∩B) / P(A)를 적용하세요.

해설

핵심 개념: 조건부 확률

P(B|A) = P(A∩B)/P(A) = 0.2/0.5 = 0.4

이 경우 P(B|A) = 0.4 = P(B)이므로 A와 B는 독립입니다.
즉, A의 발생이 B의 확률에 영향을 주지 않습니다.

💡 확인법: P(B|A) = P(B)이면 독립, 아니면 종속입니다.

객관식

P(A) = 0.3, P(B) = 0.4, P(A∩B) = 0인 경우, 사건 A와 B의 관계는?

독립이면서 배반이다
독립이지만 배반은 아니다
독립도 아니고 배반도 아니다
배반이지만 독립은 아니다

배반: P(A∩B)=0, 독립: P(A∩B)=P(A)×P(B). 두 조건이 동시에 성립하는지 확인해 보세요.

해설

핵심 개념: 배반과 독립의 관계

P(A∩B) = 0 → 배반(mutually exclusive) ✓
독립 검증: P(A)×P(B) = 0.3×0.4 = 0.12 ≠ 0 → 독립 아님 ✗

💡 핵심 원칙: 확률이 0이 아닌 두 배반 사건은 절대 독립이 될 수 없습니다.
이유: 하나가 일어나면 다른 하나는 절대 일어나지 않으므로 서로 영향을 줍니다.

객관식

공장 A에서 전체 제품의 60%를, 공장 B에서 40%를 생산한다. 불량률은 A가 2%, B가 5%일 때, 임의의 제품이 불량일 확률은?

0.035
0.032
0.07
0.02

전확률법칙: P(불량) = P(불량|A)×P(A) + P(불량|B)×P(B)를 적용하세요.

해설

핵심 개념: 전확률법칙(Law of Total Probability)

P(불량) = P(불량|A)×P(A) + P(불량|B)×P(B)
= 0.02×0.6 + 0.05×0.4
= 0.012 + 0.020 = 0.032

전체 불량률은 각 공장의 불량률을 생산 비율로 가중평균한 것입니다.

💡 Tip: 전확률법칙은 베이즈 정리의 분모를 구하는 데도 사용됩니다.

객관식

₈P₃ + ₈C₃의 값은?

₈P₃ = 8×7×6, ₈C₃ = 8!/(3!×5!)을 각각 계산해서 더하세요.

해설

핵심 개념: 순열과 조합 합산

₈P₃ = 8×7×6 = 336 (순서 O)
₈C₃ = 8!/(3!×5!) = 336/6 = 56 (순서 X)
합: 336 + 56 = 392

💡 관계: ₙPᵣ = ₙCᵣ × r! 이므로, 336 = 56 × 6 이 성립합니다.

객관식

다음 확률표에서 P(A∩B)와 P(A∪B)를 구하면?

	B	Bᶜ
A	0.15	0.25
Aᶜ	0.35	0.25

P(A∩B) = 0.35, P(A∪B) = 0.75
P(A∩B) = 0.15, P(A∪B) = 0.40
P(A∩B) = 0.25, P(A∪B) = 0.60
P(A∩B) = 0.15, P(A∪B) = 0.75

확률표에서 P(A∩B)는 A행 B열의 값을 직접 읽으면 됩니다.

해설

핵심 개념: 확률표(결합확률표) 읽기

확률표에서 직접 읽기:
P(A∩B) = 0.15 (A행, B열의 값)

주변확률 계산:
P(A) = 0.15 + 0.25 = 0.40
P(B) = 0.15 + 0.35 = 0.50

덧셈법칙: P(A∪B) = 0.40 + 0.50 − 0.15 = 0.75
또는: P(A∪B) = 1 − P(Aᶜ∩Bᶜ) = 1 − 0.25 = 0.75

객관식

주사위 2개를 동시에 던질 때, 적어도 1개가 6이 나올 확률은?

1/6
1/3
11/36
1/36

'적어도 하나'는 여사건을 이용합니다: 1 − P(둘 다 6이 아님).

해설

핵심 개념: 여사건을 이용한 "적어도 하나" 계산

P(적어도 1개가 6) = 1 − P(둘 다 6이 아님)

P(6이 아님) = 5/6
P(둘 다 6 아님) = (5/6)² = 25/36
P(적어도 1개가 6) = 1 − 25/36 = 11/36 ≈ 0.306

💡 전략: "적어도 하나"는 항상 여사건(=하나도 아닌 경우)을 빼는 것이 쉽습니다.

객관식

P(A) = 0.3, P(B) = 0.5, P(C) = 0.2이고, A, B, C가 서로 배반일 때, P(A∪B∪C)는?

1.0
0.8
0.3
계산할 수 없다

서로 배반인 사건들의 합집합 확률은 각 확률의 단순 합입니다.

해설

핵심 개념: 배반 사건의 합사건 확률

서로 배반(mutually exclusive)인 사건들:
P(A∪B∪C) = P(A) + P(B) + P(C) = 0.3 + 0.5 + 0.2 = 1.0

합이 1이라는 것은 A, B, C가 표본공간을 완전히 분할(partition)한다는 의미입니다.
반드시 셋 중 하나는 일어납니다.

💡 Tip: 배반이면 교집합이 없으므로 단순 합산이 가능합니다.

객관식

52장의 카드에서 2장을 연속으로 뽑을 때(비복원), 2장 모두 하트일 확률은?

1/16
1/17
13/52
12/51

비복원추출에서는 첫 번째 뽑기가 두 번째 확률에 영향을 줍니다.

해설

핵심 개념: 비복원추출의 곱셈법칙

비복원추출이므로 조건부 확률을 곱합니다:
P(1번째 하트) = 13/52
P(2번째 하트 | 1번째 하트) = 12/51
P(둘 다 하트) = (13/52) × (12/51) = 156/2652 = 1/17 ≈ 0.059

💡 주의: 복원추출이면 (13/52)² = 1/16이 됩니다. 비복원에서는 두 번째 뽑기의 확률이 달라집니다.

5강 - 확률변수

객관식 20문항

객관식

확률변수 X의 확률분포가 다음과 같을 때, E(X)는?

X	0	1	2
P(X)	0.3	0.5	0.2

기댓값 E(X) = Σ x × P(X=x)로 각 값에 확률을 곱해서 더합니다.

해설

핵심 개념: 기댓값(Expected Value) 계산

E(X) = Σ x × P(X=x)
= 0×0.3 + 1×0.5 + 2×0.2
= 0 + 0.5 + 0.4 = 0.9

💡 의미: 기댓값은 확률변수의 "장기 평균"으로, 이 실험을 무한히 반복하면 평균이 0.9에 수렴합니다.

객관식

E(X) = 5, Var(X) = 4일 때, Y = 3X + 2의 분산 Var(Y)는?

Var(aX+b) = a²Var(X)입니다. 상수 b는 분산에 영향을 주지 않습니다.

해설

핵심 개념: 선형변환의 분산

공식: Var(aX+b) = a²Var(X)

Var(3X+2) = 3² × 4 = 9 × 4 = 36

💡 핵심: 상수 b(=2)를 더하는 것은 위치만 이동시키므로 분산에 영향 없음! 상수 a(=3)를 곱하면 분산은 a²배가 됩니다.

객관식

시험 점수 X의 평균이 70, 표준편차가 10일 때, 85점의 Z값(표준화 점수)은?

1.5
0.85
15
-1.5

Z = (X − μ) / σ 공식에 값을 대입하세요.

해설

핵심 개념: Z-점수(표준화)

공식: Z = (X − μ) / σ = (85 − 70) / 10 = 15/10 = 1.5

해석: 85점은 평균(70)에서 표준편차(10) 1.5개만큼 위에 있다는 의미입니다.

💡 Tip: Z > 0이면 평균 위, Z < 0이면 평균 아래, Z = 0이면 평균과 같습니다.

객관식

E(X) = 3일 때, E(2X+5)의 값은?

기댓값의 선형성: E(aX+b) = aE(X) + b를 이용하세요.

해설

핵심 개념: 기댓값의 선형성

공식: E(aX+b) = aE(X) + b

E(2X+5) = 2×3 + 5 = 6 + 5 = 11

💡 Tip: 기댓값에서는 상수를 그대로 꺼낼 수 있습니다. 분산과 달리 상수 b도 그대로 더해집니다.

객관식

위 Q1의 확률분포(E(X)=0.9)에서 Var(X) = E(X²) − [E(X)]²를 이용하여 구한 Var(X)는?

0.81
0.49
1.30
0.90

분산의 간편식: Var(X) = E(X²) − [E(X)]²을 사용하세요. 먼저 E(X²)을 구합니다.

해설

핵심 개념: 분산의 간편식

Var(X) = E(X²) − [E(X)]²

E(X²) = 0²×0.3 + 1²×0.5 + 2²×0.2 = 0 + 0.5 + 0.8 = 1.3
[E(X)]² = 0.9² = 0.81
Var(X) = 1.3 − 0.81 = 0.49

💡 주의: E(X²) ≠ [E(X)]²입니다. 이 차이가 바로 분산입니다.

객관식

다음 중 연속 확률변수에 해당하는 것은?

동전 3번 던져서 나온 앞면의 수
한 학급의 학생 수
어떤 전구의 수명(시간)
주사위를 던져서 나온 눈의 수

이산형은 셀 수 있는 값, 연속형은 구간 내 어떤 실수값이든 가능합니다.

해설

핵심 개념: 이산 vs 연속 확률변수

이산 확률변수: 셀 수 있는 값 (0, 1, 2, 3...)
→ 앞면 수, 학생 수, 주사위 눈

연속 확률변수: 구간 내 어떤 실수값이든 가능
→ 전구 수명, 키, 몸무게

전구 수명은 1000.5시간처럼 소수점 값이 가능하므로 연속형입니다.

💡 구분법: "~의 수"는 이산형, "~의 양/길이/시간"은 연속형인 경우가 많습니다.

객관식

이산 확률변수 X의 확률분포가 유효하려면 반드시 만족해야 하는 조건은?

모든 확률이 0보다 크다
확률의 합이 0이다
E(X) = 0이다
각 P(X=x) ≥ 0이고, 모든 확률의 합 ΣP(X=x) = 1이다

확률분포의 두 가지 필수 조건: (1) 각 확률 ≥ 0, (2) 모든 확률의 합 = 1.

해설

핵심 개념: 확률분포의 유효 조건

이산 확률변수의 확률분포가 유효하려면:
① 각 P(X=x) ≥ 0 (음수 불가, 0은 가능)
② 모든 확률의 합 ΣP(X=x) = 1

💡 주의: A(모든 확률이 0보다 크다)는 틀립니다. 확률이 0인 값이 있을 수 있습니다(0 이상이면 됨).

객관식

확률변수 X의 누적분포함수(CDF) F(3) = 0.75의 의미는?

P(X ≤ 3) = 0.75
P(X = 3) = 0.75
P(X ≥ 3) = 0.75
P(X > 3) = 0.75

누적분포함수(CDF)의 정의: F(x) = P(X ≤ x)입니다.

해설

핵심 개념: 누적분포함수(CDF)

정의: F(x) = P(X ≤ x)

F(3) = 0.75의 의미: P(X ≤ 3) = 0.75
→ X가 3 이하일 확률이 75%

💡 주의: CDF는 "이하(≤)" 확률입니다. "이상(≥)"은 1 − F(x)로 구합니다.

객관식

확률변수 X의 Var(X)에 대한 설명으로 옳은 것은?

Var(X)는 음수가 될 수 있다
Var(X)가 클수록 확률변수의 값이 평균에서 더 멀리 흩어져 있다
Var(X) = E(X) − [E(X)]² 로 계산한다
Var(X)의 단위는 원래 확률변수와 같다

Var(X)는 편차의 제곱의 기댓값이므로 항상 0 이상입니다.

해설

핵심 개념: 분산의 성질

Var(X)의 성질:
✓ 항상 0 이상 (편차의 제곱이므로) → A 오류
✓ Var(X)가 클수록 값이 평균에서 더 멀리 흩어짐 → B 정답
✗ 공식: Var(X) = E(X²) − [E(X)]² → C 오류(E(X)가 아닌 E(X²))
✗ 단위: 원래의 제곱 (cm → cm²) → D 오류

객관식

SD(X) = 4일 때, Y = 3X + 7의 표준편차 SD(Y)는?

SD(aX+b) = |a| × SD(X)입니다. 절댓값에 주의하세요.

해설

핵심 개념: 선형변환의 표준편차

공식: SD(aX+b) = |a| × SD(X)

SD(3X+7) = 3 × 4 = 12

상수 b(=7)를 더하는 것은 위치만 이동시키므로 표준편차에 영향 없습니다.
참고: Var(3X+7) = 9 × 16 = 144, SD = √144 = 12

💡 주의: 표준편차에는 절댓값(|a|)을 사용합니다. 음수가 될 수 없습니다.

객관식

확률변수 X의 확률분포가 다음과 같을 때, E(X²)는?

X	1	2	3
P(X)	0.2	0.5	0.3

2.1
4.41
3.5
4.9

E(X²) = Σ x² × P(X=x)로 각 값의 제곱에 확률을 곱해서 더합니다.

해설

핵심 개념: E(X²) 계산

E(X²) = Σ x² × P(X=x)
= 1²×0.2 + 2²×0.5 + 3²×0.3
= 0.2 + 2.0 + 2.7 = 4.9

참고: E(X) = 2.1이므로 [E(X)]² = 4.41
E(X²) ≠ [E(X)]² (4.9 ≠ 4.41)
이 차이가 Var(X) = 4.9 − 4.41 = 0.49

💡 핵심: "제곱의 기댓값 ≠ 기댓값의 제곱" — 항상 E(X²) ≥ [E(X)]²입니다.

객관식

Var(X)를 구하는 두 가지 공식 중, 간편식은?

Var(X) = E[(X − μ)²]
Var(X) = Σ(xᵢ − x̄)² / (n−1)
Var(X) = E(X²) − [E(X)]²
Var(X) = E(X) − E(X²)

정의식: E[(X-μ)²], 간편식: E(X²) − [E(X)]². 어느 것이 계산하기 쉬운지 비교해 보세요.

해설

핵심 개념: 분산의 두 가지 공식

정의식: Var(X) = E[(X − μ)²] — 편차의 제곱의 기댓값
간편식: Var(X) = E(X²) − [E(X)]² — 계산이 더 간편

두 공식은 수학적으로 동일한 결과를 줍니다.

💡 주의: B는 표본분산(Σ(xᵢ−x̄)²/(n−1))이고, D는 부호가 틀렸습니다(E(X²)−[E(X)]²이 맞음).

객관식

확률변수 X의 확률분포가 다음과 같을 때, k의 값은?

X	0	1	2	3
P(X)	0.1	0.3	k	0.2

확률분포의 필수 조건: 모든 확률의 합 = 1을 이용하여 k를 구하세요.

해설

핵심 개념: 확률분포의 합 = 1 조건

모든 확률의 합 = 1이므로:
0.1 + 0.3 + k + 0.2 = 1
0.6 + k = 1
k = 0.4

검증: k = 0.4 ≥ 0 ✓, 합계 = 0.1+0.3+0.4+0.2 = 1 ✓

💡 Tip: 미지수가 있으면 "합 = 1"을 이용하여 구합니다.

객관식

X ~ N(60, 100)이고 Z = 1.5일 때, 원래 X값은? (σ² = 100이므로 σ = 10)

Z = (X − μ)/σ를 X에 대해 풀면 X = μ + Z × σ가 됩니다.

해설

핵심 개념: 표준화의 역변환

Z = (X − μ)/σ를 X에 대해 풀면:
X = μ + Z × σ = 60 + 1.5 × 10 = 60 + 15 = 75

💡 해석: Z = 1.5이므로 평균(60)에서 표준편차(10) 1.5개만큼 위에 있는 값입니다.

객관식

E(X) = 10, SD(X) = 3일 때, Y = −2X + 5의 E(Y)와 SD(Y)는?

E(Y) = −15, SD(Y) = −6
E(Y) = −15, SD(Y) = −1
E(Y) = −15, SD(Y) = 6
E(Y) = 25, SD(Y) = 6

E(aX+b) = aE(X)+b, SD(aX+b) = |a|×SD(X)를 적용하세요. 표준편차는 항상 0 이상입니다.

해설

핵심 개념: 선형변환의 기댓값과 표준편차

Y = −2X + 5

E(Y) = aE(X) + b = (−2)(10) + 5 = −15
SD(Y) = |a| × SD(X) = |−2| × 3 = 6

💡 핵심: 표준편차에는 절댓값을 사용합니다. SD는 항상 0 이상이므로 음수가 될 수 없습니다. 상수 b는 분산과 표준편차에 영향을 주지 않습니다.

객관식

두 확률변수 X, Y가 독립일 때, Cov(X, Y)의 값은?

0
1
−1
알 수 없다

독립인 두 확률변수의 공분산은 항상 0입니다. 하지만 역은 성립하지 않습니다.

해설

핵심 개념: 독립과 공분산의 관계

Cov(X,Y) = E(XY) − E(X)E(Y)

X, Y가 독립이면 E(XY) = E(X)E(Y)이므로:
Cov(X,Y) = 0

💡 중요한 주의점: "독립 → Cov=0"은 성립하지만, "Cov=0 → 독립"은 성립하지 않습니다(역이 안 됨). 비선형 관계가 있을 수 있습니다.

객관식

확률변수 X의 확률분포가 P(X=1) = 0.5, P(X=3) = 0.5일 때, E(X²)는?

E(X²) = Σ x² × P(X=x)를 계산하세요. E(X²) ≠ [E(X)]²에 주의하세요.

해설

핵심 개념: E(X²) 계산과 의미

E(X²) = 1²×0.5 + 3²×0.5 = 0.5 + 4.5 = 5

참고: E(X) = 1×0.5 + 3×0.5 = 2
[E(X)]² = 4
Var(X) = E(X²) − [E(X)]² = 5 − 4 = 1

💡 핵심: E(X²) ≠ [E(X)]² — 이 차이가 분산입니다.

객관식

Var(X) = 16일 때, Var(X + 5)와 Var(3X)는 각각?

Var(X+5) = 21, Var(3X) = 48
Var(X+5) = 16, Var(3X) = 144
Var(X+5) = 16, Var(3X) = 48
Var(X+5) = 21, Var(3X) = 144

Var(aX+b) = a²Var(X)입니다. 상수 더하기는 분산에 영향 없고, 곱하기는 제곱으로 영향합니다.

해설

핵심 개념: 분산에 대한 상수의 영향

공식: Var(aX+b) = a²Var(X)

Var(X+5): a=1, b=5 → 1²×16 = 16 (상수 더하기 = 분산 불변)
Var(3X): a=3, b=0 → 3²×16 = 9×16 = 144 (상수 곱하기 = 제곱으로 영향)

💡 기억법: 분산에서 상수 더하기는 무시, 상수 곱하기는 제곱으로 반영됩니다.

객관식

확률변수 X의 확률분포가 P(X=0)=0.4, P(X=1)=0.4, P(X=4)=0.2일 때, E(2X+1)은?

먼저 E(X)를 구하고, E(2X+1) = 2E(X) + 1을 적용하세요.

해설

핵심 개념: 기댓값의 선형성 활용

① E(X) = 0×0.4 + 1×0.4 + 4×0.2 = 0 + 0.4 + 0.8 = 1.2
② E(2X+1) = 2×E(X) + 1 = 2×1.2 + 1 = 3.4

💡 Tip: E(aX+b) = aE(X) + b — 기댓값 연산에서는 상수를 그대로 꺼낼 수 있습니다.

객관식

Var(X)에 대한 성질로 틀린 것은?

Var(X) ≥ 0 (항상 0 이상)
Var(c) = 0 (c는 상수)
Var(X) = E(X²) − [E(X)]²
Var(X+Y) = Var(X) + Var(Y) (항상 성립)

Var(X+Y) = Var(X) + Var(Y)는 X와 Y가 독립일 때만 성립합니다.

해설

핵심 개념: Var(X+Y)의 조건

Var(X+Y) = Var(X) + Var(Y)는 X와 Y가 독립일 때만 성립합니다.

일반 공식: Var(X+Y) = Var(X) + Var(Y) + 2Cov(X,Y)

올바른 성질들:
✓ Var(X) ≥ 0 (항상 0 이상)
✓ Var(c) = 0 (상수의 분산)
✓ Var(X) = E(X²) − [E(X)]² (간편식)

6강 - 확률분포 1

객관식 20문항

객관식

X ~ B(10, 0.3)일 때, E(X)와 Var(X)는?

E(X)=3, Var(X)=3
E(X)=3, Var(X)=2.1
E(X)=7, Var(X)=2.1
E(X)=0.3, Var(X)=0.21

이항분포 B(n,p): E(X) = np, Var(X) = np(1-p)를 적용하세요.

해설

핵심 개념: 이항분포의 기댓값과 분산

X ~ B(n, p)일 때:
E(X) = np = 10×0.3 = 3
Var(X) = np(1−p) = 10×0.3×0.7 = 2.1

💡 기억법: 이항분포에서 E(X)=np는 "n번 중 성공 비율"이고, Var(X)에는 (1-p)가 곱해집니다.

객관식

포아송분포의 독특한 특징은?

항상 대칭이다
분산이 항상 1이다
평균과 분산이 같다
연속형 분포이다

포아송분포의 독특한 특징: 평균과 분산의 관계를 생각해 보세요.

해설

핵심 개념: 포아송분포의 특징

포아송분포 Poi(m)의 독특한 특징:
E(X) = m, Var(X) = m → 평균과 분산이 같다!

다른 선택지 분석:
- A: m이 작으면 오른쪽 꼬리, m이 크면 대칭에 가까움 → ✗
- B: 분산 = m으로 1이 아님 → ✗
- D: 이산형 분포임 → ✗

객관식

정규분포 N(100, 15²)에서 ±1σ 범위(85~115)에 포함되는 데이터의 비율은 약?

50%
68%
95%
99.7%

정규분포의 68-95-99.7 법칙을 떠올려 보세요. ±1σ는 몇 %인가요?

해설

핵심 개념: 68-95-99.7 법칙

정규분포 N(μ, σ²)에서:
- ±1σ 범위 → 약 68%
- ±2σ 범위 → 약 95%
- ±3σ 범위 → 약 99.7%

N(100, 15²): μ=100, σ=15
85~115 = 100 ± 15 = μ ± 1σ → 약 68%

객관식

X ~ N(500, 30²)일 때, P(X ≥ 530)을 구하기 위한 Z값은?

표준화 공식 Z = (X − μ) / σ에 값을 대입하세요.

해설

핵심 개념: 정규분포의 표준화

Z = (X − μ) / σ = (530 − 500) / 30 = 1

P(X ≥ 530) = P(Z ≥ 1) = 1 − P(Z ≤ 1) = 1 − 0.8413 = 0.1587

💡 Tip: Z = 1은 "평균에서 표준편차 1개만큼 위"라는 의미입니다.

객관식

동전을 5번 던져서 앞면이 정확히 2번 나올 확률은? (X ~ B(5, 0.5))

0.2000
0.2500
0.3125
0.5000

이항분포 공식: P(X=k) = ₙCₖ × pᵏ × (1-p)ⁿ⁻ᵏ를 적용하세요.

해설

핵심 개념: 이항분포의 확률 계산

X ~ B(5, 0.5), P(X=2) = ?

P(X=2) = ₅C₂ × 0.5² × 0.5³
= 10 × 0.25 × 0.125 = 0.3125

💡 공식: P(X=k) = ₙCₖ × pᵏ × (1-p)ⁿ⁻ᵏ

객관식

이항분포 B(n, p)가 적용되기 위한 조건이 아닌 것은?

각 시행의 결과는 성공 또는 실패 두 가지뿐이다
각 시행은 서로 독립이다
시행 횟수 n은 무한대여야 한다
매 시행에서 성공 확률 p는 일정하다

이항분포 조건: (1) 성공/실패, (2) 독립, (3) p 일정, (4) n 고정. 위반되는 것을 찾으세요.

해설

핵심 개념: 이항분포의 4가지 조건

① 결과가 성공/실패 2가지
② 각 시행이 독립
③ 성공 확률 p가 일정
④ 시행 횟수 n이 고정 (유한한 값)

C("n은 무한대")가 오답: n은 무한대가 아니라 유한한 고정값이어야 합니다.

객관식

초기하분포와 이항분포의 가장 큰 차이점은?

초기하분포는 연속형이고 이항분포는 이산형이다
초기하분포는 성공 확률이 변하고 이항분포는 평균이 없다
두 분포는 동일하며 이름만 다르다
초기하분포는 비복원추출(각 시행이 종속)이고, 이항분포는 복원추출(각 시행이 독립)이다

비복원추출(종속)이면 초기하분포, 복원추출(독립)이면 이항분포입니다.

해설

핵심 개념: 초기하분포 vs 이항분포

이항분포: 복원추출 → 각 시행 독립 → 성공 확률 p 일정
초기하분포: 비복원추출 → 각 시행 종속 → 뽑을 때마다 확률 변함

💡 근사: 모집단이 표본에 비해 매우 크면(N >> n), 비복원이라도 확률 변화가 미미하여 이항분포로 근사 가능합니다.

객관식

정규분포의 대칭성을 이용하면, X ~ N(μ, σ²)일 때 P(X ≤ μ)는?

0
0.5
0.68
1

정규분포는 평균을 중심으로 완벽하게 대칭입니다.

해설

핵심 개념: 정규분포의 대칭성

정규분포는 평균 μ를 중심으로 완벽하게 대칭입니다.

따라서: P(X ≤ μ) = P(X ≥ μ) = 0.5 (50%)

💡 활용: 대칭성 덕분에 P(X ≥ μ+a) = P(X ≤ μ−a)가 성립합니다.

객관식

표준정규분포에서 P(Z ≤ 1.96)의 값은 약?

0.975
0.950
0.025
0.500

Z = 1.96은 통계학에서 가장 중요한 값 중 하나입니다. 95% 신뢰구간과 관련됩니다.

해설

핵심 개념: 중요한 Z값 — 1.96

P(Z ≤ 1.96) = 0.975
→ P(−1.96 ≤ Z ≤ 1.96) = 0.95 (95%)

자주 쓰이는 Z값:
- 상위 10%: z = 1.28
- 상위 5%: z = 1.645
- 상위 2.5%: z = 1.96
- 상위 1%: z = 2.33

💡 활용: 95% 신뢰구간에서 사용되는 핵심 값입니다.

객관식

이항분포를 포아송분포로 근사할 수 있는 조건은?

n이 작고 p가 클 때
n과 p가 모두 클 때
n이 크고 p가 매우 작을 때 (np = m이 적당한 크기)
n이 작고 p = 0.5일 때

이항분포의 포아송 근사 조건: n이 크고 p가 매우 작을 때(np가 적당한 크기).

해설

핵심 개념: 이항분포의 포아송 근사

조건: n이 크고 p가 매우 작을 때 (보통 n ≥ 20, p ≤ 0.05)
B(n, p) ≈ Poi(m), 여기서 m = np

예: 불량품률(p=0.01)인 공장에서 100개를 검사할 때
→ B(100, 0.01) ≈ Poi(1)

💡 Tip: "드문 사건"을 모델링할 때 포아송 근사가 유용합니다.

객관식

X ~ B(10, 0.4)일 때, P(X ≤ 1)은? (즉, 성공이 0번 또는 1번일 확률)

약 0.006
약 0.046
약 0.167
약 0.400

P(X ≤ 1) = P(X=0) + P(X=1)을 각각 이항분포 공식으로 계산하세요.

해설

핵심 개념: 이항분포의 누적확률 계산

X ~ B(10, 0.4), P(X ≤ 1) = P(X=0) + P(X=1)

P(X=0) = ₁₀C₀ × 0.4⁰ × 0.6¹⁰ ≈ 0.006
P(X=1) = ₁₀C₁ × 0.4¹ × 0.6⁹ ≈ 0.040
P(X≤1) ≈ 0.006 + 0.040 = 약 0.046

💡 Tip: 이항분포의 누적확률은 각 경우를 개별적으로 계산해서 더합니다.

객관식

어떤 콜센터에 시간당 평균 3건의 전화가 걸려온다. 포아송분포를 이용하여 P(X=2)를 구하면? (e⁻³ ≈ 0.0498)

약 0.050
약 0.100
약 0.180
약 0.224

포아송분포 공식: P(X=x) = e⁻ᵐ × mˣ / x!에 m=3, x=2를 대입하세요.

해설

핵심 개념: 포아송분포 공식 적용

P(X=x) = e⁻ᵐ × mˣ / x!

m = 3 (시간당 평균), x = 2:
P(X=2) = e⁻³ × 3² / 2!
= 0.0498 × 9 / 2 = 0.0498 × 4.5 ≈ 0.224

💡 핵심: 포아송분포는 "단위 시간(또는 공간)당 드물게 발생하는 사건의 횟수"를 모델링합니다.

객관식

X ~ N(200, 25²)일 때, P(150 ≤ X ≤ 250)은 약?

약 95%
약 68%
약 99.7%
약 50%

주어진 범위가 μ ± 몇 σ인지 계산해 보세요. 68-95-99.7 법칙을 적용합니다.

해설

핵심 개념: 68-95-99.7 법칙 적용

X ~ N(200, 25²) → μ = 200, σ = 25

150 = 200 − 2×25 = μ − 2σ
250 = 200 + 2×25 = μ + 2σ

P(μ−2σ ≤ X ≤ μ+2σ) ≈ 95%

💡 기억법: ±1σ=68%, ±2σ=95%, ±3σ=99.7%

객관식

표준정규분포에서 상위 5%에 해당하는 Z값(즉, P(Z > z) = 0.05를 만족하는 z)은?

1.96
2.33
1.645
1.28

P(Z > z) = 0.05이면 P(Z ≤ z) = 0.95입니다. 자주 쓰이는 Z값을 떠올려 보세요.

해설

핵심 개념: 상위 백분율에 해당하는 Z값

P(Z > z) = 0.05 → P(Z ≤ z) = 0.95
Z표에서 누적확률 0.95에 해당하는 값 = z = 1.645

자주 쓰이는 Z값 정리:
- 상위 10% (90%): z = 1.28
- 상위 5% (95%): z = 1.645
- 상위 2.5% (97.5%): z = 1.96
- 상위 1% (99%): z = 2.33

객관식

다음 중 이항분포 B(n, p)의 조건을 위반하는 상황은?

동전을 10번 던져서 앞면의 수를 세는 경우
불량률 5%인 공장에서 20개를 복원추출로 검사하는 경우
합격률 60%인 시험에서 5명이 독립적으로 응시하는 경우
카드 52장에서 비복원으로 5장을 뽑아 하트의 수를 세는 경우

이항분포의 핵심 조건: 각 시행이 독립이고 성공 확률이 일정해야 합니다.

해설

핵심 개념: 이항분포 조건 위반 사례

이항분포 핵심 조건: 각 시행이 독립이고 p가 일정

D가 위반하는 이유:
- 카드 52장에서 비복원으로 뽑으면
- 한 장을 뽑을 때마다 남은 카드 구성이 바뀜
- 확률이 변하므로 이항분포가 아닌 초기하분포 사용

💡 Tip: 모집단이 표본에 비해 매우 크면 이항분포로 근사 가능합니다.

객관식

상자에 빨간 공 8개, 흰 공 12개가 있다. 5개를 비복원추출할 때, 빨간 공이 정확히 2개일 확률은? (초기하분포)

₈C₂ / ₂₀C₅
(₈C₂ × ₁₂C₃) / ₂₀C₅
₅C₂ × 0.4² × 0.6³
(₈C₂ × ₁₂C₃) / ₂₀P₅

초기하분포 공식: (성공 중 k개 선택) × (실패 중 나머지 선택) / (전체 중 n개 선택).

해설

핵심 개념: 초기하분포 공식

P(X=k) = (ₐCₖ × ₙ₋ₐCₘ₋ₖ) / ₙCₘ

빨간(성공) 8개 중 2개: ₈C₂ = 28
흰(실패) 12개 중 3개: ₁₂C₃ = 220
전체 20개 중 5개: ₂₀C₅ = 15504
P = (₈C₂ × ₁₂C₃) / ₂₀C₅ ≈ 0.397

💡 주의: C(이항분포 공식)와 D(분모가 순열)는 오답입니다.

객관식

X ~ N(μ, σ²)일 때, P(X ≤ μ − σ)의 값은 약?

0.50
0.32
0.16
0.025

68-95-99.7 법칙에서 ±1σ 안에 68%가 있으면, 한쪽 꼬리는 얼마인지 계산해 보세요.

해설

핵심 개념: 정규분포의 꼬리 확률

68-95-99.7 법칙에서:
P(μ−σ ≤ X ≤ μ+σ) ≈ 0.68
바깥 양쪽 꼬리의 합 = 1 − 0.68 = 0.32
한쪽 꼬리 = 0.32/2 = 0.16

즉, P(X ≤ μ−σ) ≈ 0.16, P(X ≥ μ+σ) ≈ 0.16

💡 기억법: 대칭이므로 한쪽 꼬리 = (1 − 중앙 확률) / 2

객관식

X ~ N(100, 15²)일 때, 68-95-99.7 법칙을 이용하면 P(70 ≤ X ≤ 130)은 약?

약 95%
약 68%
약 99.7%
약 50%

70과 130이 μ에서 각각 몇 σ 떨어져 있는지 계산해 보세요.

해설

핵심 개념: 68-95-99.7 법칙 실전 적용

X ~ N(100, 15²) → μ = 100, σ = 15

70 = 100 − 2×15 = μ − 2σ
130 = 100 + 2×15 = μ + 2σ

P(μ−2σ ≤ X ≤ μ+2σ) ≈ 95%

💡 Tip: 먼저 주어진 값이 μ에서 몇 σ 떨어져 있는지 계산하면 법칙을 적용할 수 있습니다.

객관식

표준정규분포 Z에 대해, P(−1 ≤ Z ≤ 1)과 P(Z > 0)의 값은 각각 약?

0.95, 0.50
0.68, 0.50
0.68, 0.68
0.50, 0.68

±1σ 범위와 대칭성을 각각 적용하세요.

해설

핵심 개념: 표준정규분포의 두 가지 성질

① P(−1 ≤ Z ≤ 1) ≈ 0.68 → 68-95-99.7 법칙의 ±1σ
② P(Z > 0) = 0.50 → 표준정규분포는 0을 중심으로 대칭

표준정규분포 N(0,1)에서 평균=0이므로:
P(Z ≤ 0) = P(Z ≥ 0) = 0.5

객관식

X ~ B(8, 0.5)일 때, P(X ≥ 7)은?

8/256
1/256
9/256
28/256

P(X ≥ 7) = P(X=7) + P(X=8)을 이항분포 공식으로 각각 계산하세요.

해설

핵심 개념: 이항분포의 상위 꼬리 확률

X ~ B(8, 0.5), P(X ≥ 7) = P(X=7) + P(X=8)

P(X=7) = ₈C₇ × 0.5⁷ × 0.5¹ = 8/256
P(X=8) = ₈C₈ × 0.5⁸ = 1/256
P(X≥7) = 8/256 + 1/256 = 9/256 ≈ 0.035

💡 Tip: 0.5⁸ = 1/256이고, ₈C₇ = 8, ₈C₈ = 1입니다.

7강 - 확률분포 2

객관식 20문항

객관식

모집단의 평균이 μ, 분산이 σ²일 때, 크기 n인 표본평균 X̄의 분산은?

σ²
σ²/n²
σ²/n
nσ²

표본평균의 분산: Var(X̄) = σ²/n입니다. n이 커지면 분산은 줄어듭니다.

해설

핵심 개념: 표본평균의 분산

모집단: 평균 μ, 분산 σ²
표본평균 X̄의 분산: Var(X̄) = σ²/n

n이 커질수록 분산이 줄어듦 → 표본평균이 더 안정적

💡 주의: σ²/n²이 아닌 σ²/n입니다. 또한 nσ²은 전체 합의 분산(Var(ΣXᵢ))입니다.

객관식

중심극한정리(CLT)에 대한 설명으로 옳은 것은?

모집단이 정규분포여야만 적용된다
표본 크기와 관계없이 항상 성립한다
개별 관측값이 정규분포를 따르게 된다
모집단 분포에 관계없이 n이 충분히 크면 표본평균이 근사적으로 정규분포를 따른다

중심극한정리(CLT)는 모집단 분포에 관계없이 n이 충분히 크면 표본평균이 정규분포를 따른다는 것입니다.

해설

핵심 개념: 중심극한정리(CLT)

모집단의 분포가 무엇이든, n이 충분히 크면(보통 n≥30):
X̄ ~ N(μ, σ²/n) (근사적으로 정규분포)

오답 분석:
- A: 모집단이 정규분포가 아니어도 됨 → ✗
- B: n이 충분히 커야 함 → ✗
- C: 개별 관측값이 아닌 표본평균이 정규분포 → ✗

💡 핵심: CLT는 통계학에서 가장 중요한 정리입니다.

객관식

모집단의 σ를 모를 때 표본평균의 분포로 사용하는 것은?

표준정규분포 N(0,1)
t-분포 t(n-1)
카이제곱분포 χ²(n-1)
이항분포 B(n,p)

σ를 알면 Z를 쓰고, σ를 모르면 t를 씁니다.

해설

핵심 개념: Z-분포 vs t-분포 선택

σ를 알 때: Z = (X̄−μ)/(σ/√n) ~ N(0,1)
σ를 모를 때: t = (X̄−μ)/(S/√n) ~ t(n-1)

t-분포의 특징:
- 정규분포보다 꼬리가 두꺼움
- n이 커지면 N(0,1)에 수렴

💡 실무: σ를 모르는 경우가 대부분이므로 t-분포를 더 자주 사용합니다.

객관식

모평균 μ=50, 모표준편차 σ=10인 모집단에서 n=25인 표본을 뽑았다. 표본평균 X̄의 표준오차(SD)는?

표준오차(SE) = σ/√n으로 계산합니다.

해설

핵심 개념: 표준오차(Standard Error) 계산

E(X̄) = μ = 50
SD(X̄) = σ/√n = 10/√25 = 10/5 = 2

표준오차 = 표본평균의 표준편차 = 모표준편차/√n

💡 의미: 표본평균들의 퍼짐 정도를 나타냅니다. n이 클수록 표준오차가 작아집니다.

객관식

모표준편차 σ를 모르는 상태에서 정규모집단의 표본평균을 검정할 때 사용하는 분포는?

표준정규분포 N(0,1)
t-분포 t(n-1)
카이제곱분포 χ²(n-1)
이항분포 B(n,p)

σ를 모르는 상태에서 어떤 분포를 사용하는지 생각해 보세요.

해설

핵심 개념: 검정에서 사용하는 분포 선택

모평균 검정:
- σ를 알 때 → Z = (X̄−μ)/(σ/√n) ~ N(0,1) → Z-검정
- σ를 모를 때 → t = (X̄−μ)/(S/√n) ~ t(n-1) → t-검정

모분산 검정:
- χ² = (n-1)S²/σ₀² ~ 카이제곱분포 χ²(n-1)

객관식

중심극한정리(CLT)를 적용하기 위해 일반적으로 필요한 최소 표본 크기는?

n ≥ 5
n ≥ 10
n ≥ 30
n ≥ 100

중심극한정리는 통상 n이 얼마 이상일 때 잘 적용되는지 생각해 보세요.

해설

핵심 개념: CLT의 최소 표본 크기

중심극한정리는 통상 n ≥ 30일 때 잘 적용됩니다.

예외:
- 모집단이 이미 정규분포이면 n이 작아도 성립
- 모집단이 매우 비대칭이면 더 큰 n이 필요할 수 있음

💡 기억법: "n ≥ 30"은 CLT의 경험적 기준입니다.

객관식

t-분포와 표준정규분포의 차이로 올바른 것은?

t-분포는 평균이 1이고 표준정규분포는 평균이 0이다
t-분포는 좌우 비대칭이다
t-분포는 표준정규분포보다 꼬리가 얇다
t-분포는 표준정규분포보다 꼬리가 두껍고, 자유도가 커지면 표준정규분포에 수렴한다

t-분포는 정규분포보다 꼬리가 두껍고, 자유도가 커지면 정규분포에 수렴합니다.

해설

핵심 개념: t-분포의 특성

t-분포 vs 표준정규분포:
- 평균: 둘 다 0
- 대칭: 둘 다 좌우 대칭
- 꼬리: t-분포가 더 두꺼움 (극단값 확률이 높음)
- 수렴: 자유도(n−1)가 커지면 N(0,1)에 수렴

💡 이유: σ 대신 S를 사용하는 불확실성이 꼬리의 두께로 반영됩니다.

객관식

X ~ B(100, 0.4)를 정규분포로 근사할 때, 사용하는 정규분포의 평균과 분산은?

평균 = 40, 분산 = 24
평균 = 40, 분산 = 40
평균 = 0.4, 분산 = 0.24
평균 = 60, 분산 = 24

이항분포 B(n,p)의 정규근사: N(np, np(1-p))를 적용하세요.

해설

핵심 개념: 이항분포의 정규근사

B(n, p) ≈ N(np, np(1−p)) (n이 충분히 클 때)

X ~ B(100, 0.4):
평균 = np = 100×0.4 = 40
분산 = np(1−p) = 100×0.4×0.6 = 24

💡 조건: np ≥ 5이고 n(1−p) ≥ 5이면 정규근사가 적절합니다.

객관식

F-분포가 주로 사용되는 상황은?

모평균의 구간 추정
두 모집단의 분산 비교(분산분석, ANOVA)
모비율의 가설검정
단일 표본의 중앙값 검정

F-분포는 두 분산의 비(ratio)를 비교할 때 사용됩니다.

해설

핵심 개념: F-분포의 용도

F-분포는 두 카이제곱분포의 비로 정의됩니다.

주요 용도:
① 두 모집단의 분산 비교: F = S₁²/S₂²
② 분산분석(ANOVA): 여러 그룹의 평균 비교
③ 회귀분석의 유의성 검정

💡 특징: F-분포는 항상 0 이상이고, 오른쪽으로 치우친 비대칭 분포입니다.

객관식

모평균 μ의 95% 신뢰구간 공식(σ를 아는 경우)으로 올바른 것은?

X̄ ± 1.96 × σ
X̄ ± 1.96 × σ²/n
μ ± 1.96 × σ/√n
X̄ ± 1.96 × σ/√n

신뢰구간 공식: 중심은 X̄(표본평균), 오차한계는 z × σ/√n입니다.

해설

핵심 개념: 신뢰구간 공식 (σ 아는 경우)

95% 신뢰구간: X̄ ± 1.96 × σ/√n

구성 요소:
- 중심: X̄ (표본평균, μ가 아님!)
- 오차한계: z(α/2) × σ/√n
- z(0.025) = 1.96 (95% 신뢰수준)

💡 주의: σ를 모르면 S를 사용하고 t-분포를 적용합니다.

객관식

모평균 μ=80, 모표준편차 σ=20인 모집단에서 n=100인 표본을 뽑았다. 표본평균 X̄가 78 이상 82 이하일 확률 P(78 ≤ X̄ ≤ 82)는 약?

약 68%
약 50%
약 95%
약 99.7%

표준오차 SE = σ/√n을 구하고, Z값으로 변환한 뒤 68-95-99.7 법칙을 적용하세요.

해설

핵심 개념: 표본평균의 분포와 확률 계산

X̄의 분포: N(μ, σ²/n) = N(80, (20/10)²) = N(80, 4)
표준오차 SE = σ/√n = 20/√100 = 2

Z₁ = (78−80)/2 = −1
Z₂ = (82−80)/2 = 1
P(−1 ≤ Z ≤ 1) ≈ 0.68 (약 68%)

💡 핵심: 표본평균의 분포(SE=2)는 원래 모집단(σ=20)보다 훨씬 좁습니다.

객관식

모평균 50, 모분산 36인 모집단에서 n=9인 표본을 뽑을 때, P(X̄ > 54)는? (P(Z > 2) = 0.0228)

0.1587
0.0228
0.0456
0.5000

SE = σ/√n을 구하고 Z = (X̄ − μ)/SE로 표준화하세요.

해설

핵심 개념: 표본평균의 확률 - Z값 계산

σ = √36 = 6, SE = σ/√n = 6/√9 = 6/3 = 2
Z = (54 − 50)/2 = 2
P(X̄ > 54) = P(Z > 2) = 0.0228

💡 해석: 표본평균이 모평균에서 2 표준오차 이상 떨어질 확률은 약 2.3%로 매우 낮습니다.

객관식

t-분포 t(n-1)에서, 표본 크기 n=16일 때의 자유도는?

t-분포의 자유도 = n − 1입니다.

해설

핵심 개념: t-분포의 자유도

t-분포의 자유도 = n − 1 = 16 − 1 = 15

1이 줄어드는 이유: 표본평균 X̄를 계산하는 데 1개의 정보를 소비했기 때문

💡 Tip: 자유도가 클수록 t-분포는 표준정규분포에 가까워집니다. df ≥ 30이면 거의 같습니다.

객관식

95% 신뢰구간의 폭을 절반으로 줄이려면, 표본 크기 n을 어떻게 변경해야 하는가?

n을 2배로 늘린다
n을 3배로 늘린다
n을 절반으로 줄인다
n을 4배로 늘린다

신뢰구간 폭은 1/√n에 비례합니다. 폭을 절반으로 줄이려면 n을 어떻게 해야 할까요?

해설

핵심 개념: 표본 크기와 신뢰구간 폭의 관계

신뢰구간 폭 ∝ 1/√n

폭을 절반으로 줄이려면:
1/√n' = (1/2) × (1/√n)
√n' = 2√n
n' = 4n

정밀도를 2배 높이려면 표본 크기를 4배로 늘려야 합니다.

💡 Tip: 이것이 대규모 조사에 비용이 많이 드는 이유입니다.

객관식

카이제곱(χ²) 통계량의 자유도가 (n−1)이고, 표본분산 S² = 12, 귀무가설의 모분산 σ₀² = 10, n = 21일 때, χ² 검정통계량은?

카이제곱 검정통계량: χ² = (n-1)S²/σ₀²를 계산하세요.

해설

핵심 개념: 카이제곱 검정통계량

공식: χ² = (n−1)S²/σ₀²

= (21−1)×12/10 = 20×12/10 = 240/10 = 24

이 값을 자유도 20인 χ²분포에서 비교하여 p-value를 구합니다.

💡 용도: 카이제곱 검정은 모분산이 특정 값과 다른지 검정할 때 사용합니다.

객관식

모표준편차 σ=15인 모집단에서 n=25인 표본과 n=100인 표본을 뽑았을 때, 표준오차(SE)의 비율은?

SE(n=25) = SE(n=100)
SE(n=25)는 SE(n=100)의 2배
SE(n=25)는 SE(n=100)의 4배
SE(n=25)는 SE(n=100)의 절반

SE = σ/√n으로 각각 계산하여 비율을 구하세요.

해설

핵심 개념: 표본 크기에 따른 표준오차 변화

SE(n=25) = 15/√25 = 15/5 = 3
SE(n=100) = 15/√100 = 15/10 = 1.5
비율: 3/1.5 = 2배

💡 핵심 원리: SE ∝ 1/√n이므로, 표본 크기를 4배로 늘리면 표준오차는 절반이 됩니다.

객관식

X ~ B(200, 0.3)를 정규분포로 근사할 때, P(X ≥ 70)을 구하기 위한 Z값은 약? (연속성 보정 미적용)

Z ≈ 0.77
Z ≈ 1.25
Z ≈ 1.54
Z ≈ 2.00

이항분포의 정규근사에서 μ = np, σ = √(np(1-p))를 구하고 Z = (X-μ)/σ를 계산하세요.

해설

핵심 개념: 이항분포의 정규근사 — Z값 계산

X ~ B(200, 0.3) → 정규근사 N(np, np(1−p))
μ = np = 200×0.3 = 60
σ = √(np(1−p)) = √(200×0.3×0.7) = √42 ≈ 6.48
Z = (70 − 60)/6.48 ≈ 1.54

💡 검증: np=60 ≥ 5 ✓, n(1−p)=140 ≥ 5 ✓ → 정규근사 사용 가능

객관식

"95% 신뢰구간이 (45.2, 54.8)이다"라는 문장의 올바른 해석은?

모평균이 이 구간에 있을 확률이 95%이다
표본평균이 이 구간에 95% 확률로 들어간다
같은 방법으로 여러 번 구간을 만들면, 그 중 약 95%가 모평균을 포함한다
데이터의 95%가 이 구간에 들어간다

신뢰구간의 올바른 해석은 '방법의 신뢰도'입니다. 특정 구간의 확률이 아닙니다.

해설

핵심 개념: 신뢰구간의 올바른 해석

올바른 해석: "같은 방법으로 반복적으로 표본을 뽑아 구간을 만들면, 그 중 약 95%가 모평균을 포함한다"

흔한 오해 (A): "모평균이 이 구간에 있을 확률이 95%" → ✗
- 모평균은 고정된 값이므로 "확률"이 아님
- "들어있거나 아니거나" 둘 중 하나

💡 핵심: 95%는 방법의 신뢰도이지, 특정 구간의 확률이 아닙니다.

객관식

다음 중 Z-검정을 사용하는 경우와 t-검정을 사용하는 경우를 올바르게 구분한 것은?

σ를 알면 Z-검정, σ를 모르고 S로 대체하면 t-검정
n > 30이면 Z-검정, n ≤ 30이면 t-검정
모집단이 정규분포이면 Z-검정, 아니면 t-검정
양측검정이면 Z-검정, 단측검정이면 t-검정

Z와 t를 구분하는 핵심 기준은 모표준편차 σ를 알고 있는지 여부입니다.

해설

핵심 개념: Z-검정 vs t-검정의 구분 기준

핵심 기준: 모표준편차 σ를 아는지 여부

- σ를 알 때: Z = (X̄−μ)/(σ/√n) ~ N(0,1) → Z-검정
- σ를 모를 때: t = (X̄−μ)/(S/√n) ~ t(n−1) → t-검정

💡 주의: "n > 30이면 Z, 아니면 t"는 관례적 경험칙이지 정확한 기준은 아닙니다. 실무에서는 σ를 모르는 경우가 대부분이므로 t-검정을 더 자주 씁니다.

객관식

표본분포(sampling distribution)에 대한 설명으로 옳은 것은?

하나의 표본에서 관측된 데이터값들의 분포이다
가능한 모든 표본에서 계산한 통계량(예: 표본평균)의 분포이다
모집단 전체의 데이터 분포이다
표본을 크기 순으로 정렬한 분포이다

표본분포는 '하나의 표본' 분포가 아니라 '가능한 모든 표본의 통계량' 분포입니다.

해설

핵심 개념: 표본분포(Sampling Distribution)

표본분포 = 동일한 모집단에서 같은 크기의 표본을 반복적으로 뽑았을 때, 통계량(표본평균, 표본비율 등)이 이루는 분포

혼동하기 쉬운 개념들:
- A: 하나의 표본의 데이터 분포 = 표본의 도수분포
- C: 모집단 전체의 데이터 분포 = 모집단분포

💡 핵심: 표본분포는 실제로 반복 추출하지 않고 이론적으로 도출하며, 중심극한정리가 그 핵심 근거입니다.

공학용 계산기 가이드

시험에 필요한 계산기 사용법 | 14개 예제로 모든 버튼 연습하기

예제 1: 팩토리얼 5! 구하기

5 × 4 × 3 × 2 × 1 = ?

5 입력
n! 누르기

결과: 120

예제 2: 조합 ₁₀C₃ — 공식대로 풀기

₁₀C₃ = 10! ÷ (3! × 7!)

n! 버튼으로 수식을 조립하고, = 으로 한번에 계산합니다.

10 n! → 화면에 fact(10)
÷ (
3 n! → fact(3)
× 7 n! → fact(7)
) =

결과: 120

예제 3: 조합 ₁₀C₃ — 빠른 방법

₁₀C₃ = (10×9×8) ÷ 3!

분자를 직접 곱하면 더 빠릅니다. 3개를 뽑으니 위에서 3개만 곱하고 3!로 나누기.

10 × 9 × 8
÷ ( 3 n! ) =

결과: 120

예제 4: 순열 ₅P₂ 구하기

₅P₂ = 5! ÷ 3! = 5 × 4

순열은 위에서부터 r개만 곱하면 됩니다.

5 × 4 =

결과: 20

예제 5: `²√x` 제곱근 구하기

144의 양의 제곱근

1 4 4 입력
²√x 누르기

결과: 12

예제 6: 거듭제곱 2⁸ 구하기

2의 8승

2 입력
x^y 누르기
8 입력
= 누르기

결과: 256

예제 7: x² 제곱 버튼

7² = ?

7 입력
x² 누르기

결과: 49

예제 8: 역수 ⅟x

1 ÷ 8 = ?

8 입력
⅟x 누르기

결과: 0.125

예제 9: 분산 계산

데이터 {2, 4, 6}의 표본분산 s²

s² = (Σxᵢ² − n×평균²) ÷ (n−1)
평균 = (2+4+6)÷3 = 4
Σxᵢ² = 2²+4²+6² = 4+16+36 = 56
n×평균² = 3×4² = 3×16 = 48

Σxᵢ² 구하기: 2 x² + 4 x² + 6 x² = → 56
n×평균² 빼기: − 4 8 = → 8
(n−1)로 나누기: ÷ 2 =

결과: s² = 4

예제 10: 복합 계산 — 변이계수

CV = s ÷ 평균 (표준편차=2, 평균=4)

위 분산 결과(s²=4)에서 ²√x 로 제곱근을 구하면 2가 표준편차

4 ²√x → 결과: 2
÷ 4 =

결과: CV = 0.5

예제 11: log₁₀ 사용하기

log₁₀(1000) = ?

1000 입력
log 누르기

결과: 3

예제 12: 10의 거듭제곱

10⁴ = ?

4 입력
10^x 누르기

결과: 10000

예제 13: 이항분포 확률 계산

X~B(5, 0.3)일 때 P(X=2)
= ₅C₂ × 0.3² × 0.7³

이항분포 공식을 단계별로 계산합니다.

₅C₂: 5 × 4 ÷ (2 n!) → 10
× 0.3 x^y 2
× 0.7 x^y 3
=

결과: 0.3087

예제 14: 표준화 Z값 계산

Z = (X − μ) ÷ σ
X=75, μ=60, σ=10

(75 − 60)
÷ 10 =

결과: Z = 1.5

표준정규분포표 (Z-table)

P(Z ≤ z) 값 | Z값의 소수 첫째자리는 행, 둘째자리는 열에서 찾으세요

Z값 입력:

P(Z ≤ z) = ?

z	.00	.01	.02	.03	.04	.05	.06	.07	.08	.09

t-분포표

자유도(df)별 임계값 | 양측검정 유의수준 α에 해당하는 t값

df	α=0.20 t₀.₁₀	α=0.10 t₀.₀₅	α=0.05 t₀.₀₂₅	α=0.02 t₀.₀₁	α=0.01 t₀.₀₀₅