벼락치기 연구소

통계학개론

1강 ~ 7강

1

데이터와 통계학

📊 통계학이란?

한마디로: 데이터를 모아서 → 정리하고 → 결론을 내리는 학문

데이터 수집
잘 모으기
데이터 요약
잘 정리하기
추론
결론 내리기

너가 학교 앞 분식집을 차리려고 해.

"학생들이 떡볶이를 좋아할까, 김밥을 좋아할까?"

① 학생 100명한테 물어봄 → 데이터 수집

② 떡볶이 70명, 김밥 30명 정리 → 데이터 요약

③ "떡볶이를 주력 메뉴로!" → 추론

🧩 데이터의 기본 요소

이름
성별
키(cm)
몸무게(kg)
시연이
161
50
이안이
175
73
연하
163
55
가현이
171
60
단위(unit) = 각 행 = 시연이, 이안이, 연하, 가현이 (관측 대상 한 명 한 명)
변수(variable) = 각 열 제목 = 성별, 키, 몸무게 (뭘 측정했느냐)
관찰값(observation) = 각 칸의 값 = "시연이는 여, 161cm, 50kg"

엑셀로 생각하면 쉬워!

단위 = 엑셀의 행(row) 하나하나

변수 = 엑셀의 열(column) 제목

관찰값 = 각 셀(cell)에 적힌 값

🎯 모집단 vs 표본

모집단 (전체) 표본 (실제 조사한 일부)

상황: 대한민국 전체 가구의 평균 주거비를 알고 싶어.

전국 모든 가구를 다 조사할 수 있을까? 못하지.

그래서 1,000가구만 랜덤으로 뽑아서 조사하는 거야.

개념이 상황에서는?
모집단알고 싶은 전체대한민국 모든 가구
표본실제로 조사한 일부랜덤으로 뽑은 1,000가구

🔢 모수 vs 통계량

모수 (Parameter)

모집단의 대푯값

  • 값이 고정되어 있음
  • 대부분 알 수 없음

예: 전국 가구의 진짜 평균 주거비

통계량 (Statistic)

표본의 대푯값

  • 표본을 새로 뽑으면 값이 달라짐
  • 계산으로 알 수 있음

예: 1,000가구의 평균 주거비

모수모수 (Parameter)
모집단의 대푯값. 고정되어 있지만 대부분 알 수 없음. 예: 전국 평균 주거비
= 냄비 안 국 전체의 간 → 국을 다 먹어봐야 정확히 앎

통계량통계량 (Statistic)
표본의 대푯값. 표본마다 값이 달라짐. 모수를 추정하기 위해 사용
= 국자로 한 숟갈 떠서 맛본 간 → 뜨는 위치마다 조금씩 다름

모수는 고정값이지만 모른다. 통계량은 알 수 있지만 표본마다 변한다.

이 차이를 묻는 문제가 자주 나와!

🎲 단순랜덤표집

모든 부분집합이 같은 확률로 뽑히는 표본 추출 방법

나쁜 표본

강남에서만 1,000명 조사
→ 편향된 결과

좋은 표본

전국에서 랜덤으로 1,000명
→ 전체를 잘 반영

📚 기술통계 vs 추론통계

기술통계 (Descriptive)

데이터의 특징을 정리·요약하는 것

예: 평균, 그래프, 분산 등으로 데이터 패턴을 드러내기

추론통계 (Inferential)

표본 → 모집단에 대해 추측·결론

예: 평균 연봉 추정, 95% 신뢰구간, 가설검정

🌐 모집단의 종류

유한 모집단

개체 수가 유한개

예: 한 학교의 전체 학생, 특정 공장의 제품

개체 수 적으면 전수조사로 모수를 알아낼 수 있음!

무한 모집단

개체 수가 무한개

예: 공장에서 계속 생산되는 제품, 동전 던지기의 모든 결과

전수조사 불가능 → 반드시 표본 필요

📋 데이터 수집의 실제 사례

사례 1 - 설문조사: 대통령 선거 전 유권자의 연령별, 성별 분포를 고려하여 전체를 대표할 수 있는 일부를 뽑아 지지성향 조사

사례 2 - 실험: 백신 효과를 알기 위해 3만 명을 랜덤으로 두 그룹(백신 vs 플라시보)으로 나눠 3개월 추적관찰

추론의 예시:

랜덤 표집한 300명의 연봉을 조사하여 평균 연봉 추정치95% 신뢰구간을 구한다.

→ "신뢰구간"은 추정의 신뢰성을 계량화하는 것! (7강 이후 자세히 배움)

1강 핵심 정리

  • 통계학 = 데이터 수집 → 요약(기술통계) → 추론(추측통계)
  • 데이터 = 단위(누구) + 변수(뭘 측정) + 관찰값(측정 결과)
  • 모집단: 전체 (유한/무한) / 표본: 실제 조사한 일부
  • 모수: 모집단의 진짜 값 (고정, 대부분 모름) / 통계량: 표본의 계산값 (표본마다 다름)
  • 단순랜덤표집: 모든 부분집합이 같은 확률로 선택
2

데이터 요약 I

🏷️ 변수의 종류

변수 질적변수 (범주형) 양적변수 명목형 (순서 X) 혈액형, 성별 교통수단 순서형 (순서 O) 학력, 비만도 만족도 연속형 몸무게 65.3kg 키 172.5cm 이산형 자녀 수 (0,1,2..) 사고 건수

연속 vs 이산 구분법: "0.5명"이 가능한가? → 안 되면 이산형. "65.3kg"이 가능한가? → 가능하면 연속형

📋 도수분포표

"각 값이 몇 번 나왔는지" 세서 정리한 표

질적변수 (범주별)

혈액형학생 수
A형10
B형8
AB형3
O형9

양적변수 (계급별)

키(cm)학생 수
150~1604
160~17011
170~18013
180~1902

양적변수는 계급(구간)을 나누는데, 폭이 너무 좁으면 칸이 너무 많고, 너무 넓으면 특징이 묻혀버려.

📊 그래프로 데이터 보기

막대그래프 → 질적 데이터용

예: 학생들의 등하교 교통수단

15
버스
13
자전거
4
도보

막대 사이에 간격이 있음 (범주가 별개니까)

히스토그램 → 양적 데이터용

예: 학생들의 키 분포

4
150~160
11
160~170
13
170~180
2
180~190

막대가 붙어 있음 (연속된 숫자 구간이니까)

막대그래프 vs 히스토그램: 막대 사이 간격 여부! 질적 = 간격 있음, 양적 = 붙어 있음

원그래프

각 범주의 비율을 원의 면적으로 표현. 하지만 최근에는 선호되지 않음 — 막대그래프에 비해 정보 파악이 어렵기 때문!

📈 분포의 모양 4가지

종모양 (Bell-shaped)

가운데 높고 좌우 대칭
예: 대부분의 시험 점수

오른쪽 꼬리 (Right-skewed)

오른쪽 꼬리가 긺
예: 연봉 (대부분 낮고 소수가 높음)

왼쪽 꼬리 (Left-skewed)

왼쪽 꼬리가 긺
예: 쉬운 시험 (대부분 높고 소수가 낮음)

균등분포 (Uniform)

전체가 고르게 평평
예: 주사위 눈 (각 1/6)

헷갈리는 포인트: 이름은 꼬리가 긴 방향을 말하는 거야!
"Right-skewed" = 오른쪽 꼬리가 긺 = 데이터가 왼쪽에 몰림

특이점 (Outlier)

대부분의 데이터에서 혼자 동떨어진 값

한 달 독서량 데이터

67 0 3 6 67

67권이 특이점! 혼자 저 멀리 떨어져 있지?

🏆 최빈값 (Mode)

관찰값 중에서 발생 빈도가 가장 높은 값

데이터: 57, 61, 45, 57, 48, 58, 57, 61, 54, 50, 68, 51

57이 3번으로 가장 많이 나옴 → 최빈값 = 57

최빈값은 여러 개일 수도 있고, 하나도 없을 수도 있다!

모든 값이 1번씩만 나오면 → 최빈값 없음

분포의 중심위치에서 멀리 떨어져 있을 수도 있어서 주의!

⚖️ 평균 (Mean)

표본평균
x̄ = (x₁ + x₂ + ⋯ + xₙ) / n
전체 합 ÷ 개수

평균 = 시소의 무게중심

점도표 위에 데이터를 올려놓은 시소를 상상해봐. 시소가 균형 잡히는 위치가 바로 평균이야.

평균의 약점: 특이점에 끌려간다

독서량: 6, 0, 1, 3, 1, 5, 2, 3, 1, 3

평균 = 8.36
평균
0
100

슬라이더를 움직여서 특이점을 바꿔봐! 값 하나가 평균을 얼마나 끌고 다니는지 볼 수 있어.

평균은 특이점에 민감하다! 이건 시험에 정말 자주 나오는 포인트야.

📏 분산과 표준편차

"데이터가 평균으로부터 얼마나 퍼져 있느냐"를 숫자로 나타낸 것. 분산Var(X) = σ²
평균에서 얼마나 퍼져 있나.

간편공식: E(X²)−[E(X)]² = 제기−기제
은 편차 제곱의 평균, 표준편차σ = √분산
평균에서 보통 얼마나 떨어져 있나. 분산은 단위가 제곱이라 해석 어려움 → √ 씌워서 원래 단위로!
는 그 제곱근이야.

편차
xᵢ − x̄
각 값 - 평균
표본분산
s² = Σ(xᵢ − x̄)² / (n−1)
편차 제곱합 ÷ (n-1)
표본표준편차
s = √s²
분산의 제곱근

왜 편차를 제곱하나?

편차를 그냥 다 더하면 양수+음수 = 항상 0이 돼버려. 의미가 없지.

그래서 제곱해서 전부 양수로 만든 뒤 더하는 거야.

왜 n이 아니라 (n−1)로 나누나?

표본은 모집단의 일부라서 변동이 약간 작게 나와. (n−1)로 나누면 그걸 보정해줘서 모집단 분산에 더 가깝게 추정할 수 있어.

분산 계산 예제 (교재 예제 2-11)

학생 10명의 윗몸일으키기: 25, 41, 35, 8, 52, 23, 32, 37, 42, 28

1

평균 구하기

x̄ = (25+41+35+8+52+23+32+37+42+28) / 10 = 32.3
2

각 편차와 편차 제곱 구하기

xᵢxᵢ − x̄(xᵢ − x̄)²
25−7.353.29
418.775.69
8−24.3590.49
합계1336.1
3
s² = 1336.1 / (10−1) = 148.5
s = √148.5 = 12.2
분산의 단위
= 데이터 측정단위의 제곱
예: cm → cm²
표준편차의 단위
= 데이터 측정단위와 동일
예: cm → cm (해석 쉬움!)

분산이 작다 vs 크다

분산 작음

평균

평균 주변에 모여 있음

분산 큼

평균

평균에서 멀리 퍼져 있음

🔄 변이계수 (CV)

단위나 평균이 다른 두 변수의 변동을 공평하게 비교하려면?

CV = 표준편차 / 평균
상대적인 퍼짐 정도

만 21세 남자

평균 72kg / 표준편차 11kg

0.153

11 ÷ 72

만 9세 남아

평균 32kg / 표준편차 7kg

0.219

7 ÷ 32

→ 9세 그룹이 상대적으로 변동이 더 크다!

표준편차σ = √분산
평균에서 보통 얼마나 떨어져 있나. 분산은 단위가 제곱이라 해석 어려움 → √ 씌워서 원래 단위로!
만 보면 21세(11kg)가 더 크지만, 평균 자체가 다르잖아.

72kg에서 11kg 차이 vs 32kg에서 7kg 차이 → 비율로 보면 9세가 더 들쭉날쭉해!

2강 핵심 정리

  • 질적변수 = 범주 (명목형: 순서X, 순서형: 순서O)
  • 양적변수 = 숫자 (연속형: 소수점 가능, 이산형: 셀 수 있음)
  • 막대그래프 = 질적 데이터 (막대 간격 O) / 히스토그램 = 양적 데이터 (막대 붙어 있음)
  • 평균은 특이점에 약하다
  • 표본분산은 (n-1)로 나눈다
  • 변이계수로 단위가 다른 변수의 변동을 비교한다
3

데이터 수치요약

🎯 중앙값 (Median)

데이터를 크기순으로 정렬했을 때, 정확히 가운데에 있는 값

홀수개 (5개)

1
2
3
4
5

중앙값 = 3

짝수개 (6개)

1
2
3
4
5
6

중앙값 = (3+4)/2 = 3.5

중앙값중앙값 (Median)
데이터를 크기순 정렬 후 가운데 값. 특이점 영향 거의 안 받음!
의 장점:
특이점의 영향을 거의 받지 않는다!

독서량 {0,1,1,1,2,3,3,3,5,6,67} → 중앙값 = 3 (67이 있어도 안 흔들림)

반면 평균은 8.36으로 뻥튀기됨

📐 사분위수 (Quartiles)

데이터를 크기순으로 정렬한 뒤 4등분하는 값. IQR사분위수 범위 (IQR)
Q1(25%), Q2=중앙값(50%), Q3(75%).

IQR = Q3−Q1 = 가운데 50% 범위
= Q3−Q1.

8, 23, 25, 28, 32, 35, 37, 41, 42, 52 25% 25% 25% 25% Q1=25 Q2=33.5 (중앙값) Q3=41
사분위수 범위 (IQR)
IQR = Q3 − Q1 = 41 − 25 = 16
데이터의 가운데 50%가 퍼진 범위

백분위수

p백분위수 = 전체 데이터의 p%가 이 값보다 작거나 같은 값

사분위수= 백분위수
Q125백분위수
Q2 (중앙값)50백분위수
Q375백분위수

📦 상자그림 (Boxplot)

다섯수치요약을 그래프로 나타낸 것

최솟값 8 Q1 25 중앙값 33.5 Q3 41 최댓값 52 IQR (가운데 50%)

상자그림 읽는 법을 외워봐:

상자 = 데이터의 가운데 50% (Q1~Q3)

빨간 선 = 중앙값

수염 = 나머지 데이터 (최솟값~Q1, Q3~최댓값)

상자가 넓으면 → 데이터가 퍼져 있음. 좁으면 → 모여 있음.

↔️ 범위 (Range)

범위 = 최댓값 − 최솟값
데이터의 산포를 나타내는 가장 간단한 통계량

범위의 약점: 특이점의 영향을 심하게 받는다!

데이터 99개가 모여 있어도 특이점 1개가 범위를 엄청 크게 만들 수 있어.

📊 산포 통계량 비교

통계량특이점 영향특징
분산 / 표준편차크게 받음가장 널리 사용, 편차 기반
범위심하게 받음가장 간단, 최댓값−최솟값
IQR (사분위수범위)거의 안 받음가운데 50% 범위, 상자그림에 사용

특이점이 있는 데이터에는 중앙값중앙값 (Median)
데이터를 크기순 정렬 후 가운데 값. 특이점 영향 거의 안 받음!
+ IQR사분위수 범위 (IQR)
Q1(25%), Q2=중앙값(50%), Q3(75%).

IQR = Q3−Q1 = 가운데 50% 범위
을 쓰고,

대칭적인 분포에는 평균 + 표준편차σ = √분산
평균에서 보통 얼마나 떨어져 있나. 분산은 단위가 제곱이라 해석 어려움 → √ 씌워서 원래 단위로!
를 쓰는 게 좋아!

3강 핵심 정리

  • 중앙값 = 크기순 정렬 후 가운데 값. 특이점에 강하다.
  • 사분위수: Q1(25%), Q2=중앙값(50%), Q3(75%)
  • IQR = Q3 − Q1 (가운데 50%의 범위)
  • 상자그림 = 다섯수치요약(최솟값, Q1, 중앙값, Q3, 최댓값)을 그래프로 표현
  • 평균은 긴 꼬리 쪽으로 끌려감. 대칭이면 평균 ≈ 중앙값
4

확률

🎲 확률의 개념

확률 = 어떤 사건이 일어날 가능성을 0과 1 사이의 숫자로 표현한 것

0 0.5 1 불가능 반반 확실

동전을 1,000번 던졌더니 앞면이 503번 나왔어.

앞면 확률 ≈ 503/1000 ≈ 0.5

이렇게 무한히 반복했을 때 비율이 수렴하는 값 = 확률 (상대도수적 정의)

🔬 확률적(통계적) 실험

결과가 구체적으로 뭔지 미리 알 수 없지만, 가능한 모든 결과를 알고 있고, 반복이 가능한 경우

사례 1: 공장에서 제품을 반복 생산 → 정상품 or 불량품 (뭐가 될지 모름)

사례 2: 피자 주문 → 배달시간이 보통 30분 이내이지만 정확히는 모름

📖 확률의 3가지 정의

① 고전적 정의 — "모든 결과가 동등할 때"

모든 원소의 발생 가능성이 같을 때

P(A) = A의 측도 / S의 측도
이산형: 원소 수 세기 / 연속형: 길이(면적) 비율

이산형: 주사위 짝수 확률 = {2,4,6} → 3개/6개 = 1/2

연속형: 배달 [10,30] 중 20~25분 확률 = 길이 5/20 = 1/4

⚠ 한계: 찌그러진 동전처럼 가능성이 "같지 않으면" 사용 불가!

② 상대도수적 정의 — "무한히 반복해서 비율 보기"

같은 실험을 수없이 반복했을 때, 사건 A가 발생한 비율이 수렴하는 값

P(A) = lim (A 발생 횟수 / 전체 시행 횟수)

찌그러진 동전: 고전적 정의를 못 쓰니까, 실제로 던져본다!

1,000번 → 앞면 630번 → P ≈ 0.63

10,000번 → 더 정확해짐 → 무한번 → 진짜 확률에 수렴!

장점: 동등하지 않아도 OK!   한계: 실제로 무한번 반복은 불가능 (이론적 극한)

③ 공리적 정의 (콜모고로프) — "규칙만 지키면 확률"

"확률이 뭔지"를 직접 말하지 않고, 3가지 규칙을 만족하면 그걸 확률이라 부른다

공리수식쉬운 말
공리 10 ≤ P(A) ≤ 1확률은 0~1 사이. 음수나 150% 같은 건 없다
공리 2P(S) = 1"뭔가는 반드시 일어난다"
공리 3배반이면 P(A∪B) = P(A)+P(B)겹치지 않으면 그냥 더해도 됨

가장 일반적인 정의. ①과 ②는 ③의 특수한 경우!

①② = 확률을 "어떻게 구하냐"에 대한 정의

③ = 확률이 "어떤 성질을 가져야 하냐"에 대한 정의

현대 통계학에서는 ③을 표준으로 쓰고, ①②는 실제 계산 방법으로 활용해!

Q&A — 내가 헷갈렸던 것

확률의 공리적 정의 — 3가지 공리를 배울 때

Q: 공리 3 "배반사건이면 P(A∪B) = P(A)+P(B)"가 정확히 뭐야?

배반사건 = 두 사건이 동시에 일어날 수 없는 관계 (겹침 = ∅)

A B 배반: 겹침 없음 그냥 더하면 OK! A B 겹침 배반X: 겹침 있음 겹침 빼줘야!

배반 예시: 주사위 A={1,2}, B={5,6} → 동시에 못 일어남

P(A∪B) = 2/6 + 2/6 = 4/6 ← 겹침 없으니 그냥 더하기!

배반 아닌 예시: 경제학 25명, 경영학 30명, 둘 다 20명

P(A∪B) = 25/40 + 30/40 − 20/40 ← 겹침을 빼야!

공리 3은 결국 덧셈법칙의 기본 버전이야. "겹침 없으면 더하기만 하면 된다"를 수학적으로 보장해주는 규칙. 4강 뒤에 나오는 일반 덧셈법칙(−P(A∩B))은 이걸 확장한 것!

🗂️ 표본공간과 사건

표본공간 (S)

일어날 수 있는 모든 가능한 결과의 모임

사건 (A, B, ...)

표본공간의 부분집합 (우리가 관심 있는 결과)

주사위를 한 번 던지는 실험

표본공간: S = {1, 2, 3, 4, 5, 6}

짝수가 나오는 사건: A = {2, 4, 6}

P(A) = 3/6 = 1/2

피자 배달 시간 (10분~30분 균등)

표본공간: S = [10, 30]

20~25분 사이 배달 사건: B = [20, 25]

P(B) = 5/20 = 1/4 (구간 길이의 비율!)

이산형 표본공간 = 원소를 하나하나 셀 수 있음 (주사위 눈)

연속형 표본공간 = 구간으로 되어 있음 (배달 시간) → 길이의 비율로 확률 계산

Q&A — 내가 헷갈렸던 것

표본공간 — 피자 배달시간 예제에서 S = [10, 30]을 봤을 때

Q: S = [10, 30]에서 15, 20, 25 같은 값은 왜 안 써있어?

[10, 30]은 10~30 사이의 모든 실수를 포함한다!

15, 20, 25는 물론이고 17.3, 22.847 같은 값도 전부 들어있어. { }는 원소를 하나하나 나열한 것이고, [ ]는 구간 전체를 의미해.

표기의미예시
{ } 중괄호원소 나열 (이산형)S = {1, 2, 3, 4, 5, 6}
[ ] 대괄호구간 전체 (연속형)S = [10, 30] = 10~30 모든 실수
[a, b]a 이상 b 이하 (양쪽 포함)
(a, b)a 초과 b 미만 (양쪽 불포함)

{15, 20, 25}로 쓰면 딱 그 3개 값만 가능하다는 뜻이 돼버려! 배달이 17.3분에 올 수도 있으니까 구간 표기를 써야 해.

Q&A — 내가 헷갈렸던 것

연속형 확률 계산 — P(B) = 5/20 = 1/4 를 봤을 때

Q: 연속형에서 "길이의 비율"이란? 칸 세기가 아니라 어떻게 계산해? 복잡한 숫자면?

구간의 "끝 − 시작"이 길이다. 소수점이든 뭐든 그냥 빼기!

# 예: S = [10, 30], B = [20, 25]
전체 길이 = 30 − 10 = 20
사건 길이 = 25 − 20 = 5
P(B) = 5/20 = 1/4

# 복잡한 수도 똑같아!
# S = [7.3, 42.8], 사건 = [15.5, 28.1]
P = (28.1−15.5) / (42.8−7.3) = 12.6/35.5 = 0.355

⚠ 주의: 이건 "균등분포"일 때만 성립!

균등분포 = 어디든 밀도가 같음 → 길이 비율 = 확률

정규분포 = 가운데가 높고 양쪽이 낮음 → 길이 비율 ≠ 확률 (표준화 + 표 필요!)

Q&A — 내가 헷갈렸던 것

확률의 고전적 정의 — 이산형/연속형 확률 계산을 배울 때

Q: 강의록에 나오는 "측도"가 뭐야?

측도 = "크기를 재는 방법". 이산형이면 "세기", 연속형이면 "재기"를 하나로 묶은 표현!

유형측도확률 계산
이산형원소의 개수A의 원소 수 / S의 원소 수
연속형구간의 길이A의 길이 / S의 길이

P(A) = A의 측도 / S의 측도 → 이산이든 연속이든 같은 공식! "측도"만 달라지는 것.

🔢 순열과 조합

이산형 표본공간에서 확률을 구하려면 "경우의 수"를 세야 해! 순열ₙPᵣ = n!/(n-r)!
n개에서 r개를 뽑아 줄 세우기. 순서가 중요할 때
은 순서를 따지고, 조합ₙCᵣ = n!/[r!(n-r)!]
n개에서 r개를 그냥 뽑기. 순서 무관
은 순서를 안 따져.

순열 (Permutation) - 순서 O
ₙPᵣ = n! / (n−r)!
n개에서 r개를 뽑아 줄 세우기

4명(A,B,C,D)을 4자리에 배치

전체: ₄P₄ = 4! = 4×3×2×1 = 24가지

A가 맨 왼쪽이면?

A (고정!)
3가지
2가지
1가지

A 고정 → 나머지 B,C,D를 3자리에 배치 = 3! = 6가지

확률 = 6/24 = 1/4 (직관: 4자리 중 A가 첫째일 확률 = 1/4)

조합 (Combination) - 순서 X
ₙCᵣ = n! / [r!(n−r)!]
n개에서 r개를 그냥 뽑기

5명(A,B,C,D,E)에서 2명 뽑아 청소

₅C₂ = 5!/(2!·3!) = 10가지

A가 포함될 경우: ₄C₁ = 4가지

확률 = 4/10 = 2/5

순서가 중요하면 순열, 아니면 조합!

"회장·부회장 뽑기" → 순열 (누가 회장이냐가 중요)

"청소 당번 뽑기" → 조합 (뽑히기만 하면 됨)

Q&A — 내가 헷갈렸던 것

조합 공식 ₙCᵣ = n!/[r!(n-r)!] — 순열과 비교할 때

Q: 조합에서 왜 r!을 또 나눠? (n-r)!로 이미 안 뽑힌 부분은 잘랐잖아?

순열에서는 같은 조합이 r!번 중복 등장하니까, 그 중복을 제거하는 것!

5명 중 3명 뽑기 — 순열(60개) 안에 중복이 있다:

{A,B,C}라는 같은 조합이 순열에서는:
A-B-C, A-C-B, B-A-C, B-C-A, C-A-B, C-B-A
3! = 6번 중복 등장! (3명을 줄 세우는 경우의 수)

그래서 나눠서 중복 제거:

₅C₃ = ₅P₃ / 3! = 60 / 6 = 10

순열 → 조합, 전체 과정 정리:

단계하는 일5명 중 3명
n!전체 줄 세우기5! = 120
÷ (n-r)!안 뽑힌 꼬리 제거 → 순열÷ 2! → 60
÷ r!뽑힌 애들 순서 중복 제거 → 조합÷ 3! → 10
Q&A — 내가 헷갈렸던 것

순열 공식 ₙPᵣ = n!/(n-r)! 을 배울 때

Q: 순열에서 왜 n!을 r!이 아니라 (n-r)!로 나눠?

(n-r)! = "안 뽑힌 나머지"를 잘라내기 위한 것!

4명에서 3명 뽑아 줄 세우기:

첫 번째 자리: 4가지 (아무나)
두 번째 자리: 3가지 (1명 빠짐)
세 번째 자리: 2가지 (2명 빠짐)
= 4 × 3 × 2 = 24

이걸 n!로 표현하면:

4! = 4 × 3 × 2 × 1
↑ 이 부분이 필요없어! (안 뽑힌 1명의 나열)

"필요없는 꼬리" = (4-3)! = 1! = 1
→ 4! / (4-3)! = 24 / 1 = 24

더 큰 예로 확인:

풀어쓰면약분결과
₅P₂ = 5!/3!5×4×3×2×1 / 3×2×15×420
₆P₄ = 6!/2!6×5×4×3×2×1 / 2×16×5×4×3360

n!에서 (n-r)!로 나누면 뒷부분이 약분돼서 사라지고, 앞의 r개 곱만 딱 남아!

Q&A — 내가 헷갈렸던 것

순열 공식 — 전체를 다 뽑는 ₙPₙ의 경우

Q: ₙPₙ이면 n-r=0이 되는데, 0!은 오류 아니야?

0! = 1 이다! 오류 안 나고 완벽하게 작동해.

₄P₄ = 4! / (4-4)! = 4! / 0! = 24 / 1 = 24

왜 0! = 1인가?

직관: "0명을 줄 세우는 방법" = 아무것도 안 하는 것 = 딱 1가지

패턴: 팩토리얼을 역으로 따라가면 자연스럽게 나옴 ↓

4! = 5!/5 = 24
3! = 4!/4 = 6
2! = 3!/3 = 2
1! = 2!/2 = 1
0! = 1!/1 = 1 ← 패턴이 자연스럽게 1!

0! = 1이 아니면 ₙPₙ = n! 이라는 당연한 결과가 깨지니까, 수학에서 0! = 1로 약속한 거야.

📐 확률의 덧셈법칙

A B A∩B
P(A∪B) = P(A) + P(B) − P(A∩B)
"A 또는 B" = A확률 + B확률 − 겹치는 부분

왜 빼줘야 하나? A에도 들어있고 B에도 들어있는 부분을 두 번 더했으니까 한 번 빼줘야 해!

학생 40명: 경제학 25명, 경영학 30명, 둘 다 수강 20명

경제학 또는 경영학 수강 확률 = ?

1

P(A) = 25/40, P(B) = 30/40, P(A∩B) = 20/40

2
P(A∪B) = 25/40 + 30/40 − 20/40 = 35/40

서로 배반사건 (A∩B = ∅)이면: P(A∪B) = P(A) + P(B) (겹침이 없으니 그냥 더하면 됨). 반대로 여사건P(Aᶜ) = 1−P(A)
적어도 1개 문제에서 필살기!

P(적어도1개) = 1−P(하나도없음)
은 "A가 안 일어나는 것"!

🔍 조건부확률

B가 일어났을 때 A가 일어날 확률
P(A|B) = P(A∩B) / P(B)
"B라는 조건 하에서 A의 확률"

전체 세상을 B로 축소해서 생각하는 거야. 조건부확률P(A|B) = P(A∩B)/P(B)
B일 때 A의 확률. B로 세상을 축소해서 봄
= "B라는 조건 하에서 A의 확률"

"여자인 걸 이미 아는 상태에서, 안경 쓸 확률은?" → 전체가 아니라 여자 중에서만 보면 돼.

학과: 남자 30명 (안경 10명), 여자 20명 (안경 8명)

한 명 뽑았더니 여자. 이 학생이 안경 쓸 확률은?

1

F = 여자, G = 안경 착용

P(F) = 20/50, P(G∩F) = 8/50

2
P(G|F) = P(G∩F)/P(F) = (8/50)/(20/50) = 8/20 = 2/5
Q&A — 내가 헷갈렸던 것

조건부확률 예제 — 남자 30명(안경10), 여자 20명(안경8) 문제에서

Q: 여자 중 안경 확률이면 그냥 8/20 아니야? 왜 굳이 P(G∩F)/P(F)로 풀어?

직관(8/20)이 맞아! 공식으로 풀어도 같은 답이 나와:

# 직관: 여자 20명으로 세상 축소 → 그 중 안경 8명
= 8/20 = 2/5

# 공식: 전체 50명 기준으로 계산
= P(G∩F)/P(F) = (8/50)/(20/50) = 2/5
# ↑ 분자분모에서 /50이 약분돼서 결국 8/20!

그럼 공식은 왜 배워? → 숫자가 아닌 확률값만 주어질 때 필요해!

예: P(A∩B)=0.15, P(B)=0.3만 알 때 → P(A|B) = 0.15/0.3 = 0.5 (직관으로 못 풀어!)

Q&A — 내가 헷갈렸던 것

조건부확률 예제 — P(G∩F) = 8/50의 의미를 이해할 때

Q: P(G∩F)는 P(G) × P(F)가 아니야? "교집합"이니까 각각의 확률을 곱하는 거 아닌가?

아니야! ∩(교집합)은 "곱하기"가 아니라 "동시에 만족하는 것"

P(G∩F) = 전체 50명 중 "여자이면서 안경 쓴 사람" = 8/50

안경 O안경 X합계
남자102030
여자8 ← G∩F!1220
합계183250
P(G∩F) = 8/50 = 0.16 ← 표에서 교차 칸 읽기
P(G)×P(F) = 18/50 × 20/50 = 0.144 ← 다른 값!

P(G∩F) = P(G)×P(F)가 성립하는 건 "독립"일 때만!

이 문제에서는 0.16 ≠ 0.144이니까 성별과 안경은 독립이 아니다.

Q&A — 내가 헷갈렸던 것

조건부확률 P(A|B) = P(A∩B)/P(B)를 배울 때

Q: P(A∩B) "A이면서 B일 확률"과 P(A|B) "B일 때 A일 확률"이 뭐가 달라? 같은 말 아니야?

분자는 같고, 분모(기준)가 다르다!

# 1년 365일, 비 온 날 110일, 비+사고 7일

P(비 ∩ 사고) = 7 / 365 = 0.02 ← 전체 날 기준
P(사고|비) = 7 / 110 = 0.067 ← 비 온 날만 기준

분자(7일)는 같은데, 분모가 다르다!
P(A ∩ B)P(A | B)
읽기A 그리고 B (동시에)B 일 때 A
분모 (기준)전체B만
느낌전체 중 얼마나?B 안에서 얼마나?

곱셈법칙 (조건부확률 뒤집기)

P(A∩B) = P(B) × P(A|B)
동시에 일어날 확률 = 하나 먼저 × 그 조건에서 나머지

🔗 독립사건

독립 ✓

A가 일어나든 말든 B의 확률에 영향 없음. 독립독립사건
P(A∩B) = P(A)×P(B)이면 독립. 하나를 알아도 다른 하나의 확률이 안 변함
이란 이런 것!

P(A∩B) = P(A) × P(B)

예: 동전 첫번째 앞면 & 두번째 앞면

종속 (독립 아님) ✗

A가 일어나면 B의 확률이 바뀜

P(A∩B) ≠ P(A) × P(B)

예: 주사위 "첫눈=2" & "합=5"

주사위 두 번 던지기: A = 첫눈 2, B = 합이 5

P(A) = 6/36 = 1/6, P(B) = 4/36 = 1/9

P(A)×P(B) = 1/54

P(A∩B) = P({(2,3)}) = 1/36

1/36 ≠ 1/54 → 독립이 아니다!

여사건의 확률

P(Aᶜ) = 1 − P(A)
"A가 안 일어날 확률" = 1 - "A가 일어날 확률"

"적어도 1개" 문제여사건P(Aᶜ) = 1−P(A)
적어도 1개 문제에서 필살기!

P(적어도1개) = 1−P(하나도없음)
이 훨씬 쉬워!

P(적어도 1개) = 1 − P(하나도 없음)

상자에 6개 제품 중 불량 2개. 3개 추출할 때 적어도 1개 불량 확률?

Aᶜ = 불량 0개 = 양품 4개 중 3개 뽑기

P(Aᶜ) = ₄C₃ / ₆C₃ = 4/20 = 1/5

P(A) = 1 − 1/5 = 4/5

4강 핵심 정리

  • 표본공간(S) = 모든 가능한 결과, 사건 = 관심 있는 결과의 부분집합
  • 순열 ₙPᵣ (순서 O) vs 조합 ₙCᵣ (순서 X)
  • 덧셈법칙: P(A∪B) = P(A) + P(B) − P(A∩B)
  • 조건부확률: P(A|B) = P(A∩B) / P(B)
  • 곱셈법칙: P(A∩B) = P(B) × P(A|B)
  • 독립: P(A∩B) = P(A)×P(B)이면 독립
  • 여사건: P(Aᶜ) = 1−P(A), "적어도" 문제에 활용
5

확률변수

🎰 확률변수란?

표본공간의 각 결과에 숫자를 붙여주는 함수

표본공간 S {앞, 앞} {앞, 뒤} {뒤, 앞} {뒤, 뒤} 확률변수 X 2 (확률 1/4) 1 (확률 2/4) 0 (확률 1/4)

동전 2번 던지기에서 "앞면 수"를 X라 하면:

{앞,앞} → X=2 / {앞,뒤}, {뒤,앞} → X=1 / {뒤,뒤} → X=0

이렇게 실험 결과를 숫자로 번역해주는 게 확률변수야!

이산형 확률변수
셀 수 있는 값
불량품 수, 사고 건수
연속형 확률변수
구간의 모든 값
전구 수명, 몸무게

📊 확률분포함수

이산형: 확률분포함수 p(x)

각 값의 확률을 표로 정리

X012
P(X=x)1/42/41/4

성질: 모든 확률 ≥ 0, 전체 합 = 1

연속형: 확률밀도함수 f(x)

P(a≤X≤b) a b

확률 = 곡선 아래 넓이(적분)

📈 누적확률분포함수 F(x)

P(X ≤ x)를 나타내는 함수. 확률을 "이하"로 누적해서 표현한 것.

동전 2개 던지기 (X = 앞면 수)

XP(X=x)F(x) = P(X≤x)
01/41/4
12/43/4
21/44/4 = 1

F(x)는 왼쪽부터 확률을 쌓아올리는 것! 항상 0에서 시작해서 1로 끝남.

주사위 2개 합의 확률분포 vs 누적확률분포

확률분포함수 p(x) — 산 모양

2 4 6 7 8 10 12 6/36

7이 꼭대기, 양쪽으로 대칭

누적확률분포함수 F(x) — S자 모양

1 2 4 7 10 12

가운데서 가파르게 올라가고, 끝에서 1에 도달

주사위 2개 합 (X = 두 눈의 합) 누적확률분포표

X23456789101112
P(X)1/362/363/364/365/366/365/364/363/362/361/36
F(X)1/363/366/3610/3615/3621/3626/3630/3633/3635/361

p(x) = 산 모양: 각 X값의 확률. 7 근처가 가장 높음

F(x) = S자 모양: 왼쪽부터 쌓아올린 것. p(x)가 큰 구간(7 근처)에서 가장 가파르게 올라감!

F(x)의 마지막은 반드시 1 (전체 확률의 합)

예제 3: 200가구 병원 방문 횟수 (강의록)

200가구를 조사 대상으로 지난 1년 동안 각 가구에서 병원 방문 횟수 조사

확률변수 X = "병원 방문 횟수"

병원방문 횟수01234
가구 수748030106200

확률분포함수 p(x):

각 가구 수 / 전체 200으로 나눔

X = x01234
P(X=x)0.370.400.150.050.03

누적확률분포함수 F(x):

왼쪽부터 확률을 쌓아올림

X = x01234
P(X≤x)0.370.770.920.971.00
1

P(X=0) = 74/200 = 0.37

2

P(X=1) = 80/200 = 0.40

F

F(1) = P(X≤1) = 0.37 + 0.40 = 0.77

F(2) = P(X≤2) = 0.77 + 0.15 = 0.92

이전 누적값에 현재 확률을 더하면 됨!

이 예제의 포인트:

실제 데이터(가구 수)에서 확률분포를 만드는 과정을 보여줘!

가구 수 / 전체 → 확률분포 → 누적하면 → 누적확률분포

주사위 예제와 달리 오른쪽 꼬리 형태 (0~1회 방문이 대부분, 4회는 극소수)

📋 이산형 확률분포의 성질

확률분포함수 p(x) = P(X = x)가 되려면 3가지 조건을 만족해야 해:

성질 1: 0 ≤ p(x) ≤ 1

각각의 확률은 0 이상 1 이하

음수 확률이나 1을 넘는 확률은 불가능!

성질 2: Σ p(x) = 1 (모든 확률의 합 = 1)

모든 x에 대해 확률을 다 더하면 반드시 1

= P(S) = 1 (4강 공리 2: "뭔가는 반드시 일어난다")

병원 예제: 0.37 + 0.40 + 0.15 + 0.05 + 0.03 = 1.00 ✓

성질 3: P(a < X ≤ b) = Σ p(x) (범위 안의 확률 합)

특정 범위의 확률 = 해당 범위에 있는 p(x)들만 더하면 됨

예: P(1 < X ≤ 3) = ?
→ X가 2, 3인 경우만 (1은 "초과"라 불포함!)
= P(X=2) + P(X=3) = 0.15 + 0.05 = 0.20

4강 확률의 공리와 연결:

이산형 확률분포 성질4강 확률의 공리
0 ≤ p(x) ≤ 1공리 1: 0 ≤ P(A) ≤ 1
Σ p(x) = 1공리 2: P(S) = 1
범위 확률 = 해당 p(x) 합공리 3: 배반사건 확률의 합

결국 4강에서 배운 확률 공리를 확률변수 버전으로 다시 쓴 것!

시험 함정! 부등호 방향 주의:

표현포함 범위병원 예제 (P)
P(1 < X ≤ 3)X = 2, 3 (1 불포함)0.15 + 0.05 = 0.20
P(1 X ≤ 3)X = 1, 2, 3 (1 포함!)0.40 + 0.15 + 0.05 = 0.60
P(1 ≤ X < 3)X = 1, 2 (3 불포함)0.40 + 0.15 = 0.55

< (미만/초과) = 그 값 불포함 / ≤ (이하/이상) = 그 값 포함

🔀 이산형 vs 연속형 확률변수 비교

이산형

값을 하나하나 셀 수 있음

예: 불량품 수, 사고 건수, 앞면 수

P(X=특정값) → 가능!

각 막대에 확률이 붙어있음

함수: 확률분포함수 p(x)

연속형

값이 무한히 많음 (실수)

예: 몸무게, 출근시간, 전구 수명

P(X=특정값) = 항상 0!

구간의 넓이만 구할 수 있음

함수: 확률밀도함수 f(x)

이산형연속형
확률 구하는 법해당 값의 확률 더하기구간의 넓이(적분)
기댓값E(X) = μ
평균적으로 기대하는 값.
이산형: Σxᵢ·f(xᵢ) = 각 값 × 확률, 전부 더하기
Σ xᵢ · f(xᵢ)∫ x · f(x) dx
P(X < 3) vs P(X ≤ 3)다르다! X=3 확률이 있으니까같다! X=3 하나의 확률이 0이니까

시험 포인트: 연속형에서 P(X < 3) = P(X ≤ 3) 이건 함정으로 나올 수 있어!

이산형에서는 <와 ≤가 다르지만, 연속형에서는 같다!

🔄 연속형: 히스토그램 → 확률밀도함수

출근 소요시간 X: 100일간 데이터를 상대도수 히스토그램으로 그려보면...

P(30 ≤ X < 50) = 10/100 + 20/100 = 0.3 (해당 구간의 상대도수 합)

데이터를 무한히 모으면 히스토그램 → 매끄러운 곡선 = 확률밀도함수 f(x)

연속형의 확률 = 곡선 아래 넓이

넓이=확률 a b

P(a ≤ X ≤ b) = 색칠된 넓이 = ∫f(x)dx

확률밀도함수 f(x)의 성질 3가지:

① f(x) ≥ 0 (음수 없음)

② 전체 곡선 아래 넓이 = 1

③ P(a ≤ X ≤ b) = ∫f(x)dx (a에서 b까지 넓이)

적분 계산은 이 수업에서 직접 안 해! 6강에서 정규분포 표를 써서 구하는 법을 배워.

P(X = 특정값) = 0인 이유:

출근시간이 "정확히 32.000000...분"일 확률?

32.0분? 32.00001분? 32.000001분? 무한히 많은 값 중 딱 하나 = 확률 0

그래서 연속형은 항상 P(a ≤ X ≤ b) 구간으로 물어봐!

🎯 기댓값(평균)과 분산

먼저, 기호 읽는 법

기호읽기의미
E(X)"X의 기댓값"평균적으로 기대하는 값
μ"뮤"기댓값의 다른 이름. E(X) = μ
Var(X)"X의 분산"평균에서 얼마나 퍼져 있나
σ²"시그마 제곱"분산의 다른 이름. Var(X) = σ²
σ"시그마"표준편차 = √분산
Σ"시그마" (대문자)"전부 더해라"
xᵢ"x i"X가 될 수 있는 각 값
f(xᵢ)"f of x i"P(X = xᵢ), 그 값의 확률
기댓값 (이산형)
E(X) = μ = Σ xᵢ · f(xᵢ)
각 값 × 확률의 합
분산 (이산형)
Var(X) = σ² = Σ(xᵢ−μ)² · f(xᵢ)
편차제곱 × 확률의 합

풀어서 읽으면:

E(X) = (값₁ × 확률₁) + (값₂ × 확률₂) + (값₃ × 확률₃) + ...

Var(X) = ((값₁−평균)² × 확률₁) + ((값₂−평균)² × 확률₂) + ...

2강과의 차이:

2강 표본평균: x̄ = Σxᵢ / n → 개수로 나누기

5강 기댓값: E(X) = Σxᵢ · f(xᵢ) → 확률을 곱하기

확률이 이미 비율이니까 나눌 필요 없이 곱하면 됨!

자동차 판매소 1주일 판매대수

X (대수)012345
P(X=x)0.10.10.20.30.20.1
E
E(X) = 0×0.1 + 1×0.1 + 2×0.2 + 3×0.3 + 4×0.2 + 5×0.1 = 2.7대

기댓값E(X) = μ
평균적으로 기대하는 값.

이산형: Σxᵢ·f(xᵢ) = 각 값 × 확률, 전부 더하기
= "평균적으로 기대할 수 있는 값"

표본평균(x̄)은 실제 데이터의 평균이고,

기댓값(μ)은 확률적으로 이론상 "나올 것 같은" 평균이야.

무한히 반복하면 표본평균 → 기댓값으로 수렴해!

✏️ 기댓값·분산 계산 예제

X = 동전 2개 던질 때 앞면 횟수

XP(X=x)x·P(x−μ)²·P
01/40(0−1)²×1/4 = 1/4
12/42/4(1−1)²×2/4 = 0
21/42/4(2−1)²×1/4 = 1/4
합계E(X)=1Var(X)=1/2

기댓값과 표본평균의 관계:

표본평균(x̄)은 실제 데이터의 평균, 기댓값(μ)은 이론적 평균.

실험을 무한히 반복하면 x̄ → μ로 수렴! (나중에 7강 '표본분포'와 연결)

분산 간편 공식 — E(X²) 활용

분산Var(X) = σ²
평균에서 얼마나 퍼져 있나.

간편공식: E(X²)−[E(X)]² = 제기−기제
을 매번 (값−평균)² 으로 구하면 귀찮아. 더 빠른 방법이 있어!

분산 간편 공식
Var(X) = E(X²) − [E(X)]²
"X제곱의 기댓값" − "기댓값의 제곱"
E(X) — 값 × 확률
Σ xᵢ · f(xᵢ)
E(X²) — 값² × 확률
Σ xᵢ² · f(xᵢ)
x를 제곱해서 넣기!

자동차 판매소 예제로 계산:

xᵢ012345
f(xᵢ)0.10.10.20.30.20.1
xᵢ·f(xᵢ)00.10.40.90.80.5
xᵢ²·f(xᵢ)00.10.82.73.22.5
1
E(X) = 0+0.1+0.4+0.9+0.8+0.5 = 2.7
2
E(X²) = 0+0.1+0.8+2.7+3.2+2.5 = 9.3
3
Var(X) = E(X²) − [E(X)]² = 9.3 − 2.7² = 9.3 − 7.29 = 2.01

왜 간편 공식이 더 좋아?

원래 공식: (0−2.7)²×0.1 + (1−2.7)²×0.1 + ... → 매번 빼고 제곱 😩

간편 공식: E(X²) − [E(X)]² → 두 값만 구하면 끝! 😊

시험에서는 거의 간편 공식으로 풀어!

🔄 aX + b의 기댓값과 분산

E(aX + b) = a·E(X) + b
기댓값: a도 곱하고 b도 더함
Var(aX + b) = a²·Var(X)
분산: a의 제곱만 곱함! b는 사라짐!

분산에서 b가 사라지는 이유: 데이터 전체에 같은 수를 더하면(+b) 위치만 옮겨가고 퍼진 정도는 안 변해!

a가 제곱되는 이유: 분산은 편차의 "제곱"이니까, a배 늘리면 a²배 늘어나!

📏 표준화 (Standardization)

평균 μ, 표준편차 σ인 확률변수 X를
Z = (X − μ) / σ
로 변환하면 → E(Z) = 0, Var(Z) = 1
원래 X μ (X−μ)/σ 표준화 Z 0

표준화Z = (X−μ)/σ
평균에서 표준편차 몇 개만큼 떨어져 있나.

결과: 평균=0, 분산=1
하나?

수학 점수(평균 60, 표준편차 10)와 영어 점수(평균 80, 표준편차 5)를 직접 비교할 수 없지?

둘 다 표준화하면 "평균에서 몇 표준편차σ = √분산
평균에서 보통 얼마나 떨어져 있나. 분산은 단위가 제곱이라 해석 어려움 → √ 씌워서 원래 단위로!
떨어져 있나"로 공정하게 비교 가능!

5강 핵심 정리

  • 확률변수 = 실험 결과에 숫자를 대응시키는 함수
  • 기댓값 E(X) = Σ xᵢ·f(xᵢ), 분산 Var(X) = Σ(xᵢ−μ)²·f(xᵢ)
  • E(aX+b) = aE(X)+b, Var(aX+b) = Var(X)
  • 표준화: Z = (X−μ)/σ → 평균 0, 분산 1
6

확률분포와 표본분포 1

🪙 이항분포 B(n, p)

성공률 p인 실험을 n번 독립독립사건
P(A∩B) = P(A)×P(B)이면 독립. 하나를 알아도 다른 하나의 확률이 안 변함
반복 → 성공 횟수 X의 분포. 이항분포X~B(n,p)
성공률p인 실험을 n번 반복 → 성공횟수.

E(X)=np, Var(X)=np(1-p)
는 가장 기본적인 이산형 확률분포야!

조건 1
결과가 2가지
(성공/실패)
조건 2
매번 같은 확률 p
조건 3
각 시행이 독립
P(X=x) = ₙCₓ · pˣ · (1−p)ⁿ⁻ˣ
E(X) = np
Var(X) = np(1−p)

공식의 각 항목 해설

기호읽기의미예: 동전5번 중 앞면2번
X ~ B(n, p)"X는 B(n,p)를 따른다"시행n번, 성공률p인 이항분포X ~ B(5, 0.5)
n시행 횟수 (몇 번 하나)5번 던짐
p한 번에 성공할 확률1/2 (앞면)
(1−p)한 번에 실패할 확률1/2 (뒷면)
x구하려는 성공 횟수2 (앞면 2번)
ₙCₓ"n choose x"n번 중 x번 성공하는 조합 수₅C₂ = 10가지
"p의 x제곱"성공 x번의 확률(1/2)² = 1/4
(1−p)ⁿ⁻ˣ실패 (n-x)번의 확률(1/2)³ = 1/8

한국어로 읽으면:

P(X=x) = (어떤 순서로) × (성공이 x번) × (실패가 나머지번)

조합(ₙCₓ)을 곱하는 이유: "앞앞뒤뒤뒤", "앞뒤앞뒤뒤" 등 같은 성공 횟수여도 배치가 여러 가지니까!

사례: 공정한 동전을 5번 던지는 실험 (강의록)

X = 5번 던져서 나온 앞면의 수 → x = 0, 1, 2, 3, 4, 5

n = 5, p = 0.5 → X ~ B(5, 0.5)

!

앞면이 한 번도 안 나올 확률 P(X=0) = ?

P(X=0) = ₅C₀ × (1/2)⁰ × (1/2)⁵
= 1 × 1 × 1/32 = 1/32

₅C₀ = 1 (아무것도 안 뽑는 방법 = 1가지), (1/2)⁰ = 1 (뭐든 0제곱은 1)

R 함수: dbinom(x, n, p)dbinom(0, 5, 0.5) = 1/32

R에서 이항분포 계산하기

R 함수하는 일예시
dbinom(x, n, p)P(X = x) 정확히 x번 성공 확률dbinom(0, 5, 0.5) → 1/32
pbinom(x, n, p)P(X ≤ x) 누적확률 (x 이하)pbinom(2, 5, 0.5) → P(X≤2)
qbinom(p, n, prob)누적확률이 p가 되는 x값qbinom(0.5, 5, 0.5)
rbinom(k, n, p)랜덤으로 k번 시뮬레이션rbinom(1000, 5, 0.5)

d/p/q/r 패턴: 모든 분포에서 같아!

d = density (확률값)   p = probability (누적확률)   q = quantile (역함수)   r = random (시뮬레이션)

정규분포면 dnorm, pnorm, qnorm, rnorm — 앞글자만 바뀌고 구조는 같아!

R에서 정규분포 계산하기 — pnorm()

R 함수하는 일예시
pnorm(x, μ, σ)P(X ≤ x) 누적확률pnorm(94.3, 70, 10) → 0.9925
pnorm(z, 0, 1)P(Z ≤ z) 표준정규 누적확률pnorm(2.43, 0, 1) → 0.9925
dnorm(x, μ, σ)f(x) 확률밀도값거의 안 씀
qnorm(p, μ, σ)누적확률 p가 되는 x값qnorm(0.975, 0, 1) → 1.96
rnorm(k, μ, σ)랜덤 k개 생성rnorm(1000, 70, 10)

실전 사용법:

# P(X < 94.3), X~N(70, 10²) — 두 가지 방법 다 같은 답!
pnorm(94.3, 70, 10) # X값 직접 넣기
pnorm(2.43, 0, 1) # Z로 변환해서 넣기

# P(X > 57.7) — "보다 큰"이니까 1에서 빼기!
1 - pnorm(57.7, 70, 10) # → 0.8907

# P(60 < X < 90) — 빼기!
pnorm(90, 70, 10) - pnorm(60, 70, 10)

pnorm 핵심 패턴:

"이하/미만": pnorm(x, μ, σ) 그대로

"이상/초과": 1 - pnorm(x, μ, σ) 1에서 빼기

"사이": pnorm(b, μ, σ) - pnorm(a, μ, σ) 두 개 빼기

보험 영업사원: 가입 확률 20%, 오늘 고객 10명 방문

3명이 가입할 확률? → n=10, p=0.2, X~B(10, 0.2)

1
P(X=3) = ₁₀C₃ × 0.2³ × 0.8⁷
2
= 120 × 0.008 × 0.2097 = 0.2013

평균기댓값 E(X)
"평균적으로 기대하는 값"

E(X) = np (이항분포)
일반: E(X) = Σ xᵢ · f(xᵢ)
= 각 값 × 확률, 전부 더하기 = 10×0.2 = 2명, 분산Var(X) = σ²
"평균에서 얼마나 퍼져 있나"
Var(X) = np(1−p) (이항분포)
일반: Var(X) = E(X²) − [E(X)]²
= "제기 − 기제"
= 10×0.2×0.8 = 1.6

2명 이상 가입 확률? → "이상"은 여사건이 편해!

P(X ≥ 2) = 1 − P(X=0) − P(X=1)

또는 누적확률분포표에서 P(X ≤ 1)을 찾아서 1에서 빼기!

이항분포 확률 계산 팁:

"이하": 누적확률분포표에서 바로 읽기

"이상": 1 − P(X ≤ k-1)

"~에서 ~까지": P(X ≤ b) − P(X ≤ a-1)

5강과 6강의 관계:

5강 = "확률분포함수를 일일이 만드는 원리" (표본공간 나열 → 확률 계산)

6강 = "자주 나오는 패턴에 공식을 줌" (이항분포면 공식에 대입만!)

"이항분포 확률"이란? = 이항분포 공식에 x값을 넣어서 나온 P(X=x) 값들. 이걸 전부 모으면 확률분포표!

이항분포 확률계산 2: 당첨률 30% 복권 8장 구입 (강의록)

X = 당첨된 복권 수 → X ~ B(8, 0.3)

누적확률분포표 (n=8, p=0.3):

x012345678
P(X≤x).058.255.552.806.942.989.9991.001.00
1

4장이 당첨될 확률? → "딱 4장"

P(X=4) = P(X≤4) − P(X≤3) = .942 − .806 = 0.136

누적표에서 "딱 그 값" 구하기: P(X=k) = P(X≤k) − P(X≤k-1)

2

3장에서 7장이 당첨될 확률? → "~에서 ~까지"

P(3≤X≤7) = P(X≤7) − P(X≤2) = 1.00 − .552 = 0.448

P(a≤X≤b) = P(X≤b) − P(X≤a-1)

3

6장 이상이 당첨될 확률? → "이상" = 여사건!

P(X≥6) = 1 − P(X≤5) = 1 − .989 = 0.011

P(X≥k) = 1 − P(X≤k-1)

누적확률분포표 활용법 정리:

문제 키워드수식표에서 하는 일
"딱 x개"P(X=x) = P(X≤x) − P(X≤x-1)두 칸 빼기
"x개 이하"P(X≤x)표에서 바로 읽기
"x개 이상"1 − P(X≤x-1)1에서 빼기
"a~b개 사이"P(X≤b) − P(X≤a-1)두 칸 빼기

이항분포 B(5, 0.5) 모양

1/32
0
5/32
1
10/32
2
10/32
3
5/32
4
1/32
5

동전 5번 던질 때 앞면 수의 확률분포 (대칭!)

🎱 초기하분포

N개(성공 D개, 실패 N-D개)에서 n개를 비복원추출할 때 성공 수

P(X=x) = ᴅCₓ · ₍ₙ₋ᴅ₎C₍ₙ₋ₓ₎ / ₙCₙ
E(X) = np (p=D/N)
Var(X) = np(1-p)·(N-n)/(N-1)

흰공 3개 + 검은공 2개에서 2개 뽑기. X = 검은공 수

P(X=0) = ₂C₀·₃C₂ / ₅C₂ = 1×3/10 = 3/10

P(X=2) = ₂C₂·₃C₀ / ₅C₂ = 1×1/10 = 1/10

이항분포X~B(n,p)
성공률p인 실험을 n번 반복 → 성공횟수.

E(X)=np, Var(X)=np(1-p)
vs 초기하분포:

이항 = 복원추출 (매번 확률 같음) / 초기하 = 비복원추출 (뽑을수록 확률 변함)

N이 n에 비해 매우 크면 초기하 ≈ 이항 (비복원이어도 확률 변화가 미미)

분산의 (N−n)/(N−1)은 "유한모집단 보정인수"야.

N이 매우 크면 이 값 ≈ 1이 되어 이항분포 분산 np(1−p)와 같아져!

N이 n에 가까우면 보정인수가 작아져서 분산도 작아짐 (거의 다 뽑으면 변동이 줄어드니까)

포아송분포 Poisson(m)

단위 시간/공간당 드물게 발생하는 사건의 횟수. 포아송분포X~Poisson(m)
단위당 드문 사건 횟수.

E(X)=Var(X)=m (평균=분산!)
의 핵심은 평균과 분산이 같다는 것!

P(X=x) = e⁻ᵐ · mˣ / x!
E(X) = m포아송 기댓값
m = 단위당 평균 발생률
E(X) = m
일반: E(X) = Σxᵢ · f(xᵢ)
Var(X) = m포아송 분산
포아송의 특징: 평균 = 분산!
Var(X) = m
일반: Var(X) = E(X²)−[E(X)]²
(평균 = 분산!)

은행 하루 평균 불량수표 6건. 어떤 날 정확히 4건 받을 확률?

!
P(X=4) = e⁻⁶ × 6⁴ / 4! = 0.00248 × 1296 / 24 ≈ 0.1339

포아송분포를 적용하기 위한 3가지 가정

① 독립성
서로 다른 단위에서의
발생이 독립
② 비집락성
극히 작은 단위에서
둘 이상 발생 확률 ≈ 0
③ 비례성
단위당 평균 발생률이
일정

포아송분포 적용 예시들:

하루 교통사고 사망자 수
1시간 전화 통화 수
야구 한 경기 홈런 수
1주일 사망신고 수

포아송의 핵심 특징: 평균 = 분산 = m (둘이 같다!)

📐 확률밀도함수 f(x)의 성질 (연속형 확률분포의 기본!)

연속형 확률분포에서는 확률분포함수 대신 확률밀도함수 f(x)를 쓴다. 3가지 성질:

성질 1: f(x) ≥ 0

확률밀도는 항상 0 이상. 곡선이 x축 아래로 내려가지 않음!

성질 2: ∫f(x)dx = 1 (전체 넓이 = 1)

곡선 아래 전체 넓이가 1. "뭔가는 반드시 일어난다"

= P(−∞ < X < ∞) = 1 (이산형의 Σp(x)=1과 같은 뜻!)

성질 3: P(a < X ≤ b) = ∫ₐᵇ f(x)dx

구간 확률 = 곡선 아래 넓이(적분)

넓이=확률 a b f(x)

P(a < X ≤ b) = 보라색 넓이 = ∫ₐᵇ f(x)dx

이산형 vs 연속형 비교:

이산형: P(X=x) = 막대 하나의 높이 → 전부 더하면 1

연속형: P(a넓이 → 전체 넓이가 1

적분 직접 계산은 안 해! 정규분포 표를 써서 구해 (바로 다음에 배움)

🔔 정규분포 N(μ, σ²)

통계학에서 가장 중요한 분포. 정규분포X~N(μ,σ²)
종모양, μ에 대해 대칭.

표준화: Z=(X-μ)/σ → N(0,1)
는 종모양, μ에 대해 좌우 대칭.

"확률변수 X는 평균 μ, 표준편차 σ인 정규분포를 따른다"

X ~ N(μ, σ²)

확률밀도함수:

f(x) = (1/√2πσ) × exp[−(x−μ)²/2σ²]
−∞ < x < ∞ (모든 실수값 가능)

이 공식을 외울 필요는 없어! 시험에서 직접 계산 안 함.

알아야 할 것: μ와 σ만 알면 정규분포의 모양이 완전히 결정된다!

μ와 σ가 정규분포를 결정:

바꾸면효과
μ (평균)종이 좌우로 이동
σ (표준편차)종이 넓어지거나 좁아짐
σ 큼 σ 중간 σ 작음 μ

μ는 중심 위치, σ는 퍼진 정도를 결정

μ를 바꾸면 → 종이 좌우로 이동

σ를 바꾸면 → 종이 넓어지거나 좁아짐

μ와 σ만 알면 정규분포의 모양이 완전히 결정돼!

📋 표준정규분포와 확률 계산

어떤 정규분포X~N(μ,σ²)
종모양, μ에 대해 대칭.

표준화: Z=(X-μ)/σ → N(0,1)
표준화Z = (X−μ)/σ
평균에서 표준편차 몇 개만큼 떨어져 있나.
결과: 평균=0, 분산=1
하면 N(0,1)이 되고, 표준정규분포표로 확률을 구할 수 있어!

X ~ N(μ, σ²)
Z = (X−μ)/σ
Z ~ N(0, 1)
표에서 확률 찾기

예제 1: X ~ N(70, 10²). P(X < 94.3) = ?

1
Z = (94.3 − 70) / 10 = 2.43
2

표준정규분포표에서 Z=2.43 찾기 → P(Z < 2.43) = 0.9925

예제 2: 통근시간 X ~ N(40, 5²). P(X ≥ 50) = ?

1
Z = (50 − 40) / 5 = 2.0
2

P(Z ≥ 2.0) = 1 − P(Z < 2.0) = 1 − 0.9772 = 0.0228

P(X > a) 구할 때: 표는 보통 P(Z < z) 형태이므로 1에서 빼야 해!

P(Z > z) = 1 − P(Z < z)

공식을 한국어로 읽기

공식 1: P(X < x)

P(X < x) = P(Z < (x−μ)/σ)

"X가 x보다 작을 확률" = "Z가 (x를 표준화한 값)보다 작을 확률"

하는 일: x라는 숫자를 Z세계 숫자로 바꾼 것. 확률은 그대로!

공식 2: P(a < X < b)

P(a < X < b) = P((a−μ)/σ < Z < (b−μ)/σ)

"X가 a~b 사이일 확률" = "Z가 (a를 표준화)~(b를 표준화) 사이일 확률"

양쪽 다 표준화했을 뿐, 확률은 그대로!

원리: 부등호 양쪽에 같은 연산(−μ, ÷σ)을 하는 것!

양변에 같은 걸 빼고 나눠도 부등호 방향은 안 변해 → 확률 그대로!

Q&A — 내가 헷갈렸던 것

정규분포의 표준화 공식을 볼 때

Q: Z가 뭐야? 왜 x를 표준화한 건 z라고 안 써?

Z = (X−μ)/σ = "평균에서 표준편차 몇 개만큼 떨어져 있나"

X = 확률변수 → Z = X를 표준화한 확률변수
x = 구체적 숫자 → (x−μ)/σ = x를 표준화한 숫자

강의록에서 z 대신 (x−μ)/σ를 그대로 쓴 이유:
"이 숫자가 어떻게 나왔는지" 보여주려고!
z라고 쓰면 깔끔하지만 유도 과정이 안 보임
Q&A — 외계어 → 한국어 번역 모음

수학 기호가 한국어로 읽히면 공식이 무섭지 않다!

기호읽기한국어 뜻
~"따른다"X ~ N(0,1) = "X는 N(0,1)을 따른다"
E(X)"X의 기댓값"평균적으로 기대하는 값
Var(X)"X의 분산"얼마나 퍼져 있나
Σ"시그마 (합)"전부 더해라
μ"뮤"평균
σ / σ²"시그마 / 시그마제곱"표준편차 / 분산
P(X=x)X가 딱 x일 확률
P(X≤x)X가 x 이하일 확률
P(A|B)"B given A"B일 때 A일 확률
P(A∩B)"A 교집합 B"A이면서 동시에 B일 확률
∫f(x)dx"적분"곡선 아래 넓이
ₙCᵣ"n choose r"n개에서 r개 뽑기 (순서 무관)
n!"n 팩토리얼"n부터 1까지 곱하기
Z=(X−μ)/σ"표준화"평균 빼고 표준편차로 나누기

📊 표준정규분포표 실전 사용법

시험에서 주어지는 표의 형태: P(0 ≤ Z ≤ z)

"0에서 z까지의 넓이만" 알려줌. 전체 확률을 구하려면 0.5를 활용!

Z가 양수인지 음수인지는 자동으로 결정!

X ~ N(70, 10²) 일 때:

X = 94.3 → Z = (94.3−70)/10 = +2.43 ← 평균보다 크니까 양수!
X = 57.7 → Z = (57.7−70)/10 = −1.23 ← 평균보다 작으니까 음수!
X = 70.0 → Z = (70.0−70)/10 = 0 ← 딱 평균이면 0!

부등호 방향 = 색칠 방향

P(Z < 2.43) — 왼쪽 색칠

2.43

P(Z > −1.23) — 오른쪽 색칠

-1.23

표에서 확률 구하기 패턴 (P(0≤Z≤z) 형태 표 기준)

구하려는 것계산법그림예시
P(Z < +z)0.5 + 표값왼쪽절반 + 0~zP(Z<2.43) = 0.5+0.4925 = 0.9925
P(Z > +z)0.5 − 표값오른쪽절반 − 0~zP(Z>1.23) = 0.5−0.3907 = 0.1093
P(Z < −z)0.5 − 표값대칭! = P(Z>+z)P(Z<−1.23) = 0.5−0.3907 = 0.1093
P(Z > −z)0.5 + 표값대칭! = P(Z<+z)P(Z>−1.23) = 0.5+0.3907 = 0.8907
P(a < Z < b)표값(b) − 표값(a)두 구간 차이P(0.5<Z<2.0) = 0.4772−0.1915

정규분포 확률계산 1 (강의록)

X ~ N(70, 10²)

1

P(X < 94.3) = ?

Z = (94.3−70)/10 = +2.43 (양수 → 평균 오른쪽)
P(Z < 2.43) = 0.5 + P(0≤Z≤2.43) = 0.5 + 0.4925 = 0.9925

R: pnorm(94.3, 70, 10) 또는 pnorm(2.43, 0, 1)

2

P(X > 57.7) = ?

Z = (57.7−70)/10 = −1.23 (음수 → 평균 왼쪽)
P(Z > −1.23) = 0.5 + P(0≤Z≤1.23) = 0.5 + 0.3907 = 0.8907

"보다 큰" + "음수Z" → 0.5 + 표값! (대칭이니까 P(Z<+1.23)과 같음)

R: 1 - pnorm(57.7, 70, 10)

표 읽기 핵심 원리:

표는 항상 "0에서 z까지 넓이"만 알려줌 → 0.5를 기준으로 더하거나 빼는 것!

정규분포는 좌우 대칭이니까 → 음수 Z는 양수로 바꿔서 표에서 찾고, 방향만 조절!

정규분포 확률계산 2: 통근시간 (강의록)

집에서 회사까지 통근 시간 X(분)는 정규분포 N(40, 5²)를 따름.

통근 시간이 50분 이상 걸릴 확률은?

1

정보 정리: X ~ N(40, 5²), μ=40, σ=5

구하려는 것: P(X ≥ 50) → "이상"이니까 1에서 빼기 패턴!

2

표준화:

Z = (50 − 40) / 5 = 2.0

50은 평균(40)보다 크니까 → Z = 양수!

3

부등호 변환:

P(X ≥ 50) = P(Z ≥ 2.0) = 1 − P(Z < 2.0)
4

표에서 찾기 (P(0≤Z≤z) 표 기준):

P(Z < 2.0) = 0.5 + P(0≤Z≤2.0) = 0.5 + 0.4772 = 0.9772
5

1에서 빼기:

P(Z ≥ 2.0) = 1 − 0.9772 = 0.0228 (약 2.28%)

R: 1 - pnorm(50, 40, 5)

40(μ) 50 2.28%

50분 이상 = 오른쪽 꼬리 부분 = 2.28%만!

예제: 제품 무게 X ~ N(500, 30²)일 때, 550g 이상일 확률은?

풀이: Z = (550−500)/30, P(X≥550) = 1 − pnorm(550, 500, 30)

6강 핵심 정리

  • 이항분포 B(n,p): 성공률p, n번 독립시행, 성공횟수. E=np, V=np(1-p)
  • 초기하분포: 비복원추출. N이 크면 이항분포와 비슷
  • 포아송분포 Poisson(m): 희귀 사건 횟수. E=V=m (평균=분산!)
  • 정규분포 N(μ,σ²): 종모양, μ에 대칭, μ와 σ가 모양 결정
  • 표준화: Z=(X−μ)/σ → N(0,1) → 표에서 확률 찾기
  • 표 사용: P(0≤Z≤z) 형태 → 0.5 기준으로 더하기/빼기
7

확률분포와 표본분포 2

📖 기본용어 복습 (1강 → 7강 연결)

통계적 추론 (Statistical Inference)

모집단에서 추출한 표본을 이용하여 모집단에 관한 추측이나 결론을 이끌어내는 과정

1강에서 배운 "추론"이 바로 이것! 7강에서 드디어 구체적인 방법을 배워.

모수 (Parameter)

모집단의 특성값 (예: 평균, 비율, 분산 등)

고정되어 있지만 대부분 알 수 없음 → 표본으로 추정해야!

모집단 전국 고등학교 3학년 남학생 추출 표본 일부 학생

1강 → 7강 흐름:

1강: 모집단/표본/모수/통계량이 뭔지 배움

2~3강: 데이터를 요약하는 법 (기술통계)

4~6강: 확률과 확률분포의 도구를 익힘

7강: 드디어 "표본으로 모집단을 추론"하는 핵심 이론! ← 지금 여기!

📖 기본용어 2

랜덤표본 (Random Sample)

모집단에서 랜덤하게 추출된 일부로, 서로 독립이며 동일한 분포를 따름

1강의 "단순랜덤표집"으로 뽑은 표본이 바로 이것!

표본추출변동

통계량 값이 표본에 따라 달라지는 것

같은 모집단에서 표본을 다시 뽑으면 평균이 조금씩 달라지지? 그게 표본추출변동!

표본분포 (표집분포, Sampling Distribution)

표본 통계량의 분포

표본을 수없이 뽑아서 매번 평균을 구하면 → 그 평균값들의 분포 = 표본분포!

표본분포를 쉽게 이해하면:

1000명 학생 중 10명씩 뽑아서 평균 키를 구하는 걸 100번 반복

→ 평균 키가 100개 나옴 (170.2, 169.8, 171.1, ...)

→ 이 100개의 평균값들이 만드는 분포 = 표본분포!

매번 값이 달라지는 것(표본추출변동)이 당연하고, 그 변동 패턴을 분석하는 거야.

📊 표본평균의 표본추출변동 사례

표본평균 X̄도 확률변수야! 표본을 새로 뽑을 때마다 X̄ 값이 달라지니까. 통계량통계량 (Statistic)
표본의 대푯값. 표본마다 값이 달라짐. 모수를 추정하기 위해 사용
인 X̄의 분포가 바로 표본분포야.

사례: 이산형 균등분포에서 랜덤추출 (강의록)

0, 1, 2, ..., 9의 정수값이 될 확률이 각각 0.1인 이산형 균등분포

0.1
0
0.1
1
0.1
2
0.1
3
0.1
4
0.1
5
0.1
6
0.1
7
0.1
8
0.1
9

원래 모집단: 평평한 균등분포 (종모양 아님!)

모집단의 평균: μ = E(X) = 4.5
모집단의 분산: σ² = Var(X) = 8.25

여기서 표본을 뽑아 평균을 구하면 매번 다른 값이 나와 (표본추출변동!)

이 표본평균들을 모아보면 → 원래 균등분포였는데 점점 종모양에 가까워져!

이게 바로 중심극한정리(CLT)의 핵심이야 — 바로 다음에 배움!

표본평균 X̄의 기댓값과 분산

X̄의 기댓값

E(X̄) = μ

모평균과 같다!

X̄의 분산

Var(X̄) = σ²/n

n이 커지면 분산이 줄어든다!

균등분포 사례에 적용:

# n=5로 뽑으면:
E(X̄) = μ = 4.5 (모평균과 같음!)
Var(X̄) = 8.25/5 = 1.65 (모분산의 1/5로 줄어듦!)

# n=100으로 뽑으면:
E(X̄) = 4.5 (여전히 같음!)
Var(X̄) = 8.25/100 = 0.0825 (엄청 작아짐!)

n이 커질수록 X̄이 μ 근처에 모여 → 추정이 정확해져!

핵심 직관: 표본 크기 n이 커질수록 X̄은 μ에 점점 가까워져!

1명한테만 물어보면 답이 들쭉날쭉하지만, 1000명한테 물어보면 평균이 안정적이잖아?

그게 바로 Var(X̄) = σ²/n → n이 커지면 분산이 줄어드는 거야.

n=5 n=30 n=100 μ

n이 커질수록 X̄의 분포가 μ 주변에 더 모여!

👑 중심극한정리 (CLT)

통계학에서 가장 중요한 정리!

아까 배운 것 (정규모집단)

모집단이 정규분포

→ X̄는 정확히 정규분포

n이 작아도 OK!

CLT (아무 모집단)

모집단이 아무 분포

→ n이 크면 X̄가 근사적으로 정규분포

이게 핵심 차이!

모집단이 어떤 분포든 상관없이

표본 크기 n이 충분히 크면

① X̄ ~ N(μ, σ²/n)

표본평균은 근사적으로 정규분포를 따른다!

② (X̄ − μ) / (σ/√n) ~ N(0, 1)

①을 표준화하면 표준정규분포!

②를 한국어로 읽으면:

(X̄ − μ) → 표본평균에서 모평균 빼기 (편차)

÷ (σ/√n) → 표본평균의 표준편차로 나누기

~ N(0,1) → 표준정규분포를 따른다

6강 표준화와 비교:

6강 (개인값)7강 (표본평균)
표준화Z = (X−μ) / σZ = (X̄−μ) / (σ/√n)
뭐가 다름?X 하나X̄ (n개의 평균)
분모σσ/√n (더 작음!)

σ/√n은 Var(X̄)=σ²/n의 제곱근! 표본평균의 표준편차야.

원래 모집단 (비대칭) n 커지면 →→→ X̄의 분포 (정규분포!)

중심극한정리CLT (Central Limit Theorem)
어떤 모집단이든 n이 크면 X̄ ≈ N(μ, σ²/n).

통계학에서 가장 중요한 정리!
가 왜 대단한가?

원래 모집단이 균등분포든, 지수분포든, 어떤 이상한 모양이든...

표본을 충분히 많이 뽑아서 평균을 내면 → 무조건 종모양(정규분포X~N(μ,σ²)
종모양, μ에 대해 대칭.

표준화: Z=(X-μ)/σ → N(0,1)
)에 가까워져!

덕분에 모집단의 분포를 몰라도 정규분포 표를 써서 추론할 수 있어.

정규모집단이면 → X̄는 정확히 정규분포 (n이 작아도)

비정규모집단이면 → n이 충분히 클 때만 근사적으로 정규분포 (보통 n ≥ 30)

🔄 이항분포의 정규근사

이항분포X~B(n,p)
성공률p인 실험을 n번 반복 → 성공횟수.

E(X)=np, Var(X)=np(1-p)
B(n, p)에서 n이 크면 정규분포로 근사할 수 있어!

왜 필요해?

이항분포 B(100, 0.3)에서 P(X ≥ 40) 구하려면 → P(X=40) + P(X=41) + ... + P(X=100) → 61개를 다 계산?!

정규근사: 정규분포로 바꿔서 Z표 하나로 끝!

X ~ B(n, p)이고 n이 충분히 크면
X ≈ N(np, np(1−p))
이항분포의 평균(np)과 분산(np(1-p))을 그대로 정규분포에 넣기!
표준화하면:
(X − np) / √(np(1−p)) ~ N(0, 1)
이항분포 평균 빼고, 이항분포 표준편차로 나누기 → Z표에서 찾기!

이건 CLT의 직접적인 응용이야!

이항분포 = 베르누이 시행을 n번 더한 것 → n이 크면 CLT에 의해 정규분포에 가까워짐

"근사적"이란? = 정확히 같진 않지만 n이 클수록 거의 같아짐! (대략적으로 맞다는 뜻)

n이 커질수록 이항분포 → 정규분포에 가까워지는 모습 (p=0.5)

n=2 — 각진 삼각형

0 1 2

n=5 — 좀 둥글어짐

n=10 — 종모양 보임!

n=25 — 정규분포 곡선과 거의 일치!

빨간 곡선 = N(np, np(1-p))

불량률 5%, 100개 추출. 불량품 3~7개일 확률?

1

X ~ B(100, 0.05) → 근사: X ~ N(5, 4.75)

μ = 100×0.05 = 5, σ² = 100×0.05×0.95 = 4.75, σ ≈ 2.179

2
P(3≤X≤7) = P((3-5)/2.179 ≤ Z ≤ (7-5)/2.179)
= P(-0.92 ≤ Z ≤ 0.92)
3

표에서: P(Z<0.92) − P(Z<−0.92) = 0.8212 − 0.1788 = 0.6424

📉 t-분포

σ를 모를 때 표본표준편차 S로 대체하면 → 정규분포가 아니라 t-분포t-분포
σ를 모를 때 사용.

t=(X̄−μ)/(S/√n) ~ t(n-1)
정규분포보다 꼬리가 두꺼움를 따라!

X₁,...,Xₙ이 N(μ, σ²)에서 온 표본이고 σ를 모르면
t = (X̄ − μ) / (S/√n) ~ t(n−1)
자유도 = n−1
N(0,1) t-분포 0

t-분포는 정규분포보다 꼬리가 두꺼움 (불확실성이 더 크니까)

σ를 아느냐 모르느냐가 갈림길!

σ 알면 → Z = (X̄−μ)/(σ/√n) ~ N(0,1)

σ 모르면 → t = (X̄−μ)/(S/√n) ~ t(n−1)

자유도 n이 커지면 t-분포 → 정규분포에 가까워짐

📏 모평균 μ의 구간추정

모수모수 (Parameter)
모집단의 대푯값. 고정되어 있지만 대부분 알 수 없음. 예: 전국 평균 주거비
인 μ를 점추정(하나의 값)이 아니라, 신뢰구간으로 범위를 제시하는 것

σ를 알 때 (100(1-α)% 신뢰구간)
X̄ ± zα/2 · σ/√n
σ를 모를 때 (t-분포 사용)
X̄ ± tα/2(n-1) · S/√n

신뢰구간이란? "이 범위 안에 진짜 모평균이 있을 거라고 95% 확신해!"

n이 커지면 → 구간이 좁아짐 (더 정밀한 추정)

신뢰수준을 높이면 → 구간이 넓어짐 (더 확실하려면 범위를 넓혀야)

🏭 모분산 추정이 왜 필요해? (강의록 사례)

지금까지 모평균(μ) 추정을 배웠는데, 모분산(σ²)도 추정해야 할 때가 있어!

사례 1: 거리측정기 정밀도 평가

같은 거리를 여러 번 측정했을 때

편차 작음 → 99.9, 100.0, 100.1 → 정밀! 양품!

편차 큼 → 97.0, 100.0, 103.0 → 불량!

모분산이 작아야 좋은 제품!

사례 2: 플라스틱판 공정관리

판 두께의 표준편차가 1.5mm보다 크면 → 공정 이상!

1.5mm 이하면 → 정상!

모표준편차(σ)를 추정해서 기준과 비교!

평균이 맞아도 분산이 크면 불량이야!

모평균 추정: "평균적으로 얼마야?" → μ 추정

모분산 추정: "얼마나 들쭉날쭉해?" → σ² 추정

모분산(σ²)의 점추정량 = 표본분산 S², 모표준편차(σ)의 점추정량 = 표본표준편차 S

📐 카이제곱(χ²) 분포와 F-분포

χ²-분포 → 모분산 추정용

(n−1)S²/σ² ~ χ²(n−1)

한국어: "(표본크기−1) × 표본분산 ÷ 모분산"은 자유도(n−1)인 카이제곱분포를 따른다

특징: 비대칭 분포, 자유도에 따라 모양 결정

F-분포 → 두 모분산 비교용

(S₁²/σ₁²) / (S₂²/σ₂²) ~ F(n₁−1, n₂−1)

특징: 분자·분모 자유도 2개, 비대칭 분포

모분산 추정이 중요한 사례:

거리측정기 → 측정 거리의 편차가 크면 불량품

플라스틱판 공장 → 두께의 표준편차가 1.5mm보다 크면 공정 이상

모분산(σ²)의 점추정량 = 표본분산 S², 모표준편차(σ)의 점추정량 = 표본표준편차 S

어떤 분포를 쓰느냐? → 뭘 추정하느냐에 따라 다름!

추정 대상σ 아는지사용 분포통계량 (한국어)
모평균 μσ 알 때N(0,1)"(표본평균−모평균) ÷ (σ/√n)"
모평균 μσ 모를 때t(n-1)"(표본평균−모평균) ÷ (S/√n)" ← σ→S
모분산 σ²-χ²(n-1)"(n-1)×표본분산 ÷ 모분산"
두 모분산 비교-F(n₁-1, n₂-1)"표본분산1 ÷ 표본분산2"의 비율

패턴이 보여? 전부 "아는 것(표본)과 모르는 것(모수)을 엮어서 특정 분포를 따르게 만든 것!"

모평균 추정: 표본평균과 모평균의 관계 → Z 또는 t

모분산 추정: 표본분산과 모분산의 관계 → χ²

두 모분산 비교: 표본분산끼리의 비율 → F

7강 핵심 정리

  • 표본평균 X̄: E(X̄) = μ, Var(X̄) = σ²/n → n 커지면 분산 줄어듦
  • 중심극한정리(CLT): 어떤 모집단이든 n이 크면 X̄ ≈ N(μ, σ²/n)
  • 이항분포 정규근사: X~B(n,p), n 클 때 → X ≈ N(np, np(1-p))
  • t-분포: σ 모를 때 t=(X̄−μ)/(S/√n) ~ t(n-1), 정규보다 꼬리 두꺼움
  • χ²-분포: 모분산 추정, (n-1)S²/σ² ~ χ²(n-1)
  • F-분포: 두 모분산 비교

1~7강 핵심요약

1 데이터와 통계학

통계학 = 데이터 수집 → 요약(기술통계) → 추론(추측통계)

데이터 = 단위(누구) + 변수(뭘 측정) + 관찰값(측정 결과)

모집단(전체) → 표본(일부) / 모수(진짜값, 모름) → 통계량(계산값, 표본마다 다름)

좋은 표본 = 단순랜덤표집 (모든 부분집합이 같은 확률로 선택)

2 데이터 요약 I

변수: 질적(명목형/순서형) vs 양적(연속형/이산형)

그래프: 질적→막대그래프(간격O) / 양적→히스토그램(붙어있음)

분포 모양: 종모양, 쌍봉우리, 오른쪽꼬리(평균>중앙값), 왼쪽꼬리(평균<중앙값), 균등

평균 = 특이점에 약함 / 분산 = 편차제곱합÷(n-1) / 표준편차 = √분산

변이계수(CV) = 표준편차/평균 → 단위 다른 변수 비교용

3 데이터 수치요약

중앙값 = 크기순 정렬 후 가운데 값. 특이점에 강함!

사분위수: Q1(25%), Q2=중앙값(50%), Q3(75%) / IQR = Q3−Q1

상자그림 = 다섯수치요약(최솟값, Q1, 중앙값, Q3, 최댓값)을 그래프로

평균은 긴 꼬리 쪽으로 끌려감 / 대칭이면 평균 ≈ 중앙값 ≈ 최빈값

특이점 있으면 → 중앙값+IQR 사용 / 대칭이면 → 평균+표준편차 사용

4 확률

표본공간(S) = 모든 가능한 결과 / 사건(A) = 관심 있는 부분집합

순열 ₙPᵣ = 줄 세우기(순서O) / 조합 ₙCᵣ = 그냥 뽑기(순서X)

덧셈법칙: P(A∪B) = P(A)+P(B)−P(A∩B) / 배반이면 그냥 더하기

조건부확률: P(A|B) = P(A∩B)/P(B) → "B일 때 A" = B로 세상 축소

독립: P(A∩B) = P(A)×P(B)이면 독립 (∩은 곱하기가 아니라 "동시에"!)

여사건: P(Aᶜ) = 1−P(A) → "적어도" 문제 필살기!

5 확률변수

확률변수 = 실험 결과를 숫자로 바꿔주는 함수 (문제에서 정의해줌)

기댓값 E(X) = Σxᵢ·f(xᵢ) = "각 값 × 확률, 전부 더하기" = 이론적 평균

분산 Var(X) = E(X²)−[E(X)]² = "제기 − 기제" (간편공식)

E(aX+b) = aE(X)+b / Var(aX+b) = Var(X) (b는 분산에서 사라짐!)

표준화: Z = (X−μ)/σ → 평균 0, 분산 1 → "표준편차 몇 개만큼 떨어졌나"

이산형: P(X=특정값) 가능 / 연속형: P(X=특정값)=0, 구간 넓이로만!

6 확률분포와 표본분포 1

이항분포 B(n,p): 성공/실패 n번 반복 → P(X=x) = ₙCₓ·pˣ·(1-p)ⁿ⁻ˣ / E=np, V=np(1-p)

초기하분포: 비복원추출 / N 크면 ≈ 이항분포

포아송 Poisson(m): "단위당 평균 m건" → E=V=m (평균=분산!)

정규분포 N(μ,σ²): 종모양, μ에 대칭 / μ=위치, σ=폭

표준화: Z=(X−μ)/σ → N(0,1) → 표준정규분포표에서 확률 찾기

표 형태 P(0≤Z≤z): P(Z<+z) = 0.5+표값 / P(Z>+z) = 0.5−표값

R: dbinom(딱 그 값) / pbinom(누적) / pnorm(x,μ,σ)(정규 누적)

7 확률분포와 표본분포 2

표본평균 X̄: E(X̄)=μ (모평균과 같다!) / Var(X̄)=σ²/n (n 커지면 줄어듦)

중심극한정리(CLT): 아무 모집단이든 n 크면 → X̄ ≈ N(μ, σ²/n) (가장 중요!)

이항분포 정규근사: B(n,p), n 클 때 → X ≈ N(np, np(1-p))

t-분포: σ 모를 때! t=(X̄−μ)/(S/√n) ~ t(n-1) / 정규보다 꼬리 두꺼움

구간추정: σ알면 X̄±z·σ/√n / σ모르면 X̄±t·S/√n

χ²-분포: 모분산 추정 / F-분포: 두 모분산 비교

문제에서 "모표준편차"→Z / "표본표준편차"→t / "분산 추정"→χ² / "분산 비교"→F

f

전체 공식 정리

📐 2~3강: 데이터 요약 공식

공식수식한국어
표본평균x̄ = Σxᵢ / n전부 더하고 개수로 나누기
표본분산s² = Σ(xᵢ−x̄)² / (n−1)편차 제곱합 ÷ (n-1)
표본표준편차s = √s²분산에 루트
변이계수CV = s / x̄표준편차 ÷ 평균 (상대 비교)
중앙값크기순 정렬 후 가운데홀수: 가운데값 / 짝수: 가운데 2개 평균
IQRQ3 − Q13사분위수 − 1사분위수
범위최댓값 − 최솟값가장 간단한 산포 측정

📐 4강: 확률 공식

공식수식한국어
순열ₙPᵣ = n! / (n-r)!n개에서 r개 뽑아 줄 세우기
조합ₙCᵣ = n! / [r!(n-r)!]n개에서 r개 그냥 뽑기
덧셈법칙P(A∪B) = P(A)+P(B)−P(A∩B)A 또는 B = 각각 더하고 겹침 빼기
조건부확률P(A|B) = P(A∩B)/P(B)B일 때 A = B로 세상 축소
곱셈법칙P(A∩B) = P(B)×P(A|B)동시에 = 하나먼저 × 조건에서 나머지
독립P(A∩B) = P(A)×P(B)이게 성립하면 독립!
여사건P(Aᶜ) = 1−P(A)"적어도" 문제 → 1−P(하나도 없음)

📐 5강: 확률변수 공식

공식수식한국어
기댓값 (이산)E(X) = Σxᵢ·f(xᵢ)각 값 × 확률, 전부 더하기
분산 (이산)Var(X) = Σ(xᵢ−μ)²·f(xᵢ)편차제곱 × 확률, 전부 더하기
분산 간편Var(X) = E(X²)−[E(X)]²"제기 − 기제"
기댓값 변환E(aX+b) = aE(X)+ba 곱하고 b 더함
분산 변환Var(aX+b) = a²Var(X)a² 곱함. b는 사라짐!
표준화Z = (X−μ)/σ평균 빼고 표준편차로 나누기 → N(0,1)

📐 6강: 확률분포 공식

분포확률함수 / 핵심공식평균분산
이항 B(n,p)P(X=x) = ₙCₓ·pˣ·(1-p)ⁿ⁻ˣnpnp(1-p)
초기하P(X=x) = ᴅCₓ·₍ₙ₋ᴅ₎C₍ₙ₋ₓ₎/ₙCₙnp (p=D/N)np(1-p)·(N-n)/(N-1)
포아송 Poi(m)P(X=x) = e⁻ᵐ·mˣ/x!mm
정규 N(μ,σ²)표준화: Z = (X−μ)/σ → N(0,1)μσ²

표준정규분포표 사용 (P(0≤Z≤z) 형태)

구하려는 것계산
P(Z < +z)0.5 + 표값
P(Z > +z)0.5 − 표값
P(Z < −z)0.5 − 표값 (대칭)
P(Z > −z)0.5 + 표값 (대칭)
P(a < Z < b)표값(b) − 표값(a)

R 함수 (d/p/q/r 패턴)

분포P(X=x) 딱 그 값P(X≤x) 누적"이상" 구하기
이항dbinom(x,n,p)pbinom(x,n,p)1−pbinom(k-1,n,p)
포아송dpois(x,m)ppois(x,m)1−ppois(k-1,m)
정규dnorm(x,μ,σ)pnorm(x,μ,σ)1−pnorm(x,μ,σ)

📐 7강: 표본분포 공식

공식수식한국어
표본평균 기댓값E(X̄) = μ표본평균의 평균 = 모평균!
표본평균 분산Var(X̄) = σ²/nn 커지면 줄어듦 → 추정 정확해짐
CLTX̄ ~ N(μ, σ²/n) (n 클 때)아무 분포든 n 크면 X̄는 정규분포!
CLT 표준화(X̄−μ)/(σ/√n) ~ N(0,1)표본평균 표준화 (분모가 σ/√n)
이항 정규근사X ≈ N(np, np(1-p))이항분포 n 크면 → 정규분포로!

추정 시 분포 선택

추정 대상조건분포통계량
모평균 μσ 알 때Z ~ N(0,1)(X̄−μ)/(σ/√n)
모평균 μσ 모를 때t(n-1)(X̄−μ)/(S/√n)
모분산 σ²-χ²(n-1)(n-1)S²/σ²
두 모분산 비교-F(n₁-1, n₂-1)(S₁²/σ₁²)/(S₂²/σ₂²)

구간추정 공식

조건신뢰구간
σ 알 때X̄ ± z(α/2) · σ/√n
σ 모를 때X̄ ± t(n-1, α/2) · S/√n

95% → z=1.96 / 99% → z=2.575 / 90% → z=1.645

!

시험 직전 치트시트

🗺️ 전체 분포 한눈에 보기

분포상황평균분산
이항 B(n,p) 성공률p, n번 독립시행 np np(1-p)
초기하 비복원추출 (N개 중 n개) np np(1-p)·(N-n)/(N-1)
포아송 Poi(m) 희귀사건 횟수 m m (평균=분산!)
정규 N(μ,σ²) 종모양, 대칭 μ σ²

핵심 공식 모음

이름공식
표본평균x̄ (x bar)
실제 데이터의 평균. 관찰값의 합 ÷ 개수.
기댓값(μ)과 비슷하지만, 이건 실제 데이터용!
x̄ = Σxᵢ / n
표본분산
데이터가 평균에서 얼마나 퍼져 있나.
편차 제곱의 합을 (n-1)로 나눔.
(n-1)인 이유: 표본이 모집단보다 작아서 보정!
s² = Σ(xᵢ−x̄)² / (n−1)
변이계수CV (Coefficient of Variation)
단위가 다른 변수의 변동을 비교할 때 사용.
표준편차를 평균으로 나눈 상대적 퍼짐.
CV = s / x̄
조합ₙCᵣ (n choose r)
n개에서 r개를 순서 없이 뽑는 경우의 수.
(n-r)!로 안 뽑힌 부분 제거, r!로 순서 중복 제거.
ₙCᵣ = n! / [r!(n-r)!]
조건부확률P(A|B)
"B일 때 A의 확률". B로 세상을 축소!
분자: A이면서 B (동시) / 분모: B (기준)
P(A∩B)와 다름! 분모가 전체 vs B만.
P(A|B) = P(A∩B)/P(B)
기댓값 변환E(aX+b)
확률변수를 a배 하고 b를 더하면
기댓값도 a배 하고 b 더함.
예: 시급(a) × 시간 + 교통비(b)
E(aX+b) = aE(X)+b
분산 변환Var(aX+b)
a²만 곱하고 b는 사라짐!
b(위치이동)는 퍼진 정도를 안 바꾸고
a(스케일)는 편차를 a배 → 분산은 a²배
Var(aX+b) = a²Var(X)
표준화Z = (X−μ)/σ
"평균에서 표준편차 몇 개만큼 떨어졌나"
결과: 평균=0, 분산=1로 기준 통일.
단위가 달라도 비교 가능하게 만듦!
Z = (X−μ)/σ
표본평균 분산Var(X̄) = σ²/n
표본평균도 확률변수! 표본마다 달라지니까.
n이 커지면 분산이 줄어듦 → 평균이 안정적.
이게 중심극한정리(7강)의 기반!
Var(X̄) = σ²/n
이항→정규근사이항분포의 정규근사
이항분포 B(n,p)에서 n이 충분히 크면
정규분포로 근사 가능! 계산이 훨씬 쉬워짐.
평균=np, 분산=np(1-p)로 변환.
X~B(n,p) ≈ N(np, np(1-p)) (n 클 때)

어떤 상황에 어떤 도구?

상황중심위치산포
대칭 분포, 특이점 없음평균표준편차
기울어진 분포 or 특이점 있음중앙값IQR
단위가 다른 변수 비교변이계수 (CV = s/x̄)

분포 판별 가이드

σ 아는지?정규모집단?n 크기?사용 분포
σ 알 때정규상관없음N(0,1)
σ 모를 때정규상관없음t(n-1)
σ 알/모름비정규n ≥ 30N(0,1) (CLT)
모분산 추정χ²(n-1)
두 모분산 비교F(n₁-1, n₂-1)

1강 - 데이터와 통계학

객관식 20문항 | 문제를 풀고 실력을 확인해 보세요

1
객관식
통계학의 세 가지 핵심 역할을 올바르게 나열한 것은?
  • 데이터 수집 → 가설 검증 → 결과 발표
  • 데이터 수집 → 데이터 요약 → 통계적 추론
  • 표본 추출 → 그래프 작성 → 모수 결정
  • 실험 설계 → 데이터 정제 → 머신러닝
통계학의 기본 과정은 '수집 → 요약 → 추론' 3단계로 구성됩니다.
해설
핵심 개념: 통계학의 3단계

통계학은 데이터 수집(Collection)데이터 요약(Summarization)통계적 추론(Inference)의 과정으로 정의됩니다.

수집 단계: 현상을 왜곡 없이 반영하는 데이터를 모읍니다.
요약 단계: 기술통계를 사용해 패턴을 파악합니다 (평균, 그래프 등).
추론 단계: 표본으로부터 모집단에 대한 결론을 도출합니다.

💡 Tip: '가설 검증', '머신러닝' 등은 통계학의 3대 핵심 역할에 해당하지 않습니다.
2
객관식
어떤 조사에서 전국 대학생 10,000명의 월평균 생활비를 알기 위해 500명을 무작위로 선정해 조사했다. 이때 모수(parameter)에 해당하는 것은?
  • 조사에 응답한 500명의 평균 생활비
  • 500명을 뽑는 방법
  • 전국 대학생 10,000명의 실제 평균 생활비
  • 조사 결과로 만든 그래프
모수(parameter)는 '모집단 전체'의 특성값이고, 통계량(statistic)은 '표본'에서 계산한 값입니다.
해설
핵심 개념: 모수 vs 통계량

모수(parameter)는 모집단 전체의 특성값으로, 고정된 값이지만 대부분 알 수 없습니다.
통계량(statistic)은 표본 데이터로부터 계산한 값으로, 표본마다 값이 달라집니다.

이 문제에서:
- 모집단 = 전국 대학생 10,000명
- 모수 = 10,000명의 실제 평균 생활비 (고정된 미지의 값)
- 표본 = 무작위로 선정된 500명
- 통계량 = 500명의 평균 생활비 (표본마다 변함)

💡 주의: '500명을 뽑는 방법'은 표집방법이지 모수가 아닙니다.
3
객관식
데이터의 세 가지 기본 요소로 올바르게 짝지어진 것은?
  • 모집단, 표본, 통계량
  • 평균, 분산, 표준편차
  • 단위, 변수, 관찰값
  • 행, 열, 셀
데이터 테이블에서 행(관찰 대상), 열(측정 특성), 셀(측정 값)을 떠올려 보세요.
해설
핵심 개념: 데이터의 3대 요소

데이터를 표(table)로 생각하면 이해가 쉽습니다.
- 단위(Unit): 관찰 대상 하나하나 (표의 각 행)
- 변수(Variable): 측정하는 특성 (표의 각 열)
- 관찰값(Observation): 특정 단위에서 특정 변수를 측정한 값 (표의 각 셀)

💡 주의: 모집단·표본·통계량은 통계학의 구성 요소이지 데이터의 기본 요소가 아닙니다.
4
객관식
단순랜덤표집(Simple Random Sampling)을 사용하지 않을 때 발생할 수 있는 문제는?
  • 표본의 크기가 너무 커진다
  • 선택 편향(selection bias)이 발생한다
  • 모수와 통계량이 같아진다
  • 표준편차가 0이 된다
단순랜덤표집을 하지 않으면 특정 집단이 과대/과소 대표될 수 있습니다.
해설
핵심 개념: 단순랜덤표집과 선택 편향

단순랜덤표집(SRS)은 모집단의 모든 부분집합이 동일한 확률로 선택될 수 있도록 보장합니다.

이를 사용하지 않으면:
- 특정 집단이 과대/과소 대표될 수 있음
- 선택 편향(selection bias)이 발생
- 편향된 결론을 내릴 위험이 높아짐

💡 주의: 표본 크기가 커진다거나 표준편차가 0이 되는 것은 비랜덤표집의 문제가 아닙니다.
5
객관식
다음 중 기술통계(descriptive statistics)에 해당하는 것을 모두 고르면?

ㄱ. 표본의 평균과 표준편차를 계산한다
ㄴ. 표본 결과로 모집단의 평균을 추정한다
ㄷ. 데이터를 히스토그램으로 시각화한다
ㄹ. 신뢰구간을 구한다
  • ㄱ, ㄴ
  • ㄱ, ㄷ
  • ㄴ, ㄹ
  • ㄱ, ㄴ, ㄷ
기술통계는 '주어진 데이터를 정리·요약'하는 것이고, 추론통계는 '표본→모집단 일반화'입니다.
해설
핵심 개념: 기술통계 vs 추론통계

기술통계(descriptive): 주어진 데이터를 정리·요약하는 것
→ ㄱ(평균·표준편차 계산), ㄷ(히스토그램 시각화)

추론통계(inferential): 표본에서 모집단으로 일반화하는 것
→ ㄴ(모집단 평균 추정), ㄹ(신뢰구간 구하기)

따라서 정답은 ㄱ, ㄷ입니다.

💡 구분법: "표본→모집단"이 들어가면 추론통계, "있는 그대로 정리"이면 기술통계입니다.
6
객관식
통계량(statistic)에 대한 설명으로 옳지 않은 것은?
  • 표본 데이터로부터 계산할 수 있다
  • 어떤 표본을 뽑느냐에 따라 값이 달라진다
  • 모집단의 고정된 특성값이다
  • 모수를 추정하기 위해 사용한다
'모집단의 고정된 특성값'이 모수인지 통계량인지 구분해 보세요.
해설
핵심 개념: 통계량(statistic)의 정의

통계량은 표본에서 계산한 값으로 다음 성질을 가집니다:
✓ 표본 데이터로부터 계산 가능 (A)
✓ 표본이 바뀌면 값도 바뀜 (B)
✓ 모수를 추정하는 데 사용 (D)

✗ "모집단의 고정된 특성값"은 모수(parameter)에 대한 설명입니다 (C가 오답).

💡 기억법: 모수 = 고정(모집단), 통계량 = 변동(표본)
7
객관식
다음 중 무한 모집단에 해당하는 것은?
  • 한 반 학생 35명의 시험 점수
  • 2025년 한국에 등록된 자동차 전체
  • 어떤 회사의 전체 직원 500명
  • 공장에서 계속 생산되는 제품의 수명
무한 모집단은 이론적으로 끝없이 늘어날 수 있는 집단입니다. 계속 생산되는 경우를 생각해 보세요.
해설
핵심 개념: 유한 모집단 vs 무한 모집단

유한 모집단: 구성원의 수가 정해져 있는 집단
→ A(학생 35명), B(등록 자동차), C(직원 500명)

무한 모집단: 이론적으로 끝없이 늘어날 수 있는 집단
→ D(공장에서 계속 생산되는 제품의 수명)

💡 Tip: '계속', '앞으로', '모든 잠재적' 같은 표현이 나오면 무한 모집단을 의심해 보세요.
8
객관식
"한 대학교의 재학생 15,000명 중 400명을 무작위로 뽑아 통학 시간을 조사했다." 이 상황에서 모집단은?
  • 재학생 15,000명 전체
  • 무작위로 뽑힌 400명
  • 400명의 평균 통학 시간
  • 통학 시간이라는 변수
모집단은 '알고 싶은 전체 집단'이고, 표본은 '실제로 조사한 부분집합'입니다.
해설
핵심 개념: 모집단·표본·통계량 구분

- 모집단 = 알고 싶은 전체 집단 → 재학생 15,000명 전체
- 표본 = 실제로 조사한 부분집합 → 무작위로 뽑힌 400명
- 통계량 = 표본에서 계산한 값 → 400명의 평균 통학 시간
- 변수 = 측정하는 특성 → 통학 시간

💡 Tip: "~를 알기 위해"가 나오면 '알고 싶은 전체'가 모집단입니다.
9
객관식
다음 표에서 변수의 개수는?

학생 나이 전공 GPA
A21통계3.8
B23경영3.2
  • 2개
  • 3개
  • 4개
  • 8개
'학생' 열은 단위를 식별하는 이름이지 변수가 아닙니다. 나머지 열만 세어보세요.
해설
핵심 개념: 변수의 개수 세기

변수는 각 단위에 대해 측정하는 특성(열)입니다.
- 나이, 전공, GPA → 변수 3개
- "학생" 열 → 단위(관찰 대상)를 식별하는 이름이므로 변수 아님

추가로:
- 단위(행) = A, B → 2명
- 관찰값(셀) = 2명 × 3변수 = 6개

💡 주의: 열 수(4개)와 변수 수(3개)를 혼동하지 마세요. ID 열은 변수가 아닙니다.
10
객관식
유한 모집단에서도 전수조사 대신 표본조사를 하는 이유로 가장 적절한 것은?
  • 전수조사는 법적으로 금지되어 있다
  • 표본조사가 항상 더 정확하다
  • 모집단이 유한하면 표본을 뽑을 수 없다
  • 비용·시간이 많이 들거나 파괴검사처럼 전수조사가 불가능한 경우가 있다
파괴검사나 비용·시간 문제를 생각해 보세요. 전수조사가 물리적으로 불가능한 경우가 있습니다.
해설
핵심 개념: 표본조사의 필요성

유한 모집단이라도 표본조사를 하는 이유:
비용·시간: 대규모 모집단은 전수조사가 비효율적
파괴검사: 전구 수명 테스트처럼 조사 자체가 대상을 소모하는 경우
물리적 불가능: 접근이 어려운 대상

💡 주의: 전수조사가 법적으로 금지된 것은 아니며, 표본조사가 항상 더 정확한 것도 아닙니다.
11
객관식
다음 중 전수조사가 반드시 필요한 경우는?
  • 공장에서 생산된 전구 10만 개의 수명 테스트
  • 전국 대학생의 평균 용돈 조사
  • 5명으로 구성된 소규모 팀의 업무 만족도 조사
  • 대한민국 전체 가구의 연간 소득 조사
모집단이 매우 작으면 표본을 뽑는 것보다 전수조사가 더 합리적입니다.
해설
핵심 개념: 전수조사가 필요한 경우

모집단의 크기가 매우 작을 때는 표본을 따로 뽑는 것보다 전수조사가 더 효율적이고 정확합니다.

각 선택지 분석:
- A: 전구 수명 테스트 → 파괴검사이므로 전수조사 불가능
- B: 전국 대학생 → 모집단이 너무 커서 표본조사가 적절
- C: 5명 → 매우 작으므로 전수조사가 합리적 ✓
- D: 전체 가구 → 모집단이 너무 커서 표본조사가 적절

💡 Tip: 모집단이 작으면 전수조사, 크면 표본조사가 원칙입니다.
12
객관식
인터넷 포털 사이트에서 "당신의 정치 성향은?"이라는 자발적 온라인 설문을 실시했다. 이 조사에서 발생할 수 있는 가장 큰 문제는?
  • 자기선택 편향(self-selection bias)으로 특정 성향의 사람만 응답할 가능성이 높다
  • 표본 크기가 너무 작아서 신뢰할 수 없다
  • 변수가 질적 변수이므로 통계 분석이 불가능하다
  • 모집단이 무한하므로 전수조사를 해야 한다
자발적 응답 조사에서는 관심이 강한 사람만 응답하는 경향이 있습니다.
해설
핵심 개념: 자기선택 편향(self-selection bias)

자발적 응답 조사(voluntary response survey)에서는 관심이 강한 사람만 응답하는 경향이 있어 자기선택 편향이 발생합니다.

이는 랜덤표집 원칙을 위반한 것으로, 응답자가 아무리 많아도 모집단을 대표하지 못합니다.

💡 주의: 표본 크기가 작아서가 아니라, 표집 방법 자체의 문제입니다. 질적 변수도 통계 분석이 가능합니다.
13
객관식
같은 모집단에서 서로 다른 두 표본을 뽑아 평균을 구했더니 하나는 72.3, 다른 하나는 68.7이었다. 이처럼 값이 달라지는 근본적 이유는?
  • 조사원이 측정을 잘못했기 때문이다
  • 모수가 변했기 때문이다
  • 표본의 크기가 다르기 때문이다
  • 표본추출의 랜덤성에 의한 표집변동(sampling variability) 때문이다
같은 모집단에서 다른 표본을 뽑으면 통계량이 달라지는 것은 자연스러운 현상입니다.
해설
핵심 개념: 표집변동(sampling variability)

표집변동은 서로 다른 표본이 뽑힐 때마다 통계량이 달라지는 자연스러운 현상입니다.

- 모수(모평균)는 고정값으로 변하지 않음
- 통계량(표본평균)은 어떤 표본을 뽑느냐에 따라 달라짐
- 이는 측정 오류가 아니라 랜덤 표본추출의 본질적 특성

💡 Tip: 이것이 바로 추론통계가 필요한 이유이기도 합니다.
14
객관식
다음 중 유한 모집단무한 모집단을 올바르게 분류한 것은?

ㄱ. 2025년 서울시에 등록된 택시 전체
ㄴ. 특정 기계로 앞으로 생산할 모든 나사
ㄷ. 어떤 약의 효과를 검증하기 위한 모든 잠재적 환자
  • 유한: ㄱ, ㄴ / 무한: ㄷ
  • 유한: ㄱ / 무한: ㄴ, ㄷ
  • 유한: ㄱ, ㄷ / 무한: ㄴ
  • 유한: ㄴ / 무한: ㄱ, ㄷ
현재 시점에 수가 정해져 있으면 유한, 이론적으로 끝이 없으면 무한 모집단입니다.
해설
핵심 개념: 유한 vs 무한 모집단 분류

ㄱ. 2025년 서울시 택시 → 특정 시점에 수가 정해짐 → 유한
ㄴ. 기계로 생산할 모든 나사 → 끝없이 생산 가능 → 무한
ㄷ. 모든 잠재적 환자 → 현재+미래 포함 → 무한

따라서 유한: ㄱ / 무한: ㄴ, ㄷ

💡 판단 기준: "특정 시점에 수가 확정"이면 유한, "이론적으로 끝이 없으면" 무한입니다.
15
객관식
연구자가 다음과 같은 데이터를 수집했다:

환자 체온(°C) 증상 등급 성별
137.2경증
238.5중증
이 데이터에서 관찰값(observation)의 총 개수는?
  • 2개
  • 3개
  • 6개
  • 8개
관찰값의 수 = 단위(행) × 변수(열)입니다. 단위를 식별하는 열은 변수가 아닙니다.
해설
핵심 개념: 관찰값의 개수 = 단위 × 변수

- 단위(행): 환자 1, 환자 2 → 2명
- 변수(열): 체온, 증상 등급, 성별 → 3개 ("환자" 열은 ID이므로 변수 아님)
- 관찰값(셀): 2 × 3 = 6개

💡 주의: "환자" 열은 단위를 식별하는 이름이지 측정한 특성이 아니므로 변수에 포함하지 않습니다.
16
객관식
모수(parameter)와 통계량(statistic)에 대한 설명으로 모두 올바른 것은?
  • 모수는 표본에서 계산하고, 통계량은 모집단에서 계산한다
  • 모수와 통계량 모두 표본마다 값이 달라진다
  • 모수는 항상 정확히 알 수 있고, 통계량은 추정치이다
  • 모수는 고정된 미지의 값이고, 통계량은 표본에서 계산한 모수의 추정치이다
모수는 모집단에서, 통계량은 표본에서 계산합니다. 어느 쪽이 고정값인지 생각해 보세요.
해설
핵심 개념: 모수와 통계량의 구분

모수(parameter): 모집단 전체의 특성값 → 고정된 미지의 값
통계량(statistic): 표본 데이터에서 계산한 값 → 표본마다 달라지는 추정치

각 선택지 분석:
- A: 설명이 반대 → ✗
- B: 모수는 고정값(변하지 않음) → ✗
- C: 모수는 대부분 알 수 없음 → ✗
- D: 올바른 설명 → ✓
17
객관식
어떤 연구자가 신제품 효과를 검증하기 위해 자원자를 무작위로 실험군과 대조군에 배정하여 실험했다. 이 데이터 수집 방법은?
  • 관찰연구(observational study)
  • 실험(experiment)
  • 설문조사(survey)
  • 전수조사(census)
연구자가 처리(treatment)를 직접 부여하면 실험, 개입 없이 관찰하면 관찰연구입니다.
해설
핵심 개념: 데이터 수집 방법 구분

실험(experiment): 연구자가 처리(treatment)를 직접 부여하고 효과 측정
관찰연구: 개입 없이 있는 그대로 관찰
설문조사: 질문을 통해 데이터 수집

이 문제에서 연구자는 자원자를 무작위로 실험군/대조군에 배정하고 실험했으므로 실험입니다.

💡 Tip: 실험은 인과관계 파악에 가장 강력한 방법입니다.
18
객관식
어느 대학이 졸업생 연봉을 조사하기 위해 동문회에 등록된 졸업생에게만 설문을 보냈다. 이 조사의 문제점은?
  • 동문회 미등록 졸업생이 배제되어 랜덤표집이 위반되었다
  • 연봉은 양적 변수가 아니므로 조사할 수 없다
  • 전수조사를 하지 않았으므로 결과가 무의미하다
  • 모집단이 무한하므로 표본조사가 불가능하다
특정 집단만 대상으로 하면 랜덤표집 원칙이 위반됩니다.
해설
핵심 개념: 편의표본과 선택 편향

동문회에 등록한 사람만 대상으로 하면:
- 등록하지 않은 졸업생이 체계적으로 배제
- 예: 연봉이 낮은 사람은 동문회에 관심이 적을 수 있음
- 이는 편의표본(convenience sample)
- 선택 편향(selection bias) 발생

💡 핵심: 모집단 전체를 대표하지 못하는 표본은 아무리 커도 편향된 결론을 줍니다.
19
객관식
"A 지역 20~30대 1,000명을 조사한 결과 평균 수면 시간이 6.2시간이었다"는 결과에 대해 올바른 해석은?
  • 이것은 모수이며, A 지역 20~30대 전체의 수면 시간이 정확히 6.2시간이다
  • 기술통계는 불가능하고 추론통계만 할 수 있다
  • 6.2시간은 통계량(표본평균)이며, 이를 바탕으로 모집단 평균을 추정할 수 있다
  • 1,000명은 전수조사이므로 표본이 아니다
1,000명에서 계산한 값은 모수가 아니라 통계량(표본에서 계산한 값)입니다.
해설
핵심 개념: 통계량과 추론통계

- 1,000명에서 계산한 6.2시간 = 통계량(표본평균) (모수가 아님)
- 이 통계량으로 모집단(A 지역 20~30대 전체)의 평균을 추정 가능
- 다른 표본을 뽑으면 다른 값이 나올 수 있음 (표집변동)

💡 주의: "정확히 6.2시간이다"라고 단정할 수 없으며, 추론통계는 항상 불확실성이 따릅니다.
20
객관식
추론통계(inferential statistics)의 궁극적 목적으로 가장 적절한 것은?
  • 표본 데이터를 그래프로 시각화하는 것
  • 표본 정보를 이용하여 모집단에 대한 결론을 불확실성과 함께 도출하는 것
  • 모집단의 모든 개체를 직접 측정하는 것
  • 데이터의 평균과 분산을 정확히 계산하는 것
추론통계의 핵심은 '표본 → 모집단'으로의 일반화이며, 항상 불확실성이 따릅니다.
해설
핵심 개념: 추론통계의 목적

추론통계(inferential statistics)의 궁극적 목적:
→ 표본 정보를 이용하여 모집단에 대한 결론을 불확실성과 함께 도출하는 것

각 선택지 분석:
- A: 그래프 시각화 → 기술통계
- B: 정답
- C: 전체 측정 → 전수조사
- D: 평균·분산 계산 → 기술통계

2강 - 데이터 요약 I

객관식 20문항

1
객관식
다음 중 양적 변수 - 이산형에 해당하는 것은?
  • 몸무게 (65.3kg)
  • 혈액형 (A, B, O, AB)
  • 자녀 수 (0, 1, 2, 3명)
  • 키 (172.5cm)
이산형은 '셀 수 있는' 값, 연속형은 '소수점이 가능한' 값, 질적 변수는 숫자가 아닌 범주입니다.
해설
핵심 개념: 변수의 유형 분류

양적 변수(quantitative): 숫자로 측정
- 이산형: 셀 수 있는 값 (0, 1, 2, 3...)
- 연속형: 소수점이 가능한 값 (65.3, 172.5...)

질적 변수(qualitative): 범주로 분류
- 명목형: 순서 없음 (혈액형: A, B, O, AB)
- 순서형: 순서 있음 (학점: A > B > C)

자녀 수는 "0.5명"이 불가능하므로 양적-이산형입니다.

💡 구분법: "셀 수 있으면" 이산형, "잴 수 있으면" 연속형, "숫자가 아니면" 질적 변수입니다.
2
객관식
막대그래프히스토그램의 차이로 옳은 것은?
  • 막대그래프는 양적 데이터, 히스토그램은 질적 데이터에 사용
  • 막대그래프는 막대 사이에 간격이 있고, 히스토그램은 막대가 붙어 있다
  • 둘 다 동일하며 이름만 다르다
  • 히스토그램은 3차원이고 막대그래프는 2차원이다
막대그래프는 질적 데이터(간격 있음), 히스토그램은 양적 데이터(막대 붙어 있음)에 사용됩니다.
해설
핵심 개념: 막대그래프 vs 히스토그램

막대그래프(bar chart):
- 질적 데이터(범주형)용
- 막대 사이에 간격이 있음
- 막대 순서 변경 가능

히스토그램(histogram):
- 양적 데이터(연속형)용
- 막대가 붙어 있음
- 연속된 숫자 구간을 나타내므로 순서 변경 불가

💡 기억법: 히스토그램에서 막대가 붙어 있는 이유 = 연속된 숫자 구간이므로 빈틈이 없습니다.
3
객관식
데이터 {1, 2, 3, 4, 100}의 평균은 22이다. 이 상황에 대한 설명으로 가장 적절한 것은?
  • 평균이 데이터의 중심을 잘 나타내고 있다
  • 분산을 (n)으로 나누어야 한다
  • 데이터를 더 많이 모으면 해결된다
  • 특이점(100) 때문에 평균이 왜곡되었으므로 중앙값이 더 적절하다
특이점이 있으면 평균이 왜곡됩니다. 이런 경우 어떤 대표값이 더 적절할까요?
해설
핵심 개념: 평균의 특이점 민감성

데이터 {1, 2, 3, 4, 100}에서:
- 평균 = (1+2+3+4+100)/5 = 22 → 대부분의 데이터(1~4)와 동떨어짐
- 중앙값 = 3 → 데이터의 중심을 더 잘 표현

100이라는 특이점(outlier)이 평균을 크게 끌어올렸습니다.

💡 원칙: 특이점이 있거나 분포가 치우쳐 있으면 → 중앙값, 대칭이면 → 평균이 적절합니다.
4
객관식
표본분산을 구할 때 n이 아닌 (n-1)로 나누는 이유는?
  • 계산을 더 간편하게 하기 위해
  • 표본이 모집단보다 항상 크기 때문
  • 불편추정(unbiased estimation)을 위해 — n으로 나누면 분산이 과소추정됨
  • 자유도를 n+1로 맞추기 위해
표본분산에서 나누는 수에 주목하세요. n-1로 나누는 것은 불편추정과 관련됩니다.
해설
핵심 개념: 불편추정과 자유도

표본분산을 n이 아닌 (n-1)로 나누는 이유:

① 표본은 모집단의 일부이므로, n으로 나누면 분산이 과소추정
② (n-1)로 나누면 모분산에 더 가까운 불편추정값(unbiased estimate)을 얻음
③ (n-1)은 자유도(degrees of freedom)라고 하며, 표본평균을 하나 고정하면 나머지 n-1개만 자유롭게 변할 수 있기 때문

💡 주의: 모분산(σ²)은 N으로 나누고, 표본분산(s²)은 (n-1)로 나눕니다.
5
객관식
21세 남자의 몸무게 (평균 72kg, 표준편차 11kg)와 9세 남아의 몸무게 (평균 32kg, 표준편차 7kg)를 변이계수(CV)로 비교할 때 올바른 것은?
  • 21세 CV가 더 크므로 21세 그룹의 변동이 더 크다
  • 9세 CV(0.219)가 21세 CV(0.153)보다 크므로 9세 그룹의 변동이 더 크다
  • 표준편차가 11 > 7이므로 21세 그룹의 변동이 더 크다
  • 변이계수로는 두 그룹을 비교할 수 없다
변이계수(CV) = 표준편차/평균입니다. 단위나 평균 크기가 다른 데이터를 비교할 때 사용하세요.
해설
핵심 개념: 변이계수(CV)로 상대적 비교

CV(변이계수) = 표준편차 / 평균

21세: CV = 11/72 = 0.153 (약 15.3%)
9세: CV = 7/32 = 0.219 (약 21.9%)

표준편차만 보면 11 > 7로 21세가 크지만, 평균 대비 상대적 퍼짐을 비교하면 9세 그룹이 더 큽니다.

💡 핵심: 평균이나 단위가 다른 데이터를 비교할 때는 반드시 CV(무차원)를 사용해야 합니다.
6
객관식
도수분포표에 대한 설명으로 옳지 않은 것은?
  • 데이터를 일정한 구간(계급)으로 나누어 빈도를 정리한 표이다
  • 상대도수는 각 계급의 도수를 전체 도수로 나눈 값이다
  • 누적도수는 해당 계급까지의 도수를 모두 합한 값이다
  • 계급의 수가 많을수록 항상 더 정확한 분포를 나타낸다
계급의 수가 너무 많거나 너무 적으면 어떤 문제가 생기는지 생각해 보세요.
해설
핵심 개념: 도수분포표와 계급 수의 선택

도수분포표의 올바른 설명:
✓ A: 데이터를 구간(계급)으로 나누어 빈도 정리
✓ B: 상대도수 = 해당 계급 도수 / 전체 도수
✓ C: 누적도수 = 해당 계급까지의 도수 합

✗ D: 계급 수가 많을수록 항상 정확하지는 않습니다. 너무 많으면 각 계급의 도수가 작아져 패턴 파악이 어렵고, 너무 적으면 정보가 손실됩니다.

💡 Tip: 적절한 계급 수를 선택하는 것이 중요합니다.
7
객관식
분포의 모양 4가지 중, 히스토그램이 왼쪽에 봉우리가 있고 오른쪽으로 긴 꼬리를 가지는 형태는?
  • 오른쪽 꼬리 분포(right-skewed)
  • 왼쪽 꼬리 분포(left-skewed)
  • 대칭 분포(symmetric)
  • 균등 분포(uniform)
분포의 이름은 '긴 꼬리의 방향'으로 정합니다. 왼쪽 봉우리 + 오른쪽 꼬리라면?
해설
핵심 개념: 분포 모양의 4가지 유형

대칭(symmetric): 좌우가 거울상
오른쪽 꼬리(right-skewed): 왼쪽 봉우리 + 오른쪽 긴 꼬리 (양의 왜도)
왼쪽 꼬리(left-skewed): 오른쪽 봉우리 + 왼쪽 긴 꼬리 (음의 왜도)
균등(uniform): 모든 구간이 비슷

💡 기억법: 분포 이름은 긴 꼬리의 방향으로 정합니다. 예: 소득 분포 = 오른쪽 꼬리.
8
객관식
데이터 {2, 3, 3, 5, 5, 5, 7, 8}의 최빈값(mode)은?
  • 3
  • 4.75
  • 5
  • 8
최빈값(mode)은 데이터에서 가장 많이 나타나는 값입니다.
해설
핵심 개념: 최빈값(mode)

최빈값 = 데이터에서 가장 많이 나타나는 값

데이터 {2, 3, 3, 5, 5, 5, 7, 8}에서:
- 2: 1번, 3: 2번, 5: 3번(최다), 7: 1번, 8: 1번
- 최빈값 = 5

참고: 평균 = (2+3+3+5+5+5+7+8)/8 = 38/8 = 4.75

💡 Tip: 최빈값이 여러 개일 수도 있고(다봉분포), 없을 수도 있습니다(모든 값이 1번씩).
9
객관식
데이터 {4, 7, 10}의 평균은 7이다. 표본표준편차(s)는?
  • √(6) ≈ 2.45
  • 3
  • √(18) ≈ 4.24
  • 6
표본표준편차: 편차제곱합을 (n-1)로 나눈 후 제곱근을 구합니다.
해설
핵심 개념: 표본표준편차 계산

데이터 {4, 7, 10}, 평균 = 7

단계별 풀이:
① 편차: (4−7)=−3, (7−7)=0, (10−7)=3
② 편차제곱: 9, 0, 9
③ 편차제곱합 = 9+0+9 = 18
④ 표본분산 s² = 18/(3−1) = 18/2 = 9
⑤ 표본표준편차 s = √9 = 3

💡 주의: 표본이므로 (n-1)로 나눕니다. n으로 나누면 s² = 6이 됩니다.
10
객관식
데이터의 편차(각 값 − 평균)를 모두 합하면 항상 0이 되는 이유는?
  • 평균이 데이터의 무게중심이므로, 양의 편차와 음의 편차가 정확히 상쇄된다
  • 표준편차로 나누어 정규화하기 때문이다
  • 데이터가 대칭 분포일 때만 0이 된다
  • 편차를 절댓값으로 변환하기 때문이다
평균의 정의를 수식으로 써보면 Σ(xᵢ − x̄) = 0이 됩니다. 분포 모양과는 관계없습니다.
해설
핵심 개념: 편차의 합 = 0인 이유

수학적 증명:
Σ(xᵢ − x̄) = Σxᵢ − nx̄ = Σxᵢ − n × (Σxᵢ/n) = Σxᵢ − Σxᵢ = 0

이는 분포의 모양과 관계없이 항상 성립합니다.
평균이 데이터의 무게중심(balancing point)이므로, 양의 편차와 음의 편차가 정확히 상쇄됩니다.

💡 Tip: 편차의 합이 항상 0이기 때문에, 산포를 측정할 때는 편차의 제곱합을 사용합니다.
11
객관식
어떤 히스토그램에서 오른쪽으로 긴 꼬리가 관찰되었다. 이 분포에서 평균, 중앙값, 최빈값의 대소 관계로 올바른 것은?
  • 평균 < 중앙값 < 최빈값
  • 평균 = 중앙값 = 최빈값
  • 최빈값 < 중앙값 < 평균
  • 중앙값 < 최빈값 < 평균
오른쪽 꼬리 분포에서는 큰 극단값이 평균을 오른쪽으로 끌어당깁니다.
해설
핵심 개념: 비대칭 분포에서의 평균·중앙값·최빈값 관계

오른쪽 꼬리 분포(양의 왜도)에서는:
- 극단적으로 큰 값들이 평균을 오른쪽으로 끌어당김
- 최빈값 < 중앙값 < 평균 순서가 됨

반대로 왼쪽 꼬리 분포에서는: 평균 < 중앙값 < 최빈값
대칭 분포에서는: 평균 ≈ 중앙값 ≈ 최빈값

💡 기억법: 평균은 항상 긴 꼬리 방향으로 끌려갑니다.
12
객관식
데이터 {2, 4, 6, 8, 10}의 모분산(σ²)은? (모집단 전체라고 가정)
  • 10
  • 6
  • 40
  • 8
모분산은 N으로 나누고, 표본분산은 (n-1)로 나눕니다.
해설
핵심 개념: 모분산 vs 표본분산

데이터 {2, 4, 6, 8, 10} (모집단 전체)
평균 = (2+4+6+8+10)/5 = 6

편차제곱: (−4)²+(−2)²+0²+2²+4² = 16+4+0+4+16 = 40

모분산 σ² = 40/5 = 8 (N으로 나눔)
참고) 표본분산이라면 s² = 40/4 = 10 (n-1로 나눔)

💡 핵심 구분: 모집단 전체 → N으로 나눔, 표본 → (n-1)로 나눔
13
객관식
반 A의 평균 점수는 80점, 표준편차는 5점이고, 반 B의 평균 점수는 60점, 표준편차는 6점이다. 두 반의 변이계수(CV)를 비교하면?
  • 반 A의 CV가 더 크다 (A: 0.1, B: 0.0625)
  • 반 B의 CV가 더 크다 (A: 0.0625, B: 0.1)
  • 두 반의 CV가 같다
  • 표준편차가 더 큰 반 B가 항상 CV도 크다
CV = 표준편차/평균으로 계산합니다. 두 반의 CV를 각각 구해보세요.
해설
핵심 개념: 변이계수(CV) 비교

CV = 표준편차 / 평균

반 A: CV = 5/80 = 0.0625 (6.25%)
반 B: CV = 6/60 = 0.1 (10%)

표준편차만 보면 B(6) > A(5)이지만, 평균 대비 상대적 변동을 보면 B가 더 큽니다.

💡 Tip: CV는 단위나 평균 크기가 다른 데이터의 변동을 공정하게 비교할 때 유용합니다.
14
객관식
데이터 {10, 20, 30, 40, 200}에서 특이점(200)을 제거하면 평균은 어떻게 변하는가?
  • 60에서 25로 크게 감소한다
  • 60에서 55로 약간 감소한다
  • 변하지 않는다
  • 60에서 75로 증가한다
특이점 제거 전후의 평균을 각각 계산해 보세요. 평균은 특이점에 매우 민감합니다.
해설
핵심 개념: 특이점이 평균에 미치는 영향

제거 전: (10+20+30+40+200)/5 = 300/5 = 60
제거 후: (10+20+30+40)/4 = 100/4 = 25

평균이 60에서 25로 크게 감소(-35)했습니다.
반면 중앙값은 제거 전 30, 제거 후 25로 변화가 작습니다(-5).

💡 핵심: 평균은 특이점에 매우 민감하고, 중앙값은 강건(robust)합니다.
15
객관식
다음 중 변수의 유형이 올바르게 짝지어진 것은?

ㄱ. 학점(A, B, C, D, F) → ?
ㄴ. 하루 커피 섭취량(잔) → ?
ㄷ. 몸무게(kg) → ?
  • ㄱ 명목형, ㄴ 연속형, ㄷ 이산형
  • ㄱ 이산형, ㄴ 이산형, ㄷ 연속형
  • ㄱ 명목형, ㄴ 이산형, ㄷ 연속형
  • ㄱ 순서형, ㄴ 이산형, ㄷ 연속형
순서가 있는 범주는 순서형, 셀 수 있는 숫자는 이산형, 소수점이 가능한 숫자는 연속형입니다.
해설
핵심 개념: 변수 유형의 정확한 분류

ㄱ. 학점(A, B, C, D, F): 순서가 있는 범주 → 순서형(ordinal)
ㄴ. 커피 잔 수(0, 1, 2, 3): 셀 수 있는 숫자 → 이산형(discrete)
ㄷ. 몸무게(kg): 소수점 가능 → 연속형(continuous)

💡 주의: 학점은 순서가 있으므로 명목형이 아닌 순서형입니다. 순서가 없는 범주(혈액형, 성별)만 명목형입니다.
16
객관식
어떤 도수분포표에서 전체 데이터 수가 200개이고, 60~80점 구간의 도수가 50개이다. 이 구간의 상대도수는?
  • 0.50
  • 0.20
  • 0.25
  • 50
상대도수 = 해당 계급의 도수 ÷ 전체 도수입니다.
해설
핵심 개념: 상대도수 계산

상대도수 = 해당 계급의 도수 / 전체 도수
= 50 / 200 = 0.25 (= 25%)

성질:
- 0과 1 사이의 값
- 모든 계급의 상대도수 합 = 1
- 백분율로 환산: 0.25 × 100 = 25%

💡 주의: D(50)는 도수(절대도수)이지 상대도수가 아닙니다.
17
객관식
데이터 {1, 3, 5, 7, 9}의 평균이 5일 때, 편차제곱합(SS = Σ(xᵢ − x̄)²)은?
  • 40
  • 20
  • 10
  • 8
각 값에서 평균을 빼고 제곱한 후 모두 더하면 편차제곱합(SS)이 됩니다.
해설
핵심 개념: 편차제곱합(SS) 계산

데이터 {1, 3, 5, 7, 9}, 평균 = 5

편차: (1−5)=−4, (3−5)=−2, (5−5)=0, (7−5)=2, (9−5)=4
편차제곱: 16, 4, 0, 4, 16
SS = 16+4+0+4+16 = 40

이 값을 활용하면:
- 표본분산 s² = SS/(n-1) = 40/4 = 10
- 모분산 σ² = SS/n = 40/5 = 8
18
객관식
히스토그램의 왼쪽에 긴 꼬리가 있는 분포를 무엇이라 하며, 이 분포의 왜도(skewness)는?
  • 오른쪽 꼬리 분포, 왜도 > 0
  • 왼쪽 꼬리 분포, 왜도 < 0
  • 왼쪽 꼬리 분포, 왜도 > 0
  • 대칭 분포, 왜도 = 0
분포의 이름과 왜도의 부호는 '긴 꼬리의 방향'과 같습니다.
해설
핵심 개념: 왜도(skewness)와 분포 이름

왜도의 부호 = 긴 꼬리의 방향

- 왼쪽 긴 꼬리 → 왼쪽 꼬리 분포(left-skewed) → 왜도 < 0 (음의 왜도)
- 오른쪽 긴 꼬리 → 오른쪽 꼬리 분포(right-skewed) → 왜도 > 0 (양의 왜도)
- 대칭 → 왜도 = 0

💡 예시: 왼쪽 꼬리 분포의 대표적 예 = 쉬운 시험의 점수 분포 (대부분 높은 점수, 일부만 낮은 점수)
19
객관식
표준편차가 0이 되려면 데이터가 어떤 조건을 만족해야 하는가?
  • 데이터가 대칭 분포를 이루어야 한다
  • 평균이 0이어야 한다
  • 데이터의 개수가 1개여야 한다
  • 모든 데이터 값이 동일해야 한다
표준편차 = 0이면 모든 편차가 0이어야 합니다. 이것이 의미하는 바를 생각해 보세요.
해설
핵심 개념: 표준편차가 0인 조건

표준편차 = 0이면 모든 편차(xᵢ − x̄)가 0이어야 합니다.
즉, 모든 데이터 값이 평균과 같다 = 모든 값이 동일합니다.

예: {5, 5, 5, 5}의 표준편차 = 0

각 선택지 분석:
- A: 대칭이어도 퍼짐이 있으면 표준편차 > 0 → ✗
- B: 평균이 0이어도 값이 다르면 표준편차 > 0 → ✗
- C: 1개인 경우 표본분산은 정의되지 않음(n-1=0) → ✗
- D: 정답
20
객관식
데이터 {3, 5, 7, 9, 11}의 각 값에 상수 10을 더하면, 평균표준편차는 각각 어떻게 변하는가?
  • 평균은 10 증가하고, 표준편차는 변하지 않는다
  • 평균과 표준편차 모두 10 증가한다
  • 평균은 변하지 않고, 표준편차가 10 증가한다
  • 평균과 표준편차 모두 변하지 않는다
모든 값에 상수를 더하면 위치만 이동합니다. 퍼짐 정도(표준편차)는 바뀔까요?
해설
핵심 개념: 데이터 변환과 통계량의 변화

모든 값에 상수 c를 더하면:
- 새 평균 = 원래 평균 + c (위치 이동)
- 새 표준편차 = 원래 표준편차 (변화 없음)

원래 평균 = (3+5+7+9+11)/5 = 7
새 평균 = 7 + 10 = 17 (10 증가)
표준편차: 모든 값을 같은 양만큼 이동시키면 퍼짐은 변하지 않음

💡 Tip: 상수를 곱하면(×c) 표준편차도 |c|배가 됩니다.

3강 - 데이터 수치요약

객관식 20문항

1
객관식
데이터 {3, 5, 7, 8, 12, 15}의 중앙값은?
  • 7
  • 8
  • 7.5
  • 8.33
짝수 개의 데이터에서 중앙값은 가운데 두 값의 평균입니다.
해설
핵심 개념: 짝수 개 데이터의 중앙값

데이터가 짝수개이면 가운데 두 값의 평균을 구합니다.

정렬: 3, 5, 7, 8, 12, 15 (6개 데이터)
중앙값 = (7 + 8) ÷ 2 = 7.5

💡 기억법: 홀수 개 → 가운데 값, 짝수 개 → 가운데 두 값의 평균
2
객관식
오른쪽 꼬리 분포(right-skewed)에서 평균과 중앙값의 관계는?
  • 평균 > 중앙값
  • 평균 < 중앙값
  • 평균 = 중앙값
  • 알 수 없다
평균은 항상 '긴 꼬리 쪽'으로 끌려갑니다.
해설
핵심 개념: 비대칭 분포에서 평균과 중앙값의 관계

평균은 항상 긴 꼬리 쪽으로 끌려갑니다.

- 오른쪽 꼬리(right-skewed) → 평균 > 중앙값 (예: 연봉 분포)
- 왼쪽 꼬리(left-skewed) → 평균 < 중앙값 (예: 쉬운 시험)
- 대칭 → 평균 ≈ 중앙값

💡 Tip: 극단적으로 큰 값이 있으면 평균이 오른쪽으로 끌려가 중앙값보다 커집니다.
3
객관식
데이터의 다섯수치요약이 다음과 같다: 최솟값=10, Q1=25, 중앙값=40, Q3=55, 최댓값=80.
IQR은?
  • 70
  • 30
  • 40
  • 15
IQR = Q3 − Q1입니다. 범위(최댓값 − 최솟값)와 혼동하지 마세요.
해설
핵심 개념: IQR(사분위수 범위)

IQR = Q3 − Q1 = 55 − 25 = 30

IQR은 데이터의 가운데 50%가 퍼진 범위입니다.

혼동하기 쉬운 것들:
- 범위(Range) = 최댓값 − 최솟값 = 80 − 10 = 70 (전체 범위)
- IQR = Q3 − Q1 = 30 (중앙 50%의 범위)

💡 Tip: IQR은 특이점에 덜 민감하여 데이터의 퍼짐을 측정하기에 더 안정적입니다.
4
객관식
데이터에 특이점(outlier)이 있을 때, 중심위치와 산포를 측정하기 위해 적절한 통계량 조합은?
  • 평균 + 표준편차
  • 중앙값 + IQR
  • 최빈값 + 범위
  • 평균 + IQR
특이점에 민감하지 않은(robust한) 통계량 조합을 생각해 보세요.
해설
핵심 개념: 특이점에 강건한 통계량

특이점에 민감한 통계량: 평균, 표준편차, 범위
특이점에 강건한 통계량: 중앙값, IQR

따라서 특이점이 있을 때:
- 중심위치 → 중앙값
- 산포 → IQR

대칭이고 특이점이 없으면 → 평균 + 표준편차가 더 정보를 많이 담고 있습니다.

💡 원칙: 분포 확인 → 대칭이면 평균+SD, 치우쳐 있으면 중앙값+IQR
5
객관식
데이터 {8, 23, 25, 28, 32, 35, 37, 41, 42, 52}의 다섯수치요약으로 올바른 것은?
  • 8, 23, 32, 42, 52
  • 8, 25, 32, 41, 52
  • 8, 25, 33.5, 41, 52
  • 8, 28, 33.5, 37, 52
다섯수치요약: 최솟값, Q1, 중앙값, Q3, 최댓값을 순서대로 구합니다.
해설
핵심 개념: 다섯수치요약 계산

데이터 10개 (이미 정렬): {8, 23, 25, 28, 32, 35, 37, 41, 42, 52}

- 최솟값 = 8
- Q1 = 하위 5개 {8,23,25,28,32}의 중앙값 = 25
- 중앙값 = (32+35)/2 = 33.5
- Q3 = 상위 5개 {35,37,41,42,52}의 중앙값 = 41
- 최댓값 = 52
- IQR = 41 − 25 = 16
6
객관식
범위(Range)가 산포를 측정하는 데 갖는 가장 큰 약점은?
  • 계산이 복잡하다
  • 최댓값과 최솟값, 두 극단값에만 의존하여 특이점에 매우 민감하다
  • 음수가 될 수 있다
  • 단위가 원래 데이터와 다르다
범위는 오직 최댓값과 최솟값, 두 극단값에만 의존합니다.
해설
핵심 개념: 범위(Range)의 약점

범위 = 최댓값 − 최솟값

장점: 계산이 매우 간단
약점:
- 오직 2개의 극단값만 사용
- 나머지 데이터의 분포를 전혀 반영하지 못함
- 특이점이 하나만 있어도 크게 왜곡됨

💡 Tip: 범위는 음수가 될 수 없고(최댓값 ≥ 최솟값), 단위는 원래 데이터와 같습니다.
7
객관식
어떤 학생의 시험 점수가 80번째 백분위수(P₈₀)에 해당한다. 이것의 의미로 올바른 것은?
  • 100점 만점에서 80점을 받았다
  • 상위 80%에 해당한다
  • 전체 학생 중 80%가 이 학생보다 낮은 점수를 받았다
  • 전체 학생 중 80%가 이 학생보다 높은 점수를 받았다
k번째 백분위수(Pₖ)는 데이터의 k%가 그 값 이하인 지점입니다.
해설
핵심 개념: 백분위수의 의미

k번째 백분위수(Pₖ) = 데이터의 k%가 그 값 이하인 지점

P₈₀이면:
- 전체의 80%가 그 값보다 같거나 낮음
- 상위 20%에 해당

💡 주의: 점수 자체(80점)와 백분위수(80번째)는 다른 개념입니다. P₈₀ = 65점일 수도 있습니다.
8
객관식
상자그림(box plot)에서 상자 안의 선과 상자의 양 끝이 나타내는 것으로 올바른 것은?
  • 상자 안의 선 = 평균, 상자 양 끝 = 최솟값과 최댓값
  • 상자 안의 선 = 최빈값, 상자 양 끝 = Q1과 Q3
  • 상자 안의 선 = 평균, 상자 양 끝 = Q1과 Q3
  • 상자 안의 선 = 중앙값, 상자 양 끝 = Q1과 Q3
상자그림의 구조: 상자 안의 선은 중앙값, 양 끝은 Q1과 Q3입니다.
해설
핵심 개념: 상자그림(box plot)의 구조

상자그림의 5가지 요소:
- 상자 왼쪽 끝 = Q1
- 상자 안의 선 = 중앙값(Q2)
- 상자 오른쪽 끝 = Q3
- 수염(whisker) = Q1−1.5×IQR ~ Q3+1.5×IQR 범위
- 수염 바깥의 점 = 특이점(outlier)

💡 주의: 상자 안의 선은 평균이 아닌 중앙값입니다.
9
객관식
중앙값이 평균보다 더 적절한 대표값이 되는 경우는?
  • 데이터에 극단적인 특이점이 있어 분포가 심하게 치우쳐 있을 때
  • 데이터가 완벽하게 대칭일 때
  • 모든 데이터 값이 동일할 때
  • 데이터의 개수가 짝수일 때
중앙값은 순서만 고려하므로 극단값의 영향을 거의 받지 않습니다.
해설
핵심 개념: 중앙값의 강건성

중앙값의 최대 장점 = 특이점에 강건(robust)

- 평균: 극단값에 의해 크게 끌려감
- 중앙값: 순서만 고려하므로 극단값의 영향을 거의 받지 않음

예: {1,2,3,4,1000}에서 평균=202, 중앙값=3

💡 활용: 연봉 분포처럼 치우친 데이터에서는 중앙값이 더 적절합니다.
10
객관식
다음 산포 통계량 중 단위가 원래 데이터와 같은 것은?
  • 분산
  • 표준편차
  • 분산과 표준편차 모두
  • 변이계수
분산은 편차를 제곱하므로 단위도 제곱됩니다. 표준편차는 루트를 씌우면?
해설
핵심 개념: 분산, 표준편차, 변이계수의 단위

분산: 편차를 제곱하므로 단위도 제곱 (예: cm²)
표준편차: 분산에 루트를 씌우므로 원래 데이터와 같은 단위 (예: cm)
변이계수(CV): 표준편차/평균이므로 단위 없음(무차원 수)

💡 Tip: 해석의 직관성 면에서 표준편차 > 분산입니다. "평균에서 ±3cm" 같은 해석이 가능합니다.
11
객관식
데이터 {2, 4, 6, 8, 10, 12, 14, 16}의 Q1과 Q3를 구하면?
  • Q1 = 4, Q3 = 14
  • Q1 = 5, Q3 = 13
  • Q1 = 6, Q3 = 12
  • Q1 = 4, Q3 = 12
데이터를 반으로 나누고, 하위 절반의 중앙값이 Q1, 상위 절반의 중앙값이 Q3입니다.
해설
핵심 개념: Q1, Q3 계산법

데이터 8개: {2, 4, 6, 8, 10, 12, 14, 16}

반으로 나누기:
하위 4개: {2, 4, 6, 8} → Q1 = (4+6)/2 = 5
상위 4개: {10, 12, 14, 16} → Q3 = (12+14)/2 = 13
IQR = 13 − 5 = 8

💡 기억법: Q1은 하위 절반의 중앙값, Q3은 상위 절반의 중앙값입니다.
12
객관식
다섯수치요약이 Q1=20, Q3=40일 때, 1.5×IQR 규칙으로 특이점을 판별하면 다음 중 특이점은?
  • 15
  • 45
  • 60
  • 75
1.5×IQR 규칙: 하한 = Q1 − 1.5×IQR, 상한 = Q3 + 1.5×IQR 바깥이면 특이점입니다.
해설
핵심 개념: 1.5×IQR 규칙으로 특이점 판별

IQR = Q3 − Q1 = 40 − 20 = 20
1.5 × IQR = 30

하한 울타리: Q1 − 30 = 20 − 30 = −10
상한 울타리: Q3 + 30 = 40 + 30 = 70

−10 미만이거나 70 초과인 값이 특이점:
- 15 (범위 안) ✗ | 45 (범위 안) ✗ | 60 (범위 안) ✗
- 75 > 70 → 특이점
13
객관식
두 데이터셋의 상자그림을 비교했을 때, A의 상자가 B보다 훨씬 넓다. 이에 대한 해석으로 가장 적절한 것은?
  • A의 IQR이 B보다 크므로, A의 중앙 50% 데이터가 더 넓게 퍼져 있다
  • A의 평균이 B보다 크다
  • A의 데이터 수가 B보다 많다
  • A에 특이점이 더 많다
상자그림에서 상자의 너비는 IQR(중앙 50%의 퍼짐)을 나타냅니다.
해설
핵심 개념: 상자그림의 너비 해석

상자그림에서 상자의 너비 = IQR(Q3 − Q1)

상자가 넓다 = 중앙 50%의 데이터가 더 넓은 범위에 퍼져 있다

💡 주의: 상자의 너비는 다음과 직접적 관련이 없습니다:
- 평균의 크기
- 데이터의 수
- 특이점의 수
14
객관식
100명의 시험 점수에서 어떤 학생이 72번째 백분위수(P₇₂)에 해당한다. 이 학생보다 높은 점수를 받은 학생은 약 몇 명인가?
  • 72명
  • 38명
  • 28명
  • 82명
k번째 백분위수면 k%가 그 값 이하이므로, 상위는 (100-k)%입니다.
해설
핵심 개념: 백분위수에서 순위 계산

72번째 백분위수(P₇₂)의 의미:
- 전체의 72%가 이 학생 이하
- 이 학생보다 높은 점수 = 상위 28%

100명 기준: 약 100 − 72 = 28명이 이 학생보다 높은 점수를 받았습니다.

💡 Tip: Pₖ에 해당하면 상위 (100-k)%에 위치합니다.
15
객관식
데이터의 다섯수치요약이 최솟값=30, Q1=45, 중앙값=50, Q3=55, 최댓값=70일 때, 이 분포의 모양은?
  • 왼쪽 꼬리 분포(left-skewed)
  • 대략 대칭에 가까운 분포
  • 오른쪽 꼬리 분포(right-skewed)
  • 균등 분포(uniform)
중앙값을 기준으로 Q1까지의 거리와 Q3까지의 거리를 비교해 보세요.
해설
핵심 개념: 다섯수치요약으로 분포 모양 판단

대칭 여부: 중앙값을 기준으로 양쪽을 비교합니다.

중앙값 − Q1 = 50 − 45 = 5
Q3 − 중앙값 = 55 − 50 = 5 (같음)
중앙값 − 최솟값 = 50 − 30 = 20
최댓값 − 중앙값 = 70 − 50 = 20 (같음)

양쪽이 대칭적이므로 대략 대칭에 가까운 분포입니다.

💡 판단법: 간격이 비슷하면 대칭, 한쪽이 크면 그 쪽으로 꼬리가 길다.
16
객관식
데이터 {5, 5, 5, 5, 5, 5, 5, 5, 5, 100}의 중앙값과 평균을 구하면?
  • 중앙값 = 14.5, 평균 = 14.5
  • 중앙값 = 52.5, 평균 = 14.5
  • 중앙값 = 5, 평균 = 14.5
  • 중앙값 = 5, 평균 = 5
특이점이 있을 때 평균과 중앙값 중 어느 것이 더 영향을 받는지 비교해 보세요.
해설
핵심 개념: 특이점이 평균과 중앙값에 미치는 영향 비교

데이터: {5, 5, 5, 5, 5, 5, 5, 5, 5, 100}

중앙값 = (5번째+6번째)/2 = (5+5)/2 = 5
평균 = (5×9 + 100)/10 = 145/10 = 14.5

특이점 100이 평균을 14.5로 끌어올렸지만, 중앙값은 5로 거의 영향을 받지 않았습니다.

💡 핵심: 이것이 중앙값이 특이점에 강건(robust)한 이유입니다.
17
객관식
데이터 {10, 20, 30, 40, 50}에서 범위(Range)와 IQR을 구하면?
  • 범위 = 40, IQR = 20
  • 범위 = 40, IQR = 30
  • 범위 = 50, IQR = 20
  • 범위 = 30, IQR = 40
범위 = 최댓값 − 최솟값, IQR = Q3 − Q1입니다.
해설
핵심 개념: 범위(Range)와 IQR 비교

데이터: {10, 20, 30, 40, 50}

범위 = 최댓값 − 최솟값 = 50 − 10 = 40
Q1 = 20 (2번째), Q3 = 40 (4번째)
IQR = Q3 − Q1 = 40 − 20 = 20

💡 차이: 범위는 극단값 2개만 사용(특이점에 민감), IQR은 중앙 50%의 퍼짐(더 안정적)
18
객관식
다섯수치요약이 최솟값=10, Q1=30, 중앙값=35, Q3=60, 최댓값=90일 때, 이 분포의 왜도(치우침) 방향은?
  • 왼쪽 꼬리 분포(음의 왜도)
  • 대칭 분포
  • 판단할 수 없다
  • 오른쪽 꼬리 분포(양의 왜도)
중앙값에서 Q1까지의 거리와 Q3까지의 거리를 비교하여 치우침 방향을 판단합니다.
해설
핵심 개념: 다섯수치요약으로 왜도 판단

중앙값 기준 양쪽 간격 비교:
중앙값 − Q1 = 35 − 30 = 5 (왼쪽 간격)
Q3 − 중앙값 = 60 − 35 = 25 (오른쪽 간격)

오른쪽 간격이 왼쪽보다 훨씬 크므로 → 오른쪽 꼬리 분포(양의 왜도)

💡 시각화: 상자그림에서 중앙값 선이 상자의 왼쪽에 치우쳐 있는 모양이 됩니다.
19
객관식
두 데이터셋 X와 Y의 상자그림에서, X는 상자가 좁고 수염이 짧으며, Y는 상자가 넓고 수염이 길며 특이점이 여러 개 있다. 가장 적절한 해석은?
  • X의 평균이 Y보다 크다
  • Y가 X보다 데이터의 변동성(산포)이 훨씬 크다
  • X의 데이터 수가 Y보다 적다
  • 두 데이터셋의 분포는 동일하다
상자그림에서 상자가 넓고 수염이 길면 데이터의 변동성(산포)이 크다는 의미입니다.
해설
핵심 개념: 상자그림으로 변동성 비교

상자그림에서:
- 상자의 너비 = IQR (중앙 50%의 퍼짐)
- 수염의 길이 = 데이터의 범위 반영
- 특이점 = 극단적 값

Y의 상자가 넓고 수염이 길며 특이점까지 있다면 → 데이터가 훨씬 넓게 퍼져 있음(변동성이 크다)

💡 주의: 평균의 크기나 데이터 수와는 직접적 관련이 없습니다.
20
객관식
데이터의 중앙값이 평균보다 크다면, 이 분포의 모양은 어떤 형태일 가능성이 높은가?
  • 오른쪽 꼬리 분포(right-skewed)
  • 대칭 분포
  • 왼쪽 꼬리 분포(left-skewed)
  • 균등 분포
평균이 긴 꼬리 쪽으로 끌려간다면, 중앙값 > 평균일 때 꼬리는 어느 쪽에 있을까요?
해설
핵심 개념: 평균·중앙값 관계로 분포 모양 추정

평균은 항상 긴 꼬리 쪽으로 끌려갑니다.

- 중앙값 > 평균 → 평균이 왼쪽으로 끌림 → 왼쪽 꼬리 분포(left-skewed)
- 중앙값 < 평균 → 평균이 오른쪽으로 끌림 → 오른쪽 꼬리 분포(right-skewed)
- 중앙값 ≈ 평균 → 대칭 분포

💡 기억법: 평균이 끌려간 방향 = 긴 꼬리의 방향

4강 - 확률

객관식 20문항

1
객관식
₇C₃의 값은?
  • 21
  • 210
  • 35
  • 42
₇C₃ = 7! / (3! × 4!)로 계산합니다. 분자를 (7×6×5), 분모를 (3×2×1)로 간단히 할 수 있습니다.
해설
핵심 개념: 조합(Combination) 계산

₇C₃ = 7! / (3! × 4!) = (7×6×5) / (3×2×1) = 210 / 6 = 35

💡 빠른 방법: 분자는 위에서 3개(7,6,5)만 곱하고, 분모는 3!로 나누기
2
객관식
P(A) = 0.4, P(B) = 0.5, P(A∩B) = 0.2일 때, P(A∪B)는?
  • 0.9
  • 0.7
  • 0.3
  • 0.1
이 문제는 덧셈법칙 P(A∪B) = P(A) + P(B) − P(A∩B)를 활용합니다.
해설
핵심 개념: 덧셈법칙(Addition Rule)

P(A∪B) = P(A) + P(B) − P(A∩B)
= 0.4 + 0.5 − 0.2 = 0.7

💡 주의: P(A∩B)를 빼지 않으면(=0.9) 교집합 부분을 이중으로 세게 됩니다. 배반(P(A∩B)=0)일 때만 단순 합산이 됩니다.
3
객관식
제품 6개 중 불량 2개가 있다. 3개를 뽑을 때 적어도 1개 불량이 나올 확률은?
  • 1/5
  • 2/5
  • 3/5
  • 4/5
'적어도 1개'는 여사건을 이용하면 쉽습니다: 1 − P(0개).
해설
핵심 개념: 여사건을 이용한 확률 계산

"적어도 1개" = 1 − P(0개)

P(불량 0개) = ₄C₃ / ₆C₃ = 4/20 = 1/5
P(적어도 1개 불량) = 1 − 1/5 = 4/5

💡 Tip: "적어도 하나"가 나오면 여사건(전혀 없는 경우)을 빼는 것이 훨씬 쉽습니다.
4
객관식
P(A) = 0.3, P(B|A) = 0.5일 때, P(A∩B)는?
  • 0.80
  • 0.15
  • 0.50
  • 0.30
곱셈법칙: P(A∩B) = P(A) × P(B|A)를 적용하세요.
해설
핵심 개념: 곱셈법칙(Multiplication Rule)

P(A∩B) = P(A) × P(B|A) = 0.3 × 0.5 = 0.15

이는 조건부 확률의 정의를 변형한 것입니다:
P(B|A) = P(A∩B)/P(A) → P(A∩B) = P(A) × P(B|A)

💡 Tip: 독립이면 P(B|A) = P(B)이므로 P(A∩B) = P(A)×P(B)로 단순화됩니다.
5
객관식
두 사건 A, B가 독립일 때 성립하는 식은?
  • P(A∩B) = P(A) × P(B)
  • P(A∩B) = P(A) + P(B)
  • P(A|B) = P(B)
  • P(A∪B) = P(A) × P(B)
독립이면 한 사건의 발생이 다른 사건의 확률에 영향을 주지 않습니다.
해설
핵심 개념: 사건의 독립

두 사건이 독립이면 한 사건의 발생이 다른 사건의 확률에 영향을 주지 않습니다.

독립의 조건: P(A∩B) = P(A) × P(B)
동치 조건: P(A|B) = P(A), P(B|A) = P(B)

💡 주의: 독립 ≠ 배반. 배반(P(A∩B)=0)인 두 사건이 확률>0이면 절대 독립이 아닙니다.
6
객관식
5명 중 3명을 뽑아 일렬로 세우는 경우의 수(순열, ₅P₃)는?
  • 10
  • 15
  • 30
  • 60
순열은 순서가 중요하므로 ₅P₃ = 5!/(5-3)!로 계산합니다.
해설
핵심 개념: 순열(Permutation) 계산

₅P₃ = 5!/(5−3)! = 5!/2! = (5×4×3×2×1)/(2×1) = 60

빠른 방법: 위에서 3개만 곱하기 = 5×4×3 = 60

💡 순열 vs 조합: 순열은 순서 중요(₅P₃=60), 조합은 순서 무관(₅C₃=10). 순열 = 조합 × r!
7
객관식
P(A) = 0.7일 때, 사건 A가 일어나지 않을 확률 P(Aᶜ)는?
  • 0.3
  • 0.7
  • 1.0
  • −0.3
여사건의 확률: P(Aᶜ) = 1 − P(A)입니다.
해설
핵심 개념: 여사건의 확률

여사건 공식: P(Aᶜ) = 1 − P(A) = 1 − 0.7 = 0.3

핵심 성질: P(A) + P(Aᶜ) = 1 (항상)

💡 주의: 확률은 항상 0과 1 사이이므로 음수(-0.3)는 불가능합니다.
8
객관식
주사위 1개를 던지는 실험의 표본공간(S)으로 올바른 것은?
  • S = {짝수, 홀수}
  • S = {1, 2, 3, 4, 5}
  • S = {1, 2, 3, 4, 5, 6}
  • S = {0, 1, 2, 3, 4, 5, 6}
표본공간(S)은 실험에서 나올 수 있는 모든 가능한 결과의 집합입니다.
해설
핵심 개념: 표본공간(Sample Space)

표본공간(S) = 실험에서 나올 수 있는 모든 가능한 결과의 집합

주사위 1개: S = {1, 2, 3, 4, 5, 6}
- 0은 나올 수 없으므로 포함 안 됨
- {짝수, 홀수}는 사건(event)이지 표본공간이 아님

💡 Tip: 표본공간은 가장 세밀한 수준에서 모든 결과를 나열한 것입니다.
9
객관식
확률의 공리(axiom)로 올바르지 않은 것은?
  • 모든 사건 A에 대해 0 ≤ P(A) ≤ 1
  • 표본공간 전체의 확률 P(S) = 1
  • 서로 배반인 사건들의 합사건 확률은 각 확률의 합과 같다
  • 임의의 두 사건 A, B에 대해 P(A∪B) = P(A) + P(B)
P(A∪B) = P(A) + P(B)는 서로 배반일 때만 성립합니다.
해설
핵심 개념: 확률의 공리와 덧셈법칙

확률의 3대 공리:
① 0 ≤ P(A) ≤ 1
② P(S) = 1
③ 서로 배반인 사건들: P(A∪B) = P(A) + P(B)

D가 틀린 이유: P(A∪B) = P(A) + P(B)는 서로 배반일 때만 성립합니다.
일반적으로: P(A∪B) = P(A) + P(B) − P(A∩B)

💡 핵심: 중복(교집합)을 빼는 것을 잊지 마세요!
10
객관식
P(A) = 0.6, P(B|A) = 0.4일 때, 곱셈법칙을 사용하여 구한 P(A∩B)는?
  • 1.0
  • 0.24
  • 0.20
  • 0.60
곱셈법칙: P(A∩B) = P(A) × P(B|A)를 사용하세요.
해설
핵심 개념: 곱셈법칙 적용

곱셈법칙: P(A∩B) = P(A) × P(B|A)
= 0.6 × 0.4 = 0.24

이는 조건부 확률의 정의를 변형한 것:
P(B|A) = P(A∩B)/P(A) → P(A∩B) = P(A) × P(B|A)

💡 Tip: A가 독립이면 P(B|A) = P(B)이므로 P(A∩B) = 0.6 × P(B)가 됩니다.
11
객관식
빨간 공 4개, 파란 공 6개가 들어 있는 주머니에서 공을 2개 동시에 뽑을 때, 2개 모두 빨간 공일 확률은?
  • 4/25
  • 2/15
  • 6/45
  • 1/5
비복원추출에서는 조합을 사용합니다. 빨간 공에서 2개, 전체에서 2개를 뽑는 조합을 구하세요.
해설
핵심 개념: 비복원추출의 확률 계산

빨간 공 4개, 파란 공 6개 (총 10개)에서 2개 동시 추출:

빨간 공 2개 선택: ₄C₂ = 6
전체에서 2개 선택: ₁₀C₂ = 45
P = 6/45 = 2/15 ≈ 0.133

💡 주의: 4/25 = 0.16은 복원추출(독립)일 때의 값 (4/10)² 입니다. 비복원에서는 조합을 사용하세요.
12
객관식
어떤 질병의 유병률이 1%이다. 검사의 민감도(양성일 때 양성 판정)는 99%, 특이도(음성일 때 음성 판정)는 95%일 때, 양성 판정을 받은 사람이 실제로 질병이 있을 확률(양성예측도)은 약?
  • 약 99%
  • 약 50%
  • 약 17%
  • 약 1%
베이즈 정리를 사용합니다. 먼저 P(양성) = P(양성|질병)P(질병) + P(양성|정상)P(정상)을 구하세요.
해설
핵심 개념: 베이즈 정리와 양성예측도

베이즈 정리: P(질병|양성) = P(양성|질병)×P(질병) / P(양성)

P(양성) = P(양성|질병)×P(질병) + P(양성|정상)×P(정상)
= 0.99×0.01 + 0.05×0.99 = 0.0099 + 0.0495 = 0.0594

P(질병|양성) = 0.0099/0.0594 ≈ 0.167 (약 17%)

💡 핵심 교훈: 유병률이 낮으면 양성 판정을 받아도 실제 질병일 확률이 생각보다 낮습니다.
13
객관식
P(A) = 0.5, P(B) = 0.4, P(A∩B) = 0.2일 때, P(B|A)는?
  • 0.4
  • 0.5
  • 0.2
  • 0.8
조건부 확률: P(B|A) = P(A∩B) / P(A)를 적용하세요.
해설
핵심 개념: 조건부 확률

P(B|A) = P(A∩B)/P(A) = 0.2/0.5 = 0.4

이 경우 P(B|A) = 0.4 = P(B)이므로 A와 B는 독립입니다.
즉, A의 발생이 B의 확률에 영향을 주지 않습니다.

💡 확인법: P(B|A) = P(B)이면 독립, 아니면 종속입니다.
14
객관식
P(A) = 0.3, P(B) = 0.4, P(A∩B) = 0인 경우, 사건 A와 B의 관계는?
  • 독립이면서 배반이다
  • 독립이지만 배반은 아니다
  • 독립도 아니고 배반도 아니다
  • 배반이지만 독립은 아니다
배반: P(A∩B)=0, 독립: P(A∩B)=P(A)×P(B). 두 조건이 동시에 성립하는지 확인해 보세요.
해설
핵심 개념: 배반과 독립의 관계

P(A∩B) = 0 → 배반(mutually exclusive)
독립 검증: P(A)×P(B) = 0.3×0.4 = 0.12 ≠ 0 → 독립 아님

💡 핵심 원칙: 확률이 0이 아닌 두 배반 사건은 절대 독립이 될 수 없습니다.
이유: 하나가 일어나면 다른 하나는 절대 일어나지 않으므로 서로 영향을 줍니다.
15
객관식
공장 A에서 전체 제품의 60%를, 공장 B에서 40%를 생산한다. 불량률은 A가 2%, B가 5%일 때, 임의의 제품이 불량일 확률은?
  • 0.035
  • 0.032
  • 0.07
  • 0.02
전확률법칙: P(불량) = P(불량|A)×P(A) + P(불량|B)×P(B)를 적용하세요.
해설
핵심 개념: 전확률법칙(Law of Total Probability)

P(불량) = P(불량|A)×P(A) + P(불량|B)×P(B)
= 0.02×0.6 + 0.05×0.4
= 0.012 + 0.020 = 0.032

전체 불량률은 각 공장의 불량률을 생산 비율로 가중평균한 것입니다.

💡 Tip: 전확률법칙은 베이즈 정리의 분모를 구하는 데도 사용됩니다.
16
객관식
₈P₃ + ₈C₃의 값은?
  • 336
  • 56
  • 392
  • 448
₈P₃ = 8×7×6, ₈C₃ = 8!/(3!×5!)을 각각 계산해서 더하세요.
해설
핵심 개념: 순열과 조합 합산

₈P₃ = 8×7×6 = 336 (순서 O)
₈C₃ = 8!/(3!×5!) = 336/6 = 56 (순서 X)
합: 336 + 56 = 392

💡 관계: ₙPᵣ = ₙCᵣ × r! 이므로, 336 = 56 × 6 이 성립합니다.
17
객관식
다음 확률표에서 P(A∩B)와 P(A∪B)를 구하면?

BBᶜ
A0.150.25
Aᶜ0.350.25
  • P(A∩B) = 0.35, P(A∪B) = 0.75
  • P(A∩B) = 0.15, P(A∪B) = 0.40
  • P(A∩B) = 0.25, P(A∪B) = 0.60
  • P(A∩B) = 0.15, P(A∪B) = 0.75
확률표에서 P(A∩B)는 A행 B열의 값을 직접 읽으면 됩니다.
해설
핵심 개념: 확률표(결합확률표) 읽기

확률표에서 직접 읽기:
P(A∩B) = 0.15 (A행, B열의 값)

주변확률 계산:
P(A) = 0.15 + 0.25 = 0.40
P(B) = 0.15 + 0.35 = 0.50

덧셈법칙: P(A∪B) = 0.40 + 0.50 − 0.15 = 0.75
또는: P(A∪B) = 1 − P(Aᶜ∩Bᶜ) = 1 − 0.25 = 0.75
18
객관식
주사위 2개를 동시에 던질 때, 적어도 1개가 6이 나올 확률은?
  • 1/6
  • 1/3
  • 11/36
  • 1/36
'적어도 하나'는 여사건을 이용합니다: 1 − P(둘 다 6이 아님).
해설
핵심 개념: 여사건을 이용한 "적어도 하나" 계산

P(적어도 1개가 6) = 1 − P(둘 다 6이 아님)

P(6이 아님) = 5/6
P(둘 다 6 아님) = (5/6)² = 25/36
P(적어도 1개가 6) = 1 − 25/36 = 11/36 ≈ 0.306

💡 전략: "적어도 하나"는 항상 여사건(=하나도 아닌 경우)을 빼는 것이 쉽습니다.
19
객관식
P(A) = 0.3, P(B) = 0.5, P(C) = 0.2이고, A, B, C가 서로 배반일 때, P(A∪B∪C)는?
  • 1.0
  • 0.8
  • 0.3
  • 계산할 수 없다
서로 배반인 사건들의 합집합 확률은 각 확률의 단순 합입니다.
해설
핵심 개념: 배반 사건의 합사건 확률

서로 배반(mutually exclusive)인 사건들:
P(A∪B∪C) = P(A) + P(B) + P(C) = 0.3 + 0.5 + 0.2 = 1.0

합이 1이라는 것은 A, B, C가 표본공간을 완전히 분할(partition)한다는 의미입니다.
반드시 셋 중 하나는 일어납니다.

💡 Tip: 배반이면 교집합이 없으므로 단순 합산이 가능합니다.
20
객관식
52장의 카드에서 2장을 연속으로 뽑을 때(비복원), 2장 모두 하트일 확률은?
  • 1/16
  • 1/17
  • 13/52
  • 12/51
비복원추출에서는 첫 번째 뽑기가 두 번째 확률에 영향을 줍니다.
해설
핵심 개념: 비복원추출의 곱셈법칙

비복원추출이므로 조건부 확률을 곱합니다:
P(1번째 하트) = 13/52
P(2번째 하트 | 1번째 하트) = 12/51
P(둘 다 하트) = (13/52) × (12/51) = 156/2652 = 1/17 ≈ 0.059

💡 주의: 복원추출이면 (13/52)² = 1/16이 됩니다. 비복원에서는 두 번째 뽑기의 확률이 달라집니다.

5강 - 확률변수

객관식 20문항

1
객관식
확률변수 X의 확률분포가 다음과 같을 때, E(X)는?

X012
P(X)0.30.50.2
  • 0.5
  • 0.9
  • 1.0
  • 1.2
기댓값 E(X) = Σ x × P(X=x)로 각 값에 확률을 곱해서 더합니다.
해설
핵심 개념: 기댓값(Expected Value) 계산

E(X) = Σ x × P(X=x)
= 0×0.3 + 1×0.5 + 2×0.2
= 0 + 0.5 + 0.4 = 0.9

💡 의미: 기댓값은 확률변수의 "장기 평균"으로, 이 실험을 무한히 반복하면 평균이 0.9에 수렴합니다.
2
객관식
E(X) = 5, Var(X) = 4일 때, Y = 3X + 2의 분산 Var(Y)는?
  • 12
  • 14
  • 36
  • 38
Var(aX+b) = a²Var(X)입니다. 상수 b는 분산에 영향을 주지 않습니다.
해설
핵심 개념: 선형변환의 분산

공식: Var(aX+b) = a²Var(X)

Var(3X+2) = 3² × 4 = 9 × 4 = 36

💡 핵심: 상수 b(=2)를 더하는 것은 위치만 이동시키므로 분산에 영향 없음! 상수 a(=3)를 곱하면 분산은 a²배가 됩니다.
3
객관식
시험 점수 X의 평균이 70, 표준편차가 10일 때, 85점의 Z값(표준화 점수)은?
  • 1.5
  • 0.85
  • 15
  • -1.5
Z = (X − μ) / σ 공식에 값을 대입하세요.
해설
핵심 개념: Z-점수(표준화)

공식: Z = (X − μ) / σ = (85 − 70) / 10 = 15/10 = 1.5

해석: 85점은 평균(70)에서 표준편차(10) 1.5개만큼 위에 있다는 의미입니다.

💡 Tip: Z > 0이면 평균 위, Z < 0이면 평균 아래, Z = 0이면 평균과 같습니다.
4
객관식
E(X) = 3일 때, E(2X+5)의 값은?
  • 6
  • 8
  • 11
  • 16
기댓값의 선형성: E(aX+b) = aE(X) + b를 이용하세요.
해설
핵심 개념: 기댓값의 선형성

공식: E(aX+b) = aE(X) + b

E(2X+5) = 2×3 + 5 = 6 + 5 = 11

💡 Tip: 기댓값에서는 상수를 그대로 꺼낼 수 있습니다. 분산과 달리 상수 b도 그대로 더해집니다.
5
객관식
위 Q1의 확률분포(E(X)=0.9)에서 Var(X) = E(X²) − [E(X)]²를 이용하여 구한 Var(X)는?
  • 0.81
  • 0.49
  • 1.30
  • 0.90
분산의 간편식: Var(X) = E(X²) − [E(X)]²을 사용하세요. 먼저 E(X²)을 구합니다.
해설
핵심 개념: 분산의 간편식

Var(X) = E(X²) − [E(X)]²

E(X²) = 0²×0.3 + 1²×0.5 + 2²×0.2 = 0 + 0.5 + 0.8 = 1.3
[E(X)]² = 0.9² = 0.81
Var(X) = 1.3 − 0.81 = 0.49

💡 주의: E(X²) ≠ [E(X)]²입니다. 이 차이가 바로 분산입니다.
6
객관식
다음 중 연속 확률변수에 해당하는 것은?
  • 동전 3번 던져서 나온 앞면의 수
  • 한 학급의 학생 수
  • 어떤 전구의 수명(시간)
  • 주사위를 던져서 나온 눈의 수
이산형은 셀 수 있는 값, 연속형은 구간 내 어떤 실수값이든 가능합니다.
해설
핵심 개념: 이산 vs 연속 확률변수

이산 확률변수: 셀 수 있는 값 (0, 1, 2, 3...)
→ 앞면 수, 학생 수, 주사위 눈

연속 확률변수: 구간 내 어떤 실수값이든 가능
→ 전구 수명, 키, 몸무게

전구 수명은 1000.5시간처럼 소수점 값이 가능하므로 연속형입니다.

💡 구분법: "~의 수"는 이산형, "~의 양/길이/시간"은 연속형인 경우가 많습니다.
7
객관식
이산 확률변수 X의 확률분포가 유효하려면 반드시 만족해야 하는 조건은?
  • 모든 확률이 0보다 크다
  • 확률의 합이 0이다
  • E(X) = 0이다
  • 각 P(X=x) ≥ 0이고, 모든 확률의 합 ΣP(X=x) = 1이다
확률분포의 두 가지 필수 조건: (1) 각 확률 ≥ 0, (2) 모든 확률의 합 = 1.
해설
핵심 개념: 확률분포의 유효 조건

이산 확률변수의 확률분포가 유효하려면:
① 각 P(X=x) ≥ 0 (음수 불가, 0은 가능)
② 모든 확률의 합 ΣP(X=x) = 1

💡 주의: A(모든 확률이 0보다 크다)는 틀립니다. 확률이 0인 값이 있을 수 있습니다(0 이상이면 됨).
8
객관식
확률변수 X의 누적분포함수(CDF) F(3) = 0.75의 의미는?
  • P(X ≤ 3) = 0.75
  • P(X = 3) = 0.75
  • P(X ≥ 3) = 0.75
  • P(X > 3) = 0.75
누적분포함수(CDF)의 정의: F(x) = P(X ≤ x)입니다.
해설
핵심 개념: 누적분포함수(CDF)

정의: F(x) = P(X ≤ x)

F(3) = 0.75의 의미: P(X ≤ 3) = 0.75
→ X가 3 이하일 확률이 75%

💡 주의: CDF는 "이하(≤)" 확률입니다. "이상(≥)"은 1 − F(x)로 구합니다.
9
객관식
확률변수 X의 Var(X)에 대한 설명으로 옳은 것은?
  • Var(X)는 음수가 될 수 있다
  • Var(X)가 클수록 확률변수의 값이 평균에서 더 멀리 흩어져 있다
  • Var(X) = E(X) − [E(X)]² 로 계산한다
  • Var(X)의 단위는 원래 확률변수와 같다
Var(X)는 편차의 제곱의 기댓값이므로 항상 0 이상입니다.
해설
핵심 개념: 분산의 성질

Var(X)의 성질:
✓ 항상 0 이상 (편차의 제곱이므로) → A 오류
✓ Var(X)가 클수록 값이 평균에서 더 멀리 흩어짐 → B 정답
✗ 공식: Var(X) = E() − [E(X)]² → C 오류(E(X)가 아닌 E(X²))
✗ 단위: 원래의 제곱 (cm → cm²) → D 오류
10
객관식
SD(X) = 4일 때, Y = 3X + 7의 표준편차 SD(Y)는?
  • 19
  • 7
  • 12
  • 144
SD(aX+b) = |a| × SD(X)입니다. 절댓값에 주의하세요.
해설
핵심 개념: 선형변환의 표준편차

공식: SD(aX+b) = |a| × SD(X)

SD(3X+7) = 3 × 4 = 12

상수 b(=7)를 더하는 것은 위치만 이동시키므로 표준편차에 영향 없습니다.
참고: Var(3X+7) = 9 × 16 = 144, SD = √144 = 12

💡 주의: 표준편차에는 절댓값(|a|)을 사용합니다. 음수가 될 수 없습니다.
11
객관식
확률변수 X의 확률분포가 다음과 같을 때, E(X²)는?

X123
P(X)0.20.50.3
  • 2.1
  • 4.41
  • 3.5
  • 4.9
E(X²) = Σ x² × P(X=x)로 각 값의 제곱에 확률을 곱해서 더합니다.
해설
핵심 개념: E(X²) 계산

E(X²) = Σ x² × P(X=x)
= 1²×0.2 + 2²×0.5 + 3²×0.3
= 0.2 + 2.0 + 2.7 = 4.9

참고: E(X) = 2.1이므로 [E(X)]² = 4.41
E(X²) ≠ [E(X)]² (4.9 ≠ 4.41)
이 차이가 Var(X) = 4.9 − 4.41 = 0.49

💡 핵심: "제곱의 기댓값 ≠ 기댓값의 제곱" — 항상 E(X²) ≥ [E(X)]²입니다.
12
객관식
Var(X)를 구하는 두 가지 공식 중, 간편식은?
  • Var(X) = E[(X − μ)²]
  • Var(X) = Σ(xᵢ − x̄)² / (n−1)
  • Var(X) = E(X²) − [E(X)]²
  • Var(X) = E(X) − E(X²)
정의식: E[(X-μ)²], 간편식: E(X²) − [E(X)]². 어느 것이 계산하기 쉬운지 비교해 보세요.
해설
핵심 개념: 분산의 두 가지 공식

정의식: Var(X) = E[(X − μ)²] — 편차의 제곱의 기댓값
간편식: Var(X) = E(X²) − [E(X)]² — 계산이 더 간편

두 공식은 수학적으로 동일한 결과를 줍니다.

💡 주의: B는 표본분산(Σ(xᵢ−x̄)²/(n−1))이고, D는 부호가 틀렸습니다(E(X²)−[E(X)]²이 맞음).
13
객관식
확률변수 X의 확률분포가 다음과 같을 때, k의 값은?

X0123
P(X)0.10.3k0.2
  • 0.4
  • 0.3
  • 0.2
  • 0.5
확률분포의 필수 조건: 모든 확률의 합 = 1을 이용하여 k를 구하세요.
해설
핵심 개념: 확률분포의 합 = 1 조건

모든 확률의 합 = 1이므로:
0.1 + 0.3 + k + 0.2 = 1
0.6 + k = 1
k = 0.4

검증: k = 0.4 ≥ 0 ✓, 합계 = 0.1+0.3+0.4+0.2 = 1 ✓

💡 Tip: 미지수가 있으면 "합 = 1"을 이용하여 구합니다.
14
객관식
X ~ N(60, 100)이고 Z = 1.5일 때, 원래 X값은? (σ² = 100이므로 σ = 10)
  • 70
  • 75
  • 80
  • 90
Z = (X − μ)/σ를 X에 대해 풀면 X = μ + Z × σ가 됩니다.
해설
핵심 개념: 표준화의 역변환

Z = (X − μ)/σ를 X에 대해 풀면:
X = μ + Z × σ = 60 + 1.5 × 10 = 60 + 15 = 75

💡 해석: Z = 1.5이므로 평균(60)에서 표준편차(10) 1.5개만큼 위에 있는 값입니다.
15
객관식
E(X) = 10, SD(X) = 3일 때, Y = −2X + 5의 E(Y)와 SD(Y)는?
  • E(Y) = −15, SD(Y) = −6
  • E(Y) = −15, SD(Y) = −1
  • E(Y) = −15, SD(Y) = 6
  • E(Y) = 25, SD(Y) = 6
E(aX+b) = aE(X)+b, SD(aX+b) = |a|×SD(X)를 적용하세요. 표준편차는 항상 0 이상입니다.
해설
핵심 개념: 선형변환의 기댓값과 표준편차

Y = −2X + 5

E(Y) = aE(X) + b = (−2)(10) + 5 = −15
SD(Y) = |a| × SD(X) = |−2| × 3 = 6

💡 핵심: 표준편차에는 절댓값을 사용합니다. SD는 항상 0 이상이므로 음수가 될 수 없습니다. 상수 b는 분산과 표준편차에 영향을 주지 않습니다.
16
객관식
두 확률변수 X, Y가 독립일 때, Cov(X, Y)의 값은?
  • 0
  • 1
  • −1
  • 알 수 없다
독립인 두 확률변수의 공분산은 항상 0입니다. 하지만 역은 성립하지 않습니다.
해설
핵심 개념: 독립과 공분산의 관계

Cov(X,Y) = E(XY) − E(X)E(Y)

X, Y가 독립이면 E(XY) = E(X)E(Y)이므로:
Cov(X,Y) = 0

💡 중요한 주의점: "독립 → Cov=0"은 성립하지만, "Cov=0 → 독립"은 성립하지 않습니다(역이 안 됨). 비선형 관계가 있을 수 있습니다.
17
객관식
확률변수 X의 확률분포가 P(X=1) = 0.5, P(X=3) = 0.5일 때, E(X²)는?
  • 2
  • 4
  • 3
  • 5
E(X²) = Σ x² × P(X=x)를 계산하세요. E(X²) ≠ [E(X)]²에 주의하세요.
해설
핵심 개념: E(X²) 계산과 의미

E(X²) = 1²×0.5 + 3²×0.5 = 0.5 + 4.5 = 5

참고: E(X) = 1×0.5 + 3×0.5 = 2
[E(X)]² = 4
Var(X) = E(X²) − [E(X)]² = 5 − 4 = 1

💡 핵심: E(X²) ≠ [E(X)]² — 이 차이가 분산입니다.
18
객관식
Var(X) = 16일 때, Var(X + 5)와 Var(3X)는 각각?
  • Var(X+5) = 21, Var(3X) = 48
  • Var(X+5) = 16, Var(3X) = 144
  • Var(X+5) = 16, Var(3X) = 48
  • Var(X+5) = 21, Var(3X) = 144
Var(aX+b) = a²Var(X)입니다. 상수 더하기는 분산에 영향 없고, 곱하기는 제곱으로 영향합니다.
해설
핵심 개념: 분산에 대한 상수의 영향

공식: Var(aX+b) = a²Var(X)

Var(X+5): a=1, b=5 → 1²×16 = 16 (상수 더하기 = 분산 불변)
Var(3X): a=3, b=0 → 3²×16 = 9×16 = 144 (상수 곱하기 = 제곱으로 영향)

💡 기억법: 분산에서 상수 더하기는 무시, 상수 곱하기는 제곱으로 반영됩니다.
19
객관식
확률변수 X의 확률분포가 P(X=0)=0.4, P(X=1)=0.4, P(X=4)=0.2일 때, E(2X+1)은?
  • 2.2
  • 3.4
  • 4.2
  • 5.0
먼저 E(X)를 구하고, E(2X+1) = 2E(X) + 1을 적용하세요.
해설
핵심 개념: 기댓값의 선형성 활용

① E(X) = 0×0.4 + 1×0.4 + 4×0.2 = 0 + 0.4 + 0.8 = 1.2
② E(2X+1) = 2×E(X) + 1 = 2×1.2 + 1 = 3.4

💡 Tip: E(aX+b) = aE(X) + b — 기댓값 연산에서는 상수를 그대로 꺼낼 수 있습니다.
20
객관식
Var(X)에 대한 성질로 틀린 것은?
  • Var(X) ≥ 0 (항상 0 이상)
  • Var(c) = 0 (c는 상수)
  • Var(X) = E(X²) − [E(X)]²
  • Var(X+Y) = Var(X) + Var(Y) (항상 성립)
Var(X+Y) = Var(X) + Var(Y)는 X와 Y가 독립일 때만 성립합니다.
해설
핵심 개념: Var(X+Y)의 조건

Var(X+Y) = Var(X) + Var(Y)는 X와 Y가 독립일 때만 성립합니다.

일반 공식: Var(X+Y) = Var(X) + Var(Y) + 2Cov(X,Y)

올바른 성질들:
✓ Var(X) ≥ 0 (항상 0 이상)
✓ Var(c) = 0 (상수의 분산)
✓ Var(X) = E(X²) − [E(X)]² (간편식)

6강 - 확률분포 1

객관식 20문항

1
객관식
X ~ B(10, 0.3)일 때, E(X)와 Var(X)는?
  • E(X)=3, Var(X)=3
  • E(X)=3, Var(X)=2.1
  • E(X)=7, Var(X)=2.1
  • E(X)=0.3, Var(X)=0.21
이항분포 B(n,p): E(X) = np, Var(X) = np(1-p)를 적용하세요.
해설
핵심 개념: 이항분포의 기댓값과 분산

X ~ B(n, p)일 때:
E(X) = np = 10×0.3 = 3
Var(X) = np(1−p) = 10×0.3×0.7 = 2.1

💡 기억법: 이항분포에서 E(X)=np는 "n번 중 성공 비율"이고, Var(X)에는 (1-p)가 곱해집니다.
2
객관식
포아송분포의 독특한 특징은?
  • 항상 대칭이다
  • 분산이 항상 1이다
  • 평균과 분산이 같다
  • 연속형 분포이다
포아송분포의 독특한 특징: 평균과 분산의 관계를 생각해 보세요.
해설
핵심 개념: 포아송분포의 특징

포아송분포 Poi(m)의 독특한 특징:
E(X) = m, Var(X) = m → 평균과 분산이 같다!

다른 선택지 분석:
- A: m이 작으면 오른쪽 꼬리, m이 크면 대칭에 가까움 → ✗
- B: 분산 = m으로 1이 아님 → ✗
- D: 이산형 분포임 → ✗
3
객관식
정규분포 N(100, 15²)에서 ±1σ 범위(85~115)에 포함되는 데이터의 비율은 약?
  • 50%
  • 68%
  • 95%
  • 99.7%
정규분포의 68-95-99.7 법칙을 떠올려 보세요. ±1σ는 몇 %인가요?
해설
핵심 개념: 68-95-99.7 법칙

정규분포 N(μ, σ²)에서:
- ±1σ 범위 → 약 68%
- ±2σ 범위 → 약 95%
- ±3σ 범위 → 약 99.7%

N(100, 15²): μ=100, σ=15
85~115 = 100 ± 15 = μ ± 1σ → 약 68%
4
객관식
X ~ N(500, 30²)일 때, P(X ≥ 530)을 구하기 위한 Z값은?
  • 0.5
  • 1
  • 1.5
  • 30
표준화 공식 Z = (X − μ) / σ에 값을 대입하세요.
해설
핵심 개념: 정규분포의 표준화

Z = (X − μ) / σ = (530 − 500) / 30 = 1

P(X ≥ 530) = P(Z ≥ 1) = 1 − P(Z ≤ 1) = 1 − 0.8413 = 0.1587

💡 Tip: Z = 1은 "평균에서 표준편차 1개만큼 위"라는 의미입니다.
5
객관식
동전을 5번 던져서 앞면이 정확히 2번 나올 확률은? (X ~ B(5, 0.5))
  • 0.2000
  • 0.2500
  • 0.3125
  • 0.5000
이항분포 공식: P(X=k) = ₙCₖ × pᵏ × (1-p)ⁿ⁻ᵏ를 적용하세요.
해설
핵심 개념: 이항분포의 확률 계산

X ~ B(5, 0.5), P(X=2) = ?

P(X=2) = ₅C₂ × 0.5² × 0.5³
= 10 × 0.25 × 0.125 = 0.3125

💡 공식: P(X=k) = ₙCₖ × pᵏ × (1-p)ⁿ⁻ᵏ
6
객관식
이항분포 B(n, p)가 적용되기 위한 조건이 아닌 것은?
  • 각 시행의 결과는 성공 또는 실패 두 가지뿐이다
  • 각 시행은 서로 독립이다
  • 시행 횟수 n은 무한대여야 한다
  • 매 시행에서 성공 확률 p는 일정하다
이항분포 조건: (1) 성공/실패, (2) 독립, (3) p 일정, (4) n 고정. 위반되는 것을 찾으세요.
해설
핵심 개념: 이항분포의 4가지 조건

① 결과가 성공/실패 2가지
② 각 시행이 독립
③ 성공 확률 p가 일정
④ 시행 횟수 n이 고정 (유한한 값)

C("n은 무한대")가 오답: n은 무한대가 아니라 유한한 고정값이어야 합니다.
7
객관식
초기하분포이항분포의 가장 큰 차이점은?
  • 초기하분포는 연속형이고 이항분포는 이산형이다
  • 초기하분포는 성공 확률이 변하고 이항분포는 평균이 없다
  • 두 분포는 동일하며 이름만 다르다
  • 초기하분포는 비복원추출(각 시행이 종속)이고, 이항분포는 복원추출(각 시행이 독립)이다
비복원추출(종속)이면 초기하분포, 복원추출(독립)이면 이항분포입니다.
해설
핵심 개념: 초기하분포 vs 이항분포

이항분포: 복원추출 → 각 시행 독립 → 성공 확률 p 일정
초기하분포: 비복원추출 → 각 시행 종속 → 뽑을 때마다 확률 변함

💡 근사: 모집단이 표본에 비해 매우 크면(N >> n), 비복원이라도 확률 변화가 미미하여 이항분포로 근사 가능합니다.
8
객관식
정규분포의 대칭성을 이용하면, X ~ N(μ, σ²)일 때 P(X ≤ μ)는?
  • 0
  • 0.5
  • 0.68
  • 1
정규분포는 평균을 중심으로 완벽하게 대칭입니다.
해설
핵심 개념: 정규분포의 대칭성

정규분포는 평균 μ를 중심으로 완벽하게 대칭입니다.

따라서: P(X ≤ μ) = P(X ≥ μ) = 0.5 (50%)

💡 활용: 대칭성 덕분에 P(X ≥ μ+a) = P(X ≤ μ−a)가 성립합니다.
9
객관식
표준정규분포에서 P(Z ≤ 1.96)의 값은 약?
  • 0.975
  • 0.950
  • 0.025
  • 0.500
Z = 1.96은 통계학에서 가장 중요한 값 중 하나입니다. 95% 신뢰구간과 관련됩니다.
해설
핵심 개념: 중요한 Z값 — 1.96

P(Z ≤ 1.96) = 0.975
→ P(−1.96 ≤ Z ≤ 1.96) = 0.95 (95%)

자주 쓰이는 Z값:
- 상위 10%: z = 1.28
- 상위 5%: z = 1.645
- 상위 2.5%: z = 1.96
- 상위 1%: z = 2.33

💡 활용: 95% 신뢰구간에서 사용되는 핵심 값입니다.
10
객관식
이항분포를 포아송분포로 근사할 수 있는 조건은?
  • n이 작고 p가 클 때
  • n과 p가 모두 클 때
  • n이 크고 p가 매우 작을 때 (np = m이 적당한 크기)
  • n이 작고 p = 0.5일 때
이항분포의 포아송 근사 조건: n이 크고 p가 매우 작을 때(np가 적당한 크기).
해설
핵심 개념: 이항분포의 포아송 근사

조건: n이 크고 p가 매우 작을 때 (보통 n ≥ 20, p ≤ 0.05)
B(n, p) ≈ Poi(m), 여기서 m = np

예: 불량품률(p=0.01)인 공장에서 100개를 검사할 때
→ B(100, 0.01) ≈ Poi(1)

💡 Tip: "드문 사건"을 모델링할 때 포아송 근사가 유용합니다.
11
객관식
X ~ B(10, 0.4)일 때, P(X ≤ 1)은? (즉, 성공이 0번 또는 1번일 확률)
  • 약 0.006
  • 약 0.046
  • 약 0.167
  • 약 0.400
P(X ≤ 1) = P(X=0) + P(X=1)을 각각 이항분포 공식으로 계산하세요.
해설
핵심 개념: 이항분포의 누적확률 계산

X ~ B(10, 0.4), P(X ≤ 1) = P(X=0) + P(X=1)

P(X=0) = ₁₀C₀ × 0.4⁰ × 0.6¹⁰ ≈ 0.006
P(X=1) = ₁₀C₁ × 0.4¹ × 0.6⁹ ≈ 0.040
P(X≤1) ≈ 0.006 + 0.040 = 약 0.046

💡 Tip: 이항분포의 누적확률은 각 경우를 개별적으로 계산해서 더합니다.
12
객관식
어떤 콜센터에 시간당 평균 3건의 전화가 걸려온다. 포아송분포를 이용하여 P(X=2)를 구하면? (e⁻³ ≈ 0.0498)
  • 약 0.050
  • 약 0.100
  • 약 0.180
  • 약 0.224
포아송분포 공식: P(X=x) = e⁻ᵐ × mˣ / x!에 m=3, x=2를 대입하세요.
해설
핵심 개념: 포아송분포 공식 적용

P(X=x) = e⁻ᵐ × mˣ / x!

m = 3 (시간당 평균), x = 2:
P(X=2) = e⁻³ × 3² / 2!
= 0.0498 × 9 / 2 = 0.0498 × 4.5 ≈ 0.224

💡 핵심: 포아송분포는 "단위 시간(또는 공간)당 드물게 발생하는 사건의 횟수"를 모델링합니다.
13
객관식
X ~ N(200, 25²)일 때, P(150 ≤ X ≤ 250)은 약?
  • 약 95%
  • 약 68%
  • 약 99.7%
  • 약 50%
주어진 범위가 μ ± 몇 σ인지 계산해 보세요. 68-95-99.7 법칙을 적용합니다.
해설
핵심 개념: 68-95-99.7 법칙 적용

X ~ N(200, 25²) → μ = 200, σ = 25

150 = 200 − 2×25 = μ − 2σ
250 = 200 + 2×25 = μ + 2σ

P(μ−2σ ≤ X ≤ μ+2σ) ≈ 95%

💡 기억법: ±1σ=68%, ±2σ=95%, ±3σ=99.7%
14
객관식
표준정규분포에서 상위 5%에 해당하는 Z값(즉, P(Z > z) = 0.05를 만족하는 z)은?
  • 1.96
  • 2.33
  • 1.645
  • 1.28
P(Z > z) = 0.05이면 P(Z ≤ z) = 0.95입니다. 자주 쓰이는 Z값을 떠올려 보세요.
해설
핵심 개념: 상위 백분율에 해당하는 Z값

P(Z > z) = 0.05 → P(Z ≤ z) = 0.95
Z표에서 누적확률 0.95에 해당하는 값 = z = 1.645

자주 쓰이는 Z값 정리:
- 상위 10% (90%): z = 1.28
- 상위 5% (95%): z = 1.645
- 상위 2.5% (97.5%): z = 1.96
- 상위 1% (99%): z = 2.33
15
객관식
다음 중 이항분포 B(n, p)의 조건을 위반하는 상황은?
  • 동전을 10번 던져서 앞면의 수를 세는 경우
  • 불량률 5%인 공장에서 20개를 복원추출로 검사하는 경우
  • 합격률 60%인 시험에서 5명이 독립적으로 응시하는 경우
  • 카드 52장에서 비복원으로 5장을 뽑아 하트의 수를 세는 경우
이항분포의 핵심 조건: 각 시행이 독립이고 성공 확률이 일정해야 합니다.
해설
핵심 개념: 이항분포 조건 위반 사례

이항분포 핵심 조건: 각 시행이 독립이고 p가 일정

D가 위반하는 이유:
- 카드 52장에서 비복원으로 뽑으면
- 한 장을 뽑을 때마다 남은 카드 구성이 바뀜
- 확률이 변하므로 이항분포가 아닌 초기하분포 사용

💡 Tip: 모집단이 표본에 비해 매우 크면 이항분포로 근사 가능합니다.
16
객관식
상자에 빨간 공 8개, 흰 공 12개가 있다. 5개를 비복원추출할 때, 빨간 공이 정확히 2개일 확률은? (초기하분포)
  • ₈C₂ / ₂₀C₅
  • (₈C₂ × ₁₂C₃) / ₂₀C₅
  • ₅C₂ × 0.4² × 0.6³
  • (₈C₂ × ₁₂C₃) / ₂₀P₅
초기하분포 공식: (성공 중 k개 선택) × (실패 중 나머지 선택) / (전체 중 n개 선택).
해설
핵심 개념: 초기하분포 공식

P(X=k) = (ₐCₖ × ₙ₋ₐCₘ₋ₖ) / ₙCₘ

빨간(성공) 8개 중 2개: ₈C₂ = 28
흰(실패) 12개 중 3개: ₁₂C₃ = 220
전체 20개 중 5개: ₂₀C₅ = 15504
P = (₈C₂ × ₁₂C₃) / ₂₀C₅ ≈ 0.397

💡 주의: C(이항분포 공식)와 D(분모가 순열)는 오답입니다.
17
객관식
X ~ N(μ, σ²)일 때, P(X ≤ μ − σ)의 값은 약?
  • 0.50
  • 0.32
  • 0.16
  • 0.025
68-95-99.7 법칙에서 ±1σ 안에 68%가 있으면, 한쪽 꼬리는 얼마인지 계산해 보세요.
해설
핵심 개념: 정규분포의 꼬리 확률

68-95-99.7 법칙에서:
P(μ−σ ≤ X ≤ μ+σ) ≈ 0.68
바깥 양쪽 꼬리의 합 = 1 − 0.68 = 0.32
한쪽 꼬리 = 0.32/2 = 0.16

즉, P(X ≤ μ−σ) ≈ 0.16, P(X ≥ μ+σ) ≈ 0.16

💡 기억법: 대칭이므로 한쪽 꼬리 = (1 − 중앙 확률) / 2
18
객관식
X ~ N(100, 15²)일 때, 68-95-99.7 법칙을 이용하면 P(70 ≤ X ≤ 130)은 약?
  • 약 95%
  • 약 68%
  • 약 99.7%
  • 약 50%
70과 130이 μ에서 각각 몇 σ 떨어져 있는지 계산해 보세요.
해설
핵심 개념: 68-95-99.7 법칙 실전 적용

X ~ N(100, 15²) → μ = 100, σ = 15

70 = 100 − 2×15 = μ − 2σ
130 = 100 + 2×15 = μ + 2σ

P(μ−2σ ≤ X ≤ μ+2σ) ≈ 95%

💡 Tip: 먼저 주어진 값이 μ에서 몇 σ 떨어져 있는지 계산하면 법칙을 적용할 수 있습니다.
19
객관식
표준정규분포 Z에 대해, P(−1 ≤ Z ≤ 1)과 P(Z > 0)의 값은 각각 약?
  • 0.95, 0.50
  • 0.68, 0.50
  • 0.68, 0.68
  • 0.50, 0.68
±1σ 범위와 대칭성을 각각 적용하세요.
해설
핵심 개념: 표준정규분포의 두 가지 성질

① P(−1 ≤ Z ≤ 1) ≈ 0.68 → 68-95-99.7 법칙의 ±1σ
② P(Z > 0) = 0.50 → 표준정규분포는 0을 중심으로 대칭

표준정규분포 N(0,1)에서 평균=0이므로:
P(Z ≤ 0) = P(Z ≥ 0) = 0.5
20
객관식
X ~ B(8, 0.5)일 때, P(X ≥ 7)은?
  • 8/256
  • 1/256
  • 9/256
  • 28/256
P(X ≥ 7) = P(X=7) + P(X=8)을 이항분포 공식으로 각각 계산하세요.
해설
핵심 개념: 이항분포의 상위 꼬리 확률

X ~ B(8, 0.5), P(X ≥ 7) = P(X=7) + P(X=8)

P(X=7) = ₈C₇ × 0.5⁷ × 0.5¹ = 8/256
P(X=8) = ₈C₈ × 0.5⁸ = 1/256
P(X≥7) = 8/256 + 1/256 = 9/256 ≈ 0.035

💡 Tip: 0.5⁸ = 1/256이고, ₈C₇ = 8, ₈C₈ = 1입니다.

7강 - 확률분포 2

객관식 20문항

1
객관식
모집단의 평균이 μ, 분산이 σ²일 때, 크기 n인 표본평균 X̄의 분산은?
  • σ²
  • σ²/n²
  • σ²/n
  • nσ²
표본평균의 분산: Var(X̄) = σ²/n입니다. n이 커지면 분산은 줄어듭니다.
해설
핵심 개념: 표본평균의 분산

모집단: 평균 μ, 분산 σ²
표본평균 X̄의 분산: Var(X̄) = σ²/n

n이 커질수록 분산이 줄어듦 → 표본평균이 더 안정적

💡 주의: σ²/n²이 아닌 σ²/n입니다. 또한 nσ²은 전체 합의 분산(Var(ΣXᵢ))입니다.
2
객관식
중심극한정리(CLT)에 대한 설명으로 옳은 것은?
  • 모집단이 정규분포여야만 적용된다
  • 표본 크기와 관계없이 항상 성립한다
  • 개별 관측값이 정규분포를 따르게 된다
  • 모집단 분포에 관계없이 n이 충분히 크면 표본평균이 근사적으로 정규분포를 따른다
중심극한정리(CLT)는 모집단 분포에 관계없이 n이 충분히 크면 표본평균이 정규분포를 따른다는 것입니다.
해설
핵심 개념: 중심극한정리(CLT)

모집단의 분포가 무엇이든, n이 충분히 크면(보통 n≥30):
X̄ ~ N(μ, σ²/n) (근사적으로 정규분포)

오답 분석:
- A: 모집단이 정규분포가 아니어도 됨 → ✗
- B: n이 충분히 커야 함 → ✗
- C: 개별 관측값이 아닌 표본평균이 정규분포 → ✗

💡 핵심: CLT는 통계학에서 가장 중요한 정리입니다.
3
객관식
모집단의 σ를 모를 때 표본평균의 분포로 사용하는 것은?
  • 표준정규분포 N(0,1)
  • t-분포 t(n-1)
  • 카이제곱분포 χ²(n-1)
  • 이항분포 B(n,p)
σ를 알면 Z를 쓰고, σ를 모르면 t를 씁니다.
해설
핵심 개념: Z-분포 vs t-분포 선택

σ를 알 때: Z = (X̄−μ)/(σ/√n) ~ N(0,1)
σ를 모를 때: t = (X̄−μ)/(S/√n) ~ t(n-1)

t-분포의 특징:
- 정규분포보다 꼬리가 두꺼움
- n이 커지면 N(0,1)에 수렴

💡 실무: σ를 모르는 경우가 대부분이므로 t-분포를 더 자주 사용합니다.
4
객관식
모평균 μ=50, 모표준편차 σ=10인 모집단에서 n=25인 표본을 뽑았다. 표본평균 X̄의 표준오차(SD)는?
  • 10
  • 5
  • 2
  • 0.4
표준오차(SE) = σ/√n으로 계산합니다.
해설
핵심 개념: 표준오차(Standard Error) 계산

E(X̄) = μ = 50
SD(X̄) = σ/√n = 10/√25 = 10/5 = 2

표준오차 = 표본평균의 표준편차 = 모표준편차/√n

💡 의미: 표본평균들의 퍼짐 정도를 나타냅니다. n이 클수록 표준오차가 작아집니다.
5
객관식
모표준편차 σ를 모르는 상태에서 정규모집단의 표본평균을 검정할 때 사용하는 분포는?
  • 표준정규분포 N(0,1)
  • t-분포 t(n-1)
  • 카이제곱분포 χ²(n-1)
  • 이항분포 B(n,p)
σ를 모르는 상태에서 어떤 분포를 사용하는지 생각해 보세요.
해설
핵심 개념: 검정에서 사용하는 분포 선택

모평균 검정:
- σ를 알 때 → Z = (X̄−μ)/(σ/√n) ~ N(0,1) → Z-검정
- σ를 모를 때 → t = (X̄−μ)/(S/√n) ~ t(n-1) → t-검정

모분산 검정:
- χ² = (n-1)S²/σ₀² ~ 카이제곱분포 χ²(n-1)
6
객관식
중심극한정리(CLT)를 적용하기 위해 일반적으로 필요한 최소 표본 크기는?
  • n ≥ 5
  • n ≥ 10
  • n ≥ 30
  • n ≥ 100
중심극한정리는 통상 n이 얼마 이상일 때 잘 적용되는지 생각해 보세요.
해설
핵심 개념: CLT의 최소 표본 크기

중심극한정리는 통상 n ≥ 30일 때 잘 적용됩니다.

예외:
- 모집단이 이미 정규분포이면 n이 작아도 성립
- 모집단이 매우 비대칭이면 더 큰 n이 필요할 수 있음

💡 기억법: "n ≥ 30"은 CLT의 경험적 기준입니다.
7
객관식
t-분포와 표준정규분포의 차이로 올바른 것은?
  • t-분포는 평균이 1이고 표준정규분포는 평균이 0이다
  • t-분포는 좌우 비대칭이다
  • t-분포는 표준정규분포보다 꼬리가 얇다
  • t-분포는 표준정규분포보다 꼬리가 두껍고, 자유도가 커지면 표준정규분포에 수렴한다
t-분포는 정규분포보다 꼬리가 두껍고, 자유도가 커지면 정규분포에 수렴합니다.
해설
핵심 개념: t-분포의 특성

t-분포 vs 표준정규분포:
- 평균: 둘 다 0
- 대칭: 둘 다 좌우 대칭
- 꼬리: t-분포가 더 두꺼움 (극단값 확률이 높음)
- 수렴: 자유도(n−1)가 커지면 N(0,1)에 수렴

💡 이유: σ 대신 S를 사용하는 불확실성이 꼬리의 두께로 반영됩니다.
8
객관식
X ~ B(100, 0.4)를 정규분포로 근사할 때, 사용하는 정규분포의 평균과 분산은?
  • 평균 = 40, 분산 = 24
  • 평균 = 40, 분산 = 40
  • 평균 = 0.4, 분산 = 0.24
  • 평균 = 60, 분산 = 24
이항분포 B(n,p)의 정규근사: N(np, np(1-p))를 적용하세요.
해설
핵심 개념: 이항분포의 정규근사

B(n, p) ≈ N(np, np(1−p)) (n이 충분히 클 때)

X ~ B(100, 0.4):
평균 = np = 100×0.4 = 40
분산 = np(1−p) = 100×0.4×0.6 = 24

💡 조건: np ≥ 5이고 n(1−p) ≥ 5이면 정규근사가 적절합니다.
9
객관식
F-분포가 주로 사용되는 상황은?
  • 모평균의 구간 추정
  • 두 모집단의 분산 비교(분산분석, ANOVA)
  • 모비율의 가설검정
  • 단일 표본의 중앙값 검정
F-분포는 두 분산의 비(ratio)를 비교할 때 사용됩니다.
해설
핵심 개념: F-분포의 용도

F-분포는 두 카이제곱분포의 비로 정의됩니다.

주요 용도:
① 두 모집단의 분산 비교: F = S₁²/S₂²
분산분석(ANOVA): 여러 그룹의 평균 비교
회귀분석의 유의성 검정

💡 특징: F-분포는 항상 0 이상이고, 오른쪽으로 치우친 비대칭 분포입니다.
10
객관식
모평균 μ의 95% 신뢰구간 공식(σ를 아는 경우)으로 올바른 것은?
  • X̄ ± 1.96 × σ
  • X̄ ± 1.96 × σ²/n
  • μ ± 1.96 × σ/√n
  • X̄ ± 1.96 × σ/√n
신뢰구간 공식: 중심은 X̄(표본평균), 오차한계는 z × σ/√n입니다.
해설
핵심 개념: 신뢰구간 공식 (σ 아는 경우)

95% 신뢰구간: X̄ ± 1.96 × σ/√n

구성 요소:
- 중심: (표본평균, μ가 아님!)
- 오차한계: z(α/2) × σ/√n
- z(0.025) = 1.96 (95% 신뢰수준)

💡 주의: σ를 모르면 S를 사용하고 t-분포를 적용합니다.
11
객관식
모평균 μ=80, 모표준편차 σ=20인 모집단에서 n=100인 표본을 뽑았다. 표본평균 X̄가 78 이상 82 이하일 확률 P(78 ≤ X̄ ≤ 82)는 약?
  • 약 68%
  • 약 50%
  • 약 95%
  • 약 99.7%
표준오차 SE = σ/√n을 구하고, Z값으로 변환한 뒤 68-95-99.7 법칙을 적용하세요.
해설
핵심 개념: 표본평균의 분포와 확률 계산

X̄의 분포: N(μ, σ²/n) = N(80, (20/10)²) = N(80, 4)
표준오차 SE = σ/√n = 20/√100 = 2

Z₁ = (78−80)/2 = −1
Z₂ = (82−80)/2 = 1
P(−1 ≤ Z ≤ 1) ≈ 0.68 (약 68%)

💡 핵심: 표본평균의 분포(SE=2)는 원래 모집단(σ=20)보다 훨씬 좁습니다.
12
객관식
모평균 50, 모분산 36인 모집단에서 n=9인 표본을 뽑을 때, P(X̄ > 54)는? (P(Z > 2) = 0.0228)
  • 0.1587
  • 0.0228
  • 0.0456
  • 0.5000
SE = σ/√n을 구하고 Z = (X̄ − μ)/SE로 표준화하세요.
해설
핵심 개념: 표본평균의 확률 - Z값 계산

σ = √36 = 6, SE = σ/√n = 6/√9 = 6/3 = 2
Z = (54 − 50)/2 = 2
P(X̄ > 54) = P(Z > 2) = 0.0228

💡 해석: 표본평균이 모평균에서 2 표준오차 이상 떨어질 확률은 약 2.3%로 매우 낮습니다.
13
객관식
t-분포 t(n-1)에서, 표본 크기 n=16일 때의 자유도는?
  • 16
  • 17
  • 15
  • 4
t-분포의 자유도 = n − 1입니다.
해설
핵심 개념: t-분포의 자유도

t-분포의 자유도 = n − 1 = 16 − 1 = 15

1이 줄어드는 이유: 표본평균 X̄를 계산하는 데 1개의 정보를 소비했기 때문

💡 Tip: 자유도가 클수록 t-분포는 표준정규분포에 가까워집니다. df ≥ 30이면 거의 같습니다.
14
객관식
95% 신뢰구간의 폭을 절반으로 줄이려면, 표본 크기 n을 어떻게 변경해야 하는가?
  • n을 2배로 늘린다
  • n을 3배로 늘린다
  • n을 절반으로 줄인다
  • n을 4배로 늘린다
신뢰구간 폭은 1/√n에 비례합니다. 폭을 절반으로 줄이려면 n을 어떻게 해야 할까요?
해설
핵심 개념: 표본 크기와 신뢰구간 폭의 관계

신뢰구간 폭 ∝ 1/√n

폭을 절반으로 줄이려면:
1/√n' = (1/2) × (1/√n)
√n' = 2√n
n' = 4n

정밀도를 2배 높이려면 표본 크기를 4배로 늘려야 합니다.

💡 Tip: 이것이 대규모 조사에 비용이 많이 드는 이유입니다.
15
객관식
카이제곱(χ²) 통계량의 자유도가 (n−1)이고, 표본분산 S² = 12, 귀무가설의 모분산 σ₀² = 10, n = 21일 때, χ² 검정통계량은?
  • 24
  • 20
  • 12
  • 1.2
카이제곱 검정통계량: χ² = (n-1)S²/σ₀²를 계산하세요.
해설
핵심 개념: 카이제곱 검정통계량

공식: χ² = (n−1)S²/σ₀²

= (21−1)×12/10 = 20×12/10 = 240/10 = 24

이 값을 자유도 20인 χ²분포에서 비교하여 p-value를 구합니다.

💡 용도: 카이제곱 검정은 모분산이 특정 값과 다른지 검정할 때 사용합니다.
16
객관식
모표준편차 σ=15인 모집단에서 n=25인 표본과 n=100인 표본을 뽑았을 때, 표준오차(SE)의 비율은?
  • SE(n=25) = SE(n=100)
  • SE(n=25)는 SE(n=100)의 2배
  • SE(n=25)는 SE(n=100)의 4배
  • SE(n=25)는 SE(n=100)의 절반
SE = σ/√n으로 각각 계산하여 비율을 구하세요.
해설
핵심 개념: 표본 크기에 따른 표준오차 변화

SE(n=25) = 15/√25 = 15/5 = 3
SE(n=100) = 15/√100 = 15/10 = 1.5
비율: 3/1.5 = 2배

💡 핵심 원리: SE ∝ 1/√n이므로, 표본 크기를 4배로 늘리면 표준오차는 절반이 됩니다.
17
객관식
X ~ B(200, 0.3)를 정규분포로 근사할 때, P(X ≥ 70)을 구하기 위한 Z값은 약? (연속성 보정 미적용)
  • Z ≈ 0.77
  • Z ≈ 1.25
  • Z ≈ 1.54
  • Z ≈ 2.00
이항분포의 정규근사에서 μ = np, σ = √(np(1-p))를 구하고 Z = (X-μ)/σ를 계산하세요.
해설
핵심 개념: 이항분포의 정규근사 — Z값 계산

X ~ B(200, 0.3) → 정규근사 N(np, np(1−p))
μ = np = 200×0.3 = 60
σ = √(np(1−p)) = √(200×0.3×0.7) = √42 ≈ 6.48
Z = (70 − 60)/6.48 ≈ 1.54

💡 검증: np=60 ≥ 5 ✓, n(1−p)=140 ≥ 5 ✓ → 정규근사 사용 가능
18
객관식
"95% 신뢰구간이 (45.2, 54.8)이다"라는 문장의 올바른 해석은?
  • 모평균이 이 구간에 있을 확률이 95%이다
  • 표본평균이 이 구간에 95% 확률로 들어간다
  • 같은 방법으로 여러 번 구간을 만들면, 그 중 약 95%가 모평균을 포함한다
  • 데이터의 95%가 이 구간에 들어간다
신뢰구간의 올바른 해석은 '방법의 신뢰도'입니다. 특정 구간의 확률이 아닙니다.
해설
핵심 개념: 신뢰구간의 올바른 해석

올바른 해석: "같은 방법으로 반복적으로 표본을 뽑아 구간을 만들면, 그 중 약 95%가 모평균을 포함한다"

흔한 오해 (A): "모평균이 이 구간에 있을 확률이 95%" → ✗
- 모평균은 고정된 값이므로 "확률"이 아님
- "들어있거나 아니거나" 둘 중 하나

💡 핵심: 95%는 방법의 신뢰도이지, 특정 구간의 확률이 아닙니다.
19
객관식
다음 중 Z-검정을 사용하는 경우와 t-검정을 사용하는 경우를 올바르게 구분한 것은?
  • σ를 알면 Z-검정, σ를 모르고 S로 대체하면 t-검정
  • n > 30이면 Z-검정, n ≤ 30이면 t-검정
  • 모집단이 정규분포이면 Z-검정, 아니면 t-검정
  • 양측검정이면 Z-검정, 단측검정이면 t-검정
Z와 t를 구분하는 핵심 기준은 모표준편차 σ를 알고 있는지 여부입니다.
해설
핵심 개념: Z-검정 vs t-검정의 구분 기준

핵심 기준: 모표준편차 σ를 아는지 여부

- σ를 알 때: Z = (X̄−μ)/(σ/√n) ~ N(0,1) → Z-검정
- σ를 모를 때: t = (X̄−μ)/(S/√n) ~ t(n−1) → t-검정

💡 주의: "n > 30이면 Z, 아니면 t"는 관례적 경험칙이지 정확한 기준은 아닙니다. 실무에서는 σ를 모르는 경우가 대부분이므로 t-검정을 더 자주 씁니다.
20
객관식
표본분포(sampling distribution)에 대한 설명으로 옳은 것은?
  • 하나의 표본에서 관측된 데이터값들의 분포이다
  • 가능한 모든 표본에서 계산한 통계량(예: 표본평균)의 분포이다
  • 모집단 전체의 데이터 분포이다
  • 표본을 크기 순으로 정렬한 분포이다
표본분포는 '하나의 표본' 분포가 아니라 '가능한 모든 표본의 통계량' 분포입니다.
해설
핵심 개념: 표본분포(Sampling Distribution)

표본분포 = 동일한 모집단에서 같은 크기의 표본을 반복적으로 뽑았을 때, 통계량(표본평균, 표본비율 등)이 이루는 분포

혼동하기 쉬운 개념들:
- A: 하나의 표본의 데이터 분포 = 표본의 도수분포
- C: 모집단 전체의 데이터 분포 = 모집단분포

💡 핵심: 표본분포는 실제로 반복 추출하지 않고 이론적으로 도출하며, 중심극한정리가 그 핵심 근거입니다.

공학용 계산기 가이드

시험에 필요한 계산기 사용법 | 14개 예제로 모든 버튼 연습하기

0

예제 1: 팩토리얼 5! 구하기

5 × 4 × 3 × 2 × 1 = ?

  1. 5 입력
  2. n! 누르기
결과: 120

예제 2: 조합 ₁₀C₃ — 공식대로 풀기

₁₀C₃ = 10! ÷ (3! × 7!)

n! 버튼으로 수식을 조립하고, = 으로 한번에 계산합니다.

  1. 10 n! → 화면에 fact(10)
  2. ÷ (
  3. 3 n!fact(3)
  4. × 7 n!fact(7)
  5. ) =
결과: 120

예제 3: 조합 ₁₀C₃ — 빠른 방법

₁₀C₃ = (10×9×8) ÷ 3!

분자를 직접 곱하면 더 빠릅니다. 3개를 뽑으니 위에서 3개만 곱하고 3!로 나누기.

  1. 10 × 9 × 8
  2. ÷ ( 3 n! ) =
결과: 120

예제 4: 순열 ₅P₂ 구하기

₅P₂ = 5! ÷ 3! = 5 × 4

순열은 위에서부터 r개만 곱하면 됩니다.

  1. 5 × 4 =
결과: 20

예제 5: ²√x 제곱근 구하기

144의 양의 제곱근

  1. 1 4 4 입력
  2. ²√x 누르기
결과: 12

예제 6: 거듭제곱 2⁸ 구하기

2의 8승

  1. 2 입력
  2. xy 누르기
  3. 8 입력
  4. = 누르기
결과: 256

예제 7: x² 제곱 버튼

7² = ?

  1. 7 입력
  2. 누르기
결과: 49

예제 8: 역수 ⅟x

1 ÷ 8 = ?

  1. 8 입력
  2. ⅟x 누르기
결과: 0.125

예제 9: 분산 계산

데이터 {2, 4, 6}의 표본분산 s²

s² = (Σxᵢ² − n×평균²) ÷ (n−1)
평균 = (2+4+6)÷3 = 4
Σxᵢ² = 2²+4²+6² = 4+16+36 = 56
n×평균² = 3×4² = 3×16 = 48

  1. Σxᵢ² 구하기: 2 + 4 + 6 =56
  2. n×평균² 빼기: 4 8 =8
  3. (n−1)로 나누기: ÷ 2 =
결과: s² = 4

예제 10: 복합 계산 — 변이계수

CV = s ÷ 평균 (표준편차=2, 평균=4)

위 분산 결과(s²=4)에서 ²√x 로 제곱근을 구하면 2가 표준편차

  1. 4 ²√x → 결과: 2
  2. ÷ 4 =
결과: CV = 0.5

예제 11: log₁₀ 사용하기

log₁₀(1000) = ?

  1. 1000 입력
  2. log 누르기
결과: 3

예제 12: 10의 거듭제곱

10⁴ = ?

  1. 4 입력
  2. 10x 누르기
결과: 10000

예제 13: 이항분포 확률 계산

X~B(5, 0.3)일 때 P(X=2)
= ₅C₂ × 0.3² × 0.7³

이항분포 공식을 단계별로 계산합니다.

  1. ₅C₂: 5 × 4 ÷ (2 n!)10
  2. × 0.3 xy 2
  3. × 0.7 xy 3
  4. =
결과: 0.3087

예제 14: 표준화 Z값 계산

Z = (X − μ) ÷ σ
X=75, μ=60, σ=10

  1. (75 60)
  2. ÷ 10 =
결과: Z = 1.5

표준정규분포표 (Z-table)

P(Z ≤ z) 값 | Z값의 소수 첫째자리는 행, 둘째자리는 열에서 찾으세요

P(Z ≤ z) = ?
z.00.01.02.03.04.05.06.07.08.09

t-분포표

자유도(df)별 임계값 | 양측검정 유의수준 α에 해당하는 t값

df α=0.20
t₀.₁₀
α=0.10
t₀.₀₅
α=0.05
t₀.₀₂₅
α=0.02
t₀.₀₁
α=0.01
t₀.₀₀₅
버그 제보 & 문의하기