[컴양방] 5/2

sampling distribution을 왜 알아야 할까요?
전수 조사를 하기 어렵기 때문이죠.

Stratified Sampling

쿼터 샘플과 거의 비슷.
단, 쿼터 샘플은 아무렇게나 쿼터를 맞추기만 하면 된다.
그러나 Stratified는 전체에서 분할하여 대표성이 있게 뽑아오는 것이다.

이 때 분할하는 척도는 결과와 큰 상관관계가 있는 것이어야 한다.
물론 이러한 척도는 선행 연구를 통해서 선정하게 될 것이다.

Multistage Cluster Sampling

서울 개신교 신자는 어떤 후보를 가장 지지할까?
어디 사는지, 개신교인지 물은 뒤 조사하면 되나?
이렇게 할 경우 틀릴 가능성이 크다.

  1. 분모가 너무 작다: 서울 개신교 신자가 그렇게 많지 않으니, sampling error가 높아진다.
  2. sampling이 치중될 가능성이 높다:지역마다 각각 신자를 하나씩 뽑아 나가도록 해야 한다.

서울 전체에서 그냥 뽑는 것이 아니라, 하위 범주에서 인구에 비례하게 randomly 뽑아 나가는 것이 multistage이다.
이렇게 하지 않고 그냥 입의로 뽑으면 그것은 Quarter Sampling이다.
이렇게 하면 뭐가 좋을까?
단계별로 비율이 맞아떨어진다.

그런데 이렇게 sampling 할 때 어떤 문제가 생길까?
list에서 한 번 sampling을 할 때마다 에러가 계속 누적된다.
(accumulated sampling error)
이 문제를 어떻게 해결할 수 있을까?

  1. sample size를 늘린다: 그러나 예산에 의해 이미 규모가 결정된 경우가 많다. 딜레마.
  2. 그룹 수 vs. 개체 수: 경험적으로 그룹 간의 이질성이 더 크다. 따라서 한 집단에서 극단적으로 많이 뽑는 것이 더 많은 sampling error를 동반한다.

General Guideline

까지 하고…
PPS 등등은 몰라도 됨.
Weighting도 몰라도 됨.
뒤에는 다 몰라도 돼요.

Experiments

Experimental Research

실험군과 대조군 사이의 결과 차이가 유의미하려면, 실험 처치 외에 다른 것은 모두 동일해야 한다.

왜 control group(대조군)이 있어야 할까?
제 3의 변인이 있을 수 있기 때문이다.
그래서 실험군, 대조군간의 변화 차를 뺀 것이 처치에 의한 순수한 변화량이다.

Double Blind Experiment

피실험자 뿐 아니라 실험자도 현재 실험하고 있는 대상이 어느 집단인지 알 수 없게 해야 한다.

피실험자는 연구를 고의적으로 망치려고 할 수 있기 때문이다.
실험자는 피실험자에게 어떤 cue를 줄 수 있기 때문이다.

Selecting Subjects

실험은 인과관계 검증이 목표다.
설문과는 목표가 다른 것.

이런 실험의 문제가 뭘까?
일반화 가능성.
실험 대상에 따라서 일반화가 달라질 수 있다.
어떻게 극복할까?

  1. randomization: 랜덤하게 뽑은 뒤, 분류해서 완전히 반씩 나눈다.

~열심히 딴짓~