표본의 크기와 추출방법, 그리고 오차의 한계

칼 프리드리히 가우스
가우스 이전의 모든 사람들의 IQ를 합한 것보다 더 높은 IQ를 갖고 있다는 가우스(Carl Friedrich Gauss,1777-1855)는 당시의 수학과 물리학에 커다란 업적을 만들었다. 이러한 가우스는 통계학에서도 가우스 분포 또는 정규분포라는 아주 신기한 법칙을 완성했다. (최초로 연구하기 시작한 학자들은 드무아브르, 라플라스, 르장드르라는 유명한 학자들이었다.)

가우스 분포가 처음 연구된 것은 실험의 오차를 적절하게 처리하기 위해서였다. 실험의 결과를 얻었을 때 그 결과는 참값에서 어느 정도 차이가 있는 값일 가능성이 높다. 이러한 차이가 얼마나 될까를 예상하는 것이 가우스분포의 주된 목적이다.

이 함수의 사용처는 매우 다양하다. 실험의 오차에서 시작한 사용처는 제품의 품질검사, 확률계산 등에 사용되고, 오늘날에는 여론조사에서도 사용된다.통계에서 자주 사용되는 지표 변수들은 평균, 분산(또는 표준편차) 들이다. 가우스 분포 속에도 이들 변수로 이뤄져 있다.

■ 가우스 분포식 의미는 무엇일까?

어떤 값이 나타날 확률을 계산함에 있어서 평균값(μ)로부터 표준편차(σ) 이상의 오차를 가질 확률이 약 32%임을 의미한다. 표준편차의 두 배(2σ) 이상의 오차를 가질 확률은 약 4.5%가 된다.

이 확률은 어떤 값들을 무작위로 취했을 때 그 값들이 우리가 예상했던 값(평균값)에서 벗어날 확률을 뜻하고, 그래서 우리는 '오차의 한계'라는 이름으로 이 확률을 부른다.

일반적인 조사에서 오차의 한계가 작으면 작을수록 더 많은 측정을 행했거나 조사가 틀릴 확률을 너그럽게 고려한다는 의미로 받아들일 수 있다. 만약 제조회사에서 제품의 품질검사를 할 때 불량률 1%의 확률로 검사를 한다면 1% 미만의 오차는 정상제품으로 측정한다는 의미로 받아들일 수 있다.

제조업체에서는 이러한 측정에 노력을 많이 들이는데 돈과 직접적인 연관이 있기 때문이다. 이런 내용들은 정확히 기억하지는 못하겠지만 우리가 고등학교 수학시간에 충분한 학습을 한 바 있다. 정확히 공부한 사람들이 거의 없기 때문에 기억하는 사람이 적을 뿐이다.

표본추출 방법과 표본의 수, 그리고 여론조사의 신뢰도표본의 수에 관련된 재미있는 일화가 하나 존재한다.<리터러리 다이제스트>라는 1900년대 초의 미국의 인기잡지에서는 1916년 최초로 전국적인 여론조사를 하여 윌슨 대통령의 당선을 맞췄으며, 꽤 오랫동안 대선후보 맞추기는 계속되었다.

결국 큰 인기를 구가하던 <리터러리 다이제스트>사는 1936년 1,000만 명을 표본으로 하는 여론조사를 실시하기에 이르렀다. 하지만 이번에는 1,000만 명의 표본조사를 했음에도 불구하고 조사결과가 틀렸고, 단지 5,000명에게 여론조사를 했던 조지 갤럽의 조사결과가 정확했기 때문에 <리터러리 다이제스트>는 신뢰성에 치명타를 맞고 2년 뒤에 문을 닫는 계기를 마련하게 된다.

이러한 과정을 거쳐 여론조사의 한 방법으로서 갤럽의 방법은 나중에 과학이 되었다. 갤럽과 <리터러리 다이제스트> 사건의 본질은 표본의 크기보다는 표본의 품질이 얼마나 중요한지를 알려주는 예이다.

뿐만 아니라 표본들이 취하는 행동에 따라서 여론조사의 의미가 있을 수도 있고, 없을 수도 있다.여론조사의 신뢰도는 결국 얼마나 많은 표본을 정하느냐보다는 어떻게 표본을 추출하고 그 반응을 분석하는 방법에 따라 달라진다는 것을 의미한다.

<저작권자 ⓒ 한국아이닷컴, 무단전재 및 재배포 금지>


황춘성 may@minicactus.com