표본이 아무리 커도 대표성 없으면 '꽝'

미국 26대 루스벨트 대통령의 취임식 모습
마케팅 목적으로 기업들이 실시하는 조사 뿐만 아니라 특정 정치 사안에 대한 지지도를 알기 위해서, 특히 선거 예측을 위해서 실시하는 설문조사는 현대 시민에게 매우 익숙해졌다.

전체 중에 일부를 표본으로 선정하여 그들만을 조사하여 그 결과로 전체 사람들을 판단한다. 이 때 중요한 원칙은 공평하게 골고루 표본을 선정하는 것이다. 그런데 3,700만 유권자 중에 1,000명 또는 2,000명을 공평하게 선정하는 것은 쉬운 문제가 아니다. 공평성이 어긋나면 큰 오류가 생기고, 조사 결과는 의미가 없다.

1936년 미국의 대통령 선거는 공화당의 랜던 후보와 민주당의 루스벨트 후보의 대결이었다. 이때 리터러리 다이제스트(Literary Digest)라는 잡지사가 무려 1,000만 명의 유권자에게 설문지를 우송한 뒤 약 240만 명으로부터 응답을 회수하였다.

회수된 설문지에서는 루스벨트가 43%의 지지율밖에 못 얻는 것으로 집계되었고, 이에 따라 이 잡지사는 랜던의 승리를 예상 발표하였다. 그러나 실제 선거 결과는 민주당의 루스벨트 후보가 62%라는 압도적인 지지로 당선되었다.

1,000만명을 대상으로 조사하였는데, 어떻게 이런 어처구니 없는 일이 벌어졌을까?

답은 바로 "누구에게 물어보았느냐"에 있다. 리터러리 다이제스트사가 어떤 사람들에게 설문지를 보냈는지 알아보자.

이 잡지의 정기구독자와 전화번호부, 자동차등록부, 사설클럽회원 명부, 그리고 대학동창회 명부 등에서 인원을 선정하였다. 이들의 공통점은 당시 기준으로 부유층에 해당하는 사람들이라는 것이다.

1930년대 당시의 미국의 전화 보급률은 4분의 1정도였다. 그에 속하는 사람은 부유층이었을 것이다. 그리고 자동차를 보유하고 있는 사람, 사설 클럽 정회원인 사람, 대학동창회에 주소가 정확히 있는 사람, 이 잡지를 정기 구독하는 사람들은 모두 당시 기준으로 상대적으로 부유한 사람들이었다.

당시의 정치경제적 상황을 살펴보자.

1929년의 대공황의 여파로 경제적 불황이 심한 시기였다. 뉴딜정책이라는 막대한 공공사업을 추진하려는 재원 마련을 위해 민주당은 세금을 많이 걷는 정책을 펴고 있었고, 무거운 세금에 불만을 품고 있던 부유층의 지지기반을 위해 공화당은 이를 반대하였다.

결과적으로 소득이 낮은 계층은 민주당을, 높은 계층은 공화당을 선호하였다. 리터러리 다이제스트사가 뽑은 ‘부유층 위주의’ 표본 속에는 루스벨트 후보 지지자가 전체보다 적었기 때문에 루스벨트가 선거에서 지는 것으로 나올 수 밖에 없었다.

대표성이 없는 표본은 그 크기가 아무리 크더라도 모집단의 특성을 올바르게 예측할 수 없다. 부유한 사람들에게만 물어보고서 전체 유권자들이 그러리라고 예측한다는 것은 어리석은 일이다.

마치 국내에서 1987년 당시 호남 또는 경남지역에서만 설문조사를 한 후 전국적으로 그러려니 하고 ‘김대중 후보’나 ‘김영삼 후보’가 당선되리라고 예상하는 것과 비슷한 오류이다. 이 실수는 선거 여론조사의 역사 속에서 가장 유명한 실수로 기록되고 있고, 해당 잡지사는 그 후 폐간의 길로 접어들었다.

이와 유사한 사례가 작년 우리 나라에 있었다. 어느 군에서 지역의 공원 이름을 바꾸기로 하면서, 군청은 여러 후보 이름에 대해 마을이장, 새마을 지도자, 도의원, 군위원 등 '군 내 대표자들'에게 설문조사를 하였고, 그 결과 '전직 대통령의 아호'가 '주민의 뜻에 따른 결정'이라는 명분으로 선정되었다.

이에 대해 반대 측에서는 설문대상이 보수적인 사람만이어서 전체 주민을 대표하지 못하는 왜곡된 것이라며 이의를 제기하였다.

군 내 대표자들이 전체 군민의 의사를 대표할 수 있을까? 그렇지 않다면 '주민의 뜻'이라는 명분은 없어지게 된다. 일부 사람들이 선호하는 이름일 뿐이다.

최제호, (주)디포커스 상무, "통계의 미학" 저자

<저작권자 ⓒ 한국아이닷컴, 무단전재 및 재배포 금지>


주간한국