[심리학이야기] 데이터가 쓰레기면 결과도 쓰레기다
kr·@room9·
0.000 HBD[심리학이야기] 데이터가 쓰레기면 결과도 쓰레기다
요즘 초등학생 프로그램 효과를 검증하는 자료 분석을 의뢰받아 방금 전까지 '코딩'을 했습니다. 코딩이라고 하면 각자 생각나는 것이 있을텐데 심리학도들에게 코딩이란 설문지나 자료를 컴퓨터에 입력하는 작업을 말하죠. 엑셀 같은 프로그램에 입력하거나 텍스트 메모장에 숫자를 계속 때려 넣습니다. 정말 반복 노동입죠.  > 당신이 만약 노트북을 사용하는데 숫자로 다량의 자료입력을 해야 한다면... 텐키 키보드 하나 정도는 사시는 게 정신건강에 좋습니다. 입력을 하다 보면 자료에 대해 여러 가지 생각을 하게 됩니다. 특히 지금처럼 타인이 수집한 자료를 분석하는 경우엔 더 그렇습니다. 자신이 연구 설계를 하고 자료를 모으는 과정을 컨트롤 할 때는 실수가 생겨도 자신을 탓하고 수습을 하면 됩니다. 하지만 남의 건 탓을 하고 화를 내 봐야 의뢰인은 연구나 자료 분석, 통계에 대해 잘 몰라서 이해를 못 하고 수습도 안 되지요. 매년 **데이터가 쓰레기면 결과도 쓰레기가 나온다**고 말은 하지만 잘 모르는 사람이 자료를 수집하면 받고 나서 확인하는 제 입장에센 참 힘들고 한숨이 나옵니다. 지금까지 어떤 일이 있었는지 생각해 보니 대략 이렇네요. --- 아마 몇년 전 가장 처음 분석을 의뢰받은 자료였을 겁니다. 프로그램의 효과를 검증하는 것이기 때문에 시작할 때 한 번 측정하고 마치면 한 번 측정합니다. 그러니까 한 사람의 사전과 사후 데이터가 모두 있어야 분석이 가능하죠. 그런데 심각한 문제가 발생했습니다. 예를 들면 10명이 참가자인데 1-3번 참가자는 사전 측정 자료만 있고 5-9번 참가자는 사후 측정 자료만 있는 식의 사태가 발생했습니다. 이러면 8명의 자료는 아예 못 쓰게 되고 분석에서 제외됩니다. 유효한 데이터가 줄어드는 건 연구자들이 가장 두려워 하는 사태 중 하나입니다. 자료 받아내고 찾아내라고 닥달했던 기억이 있습니다. 요즘엔 자료는 잘 모아줘서 좋습니다. --- 이건 처음부터 지금까지 계속 되는 문제입니다. 분석 이후 보고서까지 쓰는데 마감을 매우 빡빡하게 줍니다. 제가 자료를 받아오면 코딩부터 분석, 보고서까지 쓰게 됩니다. 그런데 1주일 만에 가능하냐고 합니다. 이럴 땐 정말 니가 좀 해보세요라고 말하고 싶습니다. 당연히 불가능하니까 기간을 더 요구하긴 하죠. 그래서 이번엔 넉넉하게 1달을 받았습니다만... 자료를 받으러 가니 절반을 주고 3주 있다가 나머지 절반을 보내줬습니다. 의뢰인도 자료 모으는게 쉽지는 않다지만 이렇게 하면 눈 가리고 아웅이라는 생각 밖에 안 드네요. --- 이래저래 현재는 자료는 잘 모아 준다지만 아주 조금씩 절 빠직하게 하는 것들이 있습니다. 바로 응답하지 않은 문항이나 중복응답, 응답 칸 사이에 체크한 경우입니다. 초등학생들이 응답한 설문이기 때문에 애매하다 싶으면 칸과 칸 사이 선에 체크하거나(자기 나름으로는 1과 2의 사이엔 1.5 느낌 같습니다) 해당 사항이 없으면 그런 일 없다고 쓰기도 합니다. ㅋㅋ 측정을 하는 사람들이 신경 쓰고 봐야겠지만 그들 또한 단순히 받아서 전달만 할 뿐이라 신경 안 씁니다. 이런 경우 통계 프로그램에서 missing 데이터로 처리할 수 있습니다만 그렇게 하면 응답 안 한 1문항 때문에 20문항을 버리게 되는 문제가 일어납니다. 사전과 사후로 같은 걸 두 번 측정하기 때문에 응답하지 않은 문항에 한 해 추정치를 넣을 수도 있고 missing 데이터가 있어도 처리하도록 할 수 있지만 어느 쪽이라 해도 정확도가 떨어지는 결과라 저는 찜찜할 수 밖에 없습니다. --- '데이터가 쓰레기면 결과가 쓰레기다' 아무래도 이번에도 이 말을 의뢰인에게 한 번 더 해줘야 할 것 같습니다. 다음에는 왜 심리학 전공자가 통계나 데이터 분석에 골치 아파야 하는지 그 얘기를 좀 하겠습니다.