Manipulation Checks (M-Checks)
[1][2]
1. 설명
사회심리학 등의 실험법을 활용하는 몇몇 사회과학 분야에서 도입한 실험 연구 방법으로, 독립 변인이 의도한 대로 잘 작동하여 참가자들이 각 조건에 정확히 할당되었는지 확인함으로써 그 연구의 타당도(validity)를 입증하는 방법론적 장치이다. 여기서 조작(manipulation)은 독립 변인에 실험적인 처치(treatment)를 가한다는 의미의 사회과학 용어이다. 최초의 개념적 고안은 1953년으로, 저 유명한 인지부조화 개념을 만들어 낸 사회심리학자 레온 페스팅어(L.Festinger)가 바로 그 주인공이다.조작 점검은 과학적 방법을 연성과학적인 환경에서 최대한 설득력 있게 활용하려는 시도이다. 따라서 똑같이 실험연구를 한다고 해서 모든 학문 분야들에서 조작 점검이 필요한 것은 아니다. 조작 점검은 "인간의 마음 속에서 벌어지는 일들을 연구한다" 고 공언하면서도 그것을 객관적이고 실증적인 방식으로 접근하고자 하는 심리학계에게는 당연히 필수적이다. 하지만 어떤 분야들에서는 아예 이런 개념 자체가 존재한다는 사실을 모르는 경우도 있고, 어떤 분야에서는 연구목적에 따라 필요할 수도 있고 아닐 수도 있다. 어떤 경우에든 이 역시 방법론적 이슈이므로, 학문적 대원칙이라기보다는 그저 학계 동료들을 좀 더 잘 설득하기 위한 상황적인 방편일 따름이다.
조작 점검의 필요성에 대해 간략히 예를 들어 보자. 먼저 의학이나 약학의 경우, 조작 점검 자체가 사실 불필요한 경우가 많다. 예컨대 기침약 A와 플라시보 B를 두고 임상실험을 한다고 할 때, 연구자가 독립 변인에 관해서 신경쓸 일은 그저 천식을 앓고 있는 참가자들을 무작위로 둘로 나누고, 한쪽에게는 A를 주고 다른 한쪽에게는 B를 주면 된다. 투약 및 데이터 코딩 과정에서 헷갈리지만 않는다면 이것만으로도 참가자를 각 조건에 할당하는 일은 끝난다. 즉, 조건 할당이 계획대로 잘 이루어졌는지 검토할 중요성 자체가 크지 않다. 적어도 이 정도 설계에서라면, 기침 반응의 측정만 제대로 해서 비교하면 되는 것이다.
하지만 인간의 심리에 대해 연구할 때는 상황이 더 미묘해진다. 예컨대 공포 영화를 통해 유발된 공포감이 커플 간의 친밀도를 높이는지 실험적으로 입증해 본다고 하자. 이 경우 사전에 친밀도를 미리 측정해 둔 참가자 커플들을 둘로 나누어, 한쪽은 공포 영화를 보게 하고, 다른 쪽은 자연 다큐멘터리나 저녁 뉴스를 같은 시간 동안 보게 할 수 있다. 그리고 시청 후의 서로에 대한 태도나 감정을 질문지법 또는 생리적 반응으로 다시 측정하게 될 것이다. 여기까지는 모범적인 실험적 방법론인데, 연구 결과, 아무런 차이가 나타나지 않았다고 해 보자. 이 결과를 어떻게 받아들여야 할까?
일차적으로 떠오르는 것은 가장 간단한 형태의 가설 기각, 즉 "공포 영화는 커플 간의 친밀도를 높이는 데 있어서 자연 다큐멘터리나 저녁 뉴스에 비해 통계적으로 현저한 차이가 없다" 쪽으로 결론을 도출해야 할 것 같다. 하지만 신중한 연구자라면 누구나 지적하듯이, "애초에 공포 영화를 본 사람들이 공포감을 느꼈다는 보장이 있어?" 라는 반박이 나올 수 있다. 참가자들은 어쩌면 영화를 보는 동안 겁먹기는커녕 킥킥거리고 비웃었을지도 모르며(…) 이 때문에 양쪽 수치에서 의미 있는 차이가 없는 귀무효과(null effect)가 발생했다는 것이다. 그렇다면 이를 근거로 가설을 기각하는 것이 도리어 거짓부정(false negative)이 되어 버리고 만다. 이 데이터로는 여전히 아무것도 확신하지 못하는 것이다.
조작 점검은 바로 이런 난맥상 속에서 등장했다. 만일, 영화 클라이맥스 시점에서 참가자들의 심박 수를 연구자가 이미 측정해 놓았었고, 공포 영화 조건에서는 (vs. 자연 다큐멘터리 조건보다) 통계적으로 현저하게 더 높은 심박 수가 측정되었다면 어떨까? 연구자는 이를 근거로 삼아서 "이것 봐라, 실제로 참가자들이 내 의도대로 공포를 느낀 게 맞았다, 그러니까 이 참가자들은 공포감에도 불구하고 친밀도가 증가하지 않은 거다" 라고 당당히 큰소리칠 수 있다. 귀무효과가 드디어 학문적인 해석 상의 의미를 갖게 되는 순간이다.
감이 좋거나 학문적 논리에 익숙하다면 위에서 실시한 조작 점검이 구성 타당도(construct validity)를 확보하고자 하는 목적이었음을 눈치챘을 것이다. 즉, 조작 점검은 연구자가 의도했던 특정 개념적 덩어리를 (여기서는 '공포감' 을) 독립 변인의 실험적 조작이 (여기서는 '공포 영화 감상' 이) 얼마나 정확하게 가리키고 있는지에 대한 타당도를 보장한다. 이것은 "말랑말랑한" 현상을 주제로 엄격한 실험을 하고자 하는 모든 연구자들이 반드시 지켜야 할 덕목이다. 학계에서는 이런 덕목을 '이론에 비추어 실질적'(theoretically substantive)이라고 표현한다.
물론 조작 점검은 어디까지나 연구방법론적인 제안인 만큼 어마어마한 공격과 비판을 받았으며 이에 대한 디펜스도 굉장히 많이 이루어졌다. 이러한 공방 중에서 가장 흔히 제기되는 비판은 그 조작 점검의 측정 자체가 연구 절차를 오염시킨다는 것이다. 이를 검사효과(testing effect)라고 부른다. 앞의 공포 영화의 예시로 다시 돌아가 보자. 자기 가슴에 심박 측정 패드를 부착하고 공포 영화를 본다면, 과연 참가자들은 평소처럼 편안히 영화를 감상할 수 있을까? 어떤 참가자들은 감이 아주 좋아서, 이 연구가 무엇을 알아보려는 것인지 심박 측정 패드만 보고도 바로 눈치챌지도 모른다. 이들은 감상 후의 설문지에서도 자기 연인을 괜히 더 사랑스럽다고 응답할지도 모른다.
이에 대한 디펜스는 의외로 간단한데, 그 중 하나는 측정 시점을 달리하면 된다는 것이다. 종속 변인을 측정한 이후에 참가자의 조작이 제대로 이루어진 것인지 측정해도 늦지는 않다는 것. 이는 질문지법으로 조작 점검을 할 때 특히 중요하다. 이처럼 여러 척도들을 서로 다른 순서로 배치했을 때 응답이 달라지는 상황을 순서효과(order effect)라고 부른다. 다른 종류의 디펜스는 조작 점검에 익숙해지도록 하거나 충분한 시간적 이격을 둔다는 논리다. 위의 공포 영화 예시로 돌아가 보자. 연구자는 미리 패드를 부착해 놓고, 참가자들이 그것에 충분히 익숙해질 때까지 다양한 일상적 활동들을 하게 했다가, 마침내 편안하게 지낼 때쯤 되면 그때 영화를 상영할 수 있다.
또 다른 비판은, 종속 변인의 귀무효과를 설득력 있게 해석하기 위해 조작 점검을 실시했는데, 이번에는 조작 점검에서의 귀무효과를 설득력 있게 해석할 길이 없다는 것이다(…). 조작 점검이 실패한 상황을 상상해 보자. 공포 영화를 봤건 자연 다큐멘터리를 봤건, 심박수는 어느 쪽에서도 정상치 이상으로 높아지지 않은 것이다. 이걸 어떻게 받아들여야 할까? 당연히 종속 변인 데이터는 1g 의 의미도 갖지 못한다(…). 대부분의 경우, 연구자는 이 데이터를 싹 다 버려야 한다. 하지만 그렇다고 해서 자신 있게 "이 조작은 쓰레기야!" 라고 말하기에도 어려움이 남는다. 정말로 조작 자체가 실패한 건지, 아니면 조작은 성공했는데 조작 점검을 할 측정 척도가 부적합해서인지 확인하기 어렵기 때문이다. 예컨대 참가자들은 심장이 마구 뛰려 할 때마다 옆에 있는 애인에게 의지하면서 호흡을 가다듬었을지도 모르는 일이다. 분명히 공포감을 '경험' 했지만, 생리학적 데이터에서는 탐지되지 못한 것이다.
이것만큼은 아직까지는 확고한 디펜스가 나오지 못하고 있다(…). 방법론 관련 논문들을 찾아보면 이 가능성에 대해 진지하게 문제제기가 된 것이 의외로 2010년대 후반부터여서, 매우 최신의 논쟁이기 때문. 이런 '적합한 측정' 문제는 기존의 종속 변인의 귀무효과 해석에서도 오래 전부터 꾸준히 제기되던 이슈였고, 조작 점검은 그 해석의 문제를 해결하려고 등장했지만 문제를 해결하기보다는 도리어 키워 놓았다. 여전히 똑같은 논리적 함정에서 벗어나지 못했기 때문이다. 그렇기 때문에 그 무렵부터 점차적으로 "조작 점검에 대해서 관행적으로 생각할 게 아니라 좀 더 엄밀하게 들여다보자" 의 비판적이고 자성적인 목소리가 힘을 얻고 있는 중이다.
2. 종류와 활용
조작 점검을 종류로 구분할 경우, 편의를 위하여 실험설계를 위한 조작 점검의 차원에서 구분할 수 있고, 통계분석을 위한 조작 점검의 차원에서 구분할 수 있다.먼저 실험설계 과정에서 타당도를 높이기 위하여 조작 점검을 배치할 수 있다. 이런 형태로 쓰이는 조작 점검은, 문헌에 따르면 네 종류로 구분이 가능하다.
- 직접적 조작 점검(direct manipulation checks)
조작을 가하는 대상이 실제로 조작의 영향을 받았는지 직접적으로 측정한다. 예를 들어, 은은한 빗소리 ASMR을 들으며 공부한 참가자들의 시험 점수가 더 높을 것이라는 연구를 진행한다고 해 보자. 어떤 참가자들은 헤드폰이 고장이 났거나, 혹은 청력이 별로 좋지 않아서 그런 미세한 소리는 잘 듣지 못할 수 있다. 이때 참가자들에게 직접 "빗소리가 얼마나 크게 들리셨나요?" 를 질문한다면, 그것이 바로 직접적 조작 점검이다. 이는 논리적으로 가장 정통적이고 엄격한 구성 타당도 확보 방법이다.
- 간접적 조작 점검(indirect manipulation checks) 또는 상관 변인 측정(measuring correlates)
조작을 가하는 대상을 직접적으로 측정하기 어려울 때, 그 대상과 매우 밀접하게 상관관계가 있을 것이라 여겨지는 다른 변인을 대신 측정한다. 예를 들어, 삼겹살에 소주로 저녁식사를 한 사람들은 파인 다이닝에 양주로 식사한 사람들보다 서민층 지원 정책에 더 많이 찬성할 것이라는 연구를 진행한다고 해 보자. 물론 거나하게 소주를 마시고 삼겹살을 구웠다고 해서 항상 서민층에게 감정이입이 가능해지는 것은 아니다. 이 점을 확인하기 위해서 "귀하의 주관적인 소득수준은 어느 정도라고 생각하시나요?" 를 질문한다면, 이는 서민층에 대한 감정이입과 강한 음의 상관을 보이리라 여겨지는 주관적 소득수준 인식을 대신 측정하는 것이 된다. 이는 논리적으로 수렴 타당도(convergent validity)에 호소하는 방식이다.
- 변별 변인 측정(measuring discriminant variable)
어떤 연구들은 독립 변인을 조작한 결과로 제3의 변인이 함께 휩쓸려 들어오는 통에 종속 변인이 영향을 받았다는 시비가 붙는다(…). 예컨대, 애국심이 일시적으로 높아지도록 조작했는데, 어떤 사람들은 그에 더하여 집권 정부에 대한 지지도까지 함께 끌려올라가는 상황이 발생할 수 있다. 만일 이렇게 혼입된 변인이 종속 변인에 영향을 끼친다면, 이는 연구의 가치를 논리적으로 크게 훼손하는 문제가 된다. 이를 막으려면 집권 정부 지지도를 추가로 측정하여, 이 변인이 독립 변인을 조작하는 과정에서 영향을 받지 않았음을 보일 필요가 있다. 이는 변별 타당도(discriminant validity)에 호소하는 방식이다. 대충 비유하자면, 수많은 작은 버튼들 중에 하나만 콕 집어 눌렀음을 보여주려면, 당초 의도한 하나의 버튼이 잘 눌렸다는 것을 보여줄 필요도 있지만, 의도하지 않은 주위의 버튼들이 눌리지 않았음을 보여줄 필요도 있는 것이다.
- 일반적 주의 점검(general attention checks) 또는 지시적 조작 점검(instructional manipulation checks)
어떤 연구들은 참가자 입장에서는 집중력을 잃을 정도로 시간이 오래 걸리거나, 혹은 어떤 특정한 자극물(stimuli material)을 제시하는 결정적인 순간이 존재해서, 참가자가 연구에 잘 집중하고 있는지 확인할 필요성이 있다. 그렇다고 연구자가 박수를 하면서 "자자, 집중해 주세요!" 라고 말할 수는 없으니, 그 대신에 질문 문항을 두어서 참가자들이 전반적으로 집중을 잘 하고 있는지, 집중하지 못한 티가 역력한 참가자들은 없는지 체계적으로 확인하자는 것이다. 예컨대 참가자가 컴퓨터로 혼자 오랫동안 지루한 과제를 하게 두었다가, 실험적 상황을 부여하기 위해 갑자기 많은 사람들이 있는 채팅방으로 접속시켰다면, "지금 귀하는 어떤 종류의 집단에 들어온 것 같나요?" 라고 질문하고 정확히 응답한 참가자의 비율을 % 단위로 보고할 수 있다. 위에서 함께 언급한 '지시적 조작 점검' 은 약간 맥락이 다른데, "이 문항은 응답하지 말고 비워 두십시오" 같은 함정(?)을 설문지 중간중간에 넣어두는 것을 말한다.
다음으로, 통계분석을 돕기 위하여 조작 점검을 배치할 수 있다. 이런 형태로 쓰이는 조작 점검은 두 종류로 설명할 수 있다.
- 내적 분석(internal analysis)을 위한 조작 점검
대개 실험법에서 독립 변인은 명목(nominal)적 수준의 측정인 경우가 많다. 위에서도 보듯이 통제집단과 실험집단 개념 자체가 독립변인으로 하여금 모 아니면 도의 이분법적 논리를 지니게 만든다. 물론 여기에 비교집단을 새로 두면 3가지 명목 수준을 갖게 되는 식이다. 그런데 조작 점검이 실패했을 경우, 이차적으로 어쨌든 연구 논리는 아귀가 맞았는지 보기 위해서 독립 변인을 연속적인 형태로 정량화하여 측정하는 경우가 있다.
위의 공포 영화 예시로 돌아가 보자. 공포 영화를 본 집단이 평균적으로 심박 수가 더 높지는 않았다고 해도, 심박 수를 측정한 이상에야 '심박 수가 높을수록 연인 간의 친밀도가 높아진다' 는 아이디어의 가치 정도는 확인할 수 있다. 통계적 방법이 평균차 위주의 분석에서 상관성 위주의 분석으로 바뀌고, 논리의 힘이 많이 빠지는 것도 사실이지만, 적어도 아이디어 자체가 틀리지는 않았다는 마지막 한 줌의 희망(…)만큼은 남기 때문이다. 물론 이런 식의 사후적 분석 결과를 논문에 고스란히 보고하지는 않으며, Ejelöv & Luke(2020)의 문헌 역시 실제로 탑티어 저널에서 이런 종류의 보고는 거의 없다고 확인하였다. 현실적으로는 석사논문을 쓰느라 고생하는 대학원생들이 실패한 실험을 이리저리 만지작거리다가 한 번씩 건드려 보곤 한다(…).
- 조작 강도(manipulation strength) 측정을 위한 조작 점검
독립 변인의 조작이 약하게 이루어졌지만 종속 변인에서 차이가 큰 데이터가 있고, 독립 변인의 조작이 확고하게 이루어졌지만 종속 변인에서 차이가 작은 데이터가 있다고 해 보자. 대부분의 연구자들은 전자보다는 후자를 더 선호한다. 전자의 경우 종속 변인의 차이가 클지라도 확신을 갖고 해석하기 힘든 반면, 후자의 경우 종속 변인의 작은 차이조차 확신을 갖고 해석할 수 있기 때문이다. 위의 예시에서도, 공포 영화 집단과 자연 다큐멘터리 집단 사이의 심박 수치가 이쪽은 '확실히' 높고 저쪽은 '확실히' 낮아야지, 양쪽 집단에서 얻어진 심박 수치의 정규분포 두 개가 상당히 겹쳐지게 되면 커플 간의 친밀도가 아무리 크게 달라졌어도 그 원인을 설명하기 어렵게 된다.
이와 관련하여 어떤 연구자들은 인과적 효능(causal efficacy)이라는 아이디어를 제시한다. 이를 이해하려면 먼저 효과 크기(effect size)를 알아야 하는데, 이는 종속 변인의 집단 간 평균의 차이를 표준화하기 위해서 표준 편차로 나눈 것이다. 물론 d-값이나 더 고급의 통계량들은 더 복잡한 계산을 거치지만, 기본 논리는 표준화를 통하여 여러 표본 간의 평균차 크기를 비교하는 데 있다. 문제는, 어떤 표본의 효과 크기는 조작이 제대로 된 상태에서 얻어지고, 어떤 표본의 효과 크기는 그렇지 못하다는 것이다. 그렇다면 연구자로서는 당연히, 조작이 제대로 된 쪽에 더 가중치를 부여하고 싶어진다. 해결방법이야 간단한데, 조작 점검의 평균 차이를 표준화한 후 그 결과를 원인 크기(cause size)라고 이름붙이고, 원인 크기와 효과 크기의 비율을 비교하는 것이다. 그 계산의 결과로 얻어진 것이 바로 인과적 효능이다.
Ejelöv & Luke(2020)의 문헌에 따르면, 충격과 공포(?)스럽게도, 실험사회심리학 탑티어 저널들에 게재된 논문들 중 반수 이상이 효과 크기보다 원인 크기가 더 작았다고 한다(…). 원인 크기가 상대적으로 충분히 커야 연구결과를 확실하게 해석하고 연구 프로그램을 전진시킬 수 있는데, 현실은 그 반대에 더 가깝다는 것.
3. 대안 : 탐색적 검사
Pilot Testing위의 공포 영화 예시로 다시 돌아가 보자. 사실, 연구자는 본 연구를 진행할 때 참가자들에게 굳이 심박 측정 패드를 부착할 필요가 없었다. 연구자에게 시간과 예산이 충분하다면(…), 미리 탐색적 검사를 실시하여 그것을 대신 논문에 보고할 수 있는 것이다. 즉, 이 연구자는 따로 표본 한 세트를 무선표집하여 그들이 공포 영화 혹은 자연 다큐멘터리를 보는 동안에 심박 측정 패드를 부착하고, 여기서 통계적으로 현저한 차이가 나타나게 되면 비로소 새로 표본을 모아서 본 연구를 실시하는 것이다. 탐색적 검사에서 이미 "이 공포 영화는 심박 수를 증가시킨다, 따라서 성공적으로 공포감을 준다!" 는 확신을 얻었기 때문에, 동일한 영화 클립을 활용하는 이상 구태여 또 심박을 측정할 이유가 없게 되는 것.
탐색적 검사의 장점은, 그것이 조작 점검의 기존의 문제들을 상당 부분 회피할 수 있다는 것이다. 특히, 조작 점검의 문제 중 하나인 요구특성과 검사효과의 가능성으로부터 자유롭다. 표본 자체가 서로 달라져서, 탐색적 검사에서 종속 변인으로 쓰였던 측정이 본 연구에서 조작 점검의 근거가 되고, 본 연구의 종속 변인으로 쓰이는 측정은 탐색적 검사에서는 아예 생략된다. 요구특성과 검사효과는 종속 변인의 측정을 오염시킨다는 지적을 받는데, 이 문제에서 벗어날 수 있는 하나의 방법인 것이다.
Ejelöv & Luke(2020)의 문헌에 따르면, 사회심리학계에서 탐색적 검사는 메이저한 방식이 아니며, 단지 13.5% 정도의 적은 문헌만이 탐색적 검사 결과를 보고하고 있다고 한다. 그 외에는 조작 점검 결과를 보고하는 문헌들이라고. 현실적으로 많은 연구들이 연구비가 부족한 환경에서 수행되기 때문에, 표본을 원하는 대로 왕창 모아서 마음껏 연구할 수 있어야 하는 탐색적 검사는 엄두가 나지 않기 때문인 것으로 보인다. 그나마 탐색적 검사 결과를 보고한 문헌들에서도 표본 크기의 중위수가 72.5명에 그칠 만큼 소표본이라고 하는데, 이것도 같은 이유일 것이다.
4. 관련 문서
[1] 본 문서는 r.1 버전 기준으로 Ejelöv & Luke(2020)의 문헌을 바탕으로 하였다. 이 저자들은 이 링크에서 조작 점검의 학술적 가이드라인을 제안하기도 했다. 서지정보는 다음 각주의 인용을 볼 것.[2] Ejelöv, E., & Luke, T. J. (2020). “Rarely safe to assume”: Evaluating the use and interpretation of manipulation checks in experimental social psychology. Journal of experimental social psychology, 87, 103937.