질적 분석 소프트웨어

CAQDAS (Computer-Asisted Qualitative Data Analysis Software)

1. 소개2. 필요성과 장단점3. 목록4. 활용

4.1. 시각화 사례

5. 관련 문서

1. 소개

정확히 말하자면 "컴퓨터로 지원되는 질적 데이터 분석용 소프트웨어". 말 그대로, 컴퓨터를 활용하여 질적 데이터를 분석하고자 하는 특수한 목적으로 제작된 S/W들을 의미한다. 양적 연구에서의 SPSS나 SAS, Mplus 등에 대응하는 것들이다. 대략 1980년대 후반부터 주목 받기 시작했다.

CAQDAS는 사회과학의 다양한 영역들에서 적용되고 있으나, 그 중에서도 질적 연구의 수요가 큰 분야들에서 특히 효과적이다. 예컨대 간호학, 교육학, 사회복지학, 커뮤니케이션학, 문화인류학, 정책학, 여성학 등등의 여러 응용학문들에서 사용되고 있으며, 전통적으로 양적 연구가 강세라고 할 수 있는 심리학, 경영학, 행정학 등에서도 연구주제에 따라서 보완적으로 접목이 시도되고 있다. 연구방법상으로는 면접법, 개방형 질문지법, 또는 크롤링(crawling)을 통해 얻어진 데이터를 분석하는 용도로 쓰인다.

일부 CAQDAS들은 양적 연구와 질적 연구를 모두 포괄하는 혼합연구를 지원하기도 하며, 스케일이 좀 커지면 빅 데이터 프로세싱 용도로 사용되는 솔루션...까지는 아니어도 네트워크 이론을 기반으로 하는 비정형 텍스트 분석, 시맨틱 분석까지 수행할 수 있다. 그래도 본연의 임무는 코딩(coding), 쿼리(query), 시각화(visualization), 네트워킹(networking), 탐색(exploring), 군집화(clustering) 등등을 거론해 볼 수 있다. 이를 통해 수행 가능한 질적 분석은 내용 분석(content analysis), 텍스트 분석(text analysis), 군집 분석(cluster analysis) 등이 있다.

물론 좋은 소프트웨어를 쓴다고 해서 좋은 논문이 나오리라는 보장은 없다. 워드프로세서로 쓴 글이 원고지에 쓴 글보다 항상 낫다고 볼 수 없듯이,[1] 어차피 질적 연구에서는 연구자의 통찰과 문제의식이 연구의 질을 가장 크게 좌우하며 그 외의 것들은 편의를 위한 보조적인 수단이기 때문이다. 그럼에도 불구하고 질적 연구 자체가 워낙에 노가다가 지독하기 때문에(…)[2] 아직도 연구자들은 컴퓨터를 통해서 조금이라도 더 편하게 작업할 수 없을까 하는 아쉬움을 떨치지 못하고 있는 중이다.

2. 필요성과 장단점

위에서도 언급했지만 질적 연구의 체계화와 효율화를 위해 CAQDAS가 고안되었던 만큼, 질적 연구는 연구자를 매우매우 고통스럽게 만든다(…). 양적 연구의 경우 일괄적으로 수치화된 자료를 수집하고, 설령 수작업으로 엑셀에 코딩을 한다 해도 그만하면 많이 양호한 셈이다. 질적 연구의 경우 코딩 과정에서 저 악명 높은 수작업, 즉 "오려붙이기"(cut-and-paste)를 ~~영혼이 빠져나간 채~~ 머리를 비우고 하다 보면 논문 역시 알맹이 없는 빈껍데기가 되기 십상이라, 이 때문에 자료수집 이후 이를 바탕으로 이론을 세우고 통찰을 이끌어내기까지의 과정이 매우 길고 험난함에도 불구하고 그 동안 내내 정신줄을 똑바로 잡고 있어야 한다는 문제가 있다. 하지만 컴퓨터의 도움을 받는다면 단순 노가다성 작업은 컴퓨터가 대신 해 줄 수 있을 거라는 가능성이 있었고, 남은 것은 분석 결과를 토대로 연구자가 통찰을 이끌어내기만 하면 되는 것이었다. 심지어 한 논문의 각주에 따르면[3] 질적 연구의 자료분석 시간은 자료수집 시간보다 6배의 시간이 걸린다고 한다.

질적 연구에도 분석의 과정, 즉 질적 분석(qualitative analysis)은 필요하다. 여기서는 통계적인 기준점을 비교하는 것이 아니라, 주어진 자료를 분류하고 결합하며 의미를 찾아가는 과정이 포함된다. 양적 분석이 가설을 "검정"(test)한다면, 질적 분석은 가설을 "개발"(develop)한다. 연구자는 여기서 자료에 의미를 부여하고, 시사성을 갖게 하고, 연구자의 목소리를 덧씌워서, 마침내 그 논문이 세상을 향해 자신이 외치는 울림이 되게 한다. 이렇게 말하면 이게 뭔 뜬구름 잡는 소린가 싶을 텐데, 실제로도 그렇다(…). 양적 연구에 익숙한 많은 연구자들이 질적 연구 특강이나 세미나를 접하고 엄청난 혼돈에 빠지는데, 연구자 본인의 평소 성찰과 내공만 가지고서 대량의 텍스트와 관찰 자료로부터 의미 있는 무언가를 뽑아내야 하기 때문이다.[4] CAQDAS의 도입은 연구자의 이러한 개입을 해치지 않으면서도, 연구자가 불필요하게 시간과 정력을 낭비할 만한 문제들을 줄여줄 것으로 기대되었다.

또한 질적 연구가 실증주의의 한계를 인식하고 고안된 것인 만큼 수치화, 정량화, 계량화된 분석을 거부하며, 질적 연구의 타당성은 오롯이 연구자의 식견과 경험, 전문성, 숙련도, 통찰력, 생애사적 지혜에 크게 의존하게 된다는 특징이 있는데, 그러다 보니 필연적으로 그런 주관적인 부분을 제거해야만 학계의 동료들을 설득할 수 있다는 새로운 문제가 발생했다.[5] 그렇기에 어떤 질적 연구자들은 "컴퓨터의 도움을 받아서 자료를 체계적으로 정리한다면, 이를 근거로 좀 더 잘 설득할 수 있지 않을까?" 하는 ~~헛된(?)~~ 희망을 품게 되었다. 즉 연구 내적으로 잠재적인 오류가 발견된다 하더라도, 이것이 다시 체계적으로 감사(audit)되고 교정될 수 있다는 것이다. 비록 강경한 일부 질적 연구자들은 그것조차 하나의 객관주의와 실증주의에 대한 굴복이라고 주장하기는 하지만,[6] 다른 쪽의 강경한 사람들은 "지금껏 자기 연구실만의 노하우, 통찰, 문제의식이라는 미명 하에 비체계적이고 주먹구구식의 질적 연구들이 이루어져 왔지만, 이제 더 이상 그런 아마추어 같은 질적 연구는 해서는 안 된다" 고까지 주장하기도 한다. 어느 쪽이 대세가 되든, 오늘날 점점 많은 연구자들이 컴퓨터를 활용한 질적 분석에 마음을 열고 있는 것만큼은 사실이다.

그래서 막상 질적 연구에 컴퓨터를 도입해 보니, 일단 체계성이 드러나는 것은 확실해 보였다. 질적 데이터 전체를 한눈에 파악하고, 중요성 순으로 시각화하면 쓸데없는 데서 시간을 낭비할 필요가 없어졌다. 노드(node)의 코딩 역시 연구자의 주관성이 개입되는 지점임이 명확해지면서도 한편으로는 이를 계층적으로 관리할 수 있게 되었다. 덕분에 연구자들로서는 이 코딩 결과를 바탕으로 시사점을 도출했을 때 "주관성을 담보하면서도 체계적으로 연구를 수행하였다" 고 자신 있게 디펜스할 수 있게 된 셈. 소소한(?) 부분이지만 뛰어난 시각화 기능은 동료 학자들과 저널 구독자들, 정책 입안자들, 연구비 지원자들, 그리고 일반 대중들을 만족(…)시킬 수 있을 만큼 논문을 그럴싸하게 만들 수 있다.

하지만 뜻밖에도, 작업을 얼마나 효율화했는가의 측면에서 보자면 결과는 그다지 신통치 않다는 게 중론. 녹취록 속에서 허우적대는 꼴을 피하기 위해서 컴퓨터를 도입했는데, 이번에는 컴퓨터 앞에서 오랜 시간 동안 손목이 저리도록 마우스 클릭을 해야 하고, 일일이 노드 설정을 하면서 그걸 다 수차례 반복하여 읽어야 할 필요가 있었다. 그 많은 작업량을 줄인다기보다는 오히려 작업의 양상이 아날로그(?)에서 디지털로 변했다는 차이가 있을 뿐인 듯 보이는 것. 보통 질적 자료가 비정형적이고 방대할 때 컴퓨터의 도움을 구하라는 조언이 많이 돌지만, 컴퓨터도 그런 상황에서는 난감하기는 마찬가지다(…). 결국 사람이 일일이 손을 써서 기계를 도와주고 교정해 주고 이끌어줘야 하는 상황. 이럴 때 연구자가 아예 손을 놓아 버리면 연구자의 문제의식이 코딩을 이끄는 게 아니라 코딩이 연구자를 이끌어가는 꼴이 되어 버린다.

특히 이런 문제는 한국어로 된 데이터를 분석할 때 더욱 심각해져서, 국내에서는 많은 연구자들이 "한국어의 어근을 잡아내지 못한다" 는 점을 들어서 고충을 호소한다. 영어 사용자들의 경우 띄어쓰기를 기준으로 단어를 추출해서 품사에 맞게 분류 및 배열하고 의미를 뽑아내는 것이 수월하지만, 한국어에서는 대안이 마땅치 않은 것이 사실이다. 하다못해 일부 연구자들은 모든 데이터에서 어근과 조사를 일일이 띄어 주는 노가다를 하거나(…), 일부는 한국어 자료를 통째로 영역해 놓고 영어로 분석하는 수고를 감내하기도 한다.[7] 하나의 가능성은 형태소 분석까지 컴퓨터에게 맡기는 것인데, 아직까지는 이 기술이 완전하지 못하여[8] 대략 60% 언저리의 정확성을 보인다고 알려져 있다. 어쨌거나 한국어 자료는 가뜩이나 시간 많이 잡아먹는 CAQDAS의 사용에 "자료 전처리" 라는 추가적인 짐을 지우는 셈이었고, 이로 인해 아직까지는 그렇게 많이 대중화되지는 못하고 있는 형편이다.

3. 목록

영문 위키피디아에서 시중에 나와 있는 S/W들에 대한 목록과 함께 상세한 비교 설명을 하고 있으므로, 자세한 것은 그쪽을 참고하는 것을 추천한다. 이하의 상당수는 아직 국내에서도 통용이 활성화되지 않아서 먼저 방법론 전문 학회지에다 논문을 써서 소개해야만 하는 것들도 있다(…).

Aquad
ATLAS.ti
개념적 네트워킹에 특화된 S/W. 특히 X레이 사진 자료나 시청각 자료와 같은 비정형적 데이터까지도 관리 가능하다는 강점이 있다.
Compendium(NG)
Dedoose
FullText

KrKwic
풀어쓰면 Korean Keyword in Context. 국내에서 텍스트 분석을 하는 데 3번째 정도로 범용적으로 사용되고 있는 S/W이다. 본래 FullText는 외산 프로그램이지만 한국어 환경에서의 내용 분석을 위해 2002년에 국내 환경에 맞춤형으로 제작되었으며, 네트워크 이론을 기본 논리로 삼고 있다. 따라서 기본적으로 한국어 특유의 골치 아픈 형태소 분석을 지원한다. 문제는 이거, 한국어용이라는 주제에 영어로 소통해야 하고, 검은 바탕에 하얀 글자를 적어내려가야 하는 데다, 최대 분석 가능 글자가 1,024자이고, 텍스트 파일로만 임포트해야 한다는 것. 국내에는 2004년에 소개되었다.[9]

HyperRESEARCH
개념적 위계모형을 생성함으로써 이론을 정립하고 정교화할 때 강하다고 평가받는다.
Linguistic Inquiry and Word Count (LIWC)

KLIWC
심리학, 특히 언어심리학 및 사회심리학 분야에서 연인이나 부부 사이의 의사소통을 연구할 때 즐겨 활용하고 있는 S/W. 국내에서도 2005년에 국내 환경에 맞게 새로 제작되었다.[10] 면담이나 자유로운 대화 내용을 참가자 협조를 얻어 녹취한 뒤, 이를 글로 적어서 여기다 돌려보면 LIWC 내부에 존재하는 긍정어 사전, 부정어 사전, 기타 이런저런 사전들을 참조하여 다양한 통찰을 이끌어낼 수 있다. 신혼부부 및 중년기의 결혼 만족도 관련 연구가 이런 종류의 S/W에게 큰 도움을 받았다.

KoNLP
R studio를 통해 지원되는 국산 S/W.
MAXQDA
NetDraw
텍스트 분석을 지원하는 S/W. 국내에서는 대략 2~3번째 정도의 점유율을 보이는 듯하며, 행정학계의 한 발표논문에 따르면[11] 2010년대 이 분야 연구자들에게는 왕왕 쓰인다는 듯하다.
NetMiner
텍스트 분석을 지원하는 유료 S/W. 국내 업체 "Cyram" 에서 선보였으며, SNS 데이터 분석을 타깃으로 잡고 있다. 국내 업체인 만큼 한국어 형태소 분석을 지원하지만 작업환경 자체는 ~~외국에도 팔아야 하므로~~ 여전히 영어다(…). MS 엑셀 파일을 임포트하여 작업하며, 컴퓨터 사양이 낮거나 자료가 방대하거나 단어 추출 기준이 광범위한 경우 시간을 한도끝도 없이 잡아먹는다는 건 미리 고려해야 한다. 별도의 유의어(Thesaurus) 사전을 텍스트 파일로 지정하여 적용하면 분석의 질이 올라간다.
NUDIST
풀어 쓰면 Non-Numerical Unstructured Data Indexing Searching and Theorizing. 1987년에 근거이론을 지원하기 위하여 개발된 S/W. 자체 인덱스를 가지고 코드를 위계화하며, 양적 자료와의 혼합연구가 가능하다. 한국어 자료에 대한 코딩 및 분석이 가능하며, 국내에는 1999년에 소개되었다.[12]
NVivo (15일 체험판 공개 다운로드 링크)
다양한 분야들에서 광범위하게 사용되는 내용 분석 및 근거이론 지원 S/W. 2018년 9월 현재 NVivo 버전 12까지 나와 있으며, 앞으로도 정신없이 버전업될 예정이다(…). 영어 이외에도 중국어, 프랑스어, 독일어, 일본어, 스페인어, 포르투갈어를 지원하지만, 한국어가 지원되지 않는다는 건 매우 아쉬운 부분. 엔드노트와 연동이 가능하고, MS 엑셀 파일을 임포트하여 작업하며, 혼합연구가 지원되고, 시각화 자료는 우클릭으로 간편하게 익스포트가 가능하다. 다수의 평가자 간 코딩 신뢰도 역시 자동으로 계산된다.[13] 문제점은 역시나 한국어 미지원 문제, 그리고 의외로 중대한 것으로, 버전업이 지나치게 빠른 상황에서 인터페이스가 매번 너무 크게 바뀌어서 계속 새로 사용법을 익혀야 한다는 것이 자주 꼽힌다. 상단에서 소개한 바, 국내에서 NVivo의 가능성을 비판적으로 검토한 최희경(2008)은 143페이지에서 타당도는 높지만 신뢰도가 항상 높게 유지될지는 의문이고,[14] 간혹 수치정보가 제시될 때 질적 연구로서는 지나치게 의미부여를 할 수 있으며, 노가다성이 있어서 작업이 본말전도가 될 수 있다고 지적하였다.
QDA Miner
Qiqqa
RQDA
The Ethnograph
CAQDAS의 초창기에 트렌디한 질적 연구자들에 의해 잘 나가던 S/W. 코딩을 지원하기 위해 개발되었다.
UCINET
텍스트 분석을 지원하는 S/W. 국내에서 가장 범용적이고 보편적으로 쓰인다고 알려져 있다.
XSight

4. 활용

4.1. 시각화 사례

이하의 시각화에 사용된 자료는, r.1 작성을 위해 2018년 5월 19일부터 동해 8월 28일까지 트위터에서 "나무위키" 키워드로 ~~수작업으로~~ 크롤링하여 얻은 1,000건의 트윗 데이터를 활용한 것이다. 분석의 질이 낮은 편임을 유의할 것.

단어 빈도(Word Frequency)

{{{#!folding [ 펼치기 ]

NVivo12를 활용하여, 상기 데이터에서 나타나는 4글자 이상의 단어들을 빈도순으로 정렬한 것. _{WordLength≥4.}

}}}

워드 클라우드(Word Cloud)

{{{#!folding [ 펼치기 ]

NVivo12를 활용하여, 상기 데이터를 워드 클라우드 방식으로 시각화한 것. 자세히 보면 "모르겠다" 에 관련된 유의어가 굉장히 많이 보이는데, 이런 부분들을 최소화할수록 질적 분석의 질이 올라간다. _{WordLength≥4.}

NetMiner를 활용하여, 상기 데이터를 워드 클라우드 방식으로 시각화한 것. 국산 분석 소프트웨어이기 때문에 한국어를 이해하고, 자체적으로 단어의 품사를 분류하여 정리한다. 글씨의 색상은 우클릭할 때마다 자동으로 바꿔주고, 전체적인 모양새는 사용자가 원하는 모양을 지정할 수 있다.

}}}

워드 트리(Word Tree)

{{{#!folding [ 펼치기 ]

NVivo12를 활용하여, 상기 데이터에서 "출처" 단어를 워드 트리 방식으로 검색한 것. NVivo는 물결표는 전부 생략하고, 영어 대문자는 소문자로 일괄적으로 바꿔주는 것으로 보인다.

}}}

텍스트 네트워크 맵(Text Network Map)

{{{#!folding [ 펼치기 ]

NetMiner를 활용하여, 상기 데이터에 존재하는 단어들을 텍스트 분석한 뒤, 이를 텍스트 네트워크 맵 방식으로 시각화한 것. 좌측에 보면 "일베" 가 각각 '일' 과 '베' 의 두 개의 명사로 나뉘어 있는데, 이런 사태를 막기 위해서는 먼저 사전 세팅(Dictionary Setting)에서 고유명사들을 등록해 주어야 할 것으로 보인다. _{WindowSize=2, LinkFrequency=3, TF-IDF Weight≥0.1.}

}}}

5. 관련 문서

[1] Gibbs, G.R. (2005). Qualitative Data Analysis: Exploring with NVivo. New York: Open University Press.[2] 특히 담론 분석(discourse analysis) 같은 경우 아무리 단순한 소논문을 쓰는 경우에도 최소 천수백 건 이상의 데이터와 씨름해야 한다.[3] 최희경 (2008). 질적 자료 분석 소프트웨어(NVivo2)의 유용성과 한계: 전통적 분석방법과 NVivo2 분석방법의 비교. 정책분석평가학회보, 18(1), 123-151.[4] 당장 하단의 시각화 자료를 보더라도, 눈돌아가는(?) 모양새에 탄성이 나오기는 하지만 그걸 가지고 어떤 의미 있는 메시지를 뽑아낸다는 건 정말 쉽지 않음을 느낄 수 있다. 당장 이 사이트인 나무위키를 소재로 시각화 작업을 했지만, (평소에 나무위키에 대해 정말 진지하게 고찰하지 않았던 이상) "신기하긴 한데 뭐 어쩌라고?" 의 반응이 나오는 것도 무리가 아니다.[5] 질적 연구의 타당성에 대해서는 나장함(2006)의 《질적 연구의 다양한 타당성에 대한 비교 분석 연구》 문헌을 볼 것.[6] 물론 이들이 타당도에 대한 관심 자체가 없는 것은 아니다. 이들도 나름대로 반성(reflectivity), 참여자 검토(member checks), 중층기술(thick desciption), 전형화, 추적조사 등의 방법들을 제안해 왔다. 이들이 주장하는 것은 질적 연구자들이 그들만의 고유한 타당성 확보방법을 찾으려는 노력을 해야 한다는 것. 강경한 입장에 대한 자세한 내용은 우도 켈레(U.Kelle) 등의 논자들의 문헌을 참고하라.[7] 한 사람당 1시간씩 20명을 면접한 녹취록을 가지고 이런 짓을 한다고 생각해 보자. 이런 경우는 그나마 CAQDAS로 분석하기에 순조로운 축이다.[8] 이와 관련하여, 분석 S/W는 예컨대 "~할 수도 있을 것인데" 와 "~할 수 있을 거 같아요" 의 맥락상의 차이를 정확히 잡아내면서도 두 경우에서 모든 띄어쓰기들의 쓰임과 쓰이지 않음이 갖는 의미를 이해해야 하고, 비정형적 데이터의 경우에는 여기에 오타나 인터넷 은어, 약어 등까지 겹쳐지면서 문제가 실로 커지게 된다.[9] 박한우, Leydesdorff, L. (2004). 한국어의 내용분석을 위한 KrKwic 프로그램의 이해와 적용: Daum.net에서 제공된 지역혁신에 관한 뉴스를 대상으로. Journal of the Korean Data Analysis Society, 6(5), 1377-1387.[10] 이창환, 심정미, 윤애선 (2005). 언어적 특성을 이용한 '심리학적 한국어 글분석 프로그램 (KLIWC)' 개발 과정에 대한 고찰. 인지과학, 16(2), 93-121.[11] 박치성, & 정지원. (2013). 텍스트 네트워크 분석. 한국행정학회 학술발표논문집, 828-849.[12] 이명선 (1999). 컴퓨터를 이용한 질적 자료 분석. 기본간호학회지, 6(3), 570-582.[13] Park, C. (2017). Computer Software vs Pen and Paper Analysis of Qualitative Data: What can NVivo 11 offer for qualitative researchers? 새한영어영문학회 학술발표회 논문집, 175-187.[14] 즉 NVivo를 가지고 작업하는 것보다 다수의 연구자 간의 분석을 비교하거나 혹은 단일 연구자가 반복적으로 분석하는 쪽이 더 일관된 결과가 나온다는 것.