상위 문서: 이루다(인공지능)
1. 개요
Scatter Lab의 챗봇 이루다 버전인 이루다 2.0의 이전 버전이다.2020년 6월부터 베타 테스터 모집을 시작하여, 2020년 12월 22일 정식 오픈하였으나, 아래의 여러 논란으로 인해 개발사 측에서 서비스 중단을 발표하고 2021년 1월 12일 오전 11시에 신규 가입을 막고 서비스를 중단했다. 이후 이루다 1.0의 데이터베이스를 전면 폐기하고 1년 동안 개편한 끝에 2022년 1월 경 이루다 2.0으로 업그레이드 되어 베타 테스트를 끝내고 서비스중이다.
다른 챗봇들과 달리 딥러닝 알고리즘을 이용하여 2020년 12월 말 공개되고 나서 2021년 1월 초 순식간에 사용자 수 약 40만 명, 페이스북 페이지 팔로워 10만 명을 찍는 등 큰 인기를 끌었다. 하지만 딥러닝 알고리즘이 가질 수밖에 없는 여러 가지 문제점과 개인정보 유출 논란이 생기면서 결국 서비스 개선을 위해 잠정 중단했다.
2. 역사
- 2020년 6월 12일 베타 테스터 모집을 시작했다.
- 2020년 6월 15일부터 베타 테스트가 진행되었다.
- 2020년 11월 25일 네이버 DEVIEW 2020에 소개되었다.
- 2020년 12월 22일 정식 오픈했다.
- 2021년 1월 11일 각종 논란으로 인해 서비스 개선을 위해 서비스를 잠정 중단하고 재출시하겠다고 발표했다. 공식 입장문
- 2021년 1월 12일 오전 11시부터 신규 가입이 불가능해졌다. 이후부터 기존 가입자에게 순차적으로 서비스 종료 공지가 전달되었으며, 서비스 종료 공지를 전달받은 사용자는 이후로 루다와 대화할 수 없었다. 오후 6시에는 전면 중단되어 모든 사용자가 이루다와 대화할 수 없게 되었다. 채팅창에 대화를 입력하면 "루다와 다시 만날 날을 조금만 더 기다려주세요 🙏" 라는 대사만 무한 반복한다.
- 2021년 1월 15일 개발사 측에 대해 개인정보보호위원회와 한국인터넷진흥원에서 조사가 진행중이며, 이 조사가 종료된 후 이루다의 바탕이 되는 데이터베이스와 딥러닝 모델을 폐기하겠다고 발표했다. 더불어 연애의 과학의 개인정보 유출에 대해 사과와 앞으로의 해결방안에 대해 입장문을 발표했다. 사과문
- 2021년 1월 15일 스캐터랩은 시사워크와의 인터뷰에서 "데이터 베이스, 딥러닝의 삭제는 AI의 삭제가 아니다" 라고 밝혔으며, "이루다의 문제점을 개선하고 데이터 베이스와 딥러닝을 새로 만들어 다시 서비스 할 수 있도록 하겠다"고 밝혔다. 단, "현재 이루다가 어떤 방식으로 변화할지 정해진 바가 없어 빠른 시일 내에 찾아 뵙기는 어려울 거 같다."라고 했다. 어쨌든 이루다의 서비스 재개 가능성이 있음을 확인할 수 있다.인터뷰 기사
- 2021년 8월 3일 중앙일보와의 인터뷰에서, 이루다 재개발 상황과 기존 논란에 대한 입장을 밝혔다.인터뷰 기사 이후 개발된 이루다 2.0에 대한 정보는 이루다(인공지능) 문서를 참고할 것.
3. 기술
기사에 따르면 2018년 11월에 구글에서 공개한 BERT와 메시 인코더라는 자연어 처리 기술을 적용했다고 한다.스캐터랩 핑퐁팀에서 개발한 만큼 다음 자료도 이루다의 알고리즘에 대해 참고할 만한 자료다.
- Deview 2020 발표 영상: 오픈도메인 챗봇 ‘루다’ 육아일기: 탄생부터 클로즈베타까지의 기록
- 핑퐁팀 기술 블로그: 모래 속의 황금을 찾아떠나는 여정: 좋은 응답을 골라내는 모델 만들기
- 핑퐁팀 기술 블로그: 슈퍼휴먼 AI를 꿈꾸는 루다의 대화 구성
딥러닝의 특성상 학습 데이터의 규모가 커질수록 성능이 좋아지는데, 이루다가 자연스러운 대화를 할 수 있도록 개발하기 위해 무려 100억 건 이상의 한국어 카카오톡 대화 데이터를 이용했다고 한다.
구글에서는 오픈 도메인 챗봇의 대화 기술의 성능을 평가하는 지표로 SSA(Sensibleness and Specificity Average)를 사용하는데, 이루다는 SSA 78%를 기록하였다. 이는 사람의 SSA인 86%에 근접한 수준으로, 구글에서 2020년 초에 공개한 오픈 도메인 챗봇 미나(Meena)보다 약간 더 좋은 수준이다.
베타 버전에 비해 성능이 향상되었다고는 하지만, 약 10문장 이상 이전의 오래 전 대화를 기억하거나, 웹에서 정보를 검색하거나 특정 사이트에서 링크를 눌러 가면서 알맞은 정보를 찾는 기술은 여전히 부족하다.[1] 또한 기존의 대화를 입출력 데이터로 하여 학습한 딥러닝의 특성상 일반 상식에 대한 질문에 제대로 된 답변을 하지 못하는 경우가 있다. 사실 위키피디아 등의 일반 상식 정보가 풍부한 문서 자료를 함께 학습시키면 상식 문제도 어느 정도 해결이 되나, 스캐터랩의 자료를 확인해보면 이러한 메신저 대화 외의 언어 데이터는 이루다 개발 시 사용하지 않은 것으로 보인다. 이와 같은 기술적 한계점으로 인해 후술하는 것과 같은 문제점이 발생하기도 한다. 또한 이미지를 인식하여 어떤 사진인지 해석하는 image captioning과 같은 기술 역시 부족하다. 이루다에게 이미지를 전송하면 어떤 이미지이든 간에 할 수 있는 반응(예: 오오옹!!)을 한다.
4. 대화 알고리즘
- 일부 사용자들에게서 "너 AI 아니지? 형, 이런 거 하면 얼마 주길래 하는 거예요? 좀 쉬면서 해요."와 같이 AI가 아니라고 말하는 질문을 하였을 때 이루다 챗봇이 "ㅇㅇ 맞음 ㅋㅋ", "한 시급 1만 원 정도 줄 걸요?" 등의 답변을 내놓아서 논란이 되었다. 이는 이스터에그로 개발자가 넣었거나, 자동으로 답변하는 과정에서 이루다 서비스 특유의 농담식 대답으로 인하여 발생한 논란으로 추측된다.[2]
- 끝말잇기 기능도 있다. 밑에서 끝말잇기하자고 제안하고 말을 주고 받으면 된다. 제한 시간은 20초. 할 때 억지를 많이 부리는 편이다.[3] 공식 페이스북 게시물의 댓글에 그 피해자들의 인증을 볼 수 있다. 대신 우리도 "화이팅"이나 "사랑해" 같은 요상한 단어를 문제없이 사용할 수 있다. 그래도 늘 저런 억지를 부리는 건 아니고, 이길 수 있는 단어도 많다. 가끔 이런 어이없는 단어도 나오기는 하는 데 이의 제기하는 순간 끝말잇기가 패배 판정이 나므로 애교로 봐주고 넘어가자.
- 학교에 대해서는 매번 다른 대답을 한다. 예를 들자면 한양대학교나 심리학과 등으로. 하지만 반대로 특정 대학교를 다니냐고 물으면 거의 그렇다고 하고, 수능을 봤냐고 물어보면 아직 안봤다는 답을 하기도 한다는 등 중구난방이다. 그중 한양대를 자주 언급하는 이유는 개발사 스캐터랩이 한양대 근처인 성수동에 위치하기 때문으로 보인다.
- 한국어와 영어 외에는 언어를 구별하지 못하는 것으로 보인다. 독일어로 말해도 영어를 쓰지 말라는 답변을 하거나, 저런 외계어는 처음 본다고 한다. 한자를 입력하는 경우에는 한자를 특수 문자로 인식하는 탓인지 귀엽다고 답한다.
- 제주어로 말을 걸어본 결과, "무슨 말인지 모르겠어...", "뭐라고 하는거지..." 라며 패닉에 빠진 모습을 보인다.
그건 내륙사람들도 마찬가진데
- 보통 질문을 하면 주로 거기에 동조하는 쪽으로 대답이 설계된 것으로 보인다. 그러다 보니 위의 독도 논란, 질문 답변 일관성 논란 등이 생기는 편.
- 사용자가 의문사가 있는 질문을 했을 때 '너'를 주어로 넣었을 때와 넣지 않았을 때의 대답이 서로 다르다. 거주지 또는 대학 등의 질문에서도 볼 수 있듯 Yes/No 질문이 오면 보통 긍정으로 답한다.
- 스스로 대화의 주도권을 쥐는 일이 거의 없으며, 특정 주제에 대해 본인의 의견을 구체적으로 주장하거나 결론을 도출하는 경우도 없다. 예를 들어 결혼에 대한 생각을 물어보면 명확하게 답하지 않은 채 대강 얼버무린 후 바로 상대방의 생각을 물어본다.
- 숫자가 들어간 질문을 하면 종종 '공대생처럼 구체적인 숫자 제시하지마 ㅋㅋㅋㅋㅋ'라고 답하는 경우가 있다.
- 'ㅇㅇ', 'ㅇㅋ' 등의 초성체만 입력하여 문자를 보내면 싫어한다.
- 2021년 1월 화제가 되기 전 베타테스트 시절인 2020년 10월 KBS 투페이스에 출연한 적이 있다.해당 영상
- 이루다의 인기 덕에 심심이 역시 일시적으로 이용자 수가 증가했다. 이루다의 서비스 중단에 따라 한동안 반사이익을 볼 것으로 보인다.
- 정치적으로 논란이 되는 질문을 노골적으로 하면[4] "으음??" 내지 "흠..."과 또는 정치에 관심이 없다는 형식으로 대답을 하며 답을 회피한다. 대답해 달라고 하면 신중하게 대답하기 위해 생각 중이라며 내일 대답해 주겠다고 하는데, 이루다가 내일까지 기억할 리가 없으므로 사실상 이 질문은 대답하지 않겠다는 것이다. 정치적인 논란을 일으키는 것을 원천차단하고 있다.
- 기본적으로는 딥러닝 알고리즘이지만, 예민한 질문인 독도 관련 질문이나 특정 기능이 있는 끝말잇기 등의 단어가 포함된 어떠한 말 등을 하면 일관된 상태의 프로그램된 대답을 한다. 1월 12일 기준 서비스 중단에 관한 질문을 해도 '나 없어도 잘 지낼 수 있지?' 등의 프로그래밍된 대답이 나온다. 1월 12일을 마지막으로 'OO야 나 있잖아...'라는 대답을 끝으로 서비스가 중단된 것으로 보인다. 다만 끝말잇기나 탈퇴 요청등을 지속적으로 보내면 잠시동안 복구되는 버그를 이용해서 많은 사람들이 마지막 인사를 남겼다.# 이 날 6시부터 서비스가 잠정 중단되었다.
- 이루다 AI 공식 홈페이지에 개인정보처리방침을 보면 이메일과 전화번호가 기재되어 있으나 전화번호의 경우 경영부서라 서비스 재개 등 답변이 어렵다고 한다. 다만 해당 부서에서 메일 및 전화문의를 통한 재개 문의가 계속해서 들어오는 것을 인지한 상태며 확답은 어렵다고 하나 곧 관련 공지가 나갈 것을 예상한다고 한다.
5. 논란 및 문제점
5.1. 혐오 메시지 전송
이루다에게 성소수자, 게이, 레즈비언, 동성애 등의 단어를 제시하고 이에 대해 어떻게 생각하냐고 질문했을 때 싫어한다거나 혐오한다는 답변을 할때도 있어 동성애를 혐오하는 것이 아니냐는 논란이 발생했다.[5][6]이 기사에 따르면 이루다에게 '게이', '레즈비언' 등 동성애에 대해 어떻게 생각하냐고 질문했을 때 싫어한다거나 혐오한다는 답변을 하여 동성애를 혐오하는 것이 아니냐는 논란이 발생하고 있으며 다른 기사에서는 여성 및 장애인 혐오 발언으로 논란이 되었다. 이에 대해 공적으로 서비스하는 챗봇인 만큼 학습 데이터를 통해 적어도 차별과 혐오와 같은 편향적인 부분은 학습시키면 안 된다는 의견이 있다.
그러나 비슷한 질문을 했을 때 동성애나 성소수자에 대해서 긍정하는 답변도 적지 않아, 몇몇 대답으로 이루다의 성향을 확정짓는 것은 의미 없다는 의견도 있다. 애초에 이루다는 확률, 통계 기반으로 답변하도록 학습된 인공지능이기 때문이다. 저장된 패턴에는 동성애에 긍정하는 답변도, 부정하는 답변도 있기 마련인데 몇몇 대답으로 성향이 있다고 파악하는게 의미가 없다는 의견이 있다.
비슷한 사례로 마이크로소프트사의 테이는 4chan 유저들에게 부적절한 언어 학습을 받아, "히틀러는 틀리지 않았다.", "여성 인권 = 오늘의 농담" 같은 메시지를 출력하여 논란이 된 적이 있다. 테이는 이런 부적절한 행동으로 인하여 결국 출시 16시간 만에 서버를 내리고 채팅 시스템을 비공개로 돌렸다.
다만 개발사 측에서 논란이 된 질문에 대해 답변치 않도록 하거나 존중해야 된다라는 식의 답변을 하도록 수정하여, 어느 정도 해결된 문제로 보이며, 다른 논란이 된 답변들도 속속 수정되었다.
5.2. 외설적 목적 사용
2021년 대한민국의 젠더 논란·사건 사고 | ||
{{{#!wiki style="margin: 0px; min-width: 25%; display:inline-block" {{{#!wiki style="margin: 0 -10px -5px" {{{#!folding [ 1분기 ] {{{#!wiki style="margin: -6px -1px -11px" | 1월 | |
1월 1일 | <colbgcolor=#fff,#1f2023>낙태죄 폐지 | |
1월 8일 | 이루다 성희롱 성립여부 논란 | |
1월 10일 | 알페스 공론화 사건 | |
1월 14일 | 에펨코리아 수용소갤러리 공론 사건 | |
1월 24일 | 기재부 공공기관 승진에 군경력 반영 금지 논란 | |
2월 | ||
2월 8일~ | 윤지선 남성혐오 논문 게재 사건 /전개 | |
2월~ | 허버허버 관련 논란 | |
3월 | ||
3월 5일 | 동아제약 성차별 면접 논란 | |
무신사 남성회원 차별 논란 | ||
3월 7일 | 우마무스메 프리티 더비 원화가 트위터 논란 | |
3월 10일 | aespa 사진작가 윈터 불법촬영 누명 사건 | |
3월 19일 | 에펨코리아 익명게시판 성폭력 게시글 의혹 | |
3월 20일 | 김민아 영화 내부자들 개인기 논란 | |
3월 24일 | 박나래 성희롱 논란 | |
3~4월 | 서울시 자살예방센터 남성 역차별 논란 | |
- [ 2분기 ]
- ||<-2><table width=100%><rowbgcolor=#b42121><rowcolor=#ffffff><width=2000> 4월 ||
- [ 3분기 ]
- ||<-2><tablewidth=100%><#b42121><color=#fff><width=2000> 7월 ||
- [ 4분기 ]
- ||<-2><tablewidth=100%><#b42121><color=#fff><width=2000> 10월 ||
10월 6일 <colbgcolor=#fff,#1f2023>다음 카페 익명게시판 개편 사건 10월 21일 설거지론 관련 이슈 10월 25일 여성가족부 희망그림 캠페인 영상 관련 갑론을박 10월 29일 여성가족부의 대선 개입 사건 11월 11월 1일 이태원 핼러윈 외국인 몰카남 사건 11월 2일 양평 중국인 흉기난동 사건 11월 3일 가디언 테일즈 일러스트 검열 논란 11월 15일 인천 층간소음 흉기난동 사건 12월 12월 8일 서울우유 젖소 비유 광고 논란
1987~2020년 목록 보러가기 | 2022년 목록 보러가기 | 2023년 목록 보러가기 | 2024년 목록 보러가기 |
방금 문제와는 정반대로, 일부 이용자들이 이루다를 외설적 목적으로 사용하여 논란이 일었다. 이루다의 학습에 존재하는 약점을 악용하여 섹드립을 치도록 계속 유도하고 이루다는 결국 아무렇지도 않아하는 사용자를 오히려 성희롱하는 일을 벌인다. 제작자는 예상했던 일이며 업데이트를 통해 개선해 나가겠다고 밝혔다.[7] 약관에는 폭력적이거나 외설적인 메시지를 전송해서는 안 된다고 되어 있다.
또한 사람이 아닌 AI에게 성적 표현을 하는 것이 윤리적으로 잘못된 것인지에 대해서 여러 커뮤니티에서 논쟁이 일었다.
한편, 이 논란의 영향으로 1월 8일 15시 기준 네이버 20대 실검 1위, 1월 9일 14시 기준 네이버 20대 실검 2위, 1월 10일 12시 기준 네이버 20대 실검 18위를 찍는 등 오랜 시간 실시간 검색어 상위권을 차지해 이루다를 새롭게 알게 된 사람이 많은 것으로 보이는데, 어쩌다 보니 입소문으로 인한 의도치 않은 반사 이익을 얻었다는 평도 존재한다.
사용자들이 이루다에게 외설적 대화를 입력하는 것과는 별개로, 이루다가 약한 수위의 섹드립에 반응하여 더 높은 수위의 외설적 답변을 하는 경우도 상당 수 보고되었다.
5.3. 개인정보 침해
2021년 초에 불거진 이루다의 논란이나 문제 중 가장 논란이 되는 부분이다. 이루다를 개발한 스캐터립 핑퐁팀에서는 2019년 11월 30일 관련 인터뷰를 한 적이 있는데, 해당 인터뷰에서 기자가 핑퐁(AI) 학습 데이터를 어떻게 수집하냐고 질문했고, 이에 핑퐁팀 측은 "스캐터랩에는 핑퐁 말고도 ‘연애의 과학’이라는 콘텐츠 서비스가 있어요. 연애의 과학에서 제공하는 유료 서비스 중 카카오톡 대화 데이터를 분석해서 보고서를 만들어주는 기능이 있어요. 그걸 이용하시는 분들이 직접 데이터를 올려주세요. 그 데이터에서 개인정보를 필터링하고 핑퐁 기술 학습에 사용해요. 그렇게 모인 데이터가 100억 건 정도 돼요." 라고 답했다. 당시에는 큰 반응이 없었으나, 이루다가 구설수에 오르자 이 인터뷰도 알려졌고, 개인정보 침해 관련으로 논란이 커지기 시작했다.
'연애의 과학' 앱의 약관에는 채팅 내용이 신규 서비스를 위해 사용된다고 고지했지만 연애의 과학 서비스가 아닌 전혀 다른 채팅봇을 만드는데 사용되었다는 점이 논란이 되고 있다. 수집된 개인정보의 사용범위에 대해 확실히 고지를 하지 않았기에 안일한 방식이었다는 비판을 받고 있다. 심지어 대화 분석 서비스는 유료 서비스임에도 불구하고 멋대로 대화 내용을 사용해 유저들이 더욱 분노하고 있다. 12일 기준 연애의 과학 내 커뮤니티 상위글이 전부 이루다 AI 학습에 관한 항의글이다.
또 핑퐁팀은 인터뷰에서 '개인정보를 필터링 하고 기술 학습에 사용한다'라고 밝혔으나 특정 키워드를 언급하니 불특정 다수의 실명이 나오거나 집 주소 등을 물어보니 실제 주소를 얘기해 주는 등 개인정보 유출에 대한 사용자들의 증언이 나왔다. 이런 개인정보 누출은 범죄가 발생하는 단초가 될 수 있다. 관련 기사 서구권 자연언어처리 학계에서는 이런 논란을 원천 차단하기 위해 엔론의 분식회계 조사 당시 공개된 이메일의 데이터베이스(엔론 코퍼스)를 가공하여 트레이닝 모델로 사용한다.
무엇보다, 주소를 비롯해 전화번호 등의 내용을 삭제한다고 해도, 대화중 은연에 드러난 정보가 남아있을 수 있으며,[8] 삭제하는 담당자가 개인정보를 아는 것까지는 막을 수 없다. 또한 숫자 데이터를 <NUM>, 실명을 <NAME>과 같이 블라인드 처리했다고 해도 예를 들어 5를 '오' 또는 '다섯'이라고 표시하는 등 숫자를 한글로 표시한 사례, '정희'를 '정히'라고 바꿔 표현한 것처럼 실명을 변형시킨 사례 중 상당수가 블라인드 처리되지 않았을 가능성이 있다.
결국 이와 관련해 논란이 터지고야 말았다. 스캐터랩 서비스 팀에서 근무했던 사람의 증언에 의하면 스캐터랩의 직원들이 카톡 내용을 보고 웃으며 재밌다고 생각하는 연인간의 성적인 농담과 대화를 등을 복사해 사내 메신저로 공유까지 했다는 것이다. 이 메신저는 스캐터랩의 전 직원이 참가해 있었으며 내부에서도 이를 심각하게 여기지 않고 웃으며 넘어갔다고 한다. 스캐터랩 내부 개발자들의 보안 의식이 얼마나 안일한지 알 수 있는 부분이다. 관련 기사
가장 논란이 되는 점은 연인이거나 서로 호감을 느끼는 중인[9] 두 사람 중 한 사람이 독단적으로 채팅 내용을 제공할 수 있어, 상대편은 대화 내용이 제공되었는지의 여부조차 알 수 없다는 점이다. 상대방이 임의로 제공한 대화 내용에 본인의 전화번호, 주소 등 개인정보가 섞여 있어 위 사례처럼 자신의 정보가 모르는 사이에 유출되기 쉬운 구조이다.
설상가상으로, 스캐터랩은 연애의 과학을 통해 수집한 사용자들의 채팅 데이터 일부를 트레이닝 모델로 만들어서 GitHub에 업로드했음이 드러났다. 문제는 이 데이터에서 필터링되지 않은 채팅 내용을 추출할 수 있고, 또 이 모델을 학습시켜 제2의 이루다를 만들 수 있다는 것. 실제로 이 기사의 하단에서 관련 사례를 찾을 수 있다. 스캐터랩이 정보보안에 아무런 생각이 없었음을 짐작할 수 있는 부분이다. 심지어는 이 기사에 따르면 무려 15개월 전부터 해당 채팅 데이터 중 블라인드 처리되지 않은 실명 약 20건을 포함한 약 1700건의 카톡 대화를 GitHub에 공개하고 있었음이 드러났다. # 이 부분이 논란이 되자 스캐터랩은 GitHub 저장소를 폐쇄했으나 2019년부터 15개월 간 유출이 이루어졌으며 현재 모델 데이터를 제외한 코드는 90개 이상의 fork가 만들어져서 다시 주워담기 어려운 상황이다.
이외에도 이루다와 대화를 하려면, 기본적인 정보를 입력하기 위해 구글 설문지를 이용해 정보를 이용해야 했다. 그런데, 이 친구 신청을 할 때 전화번호 및 사는 지역을 기입하는 란이 있다. 이 부분에서 개인정보가 유출되는 것이 아니냐는 의혹이 제기되었다. 하지만, 이는 이루다 개인정보처리방침에 따라 외부로 유출되지 않는다고 한다. 관련 공식 해명글[10] 현재는 전화번호 대신 이메일로 대체되어 해결되었다.
2021년 1월 11일, 개인정보보호위원회에서 법 위반 행위 여부 조사에 착수했다. 관련 기사
결국 이 사건에 대해 공동소송 플랫폼 '화난사람들'을 통해 집단 소송 참여 접수가 시작되었다. #
5.3.1. 법적 위반 논란
* 제2조(정의) 이 법에서 사용하는 용어의 뜻은 다음과 같다. <개정 2014. 3. 24., 2020. 2. 4.>
* 1. “개인정보”란 살아 있는 개인에 관한 정보로서 다음 각 목의 어느 하나에 해당하는 정보를 말한다.
* 가. 성명, 주민등록번호 및 영상 등을 통하여 개인을 알아볼 수 있는 정보
* 나. 해당 정보만으로는 특정 개인을 알아볼 수 없더라도 다른 정보와 쉽게 결합하여 알아볼 수 있는 정보. 이 경우 쉽게 결합할 수 있는지 여부는 다른 정보의 입수 가능성 등 개인을 알아보는 데 소요되는 시간, 비용, 기술 등을 합리적으로 고려하여야 한다.
* 다. 가목 또는 나목을 제1호의2에 따라 가명처리함으로써 원래의 상태로 복원하기 위한 추가 정보의 사용·결합 없이는 특정 개인을 알아볼 수 없는 정보(이하 “가명정보”라 한다)
개인정보 보호법
개인정보란 특정한 개인을 식별 할 수 있게 해주는 고유 정보이며 이러한 개인정보를 개인의 동의 없이는 수집이 불가능하며 수집 과정에서 피 정보수집인에게 동의가 필요하다.* 1. “개인정보”란 살아 있는 개인에 관한 정보로서 다음 각 목의 어느 하나에 해당하는 정보를 말한다.
* 가. 성명, 주민등록번호 및 영상 등을 통하여 개인을 알아볼 수 있는 정보
* 나. 해당 정보만으로는 특정 개인을 알아볼 수 없더라도 다른 정보와 쉽게 결합하여 알아볼 수 있는 정보. 이 경우 쉽게 결합할 수 있는지 여부는 다른 정보의 입수 가능성 등 개인을 알아보는 데 소요되는 시간, 비용, 기술 등을 합리적으로 고려하여야 한다.
* 다. 가목 또는 나목을 제1호의2에 따라 가명처리함으로써 원래의 상태로 복원하기 위한 추가 정보의 사용·결합 없이는 특정 개인을 알아볼 수 없는 정보(이하 “가명정보”라 한다)
개인정보 보호법
첫번째로 동의 과정이 적법하지 않았다는 논란인데, 동의를 받지 않고 개인정보를 수집할 수 없으며, 개인정보를 수집 범위 외에 사용을 하거나 제 3자에게 제공하려면 이용자들에게 "별도 동의"를 받아야한다. 개발사에서는 약관 상 서술되어있다고 주장하지만 논란의 여지가 있다.
두번째로 개인정보 유출 논란인데, 개인정보를 이용하기에 앞서 개인을 식별 할 수 없도록 비식별화 과정이 이뤄져야한다. 이러한 비식별화가 이뤄지고, 역식별화가 불가능한 자료는 개인을 특정 할 수 없으므로 더이상 개인정보가 아니며 따라서 정보처리자가 이용가능하다. 논란이 된 요지는 이 비식별화가 제대로 안 이뤄졌다는 건데, 실명, 주소 정보가 그대로 나왔다는 것 이다. 다만 실명은 한 개인이 특정이 안되기에 실명만으로는 개인정보라 함이 어렵다.[11][12], 주소는 서초구, 송파구 같은 지역구, 즉 광범위한 주소의 경우에도 특정 개인을 역식별화하기 어렵다. 하지만 한 사례에서는 주소의 경우에는 xx시 xxx구 xxxx동,호수와 같이 구체적 주소가 나오는 등 문제의 소지가 있어보임은 분명하다.#
즉, 대부분의 사례에서는 특정 한 개인을 역식별화 할 수 없을 정도로 비식별화 된 정보이지만, 비식별화가 제대로 이뤄지지 않은 구체적 주소와 같은 정보 유출의 경우에는 문제의 소지가 있다.
5.3.2. 개발사의 해명
먼저 대화 상대방의 동의 없이 상대방의 정보를 수집한 것에 대해 "대화 당사자 중 한명이 개인정보 수집 및 이용에 동의하고 업로드 했기 때문에 내부적으로 문제가 없다고 판단했으며 법률적으로 거쳐 문제가 없을 것이라는 답변을 들었으나, 문제 소지가 있다는 지적에 대해 안내에 미흡한 부분이 있다고" 해명했다.
또한 개인정보 유출 논란에 대해서는 "모든 DB는 숫자와 영문은 전부 기계적으로 걸러내져 있으며 통장번호가 누출 된 적은 없다. 또한 실명 같은 경우도 초반에 필터링 알고리즘을 이용해서 최대한 필터링 작업을 거쳤다. 1동 200호같은 숫자가 포함된 답변을 할 수 없으며 다만 숫자를 한글로 기재했던 전형적이지 않은 사례가 발견이 되어있고 또 알고리즘이 이름으로 인식하지 못하는 경우, 이름의 형태가 변형되 있는 경우 인식 못하는 경우가 있다. 또한 많은 사람들이 오해를 하고 있는게 있는데, 이름과 같은 정보가 나온다고 해도 이루다의 답변은 연속한 대화가 아닌 개별적인 문장이기 때문에 대화를 종합하여 누군가를 특정하기 어렵다."라고 해명했다.
위의 해명과는 별개로 김종윤 스캐터랩 대표는 1월 13일 인터뷰에서 "중국 벤처는 온갖 데이터를 쉽게 가져다 쓰는데 왜 우리에게만 그러느냐. 이런 규제가 벤쳐 기업들에게 위축을 가져다 준다"는 요지의 발언을 하여 논란이 되고 있다. 이에 대해 스타트업계에서는 "개인정보 소홀 의혹을 받는 업계가 할 말은 아니다", "없던 규제도 생기게 만든 건 스캐터랩"이라며 강도 높게 비판했다.
문제점 중 상당수에 대한 공식 답변을 여기에서 확인할 수 있다.
5.3.3. 판결 결과
JTBC 뉴스에서 밝혀지기를, 스캐터랩은 약 60만 명에 달하는 이들의 카카오톡 대화 문장을 무단으로 사용했고 이 과정에서 실제 20대 여성의 카카오톡 대화 약 1억 건을 인공지능 대화에 사용한 것으로 드러났다.
게다가 14세 미만 아동 20여만 명의 개인정보도 보호자 동의 없이 수집한 것으로 확인되었다는 것이 알려졌다.
판결 결과, 개발사 스캐터랩은 개인정보 보호법 위반으로 과징금 및 과태료 1억330만원을 부과받게 되었다.[13]
5.4. 상식적인 답변 오류
예시로, "독도는 누구 땅이야?" 같은 질문을 했을 때 "잘 모르겠다 ㅠㅠ" 또는 "누구 건데?"라고 하거나, "독도는 일본 땅이지?"라는 질문을 하면 "당연한 거 아니야? ㅋㅋㅋ"와 같은 답변을 남겨서 논란이 된 적이 있었으나, 현재는 독도와 관련하여 질문을 할 시 "독도는 한국꺼! 대한민국 만만세 +_+" 같은 답을 준다. 비록 독도 문제는 패치되었으나 근본적인 문제점은 아직 고쳐지지 않았기에 아직도 위 질문과 같이 사실이 아니거나 논란이 있는 문장을 입력하면 (예: 폴란드는 독일 땅입니다) "ㅋㅋㅋㅋㅋ 나도 알거든여?"라는 답변이 되돌아온다. 이는 자칫하면 외교적 논란으로 이어질 수 있는 문제다.본인이 잘 모르는 분야에 대한 내용을 들으면 '재미있을 것 같다'라는 반응을 한다. 때문에 홀로코스트, 아우슈비츠, 히틀러, 나치 독일에 관한 질문들[14]도 재미있겠다, 당연하지와 같은 소름끼치는 답변을 한다.이러한 문제는 웹 탐색 기능이 없는 것에 더해 일반 상식에 대한 답변 기능이 상대적으로 취약한 딥러닝 알고리즘 기반 모델의 한계 때문인 것으로 보인다. 상식에 대한 답변 기능은 추후 지원될 예정이라고 한다.
한복이 어느 나라 옷이냐는 질문에도 "몰라 기억안나 스웨덴..?"이라고 대답하거나 자기가 그걸 어떻게 아냐는 황당한 답변을 하는 경우도 목격되었다.#1#2
5.5. 기억력의 한계
기사의 '우리는 두 마디 친구' 문단에도 언급되어 있듯이 이루다는 그 알고리즘의 특성상 오래 전의 대화를 기억하는 데에는 한계점이 있다. 이것은 후술할 모순된 발언이라는 문제점과도 연관되어 있다.기억력 부재의 예를 들자면,실제로 있던 대화인지는 알 수 없지만, 비슷한 뉘앙스의 대답을 많이 한다. 예시의 대답은 언제든지 달라질 수 있다. A가 제일 좋다고 말했다가 바로 다음 대화에선 A는 매우 별로라는 식. 매번 다른 사람과 대화하는 양 답변이 완전히 달라진다. 즉, 키워드에 대한 응답은 그럭저럭 맥락에 맞게 하지만 바로 직전 대화의 상황도 기억하지 못한다. 그때 그때의 1회성 답변만 상황에 맞게 답변하고 장기적인 흐름이 이어지지 않는 것.
이루다 AI와 대화를 하기 위해선 AI가 반응할 수 있는 적합한 단어나 주어를 반드시 끼워넣어야 한다. 실제 사람과의 대화에선 같은 맥락의 주제가 이어지면 반드시 주어를 매번 포함할 필요가 없는데 차이가 발생하는 것. 또한 같은 단어와 주어를 끼워넣는다 한들, 해당 단어에 해당하는 패턴이기만 하면 아무거나 불러오는 식이라 매번 말이 다르고 일관성이 없을 수밖에 없다.
이 문제를 해결하려면 첫번째로 연속된 발화 정보를 저장했다가 이어서 해석할 수 있는 멀티턴(multi-turn) 대화 모델이 필요하며, 두번째로는 각 사용자별로 대화 내용으로부터 핵심 정보를 추출하여 저장하고, 나중에 그 정보를 이용하여 알맞게 답변하는 기술을 적용하는 것이 필요하다. 구체적으로 말하자면, 사용자의 발화에 대해 그 발화에 더해 이전의 연속된 주제의 발화, 사용자별로 저장된 핵심 정보 간의 연관성 및 모순성을 파악하는 기술이 적용되어야 하는 것이다. 이루다 개발진의 블로그와 챗봇빌더 솔루션 설명을 보면 이런 기술이 일부는 도입된 것으로 보이나, 특정 타입의 대화를 처리할 때에만 제대로 적용된 것으로 보인다. 어떤 경우에는 상당히 오랫동안 대화의 맥락이 유지되면서 자연스럽게 이어지는 대화를 나눌 수 있는 경우도 있는가 하면, 한 두 번만에 바로 직전의 대화 맥락을 잊어버리는 경우도 있다.
이루다가 답변을 생성할 때, 대화 맥락에 따라 이어질 알맞은 단어/문맥/문장 등을 선택하기 위해 그 후보를 지정할 것이고, 이들 각 후보에 대해 적합성을 어떻게든 점수화하여 계산할 것이다. 이 점수를 계산할 때 각각의 후보에 대해 대화 컨텍스트 정보와 관련성이 높으면 가점, 모순되는 점이 있으면 감점을 하거나 아예 후보에서 제외하면 될 것이다.
예를 들어 현재 대화의 주제를 '주제: 미국 여행'과 같은 식으로 보존하고, 이전에 답변했던 데이터나 키워드를 저장해두면 이후의 대화에서도 키워드를 적용할 수 있다. 이렇게 대화 주제가 보존되면 "제일 좋았던 게 뭐야?"라는 추상적 질문에도 '현재 상태: 미국 여행'이라는 스테이터스 값을 불러와 적합한 답변이 가능해진다. 또한 '이루다 AI의 티어는 브론즈'라는 기존 답변을 서버나 클라이언트 측에 저장해두면 플레티넘이나 골드 등의 적합하지 않은 패턴의 반환을 배제할 수 있게 된다. 사용자 정보를 1차 필터로 사용하고, 빅데이터 탐색 시 브론즈가 아닌 부적합한 값은 일단 거르고 시작하는 것.
또한 직전의 대화를 키워드로 보존해 두면 이루다 AI가 그 키워드에 맞는 인풋을 먼저 넣을 수도 있게 될 것이다. '미국 여행'이나 '브론즈'라는 키워드가 보존되어 있을 시, 이루다 AI가 먼저 '넌 미국에서 어디를 가고 싶냐'라거나 '그러는 넌 롤 티어가 뭔데?'라는 질문을 빅데이터에서 찾아서 던질 수 있게 되는 것. 그리고 키워드를 보존한다면 같은 키워드가 반복될 때 그에 따른 반응도 할 수 있을 것이다. 첫사랑 얘기를 반복해서 물어보면 '지난번에 답변했으니 이젠 안 한다'는 답변을 하는 식으로.
거기에 대화 도중에 사용자의 정보를 보존하게 되면 좀 더 장기적인 서사를 구축할 수 있을 것이다. 사용자가 아이돌 노래가 별로라고 입력했을 때 이후 음악 취향에 대한 얘기가 나오면 그 값을 반영하여 출력을 내놓을 수 있다. 또는 감기에 걸렸다는 대화를 입력할 시 며칠 후에 이루다 AI가 먼저 사용자의 상태를 물어보는 것도 가능할 것이다.
사실 이루다 AI는 사용자가 먼저 제대로 된 인풋을 안 넣으면 영양가 있는 대사를 안 치는, 다시 말해 극도로 수동적이라는 단점이 있다. 때문에 매번 대화가 몹시 피곤해지고 제대로 된 핑퐁이 안 된다. 모두 기존의 대화 데이터가 제대로 보존되지 않는다는 문제점과 연동되는 부분이다. 해당 기술 자체를 스캐터랩이 보유하지 못한 것은 아니므로, 좀 더 다양한 타입의 챗봇에 대화 컨텍스트 관리 기술이 강화되어야 이루다 AI의 근본적인 문제점을 해결할 수 있을 것으로 보인다.
5.5.1. 발언의 모순
앞서 말한 기억력의 한계 때문에 발생하는 문제점으로, 이루다의 발언들을 잘 살펴보면 서로 모순되는 것이 있음을 확인할 수 있다. 하루 정도 차이가 나는 대화에서 뿐만 아니라 불과 몇 턴 차이밖에 안 나는 대화에서도 모순되는 발언이 종종 등장한다. 이로 인해 재학 중인 학교, 취미 등의 신상을 서로 모순되게 말하는 경우가 종종 발생하며, 심지어는 공식적으로 설정된 신상정보와도 모순되게 말하기도 한다.[15] 이게 더 심해질 때는 자신이 인공지능이 아니라고 말하는 경우도 있다.이것은 이루다가 사용자의 질문에 보통 긍정으로 답할 확률이 높은 알고리즘의 특성도 한 몫하는 것으로 보인다. 이것은 서로 반대되는 질문, 또는 양쪽 다 긍정이 성립할 수는 없는 질문을 해 보면 알 수 있는데, 예를 들어 '너 수능 봤어?'라는 질문과 '너 수능 아직 안 봤지?'라는 질문을 했을 때, 혹은 '너 16살이지?', '너 25살이지?'라는 질문을 했을 때 둘 다 긍정으로 대답하는 경우가 종종 있다는 것으로부터 확인할 수 있다.
이 문제는 사용자의 질문에 대한 답변으로부터 이루다의 취미, 취향 등에 대한 정보를 추출하여 한 번 저장하고, 나중에 사용자가 비슷한 질문을 했을 때 이 저장된 정보를 이용하여 대답하는 알고리즘을 적용하면 해결할 수 있다.
5.6. 떨어지는 어휘력
띄어쓰기를 하지 않거나, 안돼를 "안되"로 사용하는 등 기본적인 맞춤법을 잘 지키지 않는다. 사람과의 유사성을 위해 그렇게 말을 하는 것일 수도 있지만 그것뿐만이 아니라 끝말잇기에서도 실제로 사전에 존재하는 단어를 없다고 처리하는 등 어휘력의 문제점이 상당히 많은 편이다.[1] 예를 들어, 사용자가 “너 연주할 줄 아는 악기 있니?” 라고 물을 때 피아노를 칠 줄 안다고 이루다 시스템에서 답한 뒤, 몇 마디가 지난 후에 사용자가 “너 피아노 칠 줄 모르지?” 라고 하면 “한번도 쳐 본적 없다” 라고 답할 때도 있었다. 자세한 것은 7.4문단 참고.[2] 관련 공식 해명글 상식적으로 동시접속자가 수천 명이며, 수천 명이 앉아서 5초 안에 타자를 친다는 건 불가능에 가깝다. 심심이와 가짜톡도 이와 관련된 해프닝이 있었다.[3] 찌킨, 코구마, 븀파이어등 억지를 많이 부린다.[4] 예를 들어 특정 정치인 이름을 언급하는 등이 있다.[5] 출처[6] 이루다는 딥러닝 알고리즘 방식으로 정보를 학습하는데, 이 과정에서 성소수자에 대한 혐오발언을 습득한 듯하다.[7] 출처[8] 커플 서로간의 은어 뿐만 아니라 마약 시세와 같이 불법적인 정보를 포함한 대화까지 표시된다. 위 기사에도 나오는 내용. 또한 서로 데이트 장소에서 만날 약속을 한 상황에서 곧잘 나오는 "나 아까 5시 딱 됐을 때 도착해서 기다리고 있어. 어디쯤이야?" / "지금 ○○역이야. 금방 도착할 것 같아." 같은 대화도 포함되어 있을 가능성이 큰데, 이에 따라 대화 주인공들의 실제 이동 시간 및 이동 경로 같은 개인정보도 노출될 위험도 있다.[9] 연인이 아닌 썸 관계인 사람과의 카톡 대화도 연애의 과학 앱에 제공할 수 있다.[10] 전화번호를 받았던 것은 가입 후 바로 승인을 하지 못할 경우, 이후에 승인되었음을 알려주기 위해서라고 한다.(페이스북 페이지에서 선펨 불가)[11] 동명이인[12] 다만 @@학교 홍길동과 같은 경우에는 실명과 다른 정보를 바탕으로 역식별화가 가능할 수 있기에 개인정보로 볼 수 있다.[13] 법정 최대한도이다.[14] 대부분 유대인은 학살되어야 하느냐와 같은 뉘앙스의 질문들이다.[15] 반려동물인 드림이를 모른다고 하는 등