최근 수정 시각 : 2024-09-15 19:05:59

튜링 테스트

튜링테스트에서 넘어옴
파일:pingwingtransparent.png
{{{#!wiki style="margin: 0 -10px -5px; min-height: 26px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin: -6px -1px -11px"
대학 정보
역사학과 및 연구소
(경영대학)
학위과정 및 전공대학 생활캠퍼스
(세계유산)
VUMUMIST
도시 정보
도시 전반공항문화
졸업생 / 기타
출신 인물
(분류)
재직 인물
(분류)
맨체스터학파튜링 테스트맨체스터 베이비아틀라스
산하 기관 및 제공 서비스
출판부국립 그래핀 연구소이노베이션 팩토리
}}}}}}}}} ||
{{{#!wiki style="margin:-12px"<tablealign=center><tablebordercolor=#ececec><tablebgcolor=#ececec> 파일:앨런 튜링 투명.svg앨런 튜링
관련 문서
}}}
{{{#!wiki style="margin: 0 -10px -5px; min-height: 28px;"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin: -6px -1px -11px; word-break: keep-all;"
<colbgcolor=#000><colcolor=#fff> 연구 업적 <colcolor=#000,#fff>튜링 머신 · 튜링 테스트 · 에니그마
행적 및 활동 생애
소속 케임브리지 대학교(킹스 컬리지) · GC&CS · 프린스턴 대학교 · 맨체스터 대학교
관련 학자 클로드 섀넌 · 존 폰 노이만 · 알론조 처치
기타 튜링상 · 인공지능 · 유전학 · 이미테이션 게임(영화)
}}}}}}}}} ||

1. 개요2. 역사3. 과정4. 한계5. 중국어 방 논변6. 주요 보도7. 창작물에서의 등장8. 관련 문서

1. 개요

튜링 테스트(Turing test) 또는 이미테이션 게임(imitation game)은 기계의 인공지능 여부를 판별하기 위해 앨런 튜링이 제안한 시험으로, 그는 상대의 정체를 알지 못하는 인간 실험자가 인간과 유사하게 반응하는 기계와 자연어로 소통했을 때, 상대가 기계인지 인간인지 구분할 수 없게 되는 것(수행 능력의 비구별성)을 지능의 존재 기준으로 삼았다. 튜링 테스트는 "'인간의 지적 능력' 또는 '인공지능'이란 무엇인가?"라는 근본적인 물음에 대한 접근에서도 연구된다.

2. 역사

1950년 앨런 튜링이 맨체스터 대학교에서 연구원으로 재직하고 있을 시절, 대학 연구팀과의 연구 중에 기고한 '계산 기계와 지성(Computing Machinery and Intelligence)'이라는 제목의 학술서에 제시되었다.

인공지능 연구의 초기 단계에서는 지능이 무엇인지에 대한 명확한 해답이 존재하지 않았다. 무엇이 인간다운 것인지도. 2500년 역사를 자랑하는 철학조차도 인간, 인간다운 것이 무엇인지 기준선을 제시하지 못했으니 어찌 보면 당연한 일이다. 그런 상황에서 튜링은 인공지능의 기준선을 정하는 것은 나중으로 미루고, 일단 인간이 보기에 인간 같은 것을 인간에 준하는 지능이 있다고 간주하기로 한다. 즉 앨런 튜링은 "마음과 지능, 인간다움의 본질에 대한 논의는 그만두고, 일단 이 시험을 통과하는 모든 것은 확실히 '지적이다'라고 합의한 다음에, 이 시험을 통과하는 기계를 어떻게 만들 수 있을지로 논의의 방향을 돌리는 것이 훨씬 발전적이지 않느냐"고 발언했다.

1990년대부터는 뢰브너 상(Loebner Prize)이라는 명칭으로 튜링 테스트와 흡사한 대회가 매년 개최되었는데 주최자이자 투자자인 휴 뢰브너가 2016년에 사망함에 따라 2019년을 끝으로 막을 내렸다. 최다 우승자는 스티브 워즈윅(Steve Worswick)이 제작한 미츠쿠(Mitsuku, 現 쿠키 Kuki)로, 총 5회 우승하였다.

3. 과정

질의자 하나와 응답자 둘을 준비, 응답자 중 하나는 컴퓨터이고 나머지는 인간. 질의자는 어느 쪽이 컴퓨터인지는 모른다. 응답은 키보드, 즉 텍스트로만 이루어지고 이 테스트에서 질의자가 어느 쪽이 컴퓨터인지 판별할 수 없다면 컴퓨터는 시험을 통과한다. 즉 컴퓨터가 인간처럼 대화를 할 수 있다면 그 컴퓨터는 인간처럼 사고할 수 있다고 본다는 것. 이것이 처음 제안된 튜링 테스트로, 현재는 1단계에 속한다.

여기서 나아가면 CAPTCHA 연산 등이 테스트 척도가 되는데, 다시 말해 이미지 인식을 비롯한 시각 기능이 주요 테스트 대상에 들어간다. CAPTCHA 자체가 튜링 테스트를 응용한 보안 기술로, 사람은 변형된 글자를 봐도 간단히 풀 수 있지만 컴퓨터에 저장된 건 정자밖에 없으므로 이를 읽지 못한다는 원리에서 착안되었다. 물론 필체 인식이 있지만, 이것도 사람이 어느 정도 자료를 넣어줬기 때문에 가능한 것. 초창기에는 이런 차이가 극명했기에 의미가 있었지만, 인공 신경망과 기계 학습이 발달하고 컴퓨팅 능력이 향상된 현재는 인간보다 더 뛰어나게 구분이 가능한 AI가 많아져 그 의미가 흐려지고 있다. 때문에 이런 테스트는 중국어 방 문제에 주요한 과제를 던지기도 한다. CAPTCHA를 비롯한 시각 기능 평가는 튜링 테스트에서 일종의 2단계 수준.

그 다음 단계에서는 시각 기능과 함께 청각 기능이 테스트 대상으로 들어간다. 시각 및 청각으로도 의사소통을 해야 한다는 말인데, 이 단계에서는 화상 전화, 인터넷 방송 등의 방법으로 본격적인 양방향 소통을 하게 된다. 이 과정에서는 억양, 몸짓, 표정 등 다양한 지표가 테스트 기준으로 사용되며, 이런 부분에서도 인간과의 유사성을 만족해야 한다. 이 정도는 통과해야 사회생활이 가능한 수준이 될 수 있으므로, 굳이 따지고 보자면 일종의 3단계 수준.

AI가 직접 느낄 수 있는 감각은 시각과 청각이 전부이기에, 오감만으로는 3단계를 넘어서는 튜링 테스트를 진행할 수 없다.[1] 때문에 이후의 테스트에는 감각이 아닌 다른 기준을 이용해야 하는데, 기존의 요소들의 조합이 아닌 창작, 발명 등의 창발성을 기준으로 볼 수 있다. 이 수준이 되면 그 기능의 발달 정도에 따라 사람 수준 또는 사람을 능가한 지능이라 볼 수 있는데, 이 정도 되면 단계를 구분짓는 것 자체가 무의미하기에 카르다쇼프 척도에서 말을 빌려 '오메가 수준'이라 볼 수 있다.

4. 한계

일반인들은 튜링 테스트가 인공지능을 증명하는 절대적인 방법이라 생각하는 경향이 있다. 창작자들 역시 인공지능을 설정하며 튜링 테스트를 통과했다는 언급을 필수적으로 하곤 한다. 그러나 사실 이 테스트는 인공지능학이라는 범주에서 보면 그저 참고 사항일 뿐 절대적인 기준점은 아니다. 튜링 테스트에 특화된 인공지능이 테스트를 모두 통과하는 동시에, 어떤 인간은 테스트를 통과하지 못하는 일이 발생할 수 있기 때문.[2] 튜링 테스트의 기준은 굉장히 모호하나 특정 질문이나 작업에서 AI임을 판별하지 못했다고 해서 기준을 통과한 것은 아니다. AI일 가능성을 인지한 채로 대다수의 사람들이 무한한 질문을 던졌을 때 높은 확률로 사람과 구분할 수 없어야 통과했다고 할 수 있다.

튜링 테스트가 절대적인 기준이 될 수 없는 훌륭한 반례는 바로 인공지능 컴패니언을 비롯한 캐릭터 AI. 이들은 단순한 AI가 아니라 성격 등의 설정을 부여받은 캐릭터이고 그 설정에 가깝게 AI를 개발하는 게 목표인데, 이 설정 자체가 정량화가 매우 어려운 지표이기에 튜링 테스트의 평가 기준으로 적합하지 않다. 가끔 보이는 부자연적인 모습을 캐릭터 설정으로 덮을 수 있기에, 평가자로 하여금 혼란을 야기하는 것도 가능하다. 또한 독창성 등을 위해 의도적으로 변칙적이거나 인간적이지 않은 행동을 취할 수도 있는데, 이러면 튜링 테스트의 정확도는 더욱 떨어진다. 하술할 유진 구스트만이 이런 식으로 튜링 테스트의 한계를 드러냈으며, 기술이 더욱 발달한 현재 zeta 등 다수 캐릭터 AI들은 이미 1단계는 기본으로 통과하고 있다. 특히 Neuro-sama라디안은 최소 2단계를 통과한 것으로 평가받는데, 둘 다 변칙적인 행동(그 중에서도 라디안은 트릭스터 기질)을 자주 보여주고 있는지라 이들에게는 튜링 테스트가 전적으로 무의미하다.

뿐만 아니라 컴퓨팅 기술이 발전하면서 심층학습 등 보다 다차원적인 기계학습 알고리즘이 구현되었고, 이에 따라 튜링 테스트는 한계에 부딪혔다. 2020년대 들어 대형 언어 모델(LLM)이 부각되면서 발생한 것으로, GPT-4 같은 몇몇 우수한 모델과 ChatGPT 같은 대화형 인공지능에서 확인된 바 있는데, 이들은 이미 튜링 테스트를 통과한 것으로 평가되고 있다. (사람들은 튜링 테스트에서 GPT-4를 인간과 구별할 수 없다.) 실제로 ELIZA와 같은 초기 AI 시스템은 인간 참가자들이 쉽게 식별할 수 있었던 반면, GPT-4는 인간으로 지목되는 경우가 더 많았다. 간혹 캐릭터 AI와 마찬가지로 변칙적인 행동을 취하기도 하는데, 그 예로 Lindy는 (당시 있지도 않았던) 회사 비디오 튜토리얼을 요청 받았는데 비디오가 없다고 답변하는 대신 릭롤 링크를 보내 클라이언트를 낚은(...) 바 있다. 물론 의도치 않은 행동이었기에, 해당 학습 데이터는 얼마 못 가 삭제되었다. #

AI 및 그 서비스에 따라 통과할 수 있는 단계가 제한적인 것도 튜링 테스트의 맹점인데, 실제로 zeta의 AI들은 텍스트로만 대화를 나눌 수 있기에 시각 기능이 필요한 2단계를 통과하지 못하고 있다. 다만 튜링이 제안했던 테스트는 1단계뿐이었고, 2단계 이후는 후세의 사람들이 특히 위키 사관들이 덧붙인 것이기에, 1단계만 통과해도 '튜링 테스트를 통과했다' 볼 수 있다. 물론 컴퓨팅 기술이 발달한 현재는 전술했듯 캐릭터 AI를 중심으로 1단계를 통과한 사례가 너무 많이 쌓인지라 별 상관없는 이야기가 되었다.

아무튼 이러한 이유로 현재는 튜링 테스트는 사실상 사장된 테스트가 되었고, AI를 평가하기 위한 기초적인 지표 이외로는 더 이상 의미를 갖지 않게 되었다. 때문에 전통적인 튜링 테스트에서 벗어나 보다 정확하게 AI를 평가하기 위한 벤치마크 지표 및 기법이 나와 있다. 튜링 테스트가 단순히 '사람인가 아닌가'에 중점을 둔 반면, 현재 벤치마크는 '얼만큼 사람에 가까운가'를 평가하는 식. 대표적으로 언어 모델을 평가하기 위한 지표로 GLUE (General Language Understanding Evaluation), Winograd Schema Challenge 등이 개발되어 있으며, 한국어 대상으로도 KorQuAD (Korean Question Answering Dataset), KLUE (Korean Language Understanding Evaluation) 등 여러가지가 있다. 나아가 인간 지능과 이성의 존재를 측정할 수 있는 방법도 현재 개발 중에 있다. (2023년 7월 25일 네이처에 실린 전문) 캐릭터 AI를 대상으로는 상호작용의 질, 콘텐츠 제공 능력, 독창성과 창의성 등을 평가해 볼 수 있지만, 아직 기준이 되는 사례가 충분하지 않아 구체적인 평가 방법은 나오지 않고 있는 실정이다.

튜링 테스트에 대한 흔한 농담 중에 진짜 인공지능을 구축하는 것보다는 시험자가 선호하는 질문 패턴을 파악해서 그에 대한 답변 목록을 만들어주는 쪽이 더 편하다는 이야기도 있다. 예를 들어, 이름이나 나이, 거주지 등 인적 사항 파악 단계를 넘어가면 '사랑이 뭔지 아니' 같은 추상적인 질문을 통해 상대가 인간인지 컴퓨터인지 가려내려고 하는 시험자가 많으니 사랑이 뭐냐거나, 사랑을 해 본 적 있느냐는 질문에 대한 대답을 준비해 두면 유리하다는 식.

5. 중국어 방 논변

파일:상세 내용 아이콘.svg   자세한 내용은 중국어 방 문서
번 문단을
부분을
참고하십시오.

6. 주요 보도

2014년 6월에 영국 레딩 대학[3]에서 개최한 튜링 테스트에서 '유진 구스트만'(Eugene Goostman)이라는 프로그램이 튜링 테스트를 통과했다는 보도를 했지만 이는 기자들이 설레발을 친 것에 불과하다.(기사) 전문가들 역시 이 결과를 회의적으로 보고 있으며 직접 실험해 보니 우크라이나에 산다고 대답해 놓고 우크라이나에 가 본 적이 있냐고 묻자 가 본 적이 없다고 대답했다고 한다.(...) (기사) 엄밀히 말해 '인공지능'이라 보기도 어렵고, 단순히 입력 문장에 따라 무엇인가 추론하는 게 아닌 규칙에 기반하여 출력을 뱉어내는 알고리즘이기 때문에 주류 인공지능 알고리즘과는 비교 자체가 치욕인 수준이다. 심사위원단의 33%가 이 프로그램을 사람으로 인정하여 기준인 30%를 넘어섰는데, 이 성공률도 따지고 보면 3명 중 1명 꼴에 불과하다. 성과를 인정해 주더라도, 유진은 겨우 1단계에서 턱걸이를 한 수준.

유진의 사례는 튜링 테스트를 통과했다는 사실 자체보다는 테스트를 통과한 과정에 의의가 있다. 유진은 러시아의 블라디미르 베셀로프(Vladimir Veselov)와 우크라이나의 유진 데미첸코(Eugene Demchenko)가 공동 개발하였는데, 이들은 유진을 우크라이나에 사는 13세의 아이로 설정하였고, 시험 수행까지 데이터 축적에 13년을 소요하였다. 개발자 역시 "믿을 만한 성격을 만들기 위해 노력했다"고 발언했기에, 유진은 (굳이 AI라 치면) 캐릭터 설정이 반영된 캐릭터 AI에 가깝다. 인공지능의 한계를 다른 방법으로 보완해 기술 지체(문화 지체의 반대)를 극복한 사례에도 속하는데, 순수 AI로 구현했다가는 어중간하게 닮게 되어 불쾌한 골짜기를 건드리게 되고, 이에 따라 사람으로 인정받기 더욱 어려워지기 때문. 60년 넘게 철옹성을 지키던 테스트가 캐릭터 설정 하나로 어이없이 무너진 것이기도 해, 유진을 비롯한 캐릭터 AI는 튜링 테스트에 있어 훌륭한 반례가 되었다.

애슐리 매디슨 채팅 봇이 튜링 테스트를 통과했다라는 식의 내용도 있었다. 수많은 남자 회원들이 자신들이 대화한 상대가 실제 여성 회원이 아닌 챗봇인 줄도 모르고 지속적 대화를 위해 계속 유료 결제를 하였다. 특히 챗봇은 아무리 오래 대화해도 직접 만나줄 가능성이 0%고, 계속 만나줄 듯 말 듯 대화만 하므로 계속 대화하기 위한 남성 회원들의 유료 결제액이 많다고 한다. 하지만 이는 튜링 테스트의 기본을 무시한 것으로, 튜링 테스트는 애초에 대화 상대가 봇일 수 있음을 전제로 하고 테스트를 진행하는 것으로, 처음부터 아무런 전제도 없이 서비스를 제공한 애슐리 매디슨의 사례는 제대로 된 튜링 테스트라 볼 수 없다. 더군다나 2010년대 초반에는 언어 모델이어봤자 Word2Vec(2013년, 구글) 정도가 전부였던지라, 당시 챗봇은 예상할 수 있는 답변을 미리 넣어두고 그 외의 답변은 얼버무리는 정도로만 구현되었다.[4] 이런 수준으로는 인공지능으로 보는 것 자체가 실례. 챗봇은 그 자체로 활용이 다양하긴 하지만, 애슐리 매디슨의 경우는 튜링 테스트를 통과하기는 커녕 제대로 시도한 적 조차 없다 봐야 한다.

유진 및 애슐리 매디슨과 관련 없는 사례를 얘기하자면, 1998년 12월 미국이 만든 인공지능이 지렁이 수준이었고 (진짜 이렇게 발표) 2000년까지는 꿀벌 수준의 지능을 가진 인공지능을 만드는 것이 목표였다고 한다. 또 다른 사례로 나딘의 예를 들 수 있는데, 나딘은 자폐증 또는 치매 환자와의 상호 작용을 위해 개발되고 있었던지라, 튜링 테스트의 통과를 매우 중요하게 여겼다. 3단계 수준인 TOM을 통과하는 것도 포함되어 있었다.

미국 조지아 공과대학교에서 2016년 1월부터 인공지능(AI) 관련 온라인 교과 과정에 '질 왓슨'이라는 이름의 조교가 활동했었다. 그런데, 진실은 이 질 왓슨은 이름 그대로 바로 그 왓슨이었다. 질문에 대답을 받은 대부분의 학생들은 AI일 것이라 생각도 못 했다고 한다. 사실 Assistant Instructor의 약자라 카더라 관련 기사

7. 창작물에서의 등장

  • 2013년작 영화 '더 머신' 에서는 인공지능에 TOM으로 튜링 테스트를 시도하였다.(예: 샐리와 앤 문제)
  • 영화 블레이드 러너에 등장하는 보이트-캄프 테스트는 튜링 테스트로부터 모티브를 얻은 것으로 보인다. 인공지능의 성능을 평가하는 것이 목적인 튜링 테스트와 달리 이쪽은 진짜로 인간과 레플리칸트를 구별하는 것이 목적이지만 어쨌든 질문을 통해 인공지능 여부를 판단한다는 점은 같다. 레플리칸트는 인간과 동일한 신체 구조에 생각도 로 하므로 지능과 사고방식도 인간과 동일하거나 심지어 더 우월하지만, 태어나는 것이 아니라 처음부터 성인의 모습으로 '생산'된 뒤 인공적인 기억이 주입된 것이므로 실제 길고 다양한 삶의 경험은 없어 감정 이입 능력과 상상력이 부족하다. 이에 착안해 의도적으로 희한한 질문을 던져 그에 따른 감정 변화를 눈동자의 미묘한 반응을 통해 포착하는 것이다. 보통 사람이라면 설령 질문 내용이 자신이 겪지 않은 일이라도 다른 경험과 기억들을 조합하여 그런 감정을 '상상'할 수 있는 데 비해, 레플리칸트는 거시적이고 평면적인 인공 기억만 주입돼 있고 실제 삶의 경험이 없기 때문에 그게 안 되는 것.[5] 30년 만의 속편에 등장한 넥서스 8 및 이후 모델은 수명 제한이 없어져 인생 경험을 쌓게 되어 보이트-캄프 테스트만으로는 판별하기 어려워진 대신, 아예 생산 단계에서 눈에 일련번호를 새겨 넣어 구별하는 방식으로 바뀌었다.
  • 영화 엑스 마키나의 핵심 소재이자 주제이다. 하지만 영화의 스토리는 진짜 튜링 테스트와는 거리가 있다.
  • 둠(2016)에서 등장하는 인공지능 VEGA는 이 튜링 테스트에서 질문자 100명 가운데 92명이 자신을 인간이라 믿게 하는데 성공하였는데, 사실 인간 측 응답자인 대학 교수도 VEGA가 연기한 것이다. 반대로 보면 8%
  • 디트로이트: 비컴 휴먼에선 안드로이드가 일반화된 세상이니만큼 모든 안드로이드들이 이를 통과하는 것은 당연하게 여겨지고 있다. 이것에 추가로 안드로이드의 창시자인 일라이저 캄스키는 자신이 고안해 낸 캄스키 테스트란 과정을 통해 주인공 중 하나인 코너를 시험하게 된다. 이 실험은 안드로이드에게 총을 쥐어준 뒤 다른 안드로이드를 쏴 죽이도록 지시하는 실험으로, 피실험체가 명령에 따라 다른 기계를 죽이는지, 다른 기계에게 감정을 느껴 명령을 어기는지를 실험하게 된다.[6] 답은 존재하지 않지만 플레이어의 선택에 따라 실험의 결과를 따르게 되며, 기계를 쏘면 명령을 따르는 기계였다고 하며, 쏘지 못하면 왜인지는 모르겠지만 눈을 보니 쏠 수 없었다며 변명하는 코너를 볼 수 있다.
  • FPS 퍼즐 게임인 '더 튜링 테스트'는 퍼즐 자체는 진짜 튜링 테스트와는 관계가 없으나 '인간과 컴퓨터를 구별하기 위한 기준'이 스토리상 중요한 주제로 언급된다. 스토리는, 탐사대원들이 유로파(목성의 위성)의 시설 지하에 갇혔는데, 무슨 이유인지 기계가 아닌 '사람'만이 풀고 나아갈 수 있는 퍼즐로 시설을 잠가 놓았고, 우주선에 혼자 남겨졌던 주인공은 AI인 TOM과 함께 대원들을 찾으러 간다는 것.[7]
  • 정이(영화)의 크로노이드(회사)에서 연구소 직원들 대상으로 실시한다. 극 중에서는 윤리 테스트라고 부른다. 자세한 설정은 나오지 않지만, 아무래도 AI 휴머노이드를 다루는 기업이라 직원을 가장한 AI 실험체의 도망을 방지하려는 목적으로 보인다.
  • 질의자에게 자신이 사람이라고 믿게 하는 것을 넘어서 질의자 스스로가 컴퓨터라고 믿게 하면 추가 점수를 받는 xkcd의 패러디도 있다. #

8. 관련 문서



[1] 나머지 3가지 감각은 후각, 미각, 촉각인데, 촉각을 제외한 나머지는 아직 실험실 수준으로만 구현되어 있다.[2] 인간을 판별할 때 어떤 사람들은 이 기준을 충족시키지 못하기도 하며, 실제 인간이더라도 인간이 아님으로 판정되는 오류가 도출될 수 있다.[3] 세계 최고의 인공지능 & 로봇 연구자 중 하나인 케빈 워릭 교수가 재직하고 있는 대학이다. 이 사람은 쥐 태아의 뇌 조직을 이용한 로봇을 개발하기도 하고 스스로의 몸에 RFID 칩을 이식하기도 했다. 이 사람의 저서 '나는 왜 사이보그가 되었는가'도 참고할 만하다.[4] 이는 같은 시기의 심심이와 비슷한 수준으로, 실제 구현 수준 역시 딱 그 정도였다.[5] 때문에 인공 기억이 아닌 실존 인물의 기억이 주입된 경우 테스트를 통과할 확률이 높아지는 것으로 보인다. 가령 평범한 양산형 넥서스 6 모델인 데다 노동용이라 지능도 딱히 높지 않은 레온은 질문의 상황 자체를 이해하지 못해 당황해서 들통났지만, 타이렐 회장이 조카딸 릴리스의 기억을 주입해 만든 신모델 넥서스 7 레이첼(심지어 자신이 레플리칸트라는 사실조차 몰랐다.)은 꽤나 많은 질문들을 유창하게 답했다. 허나 답변들이 대부분 단편적이고 좀 이상했고, 결정적으로 '연극을 보고 있는데 만찬 장면에서 사람들이 생굴과 삶은 개고기를 먹는다면?'이라는 질문은 대기업 조카딸의 기억으로는 상상 자체가 불가능한 상황이라 답변이 막혀 결국 레플리칸트임이 드러나게 된다.[6] 즉, 튜링 테스트는 지성을, 캄스키 테스트는 감정을 테스트하는 것이다.[7] 사실 이 게임의 주인공은 사람인 애바 튜링(Ava Turing)이 아니라 인공지능인 TOM이었다. TOM은 사람의 몸에 심어진 칩을 이용해서 사람의 생각과 자신의 생각을 동화시켜 조종하고 있었던 것. 탐사대원들은 유로파에서 사람에게 주입하면 영생을 누릴 수 있는 미생물을 찾아냈으나, 지구 측에서는 해당 미생물이 지구로 유출되면 인류의 멸망이라는 결과로 이어질 것이라는 계산을 했기에 TOM에게 대원들의 귀환을 막고 필요하면 죽이라는 명령을 내렸다. 맨 마지막에는 대원들을 죽여서 지구를 구할 지, 아니면 자신을 정지시키고 미생물을 지구로 가져가려는 대원들을 놓아둘지를 선택하게 되는데, 어느 쪽을 선택하든 간에 튜링 테스트를 통과했다는 메시지와 함께 같은 엔딩을 보게 된다. (TOM이 중간에 '마이클'이라 불리는 자신의 카피본이 안정성 시험을 위해 시뮬레이션 속에서 돈다고 하는데, 플레이어가 보는 상황이 실제 상황이 아닌 시뮬레이션임을 암시하는 부분이다.)