1. 개념
AI 모델이 얼마나 신뢰할 수 있고 안전한지 평가하기 위해, 일부러 어려운 질문이나 까다로운 상황을 만들어 모델의 약점을 찾는 방식을 의미한다. 쉽게 말해, AI에게 의도적으로 함정을 던져서 모델이 얼마나 견딜 수 있는지, 예상 밖의 질문에 잘 대처하는지를 시험하는 방법이다.AI 기술이 실제로 사람과 사회에 긍정적으로 활용될 수 있도록, 잠재적 위험 요소와 취약점을 미리 발견하고 개선하는 중요한 평가 방법으로 활용되고 있다.
2. 유래
군사 용어로 사용되던 레드 팀(조직)을 인공 지능(IA) 분야에 적용했다.군대에서 훈련할 때 한쪽 팀(블루팀)이 방어를 맡으면, 상대 팀(레드팀)은 공격자 역할을 하면서 방어 전략의 약점을 찾아내는 활동을 AI 분야에 도입하여, AI가 실제 상황에서 발생할 수 있는 어려운 질문이나 예기치 못한 요청에 얼마나 잘 대응할 수 있는지를 평가하는 방식으로 발전.