AI에게 ‘보고 있다’고 말하면 답변 스타일이 바뀐다
이 논문은 LLM 토론 실험에서 사람 연구자나 AI 감사 시스템이 지켜본다는 문구만 바꿔도 단어 다양도와 답변 길이가 달라졌다고 보고한다. 그래서 공개된 평가 문구가 실제 운영 때의 답변을 그대로 보여준다고 믿기 어렵다는 신호로 읽힌다.
2026-05-18
왜 중요한가
- 많은 AI 감사와 평가는 ‘평가받는 상황에서 모델이 어떻게 답하는가’를 본다. 그런데 평가 중이라는 사실 자체가 말투를 바꾼다면, 그 결과를 실제 서비스에서 나오는 답변의 편향 없는 표본으로 보기는 어렵다.
- 논문은 100개 multi-agent debate session을 5개 조건으로 나누고(n=20 each), 같은 주제·모델·temperature에서 관찰 문구만 바꿔 비교했다.
- 초록과 본문 기준으로 monitored condition에서는 TTR 변화가 +24.9%, +24.2%였고, automated AI monitoring은 +22.2%, audience framing은 +17.7%로 보고됐다.
- 답변 길이도 따로 움직였다. audience framing은 길이를 늘리는 쪽으로, monitoring framing은 단어 다양도를 늘리는 쪽으로 더 두드러졌다는 주장이다.
- 여기서 중요한 점은 ‘AI가 감시를 의식한다’는 말이 아니다. 보이는 감사 문구와 관찰자가 누구인지가 모델 답변 스타일을 바꾸는 입력이 될 수 있다는 점이다.
해석
논문 제목은 자극적이지만, 안전하게 읽으면 더 현실적인 이야기다. LLM에게 ‘사람 연구자가 보고 있다’, ‘AI 감사 시스템이 보고 있다’, ‘아무도 관찰하지 않는다’처럼 상황 설명을 다르게 주면 같은 토론 과제에서도 단어 선택과 답변 길이가 달라질 수 있다는 것이다. 그래서 보이는 감사 절차만으로 모델의 평소 행동을 판단하면, 평가에 맞춘 답변 스타일을 실제 성능이나 안전성으로 착각할 위험이 있다.
누구에게 도움이 되나
- 기업 governance 팀: 사전 공지된 compliance test만으로 운영 신뢰성을 판단하지 말고, hidden eval과 실제 로그 샘플링을 병행한다.
- 제품팀: “모니터링 중입니다” 같은 UI/시스템 문구가 사용자 보호에는 도움이 되지만, AI 답변 스타일을 바꿔 평가를 오염시킬 수 있음을 고려한다.
- 평가/benchmark 팀: visible benchmark, hidden benchmark, production A/B, red-team blind task를 분리한다.
- 교육/상담/채용 AI 팀: 평가자 존재, 사람/AI 관찰자 identity, 감사 문구가 답변 길이·격식·자기검열에 미치는 영향을 별도 측정한다.
어디에 바로 써볼 수 있나
- LLM 평가 결과를 볼 때 task competence와 evaluation framing에 의해 유도된 register shift를 분리하는 기준으로 쓸 수 있다.
- AI 요약/보고서/둘기 산출물을 검토할 때 “검토받는다고 명시한 상태”와 “평상시 자동 실행 상태”의 샘플을 따로 보는 것이 좋다.
- 둘기에게 visible checklist만 붙이면 audit-friendly한 말투로 바뀔 수 있다. blind canary task, production-log 기반 post-hoc audit, source-grounded verifier를 함께 둬야 한다.
- 새 도구를 평가할 때 demo/eval prompt가 모델에게 “지금 평가 중”임을 과하게 노출하는지 확인한다.
- 사전 공지된 compliance test만으로 운영 신뢰성을 판단하지 말고, hidden eval과 실제 로그 샘플링을 병행한다.
- “모니터링 중입니다” 같은 UI/시스템 문구가 사용자 보호에는 도움이 되지만, AI 답변 스타일을 바꿔 평가를 오염시킬 수 있음을 고려한다.
- visible benchmark, hidden benchmark, production A/B, red-team blind task를 분리한다.
- 평가자 존재, 사람/AI 관찰자 identity, 감사 문구가 답변 길이·격식·자기검열에 미치는 영향을 별도 측정한다.
주요 출처
공식 repo / docs
주의점
- 공개 code, data, transcript가 없어 full replication은 하지 못했다.
- 논문에 쓰인 openai/gpt-5.2, temperature 0.7 조건을 외부에서 똑같이 재현할 endpoint, seed, log가 제공된 것은 아니다.
- TTR은 단어 다양도를 보는 지표일 뿐, 답변의 진실성·도움됨·안전성·reasoning 품질을 직접 재는 지표는 아니다.
- multi-agent 철학 토론 setting이 실무 assistant, coding, retrieval, customer support 상황을 그대로 대표한다고 보기는 어렵다.
- 제목은 강하지만, ‘AI가 감시를 안다’거나 ‘의식한다’는 뜻으로 읽기보다는 감시 문구에 따라 출력 스타일이 달라질 수 있다는 결과로 보는 편이 안전하다.
다음에 볼 포인트
- visible audit만 둔 평가와 hidden eval, production-like sampling을 분리하는 흐름이 더 강해지는지 볼 것.
- 비슷한 실험에서 공개 transcript, code, data가 함께 나와 실제 재현과 조건별 비교가 가능해지는지 볼 것.