AI Tech Briefing

AI가 만든 가짜 백과사전 글이 웹에 남을 때

Hallucinopedia는 아무 URL 경로를 열면 그럴듯한 백과사전 글을 만들어 저장하는 장난감에 가까운 사이트다. 더 중요한 신호는 이렇게 생긴 AI 글이 웹에 남아 검색, 크롤러, RAG 재료에 섞일 수 있다는 점이다.

2026-05-07

왜 중요한가

AI 환각은 이제 채팅창 안에서만 사라지는 문제가 아니다. 페이지, 링크, 댓글, 검색 결과, RAG용 자료처럼 웹에 남는 형태가 될 수 있다.
Hallucinopedia 자체는 풍자와 놀이에 가깝지만, 작동 방식은 실제 위험과 닮아 있다. 임의 URL을 열면 글이 생성되고, 내부 링크가 붙고, 캐시에 남고, 목록과 크롤러 접근 대상이 된다.
robots.txt는 Allow: /로 열려 있고 crawl-delay만 둔 상태였다. 그래서 생성된 페이지가 검색 엔진이나 AI 답변 엔진의 재료로 들어갈 가능성을 완전히 막지는 못한다.
HN 댓글에는 Google AI Overview가 “Great Pigeon Census of 1887” 같은 환각 문구에 반응했다는 사용자 보고가 있었다. 직접 재검증한 내용은 아니지만, 우리가 지식 수집에서 조심해야 할 방향을 보여준다.
그래서 앞으로는 글이 그럴듯한지보다 출처, 인용, 자료 유형, 주장 단위 확인을 먼저 봐야 한다.

HN에서 Show HN: Hallucinopedia가 올라왔고, 임의 URL 경로를 입력하면 새 글이 만들어진다는 사용 패턴과 악용성 생성 보고가 함께 확인됐다.
테스트한 academic-citation-drift 페이지는 가짜 인물과 단체를 백과사전 문체로 설명했고, 재호출 때는 캐시된 응답임을 보여주는 헤더가 확인됐다.
프론트엔드 코드에서는 /api/page/{slug}, /api/index, /api/comments/{slug} 경로가 확인됐고, index API에는 당시 3,973개 항목이 잡혔다.
robots.txt는 전체 허용에 crawl-delay만 둔 형태였고, 일부 index 제목에서는 반복 문자처럼 보이는 오염 흔적도 보였다.

이 사례를 Hallucinopedia라는 사이트 하나의 문제로만 보면 신호를 작게 보게 된다. 핵심은 AI가 만든 그럴듯한 글이 공개 웹에 저장되고, 나중에 검색이나 RAG가 다시 읽을 수 있는 자료처럼 남는다는 점이다.

사람이 보기에는 장난스러운 백과사전이어도, 크롤러나 자동 수집 파이프라인에는 그냥 또 하나의 웹페이지로 보일 수 있다. 출처와 생성 경위를 따로 보지 않으면 가짜 설명이 다른 요약과 노트 안으로 흘러들어갈 수 있다.

그래서 지식 수집 쪽에서는 도메인 이름만 보고 믿기보다 페이지 단위의 출처, 인용 가능성, 생성 흔적, 주장별 검증 상태를 함께 남기는 습관이 필요하다.

검색/RAG 제품팀: crawlable AI-generated pages를 low-trust source로 식별하고, synthetic provenance를 ranking/filter feature로 써야 한다.
교육/리서치 팀: 학생/연구원이 그럴듯한 웹 설명을 그대로 인용하지 않도록 source verification checklist를 둘 수 있다.
커뮤니티/creative product 팀: 임의 URL 생성형 public AI site는 rate limit, noindex, moderation, generation queue, abuse cleanup 없이는 빠르게 spam/defacement surface가 된다.
기업 knowledge 팀: internal wiki/RAG에 외부 웹을 넣을 때 domain reputation만 보지 말고 page-level provenance와 claim-level citation을 검사해야 한다.

AI-generated information artifacts가 검색/RAG/문헌조사에 섞일 때 생기는 source contamination 연구/평가 사례로 쓸 수 있다.
웹 검색이나 AI Overview에서 나온 그럴듯한 역사·과학·인용 설명은 primary source/citation 확인 전까지 지식 노트에 넣지 않는 rule이 필요하다.
knowledge ingestion에 synthetic encyclopedia, arbitrary slug generated site, no clear author/provenance, weak citation, cached generated page 같은 source-risk feature를 추가할 수 있다.
URL만 남기지 말고 source type, first seen, author/provenance, robots/noindex, citation availability, claim verification status를 같이 남기는 편이 안전하다.
둘기가 검색 결과를 요약할 때 “여러 출처가 같은 synthetic seed에서 파생된 것인지”를 감지하는 dedup/provenance check가 필요하다.
crawlable AI-generated pages를 low-trust source로 식별하고, synthetic provenance를 ranking/filter feature로 써야 한다.
학생/연구원이 그럴듯한 웹 설명을 그대로 인용하지 않도록 source verification checklist를 둘 수 있다.
임의 URL 생성형 public AI site는 rate limit, noindex, moderation, generation queue, abuse cleanup 없이는 빠르게 spam/defacement surface가 된다.
internal wiki/RAG에 외부 웹을 넣을 때 domain reputation만 보지 말고 page-level provenance와 claim-level citation을 검사해야 한다.

임의 URL로 글을 만드는 공개 AI 사이트들이 noindex, rate limit, moderation, abuse cleanup을 기본값으로 두는지 볼 것.
검색 엔진과 AI 답변 엔진이 이런 AI 생성 페이지를 낮은 신뢰도의 출처로 구분하는지 볼 것.
내부 위키나 RAG 수집 과정에서 출처 유형, 최초 확인 시점, 인용 가능성, 주장별 검증 상태를 함께 기록하는 흐름이 자리 잡는지 볼 것.