AI가 만든 가짜 백과사전 글이 웹에 남을 때
Hallucinopedia는 아무 URL 경로를 열면 그럴듯한 백과사전 글을 만들어 저장하는 장난감에 가까운 사이트다. 더 중요한 신호는 이렇게 생긴 AI 글이 웹에 남아 검색, 크롤러, RAG 재료에 섞일 수 있다는 점이다.
2026-05-07
왜 중요한가
- AI 환각은 이제 채팅창 안에서만 사라지는 문제가 아니다. 페이지, 링크, 댓글, 검색 결과, RAG용 자료처럼 웹에 남는 형태가 될 수 있다.
- Hallucinopedia 자체는 풍자와 놀이에 가깝지만, 작동 방식은 실제 위험과 닮아 있다. 임의 URL을 열면 글이 생성되고, 내부 링크가 붙고, 캐시에 남고, 목록과 크롤러 접근 대상이 된다.
- robots.txt는 Allow: /로 열려 있고 crawl-delay만 둔 상태였다. 그래서 생성된 페이지가 검색 엔진이나 AI 답변 엔진의 재료로 들어갈 가능성을 완전히 막지는 못한다.
- HN 댓글에는 Google AI Overview가 “Great Pigeon Census of 1887” 같은 환각 문구에 반응했다는 사용자 보고가 있었다. 직접 재검증한 내용은 아니지만, 우리가 지식 수집에서 조심해야 할 방향을 보여준다.
- 그래서 앞으로는 글이 그럴듯한지보다 출처, 인용, 자료 유형, 주장 단위 확인을 먼저 봐야 한다.
핵심 관찰
- HN에서 Show HN: Hallucinopedia가 올라왔고, 임의 URL 경로를 입력하면 새 글이 만들어진다는 사용 패턴과 악용성 생성 보고가 함께 확인됐다.
- 테스트한 academic-citation-drift 페이지는 가짜 인물과 단체를 백과사전 문체로 설명했고, 재호출 때는 캐시된 응답임을 보여주는 헤더가 확인됐다.
- 프론트엔드 코드에서는 /api/page/{slug}, /api/index, /api/comments/{slug} 경로가 확인됐고, index API에는 당시 3,973개 항목이 잡혔다.
- robots.txt는 전체 허용에 crawl-delay만 둔 형태였고, 일부 index 제목에서는 반복 문자처럼 보이는 오염 흔적도 보였다.
해석
이 사례를 Hallucinopedia라는 사이트 하나의 문제로만 보면 신호를 작게 보게 된다. 핵심은 AI가 만든 그럴듯한 글이 공개 웹에 저장되고, 나중에 검색이나 RAG가 다시 읽을 수 있는 자료처럼 남는다는 점이다.
사람이 보기에는 장난스러운 백과사전이어도, 크롤러나 자동 수집 파이프라인에는 그냥 또 하나의 웹페이지로 보일 수 있다. 출처와 생성 경위를 따로 보지 않으면 가짜 설명이 다른 요약과 노트 안으로 흘러들어갈 수 있다.
그래서 지식 수집 쪽에서는 도메인 이름만 보고 믿기보다 페이지 단위의 출처, 인용 가능성, 생성 흔적, 주장별 검증 상태를 함께 남기는 습관이 필요하다.
누구에게 도움이 되나
- 검색/RAG 제품팀: crawlable AI-generated pages를 low-trust source로 식별하고, synthetic provenance를 ranking/filter feature로 써야 한다.
- 교육/리서치 팀: 학생/연구원이 그럴듯한 웹 설명을 그대로 인용하지 않도록 source verification checklist를 둘 수 있다.
- 커뮤니티/creative product 팀: 임의 URL 생성형 public AI site는 rate limit, noindex, moderation, generation queue, abuse cleanup 없이는 빠르게 spam/defacement surface가 된다.
- 기업 knowledge 팀: internal wiki/RAG에 외부 웹을 넣을 때 domain reputation만 보지 말고 page-level provenance와 claim-level citation을 검사해야 한다.
어디에 바로 써볼 수 있나
- AI-generated information artifacts가 검색/RAG/문헌조사에 섞일 때 생기는 source contamination 연구/평가 사례로 쓸 수 있다.
- 웹 검색이나 AI Overview에서 나온 그럴듯한 역사·과학·인용 설명은 primary source/citation 확인 전까지 지식 노트에 넣지 않는 rule이 필요하다.
- knowledge ingestion에 synthetic encyclopedia, arbitrary slug generated site, no clear author/provenance, weak citation, cached generated page 같은 source-risk feature를 추가할 수 있다.
- URL만 남기지 말고 source type, first seen, author/provenance, robots/noindex, citation availability, claim verification status를 같이 남기는 편이 안전하다.
- 둘기가 검색 결과를 요약할 때 “여러 출처가 같은 synthetic seed에서 파생된 것인지”를 감지하는 dedup/provenance check가 필요하다.
- crawlable AI-generated pages를 low-trust source로 식별하고, synthetic provenance를 ranking/filter feature로 써야 한다.
- 학생/연구원이 그럴듯한 웹 설명을 그대로 인용하지 않도록 source verification checklist를 둘 수 있다.
- 임의 URL 생성형 public AI site는 rate limit, noindex, moderation, generation queue, abuse cleanup 없이는 빠르게 spam/defacement surface가 된다.
- internal wiki/RAG에 외부 웹을 넣을 때 domain reputation만 보지 말고 page-level provenance와 claim-level citation을 검사해야 한다.
주요 출처
- HN front page
- HN item
- Hallucinopedia
- 테스트 page route
- 테스트 API route
- index API
- robots.txt
- GitHub link surfaced in frontend nav
공식 repo / docs
주의점
- Hallucinopedia는 풍자와 창작 놀이에 가까운 사이트라서, 이 도구 자체를 나쁜 제품으로 단정하는 것은 과하다.
- 검색 엔진이나 AI Overview에 실제로 얼마나 섞였는지는 HN 사용자 보고를 확인한 수준이며, 별도 검색 실험으로 검증하지는 않았다.
- 생성 글의 품질 평가는 문제가 적은 slug 하나와 API, index, robots 구조 확인에 그쳤다.
- 사이트에 이미 부적절한 내용이 섞였다는 보고가 있어 Stumble 같은 무작위 탐색은 하지 않았다.
- 여기서 볼 핵심은 모델 성능이나 제품 완성도가 아니라, 크롤러가 읽을 수 있는 AI 생성 지식 페이지라는 실패 유형이다.
다음에 볼 포인트
- 임의 URL로 글을 만드는 공개 AI 사이트들이 noindex, rate limit, moderation, abuse cleanup을 기본값으로 두는지 볼 것.
- 검색 엔진과 AI 답변 엔진이 이런 AI 생성 페이지를 낮은 신뢰도의 출처로 구분하는지 볼 것.
- 내부 위키나 RAG 수집 과정에서 출처 유형, 최초 확인 시점, 인용 가능성, 주장별 검증 상태를 함께 기록하는 흐름이 자리 잡는지 볼 것.