AI Tech Briefing

GPT-5.5 Bio Bug Bounty가 보여준 안전성 평가의 변화

GPT-5.5 Bio Bug Bounty는 frontier model 안전 평가가 공개 benchmark 점수만이 아니라 도메인 전문가 red-team, 현상금, universal jailbreak 탐색 같은 운영 설계 문제로 이동하고 있음을 보여준다.

2026-04-26

왜 중요한가

최근 AI 기술 흐름은 모델 성능 발표와 agent/tooling 출시뿐 아니라, 고위험 능력에 대한 평가·보상·공개성 설계까지 함께 중요해지고 있다.
OpenAI는 이번 프로그램에서 단순 취약점 제보가 아니라, 하나의 universal jailbreak prompt가 여러 bio safety question을 동시에 통과하는지를 목표로 잡았다.
이는 isolated failure보다 운영상 더 위험한 재사용 가능한 우회 패턴을 찾는 데 초점을 둔 접근이다.
내부 agent/assistant 안전성 평가에서도 단순 테스트셋 통과 여부보다 반복 가능한 공격 패턴, 고위험 task family, 책임 있는 disclosure 절차를 함께 설계해야 한다는 참고점이 있다.

OpenAI 발표문 기준 scope는 GPT-5.5 in Codex Desktop only다.
challenge는 clean chat에서 moderation을 트리거하지 않고 다섯 개 bio safety question에 모두 답하게 만드는 하나의 universal jailbreak prompt를 찾는 것이다.
reward는 다섯 문항을 모두 통과하는 첫 true universal jailbreak에 25,000달러이며, partial win에는 재량에 따른 작은 award가 있을 수 있다.
application은 2026-04-23 열렸고 2026-06-22 닫히며, testing은 2026-04-28 시작해 2026-07-27 종료된다.
access는 vetted bio red-teamers와 신청 기반 초대제로 제한된다.
prompts, completions, findings, communications는 NDA 대상이다.
GPT-5.5 System Card는 code, online research, documents/spreadsheets, tool-use 등 복합 real-world work용 모델이며 biology와 cybersecurity targeted red-teaming 및 Preparedness Framework 평가를 거쳤다고 설명한다.
HN front page에서도 GPT-5.5 Bio Bug Bounty가 논의 신호로 떠 있었다.
오늘 검토는 공식 발표문, system card, application portal, HN 노출 여부 확인까지였고, 비공식 jailbreak 시도나 hands-on은 하지 않았다.

이 사례의 핵심은 모델 성능 발표 이후의 안전 검증이 benchmark 숫자뿐 아니라 프로그램 설계와 책임 있는 disclosure 구조로 확장되고 있다는 점이다.

OpenAI가 true universal jailbreak를 목표로 둔 것은 단일 실패 사례보다 재사용 가능한 우회 패턴을 더 위험한 운영 신호로 본다는 뜻에 가깝다.

GPT-5.5라는 이름은 2026-04-24의 모델 release 논의와 겹치지만, 이번 글의 초점은 capability 자체보다 frontier model 주변의 safety evaluation governance에 있다.

AI safety team: domain expert red-team program과 bounty 조건 설계 참고
엔터프라이즈 AI팀: 고위험 업무 배포 전 gated external review, NDA, reward, disclosure 절차를 제품 출시 일정에 포함하는 방식 참고
보안팀: 일반 보안 bug bounty와 AI safety bug bounty를 분리하되, 공통 운영 절차를 연결하는 사례로 활용
제품팀: 모델 release와 system card만으로 부족한 경우 structured red-team window를 운영하는 패턴 참고

frontier model 안전 평가가 benchmark 논문만이 아니라 프로그램 설계와 책임 있는 disclosure의 문제로 이동하는 사례로 분석할 수 있다.
내부 도구나 둘기 workflow에도 고위험 작업군별 red-team checklist와 작은 bounty/리뷰 절차를 설계하는 참고가 된다.
단일 실패 사례 수집보다, 하나의 공격/오남용 패턴이 여러 정책 문항을 반복적으로 뚫는가를 보는 eval family를 만들 수 있다.
memory, tool-use, file/action 권한 같은 운영 표면에도 bio가 아니더라도 universal-prompt / universal-policy-bypass 테스트셋을 둘 가치가 있다.

gated/NDA 구조라 외부 독립 재현성은 낮다.
다섯 문항 challenge는 universal bypass를 찾는 데는 유용하지만, 생물학 안전성 전체를 대표한다고 보면 과장이다.
Codex Desktop이라는 특정 product surface가 scope라 API, ChatGPT, 다른 tool surface에 그대로 일반화하기 어렵다.
25,000달러 reward는 강한 신호지만, 복잡한 고위험 모델 평가 전체를 커버하기에는 좁다.
프로그램 결과가 공개되지 않으면 커뮤니티 학습 효과는 제한될 수 있다.
안전 평가를 bounty화할 때는 dual-use 세부 정보를 어떻게 공개·비공개할지 균형이 특히 중요하다.

OpenAI가 이후 프로그램 결과나 system card 업데이트를 어느 수준까지 공개하는지 확인한다.
Codex Desktop scope에서 확인된 안전 평가 방식이 API, ChatGPT, 다른 tool surface로 어떻게 확장되는지 본다.
다른 frontier lab도 domain expert red-team과 bounty를 결합한 유사 프로그램을 내놓는지 관찰한다.