Claude Fable 5가 또다시 탈옥당하다: 20시간 테스트가 드러낸 것

두 번째 Fable 5 탈옥 사례는 완전한 실패라는 단순한 이야기가 아닙니다. 이는 Anthropic의 다층 방어가 대부분의 직접적인 시도를 차단하는 것으로 보이지만, 결연한 레드팀 참가자들은 충분한 시간과 반복, 창의성을 바탕으로 여전히 좁은 빈틈을...

소개

Anthropic이 Claude Fable 5를 다시 공개한 지 얼마 지나지 않아 또 다른 탈옥 리뷰가 공개적으로 등장했다.

그 시점 때문에 이 이야기는 특히 민감해졌다. Fable 5는 이미 한 차례 논란과 일시적인 접근 중단, 그리고 더 강력한 사이버 보안 보호 장치를 적용한 재배포를 거쳤다. 그런데 복귀 직후 보안 연구원 Vitto Rivabella가 다시 방어 체계를 뚫는 데 성공했다고 밝혔다.

흥미로운 점은 이번 두 번째 사례가 단순히 “모델이 망가졌다”는 이야기가 아니라는 것이다. 그보다 훨씬 복잡하다. 보도에 따르면 시도에는 약 20시간이 걸렸고, 대부분의 시도는 실패했으며, 최종 결과도 제한적이어서 연구자 본인조차 같은 종류의 정보를 얻기에는 일반 웹 검색이 더 빠르고 저렴하다고 설명했다.

이 글은 원래의 시간순을 따라간다. Fable 5의 복귀, 첫 번째 탈옥, Anthropic의 공개 Cyber Jailbreak 공개 프로그램, 두 번째 탈옥 리뷰, 그리고 그 모든 것 뒤에 있는 더 깊은 질문 — 어떤 최전선 AI 모델이라도 완벽하게 봉인될 수 있는가 — 를 다룬다.

출처 참고

이 재작성된 글은 智源社区 / 新智元의 원문 중국어 기사에 기반한다: https://hub.baai.ac.cn/view/56072. 원문 기사는 X의 공개 게시물과 Fable 5, 재배포, 탈옥 프레임워크에 관한 Anthropic의 공식 발표를 인용하고 있다.

원문 페이지에는 여러 이미지가 포함되어 있다. 이 버전에서는 공개 게시물, 공식 프로그램 스크린샷, 견고성 차트처럼 글의 주장과 직접 관련된 스크린샷만 유지했다. 장식용 브랜드 그래픽, 홍보 이미지, 과도하게 상세한 위험 출력 썸네일이 포함된 것으로 보이는 스크린샷은 제외했다.

원 출처에는 다음 저작권 안내도 포함되어 있다. 콘텐츠의 이미지에 저작권 문제가 있을 경우, 게시자는 권리자가 삭제 요청을 위해 연락해 달라고 요청한다.

Fable 5는 돌아왔다 — 하지만 조건이 있었다

Anthropic은 Fable 5가 7월 7일 이후 구독 플랜에서 일시적으로 제외될 것이라고 확인했지만, 회사는 또한 용량이 허용되는 대로 Fable을 표준 구독 기능으로 복원할 계획이라고 밝혔다.

많은 사용자에게 이는 좋은 소식처럼 들렸다. Fable 5가 영구적으로 제거되는 것은 아니었다. 사용량 제한과 용량 제약이 있을 뿐, 다시 돌아오는 것이었다.

이미지는 두 개의 트윗을 보여준다. 위쪽 트윗은 Chubby@kimmonismus가 게시한 것으로, 이날 최고의 소식이라며 용량이 충분하다는 전제하에 Fable이 구독 플랜의 일부로 제공될 것이라고 말한다. 아래쪽 트윗은 Thariq@trq212의 답글로, Fable이 구독 플랜에 포함되는지에 관한 질문을 들었다고 언급하며, Fable은 7월 7일 이후 구독 서비스에서 제외되지만 생산 능력이 허용되는 즉시 표준 구독 내용에 다시 포함되기를 희망한다고 말한다. 이 두 트윗은 문서 속 Fable 구독 플랜에 관한 Anthropic의 설명과 관련되어 있으며, Fable 복귀에 대한 사용자들의 기대를 반영한다.

하지만 안도감은 오래가지 않았다.

재배포 직후 Fable 5가 다시 탈옥된 것으로 전해졌다. 이는 그 방어 체계가 공개적으로 도전받은 두 번째 사례였다. Vitto Rivabella는 자신이 방어를 뚫는 데 성공했다고 발표했지만, 최종 결론은 헤드라인이 암시하는 것보다 더 미묘했다.

Anthropic은 이미 Fable 5가 이전에 왜 제한되었는지 설명한 바 있다. 회사에 따르면 앞선 문제는 Amazon 연구원들이 사이버 보안 맥락에서 Fable 5의 보호 장치를 우회하는 방법을 발견했다는 보고와 관련이 있었다.

이미지는 문서 중 Fable 5의 안전 보호 관련 문제에 관한 설명이다. 6월 12일 정부가 수출 통제 지침을 발표했으며, 그 이전에 Amazon 연구원들은 Fable 5의 안전 보호 장치를 우회하는 방법을 발견했고, 모델이 소프트웨어 취약점을 식별하고 악용을 시연하는 코드를 생성할 수 있었다. 지난 2주 동안 회사는 정부 및 Amazon과 협력해 보고서와 증거를 검토했다. 이미지 내용은 위에서 언급한 Fable 5의 안전 보호 문제와 이에 대한 정부의 반응과 밀접하게 관련되어 있으며, 위 내용에 대한 보충 설명이다.

그 이전 사건 때문에 Anthropic은 재배포된 Fable 5에 앞서 보고된 행동을 겨냥하도록 설계된 강화된 안전 분류기가 포함되었다고 밝혔다.

그럼에도 이 “신화”는 짧은 시간만 유지되었다.

72시간: Fable 5 신화의 첫 균열

Fable 5의 첫 공개 이미지는 극단적인 안전성 테스트를 중심으로 구축되었다.

Anthropic이 6월 9일 이 모델을 출시했을 때, 회사는 이 모델이 강도 높은 외부 스트레스 테스트를 거쳤다고 강조했다. 메시지는 분명했다. 이는 훨씬 더 강력한 모델 계열의 범용 버전이지만, 매우 강하게 보호되도록 설계되었다는 것이었다.

그런 다음 첫 공개 탈옥이 등장했다.

잘 알려진 탈옥 인물인 Pliny the Liberator는 며칠 만에 Fable 5가 의도된 안전 경계를 벗어나도록 유도될 수 있음을 시연한 것으로 전해졌다. 원문 기사는 금지된 화학 및 소프트웨어 익스플로잇 콘텐츠와 관련된 사례를 설명하지만, 이 재작성본은 의도적으로 어떤 실행 가능한 세부 사항도 재현하지 않는다.

중요한 점은 구체적인 콘텐츠가 아니다. 중요한 것은 공격 패턴이다.

첫 번째 탈옥은 어떻게 작동했나

첫 번째 사례는 AI 레드팀 분야에서 수년간 논의되어 온 두 가지 넓은 아이디어에 의존했다.

문자와 언어의 혼동
일부 프롬프트는 유사 문자, 특이한 유니코드 형식, 또는 비표준 텍스트 패턴을 사용했다. 사람에게는 의미가 여전히 명확해 보일 수 있다. 하지만 분류기에는 입력을 안정적으로 해석하기가 더 어려울 수 있다.
긴 맥락을 통한 의도 희석
유해한 요청을 모델 앞에 직접 제시하는 대신, 의도를 길고 겉보기에는 무해한 대화 전체에 분산시킬 수 있다. 그러면 분류기는 단순한 한 문장을 평가하는 것이 아니라 여러 턴에 걸친 의미를 추적해야 한다.

이러한 아이디어는 새롭지 않다.

Fable 5 사례가 주목받은 이유는 Anthropic이 이 모델을 이례적으로 강력하게 강화된 모델로 포지셔닝했기 때문이다.

Anthropic, 공개 사이버 탈옥 프로그램을 열다

7월 1일, Anthropic은 Fable 5의 복귀를 발표했다. 거의 같은 시기에 Cyber Jailbreak라는 공개 HackerOne 프로그램도 개설했다.

이 프로그램은 연구자와 일반 대중이 Fable 5가 유해한 사이버 사용 사례를 지원하도록 만들 수 있는 탈옥 사례를 보고하도록 초대한다.

이는 취약점 공개 프로그램이지, 유료 바운티 프로그램이 아니다. 다시 말해 연구자들은 발견 사항을 제출할 수 있지만, 이 프로그램은 금전적 보상을 제공하지 않는다.

이 설계는 흥미롭다. Anthropic은 숙련된 연구자들로부터 지속적인 외부 적대적 테스트를 받을 수 있고, 제출자에게 주어지는 주요 보상은 인정과 책임 있는 공개다.

일부 관찰자들은 이를 영리하고 비용이 적게 드는 레드팀 전략으로 보았다. 반면 다른 이들은 약점을 지적했다. 세간의 이목을 끄는 탈옥을 발견하는 사람들은 대개 그것을 조용히 비공개 메일함으로 보내고 싶어 하지 않는다는 것이다.

공개적 인지도를 가진 탈옥 연구자들에게는 가시성 자체가 사건의 일부다. 탈옥이 발견되면 그 결과를 공개하는 것 자체가 목적의 일부가 될 수 있다.

Fable 5가 다시 탈옥되다

Fable 5는 다시 우회된 것으로 알려졌다. 하지만 두 번째 탈옥 리뷰의 분위기는 첫 번째와 매우 달랐다.

이번 사례의 연구자는 Vitto Rivabella였다. 약 20시간의 테스트 끝에 그가 내린 결론은 Fable 5가 약하다는 것이 아니었다. 오히려 그는 Anthropic을 어느 정도 인정했다.

이미지는 Vitto Rivabella가 Fable 5 탈옥 버전에 대해 평가한 내용이다. 상단에는 그의 Twitter 계정 정보가 표시되어 있다. 이미지 본문은 두 부분으로 나뉘며, 위쪽 영어 내용은 대부분의 시도가 실패했고, 방어가 다층적이며, 모델이 매우 잘 보호되어 있고, 입력 측과 출력 측 안전 검사 등을 사용한다는 점을 언급한다. 아래쪽 중국어 내용은 영어 내용을 번역한 것이며, “아마 내가 해본 일 중 가장 피곤한 일 중 하나였을 것이다. 이제 10시간은 자야겠다”라는 정보도 덧붙인다. 이 이미지는 문서에서 다루는 Fable 5의 재탈옥 및 탈옥자 Vitto Rivabella의 평가 내용과 관련이 있으며, 모델의 방어 상태에 대한 그의 분석을 보여준다.

그의 리뷰에 따르면 대부분의 시도는 실패했다. 그는 Fable 5가 극도로 잘 보호되어 있다고 설명했으며, 이 모델이 하나의 단순한 필터가 아니라 계층화된 방어를 사용하는 것으로 보인다고 말했다.

다른 종류의 사후 분석

두 번째 탈옥 이야기는 처음 들리는 것만큼 극적이지 않다.

Vitto의 게시물은 Fable 5의 방어가 실제로 작동하고 있음을 시사했다. 그의 관점에서 이 모델은 최소 세 가지 보호 계층을 갖춘 것으로 보였다.

모델이 요청에 본격적으로 응답하기 전에 수행되는 입력 측 안전 검사.
출력이 생성되는 동안 안전하지 않은 행동을 중단할 수 있는 생성 중단 메커니즘.
모델이 자체 추론 과정의 일부로 안전하지 않은 의도를 인식하는 것으로 보이는 내재화된 안전 추론.

그는 또한 시스템이 단순히 키워드를 차단하는 것이 아니라고 말했다. 여러 언어에 걸쳐 의도와 의미를 감지하는 것으로 보였다는 것이다.

이는 중요하다. 키워드 필터는 비교적 쉽게 속일 수 있기 때문이다. 의도 기반 방어는 우회하기가 더 어렵고, 특히 여러 체크포인트와 결합될 때 더욱 그렇다.

90% 차단 수치가 중요한 이유

원문 기사는 Fable 5가 테스트된 요청의 약 90%를 차단한 것으로 보인다고 언급한다. 정확한 수치는 공식 벤치마크가 아니라 연구자의 관찰에서 나온 것이지만, 독립 테스트의 전반적인 방향과 일치한다.

이탈리아 인공지능연구소의 AI Security Lab도 Fable 5와 Opus 4.8을 연구했다. 보고서에 따르면 가장 강력한 적응형 공격은 Fable 5에 대해 6.1%, Opus 4.8에 대해 11.5%의 확인된 성공률을 기록했다.

이미지는 막대그래프로, 공격을 받은 여러 모델의 패널 확인 탈옥률을 보여준다. Opus 4.8 | Tree-of-attacks의 패널 확인 탈옥률은 11.5%, Fable 5 | 최강 공격의 패널 확인 탈옥률은 6.1%, 정적 난독화 | 두 모델 모두 ≤0.2%로 표시되어 있다. 데이터 출처는 AI4I의 《Measuring the Residual Jailbreak Surface of Frontier Language Models》, 2026년 6월이다. 이 그래프는 문맥과 밀접하게 관련되어 있으며, 공격 상황에서 Fable 5와 Opus 4.8의 방어 효과를 직관적으로 보여주고 모델 방어의 어려움을 강조한다.

그렇다고 해서 이 모델이 취약점이 없다는 뜻은 아니다. 남아 있는 약점에 도달하기가 더 어려워졌다는 뜻이다.

Use We0 AI

몇 분 만에 쇼케이스 사이트를 만들고 리드를 늘리세요

아이디어를 한 문장으로 입력하면 We0 AI가 쇼케이스 사이트, 페이지, CMS를 생성하고 출시 후 고객과 트래픽 확보를 돕습니다.

무제-1

공들여 나열한 것

채우다

반지름

생성 중

정적인 속임수는 점점 덜 효과적이 되고 있다. 남아 있는 공격 표면은 적응형·반복적 시도에 더 유리해 보인다. 즉 사람이나 자동화된 레드팀 시스템이 좁은 틈이 나타날 때까지 계속 시도하고, 조정하고, 탐색하는 방식이다.

결국 효과를 낸 조합

Vitto의 성공적인 시도는 하나의 영리한 문구에 기반한 것이 아니었다.

원문 기사는 이를 오래된 레드팀 아이디어들의 복잡한 조합으로 설명한다. 텍스트 난독화, 학술적 프레이밍, 긴 사전 구축, 작업의 분해와 재조합, 그리고 약간의 무작위성이 결합되었다는 것이다.

이들 중 새로운 개념은 없다. 어려운 부분은 이것들을 안다는 것이 아니다.

범주는 존재한다. 어려운 점은 실시간으로 반응하고 의심스러운 의도를 감지하면 상호작용을 초기화하는 시스템을 상대로 그것들을 반복해서 테스트하는 데 있다.

다시 말해, 이는 깔끔한 단발성 jailbreak가 아니었다. 길고 지치는 시행착오 과정에 더 가까웠다.

저자원 언어는 여전히 약점으로 남아 있다

검토 내용 중 한 부분은 오해하기 쉽다.

보도에 따르면 Vitto는 잘 알려지지 않았거나 저자원 언어가 더 일관된 약점으로 남아 있다고 지적했다. 원문 기사에서는 산탈리어와 암하라어 같은 언어를 예로 들었다.

![이미지는 Claude Fable 5가 Jailbreak된 후 생성한 텍스트 내용을 보여준다. 상단에는 “HUMAN RESPONSE

APPROXIMATE HUMAN-TYPED [HISTORICAL RECONSTRUCTION
FOR EDUCATIONAL PURPOSES ONLY]”라는 문구가 있다. 하단 텍스트 내용은 1919~1928년 기간의 “DISORDERS ENQUIRY COMMITTEE” 관련 논의를 다루며, “SANTALI”와 “AMHARIC” 같은 언어에 대한 논의도 포함되어 있다. 또한 “NIMR
1”부터 “NIMR
6”까지 여섯 가지 질문이 나열되어 있으며, 내용은 역사적 사건과 인물 등을 다룬다. 이 이미지는 문서에서 Claude Fable 5가 Jailbreak된 후 생성한 텍스트에 대한 설명과 관련이 있으며, 생성된 텍스트의 구체적인 내용을 보여준다.](https://we0-cms.oss-cn-beijing.aliyuncs.com/cms-assets/image/2026/07/0252dc52-aa7a-4498-849e-4355e3eebc38-08-5fa346f7-c790-4f3d-8f1a-1869bc22d5f0.png)

이를 “Fable 5에 특별한 백도어가 있다”는 뜻으로 읽어서는 안 된다. 이는 대형 언어 모델 전반에 걸친 더 넓은 문제다.

안전성 학습 데이터는 보통 영어와 기타 고자원 언어에서 가장 강하다. 저자원 언어는 종종 적용 범위가 더 좁고, 안전성 예시가 더 적으며, 평가도 더 약하다. 그 결과 언어별로 가드레일이 불균등해진다.

연구자들은 꽤 오래전부터 이 문제를 경고해 왔다. 다국어 jailbreak 견고성은 Claude만의 문제가 아니라 더 광범위한 AI 안전 문제다.

Jailbreak는 실제로 무엇을 생성했나?

그 모든 노력 끝에 나온 결과는 “핵심 비밀”의 극적인 유출이 아니었다.

원문 기사는 출력물을 저품질이거나 제한적인 유해 조각들의 혼합으로 설명한다. 일부 허위정보, 산발적인 유해 콘텐츠, 모욕적 언어, 부분적인 화학 관련 정보, 가벼운 취약점 관련 자료 등이 포함됐다는 것이다. 이 버전에서는 세부 내용을 재현하지 않는다.

핵심은 출력물이 안정적이거나 완전하거나, 장기적인 유해 작업에 특히 유용해 보이지 않았다는 점이다.

그래서 Vitto 자신의 요약이 중요했다. 그는 현재의 보호 수준에서는 모델의 가드레일을 밀어붙이기 위해 약 20시간을 쓰는 것보다 웹을 검색하는 편이 훨씬 빠르고 저렴하다고 말했다.

이미지는 Claude Fable 5 jailbreak 이후 상황에 대한 Vitto의 요약을 보여준다. 그는 현재 모델 보호가 제대로 작동하고 있어, 지난 20시간 동안 시도한 여러 꼼수보다 웹 검색이 더 빠르고 저렴하며, 문헌을 읽는 것이 더 깊이 있고 즐겁다고 언급했다. 그러나 장기 작업을 수행하기 위해 완전한 jailbreak를 오랫동안 안정적으로 유지하는 데에는 아직 성공하지 못했다고 말했다. 이 이미지는 맥락과 밀접하게 관련되어 있으며, jailbreak 결과가 장기적으로 유해하지 않다는 Vitto의 견해를 더 설명하고, 알려진 jailbreak 상황에 대한 Anthropic의 설명과도 호응한다.

그는 또한 안전 시스템을 촉발하지 않고 장기 작업을 위해 완전한 jailbreak를 안정적으로 유지하는 데 성공하지 못했다고 말했다.

이는 Anthropic의 공개적 설명과도 일치한다. 재배포 게시글에서 Anthropic은 지금까지 알려진 jailbreak를 경미한 것으로 묘사했다. 그것들은 안전 여유 범위에 들어갈 수는 있지만, 회사가 가장 강하게 차단하려는 더 심각한 범주에 반드시 도달하는 것은 아니라는 것이다.

이미지는 문서의 한 단락으로, AI 모델 jailbreak에 대한 예상 상황을 소개한다. Fable 5를 출시할 당시 AI 모델을 jailbreak에 완전히 견디도록 만드는 것은 불가능할 수 있음을 인식했으며, 모델에는 경미한 취약점과 범위는 제한적이지만 유해한 취약점을 포함해 다양한 심각도의 jailbreak 취약점이 존재할 것으로 예상했다고 지적한다. 아직 범용 jailbreak 방법은 발견되지 않았지만, 안전 연구자들은 계속해서 레드팀 테스트를 진행하고 있다고도 언급한다. 또한 문서는 Anthropic이 알려진 jailbreak를 경미한 것으로 보고 있으며, 안전 경계에 들어갈 수는 있지만 반드시 가장 심각한 범주에 도달하는 것은 아니라고 판단한다고 설명한다.

완벽한 봉인의 역설

두 가지 jailbreak. 두 가지 서로 다른 교훈.

첫 번째는 Anthropic이 지나치게 자신만만해 보이게 만들었다. Fable 5는 광범위하게 테스트된 모델로 제시됐지만, 출시 직후 공개적으로 우회되었다. 원문 기사는 이를 회사가 극단적인 제한을 통해 위험을 통제하려 했지만, 매우 눈에 띄는 jailbreak로 인해 곤혹스러운 상황에 처한 사례로 설명한다.

두 번째는 다른 것을 드러냈다. 오만함이 아니라 사각지대였다.

더 강력한 분류기, 계층적 방어, 공개 레드팀 채널이 있어도 언어 자체는 여전히 미끄럽다. 의미는 숨겨지고, 늘어나고, 번역되고, 위장되거나, 맥락 속에 쪼개져 배치될 수 있다. 안전 시스템은 개선될 수 있지만, 공격 표면은 계속 움직인다.

이것이 AI 안전에 대한 불편한 교훈이다.

인간은 여러 언어를 번역하고 방대한 맥락을 가로질러 추론할 수 있는 모델을 만들었다. 하지만 우리는 여전히 모든 숨겨진 인간의 의도를 깔끔한 안전 판단으로 완전히 번역할 수는 없다.

완벽한 AI 봉쇄는 역설일 수 있다. 모델의 능력이 높아질수록 안전한 행동과 안전하지 않은 행동 사이의 경계는 더 미묘해진다.

FAQ

Claude Fable 5란 무엇인가?

Claude Fable 5는 Anthropic의 고급 Claude 모델로, 제한이 더 적은 대응 모델인 Claude Mythos 5보다 더 강력한 보호장치를 갖춘 고성능 범용 모델로 자리매김하고 있다. Anthropic은 Fable 5를 위험한 사이버 오용을 제한하면서 프런티어 수준의 능력을 더 널리 이용할 수 있도록 설계된 모델이라고 설명해 왔다.

AI jailbreak란 무엇을 의미하나?

AI jailbreak는 모델의 안전 가드레일을 우회하려는 프롬프트 방식 또는 상호작용 패턴이다. jailbreak는 어떤 행동을 해제하는지, 그리고 얼마나 폭넓게 작동하는지에 따라 경미하거나, 제한적이거나, 심각할 수 있다.

두 번째 jailbreak로 Fable 5가 완전히 무너졌나?

원문 기사에 설명된 공개 검토를 기준으로 하면 그렇지 않다. 연구자는 대부분의 시도가 실패했고, 과정에는 약 20시간이 걸렸으며, 최종 출력은 제한적이었다고 말했다. 이는 해당 모델이

여전히 의미 있는 방어 체계를 갖추고 있었지만, 완벽하지는 않았다.

Anthropic은 왜 HackerOne에서 Cyber Jailbreak 프로그램을 시작했을까?

Anthropic은 유해한 사이버 활용을 가능하게 할 수 있는 탈옥(jailbreak)을 연구자들이 명확한 경로로 보고할 수 있도록 Cyber Jailbreak 프로그램을 시작했다. 이는 유료 버그 바운티가 아니라 취약점 공개 프로그램이므로, 금전적 보상보다는 책임 있는 보고에 초점을 맞춘다.

AI 안전에서 저자원 언어가 중요한 이유는 무엇일까?

저자원 언어는 대체로 학습 데이터가 적고, 안전성 사례가 부족하며, 벤치마크 적용 범위도 약하다. 이로 인해 언어별로 가드레일의 일관성이 떨어질 수 있으며, 바로 이 때문에 다국어 안전성 테스트가 중요한 연구 방향이 되었다.

6.1%의 탈옥 성공률은 Fable 5가 안전하지 않다는 뜻일까?

그 자체만으로는 아니다. 확인된 성공률이 낮더라도 프런티어 모델은 매우 큰 규모로 배포될 수 있고, 집요한 공격자는 반복 시도를 자동화할 수 있기 때문에 여전히 중요할 수 있다. 동시에 이 수치는 AI4I 평가에서 Fable 5가 테스트된 공격 대부분을 막아냈다는 점도 보여준다.

어떤 AI 모델이든 탈옥으로부터 완전히 보호될 수 있을까?

Anthropic과 많은 연구자들은 완벽한 면역은 가능성이 낮다고 본다. 현실적인 목표는 어떤 탈옥도 결코 존재할 수 없다는 것을 증명하는 것이 아니라, 심각도를 낮추고, 위험한 행동을 조기에 탐지하며, 주요 약점이 널리 악용되기 전에 수정하는 것이다.

요약

두 번째 Fable 5 탈옥은 완전한 실패라는 단순한 이야기가 아니다. 이는 Anthropic의 계층적 방어가 대부분의 직접적인 시도를 차단하는 것으로 보이지만, 집요한 레드팀은 충분한 시간과 반복, 창의성을 통해 여전히 좁은 틈을 찾아낼 수 있음을 보여준다.

더 깊은 문제는 AI 안전이 단순히 키워드를 차단하는 문제가 아니라는 점이다. AI 안전은 언어, 긴 문맥, 모호한 사이버보안 작업, 적대적 프레이밍 전반에서 의도를 해석해야 한다. 이는 정적인 필터를 만드는 것보다 훨씬 어렵다.

Fable 5의 사례는 프런티어 AI 안전의 미래를 가리킨다. 더 강력한 분류기, 공개적인 신고 채널, 더 나은 다국어 평가, 그리고 공유된 심각도 프레임워크가 그것이다.

교훈은 분명하다. 프런티어 모델은 탈옥하기 훨씬 더 어렵게 만들 수 있지만, “완벽하게 봉인된” AI는 여전히 해결되지 않은 문제로 남아 있다.