Skip to content
푸땡로그
Go back

Claude Fable 5: 며칠 동안 일하는 AI 에이전트가 바꾸는 개발 방식

Anthropic이 2026년 6월 10일 Claude Fable 5와 Claude Mythos 5를 공개했습니다. Fable 5는 일반 사용자를 위한 Mythos급 모델이며, Mythos 5는 일부 안전장치를 해제해 제한된 사용자에게 제공하는 모델입니다.

이번 발표에서 가장 눈에 띄는 변화는 벤치마크 점수가 아닙니다. Fable 5는 복잡한 작업을 짧은 대화 안에서 해결하는 데 그치지 않고, 며칠 동안 계획을 유지하며 도구와 서브 에이전트를 사용하고 결과를 스스로 검증하는 작업 방식을 전면에 내세웁니다.

AI 코딩 도구의 작업 단위가 함수나 기능에서 코드베이스 전체와 며칠짜리 프로젝트로 커지고 있습니다. 이제 개발팀은 좋은 프롬프트를 쓰는 방법뿐 아니라, 장시간 실행되는 에이전트를 어떻게 맡기고 관찰하고 검토할지 고민해야 합니다.

기준 작성 시점 2026-06-10 · Anthropic 공식 발표GeekNews 요약 기준입니다. 출시 초기 성능 수치는 Anthropic과 사전 테스트 파트너의 평가이므로 실제 환경에서는 별도 검증이 필요합니다.

Fable 5와 Mythos 5는 무엇이 다른가

두 모델은 같은 기반 모델을 사용하지만 접근 가능한 능력의 범위가 다릅니다.

구분Claude Fable 5Claude Mythos 5
대상일반 사용자와 기업승인된 사이버 방어·인프라 파트너
안전장치특정 요청을 분류해 Opus 4.8로 자동 전환일부 영역의 안전장치 해제
주요 용도소프트웨어 개발, 지식 작업, 비전, 일반 연구고급 사이버보안, 생명과학 등 제한된 전문 작업
제공 방식Claude Platform과 주요 클라우드, 지원되는 Claude 구독 플랜Project Glasswing 및 trusted access

Fable 5의 분류기는 사이버보안, 생물학·화학, 모델 디스틸레이션 관련 요청을 감지하면 응답을 Claude Opus 4.8로 넘깁니다. Anthropic은 이 전환이 평균적으로 전체 세션의 5% 미만에서 발생하며, 전환 사실을 사용자에게 알리고 해당 요청에 Fable 요금을 청구하지 않는다고 설명합니다.

성능이 높은 모델을 일반 공개하면서 위험한 일부 능력만 별도 경로로 분리한 것입니다. 다만 무해한 요청도 보수적인 분류기에 걸릴 수 있어, 특정 분야의 개발자는 작업 중간에 모델이 바뀌는 상황을 예상해야 합니다.


핵심 변화는 작업 시간이 길어진다는 점입니다

기존 코딩 에이전트는 대체로 한 세션 안에서 완료할 수 있는 작업에 강했습니다. 저장소를 읽고, 몇 개 파일을 수정하고, 테스트를 실행한 뒤 결과를 보고하는 흐름입니다.

Fable 5가 겨냥하는 작업은 더 깁니다. Anthropic은 Claude Code 같은 환경에서 모델이 수일간 자율적으로 작동하며 계획을 세우고, 서브 에이전트에게 작업을 위임하고, 결과를 검증할 수 있다고 설명합니다.

flowchart LR
    Goal["사람이 목표·제약 정의"] --> Plan["에이전트가 장기 계획 수립"]
    Plan --> Delegate["서브 에이전트·도구에 작업 위임"]
    Delegate --> Execute["구현·테스트·분석 반복"]
    Execute --> Memory["파일 기반 메모리에 상태 기록"]
    Memory --> Verify["결과와 실패 원인 검증"]
    Verify -->|문제 발견| Plan
    Verify -->|검토 준비 완료| Review["사람이 결과 검토"]

Anthropic이 공개한 Stripe 사전 테스트에서는 Fable 5가 5천만 줄 규모의 Ruby 코드베이스에서 전체 마이그레이션을 하루 안에 수행했습니다. 사람이 직접 처리하면 한 팀이 두 달 이상 걸릴 것으로 예상한 작업입니다.

이 사례를 그대로 모든 프로젝트에 적용할 수는 없습니다. 하지만 에이전트가 다루는 작업의 크기가 달라지고 있다는 점은 분명합니다. 앞으로는 “이 함수에 테스트를 추가해줘”보다 “이 마이그레이션을 완료 조건에 맞을 때까지 진행해줘” 같은 요청이 더 현실적인 업무 단위가 될 수 있습니다.


장기 에이전트에는 메모리와 검증 루프가 필요합니다

작업 시간이 길어진다고 자동으로 좋은 결과가 나오는 것은 아닙니다. 장기 작업에서는 대화 문맥을 오래 유지하는 능력보다, 현재 상태를 외부에 기록하고 실패 후 다시 시작할 수 있는 구조가 더 중요합니다.

Anthropic은 Fable 5가 수백만 토큰에 걸친 작업에서 집중을 유지하고, 자신의 메모를 사용해 결과를 개선한다고 설명합니다. 파일 기반 지속 메모리를 제공한 게임 평가에서는 Opus 4.8보다 성능 향상 폭이 3배 컸습니다.

소프트웨어 개발에 적용하면 장기 에이전트가 남겨야 할 상태는 다음과 같습니다.

이 정보가 대화 안에만 있으면 세션이 끊기거나 문맥이 압축될 때 작업 품질이 흔들립니다. 반대로 계획 문서, 작업 목록, 테스트 결과, 커밋처럼 저장소 안에서 확인 가능한 형태로 남기면 사람과 다른 에이전트가 작업을 이어받기 쉬워집니다.

Tip 장시간 작업을 맡길 때는 최종 산출물만 요청하지 말고, 진행 상태 파일과 검증 결과도 함께 갱신하도록 요구하세요. 에이전트가 멈춰도 사람이 현재 상태를 이해할 수 있어야 합니다.

개발자의 역할은 작성자에서 작업 설계자로 이동합니다

에이전트가 하루 이상 구현을 수행할 수 있다면 개발자가 직접 코드를 작성하는 시간은 줄어들 수 있습니다. 그렇다고 개발자의 일이 사라지는 것은 아닙니다. 오히려 에이전트가 잘못된 방향으로 오래 달리지 않도록 작업을 설계하는 일이 중요해집니다.

장기 에이전트에게 필요한 입력은 짧은 지시가 아니라 실행 가능한 계약에 가깝습니다.

필요한 정보예시
목표Rails 버전을 올리고 더 이상 사용하지 않는 API를 제거
완료 조건전체 테스트 통과, 성능 저하 없음, 변경 문서 작성
허용 범위애플리케이션 코드는 수정 가능, 데이터 삭제는 금지
검토 지점스키마 변경과 외부 API 변경 전에는 사람의 승인 필요
증거테스트 로그, 벤치마크 결과, 주요 결정 기록 제출
중단 조건같은 실패가 반복되거나 비용·시간 한도를 넘으면 작업 중단

짧은 작업에서는 잘못된 방향도 금방 발견할 수 있습니다. 하지만 에이전트가 여러 시간이나 며칠 동안 실행되면 작은 오해가 큰 변경으로 이어질 수 있습니다. 그래서 목표와 권한, 검증 방법, 중단 조건을 작업 시작 전에 명확히 해야 합니다.


벤치마크보다 운영 가능성을 봐야 합니다

Anthropic은 Fable 5가 SWE-Bench Pro에서 80.3%를 기록했고, 소프트웨어 엔지니어링과 지식 작업, 비전, 컴퓨터 사용 평가 전반에서 높은 성능을 보였다고 발표했습니다. 가격은 입력 100만 토큰당 10달러, 출력 100만 토큰당 50달러입니다.

하지만 장기 에이전트를 도입할 때는 단일 벤치마크 점수보다 다음 질문이 더 중요합니다.

  1. 작업이 중단된 뒤 같은 상태에서 다시 시작할 수 있는가?
  2. 에이전트가 수행한 변경과 판단을 사람이 추적할 수 있는가?
  3. 잘못된 결과를 자동 테스트와 별도 리뷰가 발견할 수 있는가?
  4. 실행 시간과 토큰 비용에 상한을 둘 수 있는가?
  5. 외부 시스템에 접근할 때 권한을 최소화할 수 있는가?
  6. 모델이 자동 전환되거나 안전장치가 작동한 사실을 기록할 수 있는가?

장시간 자율 실행은 성공했을 때 큰 생산성 향상을 만들지만, 실패 비용도 키웁니다. 따라서 모델의 지능만큼 실행 환경의 관찰 가능성과 복구 가능성이 중요합니다.


안전장치와 데이터 보존도 확인해야 합니다

Fable 5를 사용하는 모든 트래픽은 안전 모니터링을 위해 30일 동안 보존됩니다. Anthropic은 이 데이터를 모델 학습이나 안전 이외의 목적으로 사용하지 않고, 사람의 접근을 기록하며, 30일 후 삭제한다고 설명합니다.

기업 코드베이스나 고객 데이터를 다루는 팀이라면 이 조건을 도입 전에 확인해야 합니다. 특히 보안 정책상 외부 서비스에 저장할 수 없는 코드, 개인정보, 인증 정보가 작업 문맥에 포함되지 않도록 실행 환경을 분리해야 합니다.

또한 Fable 5는 특정 요청에서 Opus 4.8로 자동 전환될 수 있습니다. 장기 작업 도중 모델이 바뀌면 성능과 동작 특성이 달라질 수 있으므로, 자동화 시스템은 사용한 모델과 전환 시점을 로그로 남기는 편이 좋습니다.

주의 장기 에이전트에 넓은 저장소 권한, 프로덕션 접근 권한, 배포 권한을 한 번에 주지 마세요. 읽기·쓰기·실행·배포 권한을 분리하고, 되돌리기 어려운 작업에는 사람의 승인을 두는 편이 안전합니다.

지금 개발팀이 준비할 것

Fable 5를 바로 사용하지 않더라도 장기 에이전트를 위한 개발 환경은 준비할 수 있습니다.

1. 완료 조건을 자동화합니다

테스트, 린트, 타입 검사, 빌드, 성능 기준처럼 성공 여부를 기계가 확인할 수 있어야 합니다. “잘 작동하게 수정” 같은 모호한 조건은 장기 작업에서 더 위험합니다.

2. 큰 작업을 검토 가능한 단위로 나눕니다

에이전트가 모든 변경을 마지막에 한꺼번에 제출하지 않게 해야 합니다. 단계별 계획, 작은 커밋, 중간 검증 결과가 있으면 잘못된 방향을 일찍 발견할 수 있습니다.

3. 상태를 저장소에 남깁니다

작업 계획과 결정 기록, 실패 원인, 다음 단계가 파일과 이슈, 커밋에 남도록 합니다. 특정 세션의 대화 기록이 없어도 진행 상황을 이해할 수 있어야 합니다.

4. 권한과 예산에 상한을 둡니다

사용 가능한 도구, 수정 범위, 외부 네트워크 접근, 실행 시간, 토큰 비용을 작업별로 제한합니다. 장기 실행은 무제한 실행과 같은 뜻이 아닙니다.

5. 최종 검토자를 분리합니다

구현한 에이전트가 자신의 결과만 검증하게 두지 말고, 별도 리뷰 에이전트나 사람이 변경을 확인해야 합니다. 특히 데이터 마이그레이션, 보안, 권한, 결제 관련 변경은 독립 검토가 필요합니다.


마무리

Claude Fable 5의 중요한 변화는 더 높은 점수보다 더 긴 작업 시간입니다. 에이전트가 몇 분짜리 보조 도구에서 며칠짜리 작업 수행자로 바뀌면, 개발팀의 생산성 기준도 코드 생성량에서 작업을 얼마나 명확히 맡기고, 진행을 관찰하고, 결과를 검증하고, 실패에서 복구할 수 있는가로 이동합니다.

장기 에이전트가 잘 작동하려면 강한 모델만으로는 부족합니다. 자동화된 완료 조건, 지속 가능한 메모리, 작은 검토 단위, 최소 권한, 독립적인 검증이 함께 필요합니다.

Fable 5는 AI가 개발자를 대체한다는 단순한 이야기가 아니라, 개발자가 코드를 작성하는 사람에서 복잡한 작업을 설계하고 감독하는 사람으로 이동하고 있음을 보여줍니다.


참고 자료


Share this post on:

Previous Post
OpenAI Codex Sites: 에이전트 결과물을 바로 내부 웹앱으로 배포하는 흐름