Gemini 3.1 Pro 심층 분석: ARC-AGI-2 77.1%, 추론의 새 기준

2026년 2월 19일, Google DeepMind가 Gemini 3.1 Pro ↗를 공개했습니다. ARC-AGI-2에서 **77.1%**로 압도적 1위, GPQA Diamond 94.3%, SWE-Bench Verified 80.6%—Google이 평가한 16개 벤치마크 중 13개에서 1위를 차지했습니다.

Gemini 3 Deep Think에서 검증된 추론 능력을 더 넓은 사용자에게 제공하는 것이 핵심입니다. 이 글에서는 Gemini 3.1 Pro의 주요 변화를 살펴보고, 실제 개발에서 어떻게 활용할 수 있는지 정리합니다.

Gemini 모델 패밀리에서의 위치

Gemini 3.1 Pro는 Gemini 시리즈 최초의 .1 증분 업데이트입니다. 기존에는 .5 단위로 중간 업데이트를 해왔는데, 이번에는 더 빠른 사이클로 개선 사항을 제공합니다.

핵심은 Gemini 3 Deep Think의 향상된 추론 능력을 Pro 모델에 녹여낸 것입니다. Google은 이를 “A smarter model for your most complex tasks”라고 설명합니다. 단순한 답변이 아니라 깊은 사고가 필요한 작업에 특화된 모델입니다.

현재 Preview 상태로 제공되며, Gemini 3 Pro와 동일한 가격을 유지합니다. 성능은 대폭 올랐지만 추가 비용은 없습니다.

핵심 특징 및 개선사항

추론 능력의 압도적 도약

Gemini 3.1 Pro의 가장 눈에 띄는 변화는 추론 성능입니다.

벤치마크	Gemini 3 Pro	Gemini 3.1 Pro	변화
ARC-AGI-2	31.1%	77.1%	2.5배
GPQA Diamond	91.9%	94.3%	전문가 수준 과학 지식
Humanity’s Last Exam (no-tools)	—	44.4%	도구 없이 최고 성능

ARC-AGI-2에서 31.1%에서 77.1%로 약 2.5배 뛰었습니다. 이는 Claude Opus 4.6(68.8%)과 GPT-5.2(52.9%)를 크게 앞서는 수치입니다.

Dynamic Thinking (동적 사고)

기본적으로 Dynamic Thinking이 활성화됩니다. thinking_level 파라미터로 사고의 깊이를 제어할 수 있습니다.

레벨	용도
`low`	간단한 작업, 빠른 응답, 비용 최적화
`medium`	대부분의 작업에 균형 잡힌 추론
`high` (기본값)	복잡한 문제에 최대 추론 깊이

Claude의 Adaptive Thinking과 유사한 접근이지만, 개발자가 직접 레벨을 지정할 수 있다는 점이 다릅니다.

토큰 효율성 개선

Google은 “improved token efficiency”를 강조합니다. 동일한 작업에 더 적은 토큰을 사용하면서도 더 나은 결과를 제공한다는 것입니다. 이는 토큰 소비량이 증가하는 경향을 보이는 일부 경쟁 모델과 대조적입니다.

소프트웨어 엔지니어링 최적화

코딩 작업과 에이전틱 워크플로에 특화된 개선이 이루어졌습니다.

SWE-Bench Verified: 80.6% (Claude Opus 4.6의 80.8%와 0.2%p 차이)
Terminal-Bench 2.0: 68.5%로 1위
APEX-Agents: 33.5%로 에이전트 성능 1위
MCP Atlas: 69.2%로 MCP 프로토콜 활용 1위

1M 토큰 컨텍스트 윈도우

Gemini 3.1 Pro는 1M(100만) 토큰 컨텍스트 윈도우를 지원합니다. 실질적으로 이는 텍스트 약 1,500페이지, 코드 약 50,000줄, 팟캐스트 200개 이상의 에피소드를 한 번에 분석할 수 있는 수준입니다.

멀티모달 입력

텍스트, 이미지, 비디오, 오디오, PDF를 입력으로 받을 수 있습니다. 다만 출력은 텍스트만 지원합니다. Live API, 이미지/오디오 생성은 아직 미지원 상태입니다.

벤치마크 종합 비교

주요 벤치마크 (경쟁 모델 비교)

벤치마크	Gemini 3.1 Pro	Claude Opus 4.6	GPT-5.2	비고
ARC-AGI-2	77.1%	68.8%	52.9%	추상적 추론
GPQA Diamond	94.3%	91.3%	92.4%	전문가 수준 과학
SWE-Bench Verified	80.6%	80.8%	—	에이전틱 코딩
APEX-Agents	33.5%	29.8%	23.0%	에이전트 성능
HLE (with-tools)	51.4%	53.1%	—	도구 활용
HLE (no-tools)	44.4%	—	—	도구 없는 추론
GDPval-AA Elo	1317	1633	—	엔터프라이즈 작업
Terminal-Bench 2.0	68.5%	—	—	터미널 코딩
BrowseComp	85.9%	—	—	웹 브라우징
MCP Atlas	69.2%	—	—	MCP 프로토콜

영역별 강점 정리

Gemini 3.1 Pro가 앞서는 영역:

추론 작업 (ARC-AGI-2): 77.1%로 압도적 1위
과학 지식 (GPQA Diamond): 94.3%
에이전트 성능 (APEX-Agents): 33.5%
터미널/브라우징/MCP 등 다양한 실전 작업

Claude Opus 4.6이 앞서는 영역:

엔터프라이즈 지식 작업 (GDPval-AA): 1633 vs 1317로 큰 격차
SWE-Bench Verified: 80.8% vs 80.6% (근소한 차이)
Humanity’s Last Exam with-tools: 53.1% vs 51.4%

“단일 최고 모델은 없습니다. Gemini 3.1 Pro는 추론·과학·에이전트에서 리드하고, Claude Opus 4.6은 엔터프라이즈 작업과 코딩에서 리드합니다.”

가격 정책

Gemini 3.1 Pro 가격

항목	~200K 토큰	200K+ 토큰
입력	$2.00/MTok	$4.00/MTok
출력	$12.00/MTok	$18.00/MTok
컨텍스트 캐싱	$0.20/MTok	$0.40/MTok
캐시 저장	$4.50/MTok/시간	$4.50/MTok/시간

Gemini 3 Pro와 동일한 가격을 유지합니다. 성능은 대폭 올랐지만 가격 인상은 없습니다.

경쟁 모델과의 가격 비교

모델	입력	출력
Gemini 3.1 Pro	$2.00/MTok	$12.00/MTok
Claude Sonnet 4.6	$3.00/MTok	$15.00/MTok
Claude Opus 4.6	$5.00/MTok	$25.00/MTok

입력 기준 Claude Sonnet 4.6 대비 33% 저렴하고, Claude Opus 4.6 대비 60% 저렴합니다. Batch API를 사용하면 추가로 50% 할인을 받을 수 있습니다. Google Search 그라운딩도 무료 티어가 제공되어 비용 부담을 줄일 수 있습니다.

실전 활용: API 사용법

기본 호출

from google import genai

client = genai.Client()  # GOOGLE_API_KEY 환경변수 사용

response = client.models.generate_content(
    model="gemini-3.1-pro-preview",
    contents="Explain quantum computing in simple terms",
)

print(response.text)

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({ apiKey: process.env.GOOGLE_API_KEY });

const response = await ai.models.generateContent({
  model: "gemini-3.1-pro-preview",
  contents: "How does AI work?",
});

console.log(response.text);

Thinking Level 설정

작업 복잡도에 따라 thinking_level을 조절할 수 있습니다.

from google.genai import types

# 복잡한 문제: high (기본값)
response = client.models.generate_content(
    model="gemini-3.1-pro-preview",
    contents="Solve this math problem step by step: ...",
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(thinking_level="high")
    ),
)

# 간단한 작업: low (비용 절감)
response = client.models.generate_content(
    model="gemini-3.1-pro-preview",
    contents="Translate this to Korean: Hello",
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(thinking_level="low")
    ),
)

// 위의 import 및 초기화 동일
const response = await ai.models.generateContent({
  model: "gemini-3.1-pro-preview",
  contents: "Complex reasoning task...",
  config: {
    thinkingConfig: { thinkingLevel: "high" },
  },
});

Function Calling

def get_weather(location: str) -> str:
    """Returns the current weather for a location."""
    return "sunny"

response = client.models.generate_content(
    model="gemini-3.1-pro-preview",
    contents="What is the weather in Seoul?",
    config=types.GenerateContentConfig(
        tools=[get_weather],
    ),
)

모델 ID 정리

용도	모델 ID
일반	`gemini-3.1-pro-preview`
커스텀 도구	`gemini-3.1-pro-preview-customtools`

기술 사양

항목	값
입력 토큰 한도	1,048,576 (약 1M)
출력 토큰 한도	65,536 (약 64K)
입력 모달리티	텍스트, 이미지, 비디오, 오디오, PDF
출력 모달리티	텍스트만
지식 컷오프	2025년 1월
상태	Preview

제공 플랫폼

개발자: Gemini API (Google AI Studio), Vertex AI, Gemini CLI, Android Studio
소비자: Gemini 앱 (AI Pro/Ultra 구독), NotebookLM
IDE 통합: GitHub Copilot, Visual Studio, VS Code

주의사항 및 팁

알아두면 좋은 점

현재 Preview 상태입니다. 정식 출시 전이므로 프로덕션 환경에서는 안정성을 충분히 검증한 후 사용하세요. 무료 티어는 제공되지 않습니다.
Thinking Level을 적극 활용하세요. 간단한 작업에는 low, 복잡한 추론에는 high를 설정하면 비용과 지연 시간을 최적화할 수 있습니다. 기본값은 high이므로 단순 작업에서는 낮추는 것이 좋습니다.
Thought Signatures에 주의하세요. Function Calling과 이미지 생성/편집에서는 Thought Signatures의 엄격 검증이 필수입니다. 공식 SDK(google-genai)를 사용하면 자동 처리되므로 SDK 사용을 권장합니다.
200K 토큰 초과 시 가격이 2배입니다. 1M 토큰 컨텍스트를 활용할 수 있지만, 200K를 넘으면 입력 $2→$4, 출력 $12→$18로 가격이 올라갑니다. 컨텍스트 캐싱을 활용해 비용을 관리하세요.
컨텍스트 캐싱을 활용하세요. 캐싱된 입력 토큰은 $0.20/MTok으로 일반 입력의 1/10 가격입니다. 반복적인 시스템 프롬프트나 문서 전달 시 매우 효과적입니다.

어떤 상황에서 Gemini 3.1 Pro를 선택할까?

상황	추천 모델
복잡한 추론, 수학, 과학 문제	Gemini 3.1 Pro
에이전틱 코딩, 터미널 작업	Gemini 3.1 Pro
대용량 문서/코드 분석 (1M 컨텍스트)	Gemini 3.1 Pro
멀티모달 입력 (비디오, 오디오)	Gemini 3.1 Pro
엔터프라이즈 지식 작업	Claude Opus 4.6
글쓰기 품질, 에이전트 워크플로	Claude Sonnet 4.6
빠른 응답, 비용 최소화	Gemini 3 Flash

마무리

Gemini 3.1 Pro는 Google이 추론 성능에 본격적으로 승부를 건 모델입니다. ARC-AGI-2 **77.1%**로 경쟁 모델을 큰 폭으로 앞서고, GPQA Diamond **94.3%**로 전문가 수준의 과학 지식을 보여줍니다. SWE-Bench Verified에서도 80.6%로 Claude Opus 4.6과 0.2%p 차이까지 따라잡았습니다.

무엇보다 Gemini 3 Pro와 동일한 가격에 이 모든 개선을 제공한다는 점이 매력적입니다. 입력 $2/MTok, 출력 $12/MTok은 Claude Sonnet 4.6보다 33% 저렴합니다.

다만 현재 Preview 상태라는 점, 엔터프라이즈 지식 작업(GDPval-AA)에서 Claude와 큰 격차를 보인다는 점은 고려해야 합니다. 추론과 과학 문제에 강점이 필요하다면 Gemini 3.1 Pro, 코딩과 엔터프라이즈 작업이 중심이라면 Claude 모델이 여전히 좋은 선택입니다.

복잡한 추론 작업이 많은 개발자라면, Preview 단계에서부터 Dynamic Thinking과 1M 컨텍스트를 직접 체험해 보시길 권합니다.