Gemini 3.1 Pro 정리, ARC-AGI-2 77.1%, 벤치마크 13개 1위

Gemini 3.1 Pro가 공개됐습니다. ARC-AGI-2 점수 77.1%. 3개월 전 Gemini 3 Pro가 기록한 31.1%의 정확히 2.5배에 달하는 수치예요.

그런데 오늘은 이 모델 하나의 스펙을 뜯어보는 것보다, 한발 물러서서 좀 더 큰 그림을 같이 보고 싶습니다. 지금 AI 모델 경쟁에서 대체 무슨 일이 벌어지고 있는 걸까요? 3개월마다 왕관이 바뀌는 이 레이스는 어디로 향하고 있을까요? Gemini 3.1 Pro를 실마리 삼아, 2026년 AI 산업의 판도를 한번 읽어보겠습니다.

3개월짜리 왕관,

AI 모델 경쟁의 현주소

솔직히 말해서, 요즘 AI 모델 출시 뉴스에 피로감을 느끼는 분들 꽤 있을 거예요. 이해합니다.

2025년 11월부터 2026년 2월까지 벌어진 일을 보면, 피로감이 당연한 거거든요. 25일 동안 네 개의 프론티어 모델이 쏟아졌습니다. 11월 17일 xAI의 Grok 4.1, 바로 다음 날 Google의 Gemini 3 Pro, 24일 Anthropic의 Claude Opus 4.5, 12월 11일 OpenAI의 GPT-5.2. 왕관을 쓰면 일주일도 안 돼 빼앗기는 구조가 반복됐어요.

이 흐름을 타임라인으로 정리하면 이렇습니다.

시점	모델	핵심 성과
2025년 11월 18일	Gemini 3 Pro	추론·멀티모달 벤치마크 선두
2025년 11월 24일	Claude Opus 4.5	SWE-bench 80.9%, 코딩 1위
2025년 12월 11일	GPT-5.2	GPQA Diamond 93.2%, AIME 100%
2026년 2월 5일	Claude Opus 4.6	ARC-AGI-2 68.8%, 에이전트 팀 도입
2026년 2월 17일	Claude Sonnet 4.6	Opus급 성능을 40% 낮은 가격에
2026년 2월 19일	Gemini 3.1 Pro	ARC-AGI-2 77.1%, 16개 중 13개 벤치마크 1위

불과 3개월 사이에 프론티어 모델이 여섯 번 교체된 겁니다. 연간 사이클로 돌아가던 경쟁이 주간 단위로 바뀌었어요.

Interconnects의 Nathan Lambert는 이 현상을 "포스트-벤치마크 시대"라고 부르는데요. 모델이 출시될 때마다 붙는 벤치마크 숫자가, 실제 사용자에게 의미 있는 차이를 전달하지 못하게 됐다는 겁니다. 일리 있는 지적이에요.

그런데 말이죠. 이번 Gemini 3.1 Pro의 숫자는 슬쩍 넘기기엔 좀 무겁습니다.

ARC-AGI-2 77.1%,

숫자가 말하는 것과 말하지 않는 것

왜 무겁냐고요? ARC-AGI-2가 보통 벤치마크가 아니기 때문입니다.

대부분의 벤치마크는 학습 데이터에서 본 패턴을 얼마나 잘 재현하느냐를 측정해요. 그런데 ARC-AGI-2는 다릅니다. 완전히 새로운 논리 패턴을 현장에서 풀어내야 하는 시험이에요. 암기가 아니라 진짜 추론 능력. 이걸 테스트합니다.

Gemini 3 Pro는 여기서 31.1%를 받았습니다. 당시에도 나쁜 점수는 아니었어요. 그런데 3.1 Pro는 77.1%. 2.5배 점프입니다.

경쟁 모델과 비교하면 격차가 더 선명해져요. 불과 2주 전 출시된 Claude Opus 4.6이 68.8%, GPT-5.2가 이보다 낮은 수준입니다. Gemini 3.1 Pro는 사고 전용 모델(thinking model)을 제외하면 ARC-AGI-2에서 역대 최고점을 기록했어요.

이 숫자가 말하는 것은 분명합니다. Google DeepMind의 추론 엔진이 한 단계 도약했다는 사실이에요. 3개월 전 모델 대비 2.5배라는 향상폭은 점진적 개선이 아니라 구조적 변화를 암시하거든요.

그런데 이 숫자가 말하지 않는 것도 있습니다. 벤치마크 점수와 실제 사용 경험 사이의 간극이에요. Nathan Lambert가 지적한 것처럼, 2023년부터 2025년까지는 벤치마크 향상이 체감 성능 향상과 직결됐지만, 지금은 그 상관관계가 약해지고 있습니다. 77.1%가 68.8%보다 "8.3%포인트 더 좋다"고 해서 사용자가 그 차이를 매일 느끼는 건 아니라는 거예요.

그럼에도 이 점수를 가볍게 볼 수 없는 이유가 하나 있어요. ARC-AGI-2가 측정하는 것이 바로 에이전트(agent) 시대의 핵심 역량, 즉 "처음 보는 문제를 스스로 풀어내는 능력"이기 때문입니다. 자율적으로 복잡한 작업을 수행하는 AI 에이전트에게 이 능력은 생명줄이나 마찬가지예요.

벤치마크 전면전,

16개 항목 중 13개 1위의 의미

여기서 끝이 아닙니다. ARC-AGI-2 하나만 좋았으면 "특정 영역에서 강한 모델" 정도로 넘어갈 수 있었을 거예요. 그런데 Google이 공개한 벤치마크 차트를 보면, 16개 항목 중 무려 13개에서 1위입니다. 거의 전 과목 석권이에요.

살짝 뜯어보겠습니다.

과학 지식 영역에서 GPQA Diamond 94.3%를 기록했는데, 이는 대학원 박사 수준의 과학 문제를 푸는 시험입니다. Claude Opus 4.6의 91.3%와 GPT-5.2의 92.4%를 모두 넘어섰어요.

코딩 영역도 주목할 만합니다. SWE-Bench Verified에서 80.6%를 달성해 에이전트 코딩 1위에 올랐고, LiveCodeBench Pro에서는 Elo 2887이라는 점수를 받았습니다. Terminal-Bench 2.0에서도 68.5%로 표준 하네스(harness) 기준 선두를 기록했어요.

에이전트 벤치마크에서의 도약은 특히 인상적입니다. APEX-Agents에서 33.5%를 기록했는데, Gemini 3 Pro의 18.4%에서 거의 두 배 가까이 뛰었어요. BrowseComp(웹 브라우징 에이전트 벤치마크)도 59.2%에서 85.9%로 폭등했고요.

물론 완전한 석권은 아닙니다. Claude Opus 4.6은 Humanity's Last Exam(도구 사용 포함)에서 53.1%로 Gemini 3.1 Pro의 51.4%를 앞섰고, SWE-Bench Verified에서도 80.8%로 근소한 차이를 유지했어요. GPT-5.3-Codex는 자체 하네스 기준 Terminal-Bench 2.0에서 77.3%를 기록하며 코딩 에이전트 특화 영역에서 강점을 보였습니다.

하나의 모델이 모든 영역을 지배하는 시대는 끝났어요. 각 모델이 자신만의 영역에서 특화된 강점을 보이는 "전문화" 시대로 접어든 셈이지요. 그런데 Gemini 3.1 Pro의 특이한 점은, 특정 영역에 특화된 게 아니라 거의 전 영역에서 고르게 1위를 차지했다는 겁니다. 이런 "범용 선두"는 Gemini 2.5 Pro가 2025년 초에 보여줬던 패턴과 닮아 있어요.

가격은 그대로, 성능은 2배,

개발자가 환호하는 진짜 이유

자, 여기서부터가 재밌어집니다. 개발자 입장에서 이번 출시의 가장 눈에 띄는 부분은 벤치마크가 아니거든요. 가격이에요.

Gemini 3 Pro가 출시됐을 때 API 가격은 입력 토큰 100만 개당 2달러, 출력 토큰 100만 개당 12달러였습니다.

Gemini 3.1 Pro의 가격은? 정확히 같습니다. 한 푼도 안 올랐어요.

추론 성능이 2.5배 뛰었는데 가격이 동결됐다는 건, 토큰당 지능의 가성비가 2.5배 좋아졌다는 뜻이에요.

VentureBeat은 이를 "reasoning-to-dollar ratio"(추론 대비 비용 효율)라고 표현했는데, 적확한 진단입니다. Artificial Analysis의 분석에 따르면 Gemini 3.1 Pro는 Intelligence Index에서 1위를 차지하면서도 가장 가까운 프론티어 경쟁 모델 대비 운영 비용이 대략 절반 수준에 불과하거든요.

구체적인 가격 구조를 보면 이렇습니다.

항목	200K 토큰 이하	200K 토큰 초과
입력 가격 (100만 토큰당)	$2.00	$4.00
출력 가격 (100만 토큰당)	$12.00	$18.00
컨텍스트 캐싱	$0.20–$0.40	저장 $4.50/시간

검색 그라운딩(Search Grounding)은 월 5,000건까지 무료, 이후 1,000건당 14달러입니다.

이 가격 정책이 중요한 이유가 있어요. AI 모델 경쟁이 성능 경쟁에서 가성비 경쟁으로 축이 이동하고 있기 때문입니다. 2025년 DeepSeek이 프론티어급 성능을 파격적 가격에 제공하면서 서구 AI 기업들의 가격 전략 자체를 뒤흔들었죠. Google은 이 흐름을 정확히 읽고, 성능을 대폭 올리면서도 가격을 동결하는 전략을 택한 겁니다.

JetBrains의 AI 디렉터 Vladislav Tankov는 이전 버전 대비 15% 품질 향상을 확인하면서, 동시에 출력 토큰 사용량이 줄었다고 보고했어요. 성능이 올라갔는데 토큰을 덜 쓴다고요? 개발자 입장에서는 이중 절약인 셈입니다.

7억 5천만 MAU와 분당 100억 토큰,

Google의 진짜 해자

벤치마크 이야기는 여기까지 하죠. 사실 Google이 Gemini 3.1 Pro를 출시하면서 진짜로 보여주고 싶은 것은 따로 있습니다.

규모(scale)예요.

2주 전 공개된 Alphabet의 2025년 4분기 실적에서, CEO 순다르 피차이는 Gemini 앱의 월간 활성 사용자(MAU)가 7억 5천만 명을 돌파했다고 밝혔습니다. 직전 분기 6억 5천만 명에서 한 분기 만에 1억 명이 늘어난 거예요.

이 숫자를 경쟁사와 비교해 봅니다. ChatGPT의 추정 MAU가 약 8억 1천만 명, Meta AI가 약 5억 명 수준입니다. Gemini는 ChatGPT와의 격차를 빠르게 좁히면서 소비자 AI 앱 시장의 2위를 확고히 하고 있어요.

한 가지 더 인상적인 수치가 있습니다. Google의 1차 모델(first-party model)이 처리하는 토큰 규모가 분당 100억 개를 넘었다는 겁니다. 직전 분기 70억 개에서 43% 증가한 수치예요. 12월 한 달 동안만 350개 이상의 고객이 각각 1,000억 토큰 이상을 처리했고, AI 모델 기반 제품의 매출은 전년 대비 400% 가까이 성장했습니다.

이 숫자들이 중요한 이유는, AI 모델의 경쟁력이 단순히 벤치마크 점수에서 나오는 게 아니라는 점을 보여주기 때문이에요. Google은 검색, Gmail, Android, YouTube, Google Workspace라는 거대한 배포 인프라를 가지고 있습니다. Gemini가 이 모든 접점에 자연스럽게 녹아들면서, 사용자가 "AI를 쓰려고 의도하지 않아도" Gemini를 만나는 구조가 만들어지고 있어요.

Anthropic과 OpenAI가 모델의 "깊이"에서 경쟁한다면, Google은 모델의 "너비"에서 싸우고 있습니다.

Alphabet은 2026년 자본지출(CapEx)을 1,750억에서 1,850억 달러 규모로 투자하겠다고 발표했어요. 이 천문학적인 투자는 단순히 더 좋은 모델을 만들기 위한 것이 아닙니다. 모델을 7억 5천만 명에게, 분당 100억 토큰의 속도로 제공하기 위한 인프라 투자예요. 이건 스타트업이 따라올 수 없는 규모의 경쟁입니다.

Deep Think에서 Pro로,

증류의 마법

그런데 한 가지 궁금한 게 있어요. 대체 3개월 만에 추론 성능을 2.5배나 끌어올린 비결이 뭘까요?

여기에 꽤 흥미로운 패턴이 숨어 있습니다.

Google은 Gemini 3.1 Pro를 공개하기 불과 일주일 전인 2월 12일, Gemini 3 Deep Think의 대규모 업데이트를 발표했어요. Deep Think은 ARC-AGI-2에서 84.6%를 기록한, Google의 전용 사고(thinking) 모델입니다.

그리고 Gemini 3.1 Pro 발표문에서 Google은 이렇게 표현합니다. "오늘 우리는 그 돌파구를 가능하게 한 핵심 지능(core intelligence)의 업그레이드를 출시합니다."

해석하면 이렇습니다. Deep Think에서 개발된 추론 능력이 범용 Pro 모델로 "증류(distillation)"됐다는 거예요.

이건 OpenAI가 o1 시리즈에서 개발한 추론 능력을 GPT-5로 흡수시킨 것과 정확히 같은 전략입니다. 전문 사고 모델에서 추론 기법을 발전시킨 뒤, 그 성과를 범용 모델에 녹여넣는 방식이에요. 차이가 있다면 속도입니다. OpenAI는 이 과정에 수개월이 걸렸지만, Google은 Deep Think 업데이트부터 3.1 Pro 출시까지 딱 일주일밖에 걸리지 않았어요.

모델의 아키텍처는 Gemini 3 시리즈의 스파스 MoE(Mixture of Experts) 트랜스포머 기반으로, 네이티브 멀티모달 학습이 적용돼 있습니다. 컨텍스트 윈도는 입력 100만 토큰, 출력 6만 5천 토큰을 유지하고요. 지식 기준일(knowledge cutoff)은 2025년 1월입니다.

한 가지 주목할 점은, Google이 3.1 Pro와 함께 gemini-3.1-pro-preview-customtools라는 특화 엔드포인트도 출시했다는 사실이에요. 이건 bash 명령어와 커스텀 함수를 혼합해서 쓰는 개발자를 위한 것입니다. 이전 버전에서 모델이 로컬 파일을 읽으면 되는 상황에서 웹 검색을 시도하는 등 도구 선택에 혼란을 보였던 문제를 해결한 거죠.

이 디테일이 시사하는 바가 큽니다. Google은 Gemini 3.1 Pro를 단순한 "더 똑똑한 챗봇"이 아니라, 자율 에이전트의 핵심 엔진으로 포지셔닝하고 있어요.

벤치마크 너머의 전쟁,

에이전트 시대의 서막

여기서 한발 더 물러서서 큰 그림을 봐야 합니다.

Gemini 3.1 Pro의 출시 맥락을 읽어보면, AI 업계의 경쟁 축 자체가 이동하고 있음을 분명히 알 수 있어요. 한마디로 정리하면, "채팅"에서 "작업"으로의 전환입니다.

Google은 3.1 Pro의 활용 사례를 소개하면서, 텍스트 프롬프트 하나로 웹사이트용 애니메이션 SVG를 생성하는 데모를 보여줬어요. 국제우주정거장(ISS)의 궤도를 실시간으로 시각화하는 항공우주 대시보드를 만들기도 했고, 3D 찌르레기 군무(starling murmuration)를 핸드트래킹과 음악이 반응하는 인터랙티브 경험으로 코딩해 내기도 했습니다.

이런 데모가 보여주는 건, 모델이 "대답"하는 시대에서 "만드는" 시대로 넘어가고 있다는 겁니다.

실제로 3.1 Pro가 출시되자마자 업계의 반응이 이어졌어요. Databricks의 CTO는 비정형 데이터와 테이블 데이터를 결합한 그라운디드 추론에서 최고 수준의 성과를 확인했다고 밝혔고, 3D 애니메이션 스타트업 Cartwheel은 3D 변환에 대한 이해도가 크게 향상됐다고 평가했습니다. GitHub Copilot에서도 이미 퍼블릭 프리뷰로 제공되기 시작했어요.

Google은 이 흐름을 더 넓은 전략적 맥락에서 추진하고 있습니다. Google Antigravity라는 에이전트 개발 플랫폼은 출시 2개월 만에 주간 활성 사용자 150만 명을 돌파했어요. Gemini Enterprise는 4개월 만에 800만 유료 시트를 판매했고, 12만 개 이상의 기업이 Gemini를 사용 중입니다. 상위 20개 글로벌 SaaS 기업 중 95%가 Gemini를 쓰고 있다는 점도 주목할 만하지요.

에이전트 AI 시장은 2025년 78.4억 달러에서 2030년까지 526.2억 달러로 성장할 것으로 전망됩니다. 연평균 성장률 46.3%에 달하는 거대한 시장이에요. Google이 3.1 Pro를 "에이전트의 핵심 엔진"으로 자리매김하려는 이유가 여기 있습니다.

하나 흥미로운 움직임이 있어요. Claude Opus 4.6이 "에이전트 팀"이라는 개념을 도입해, 여러 AI 에이전트가 각각 다른 부분을 맡아 협업하는 구조를 선보였거든요. OpenAI의 GPT-5.3-Codex는 터미널 코딩 작업에서 자체 하네스 기준 77.3%를 기록하며 특화 영역에서의 강점을 보여줬고요.

에이전트 시대의 경쟁은 단일 벤치마크가 아니라 "워크플로 전체"를 누가 더 잘 수행하느냐로 결정될 겁니다.

이 관점에서 보면 Google의 강점은 모델 성능 자체보다 배포 인프라에 있어요. AI Studio, Vertex AI, Gemini CLI, Antigravity, Android Studio, NotebookLM, Gemini 앱, GitHub Copilot, Visual Studio까지. Gemini 3.1 Pro가 동시에 접근 가능한 플랫폼의 수가 압도적이거든요. 에이전트는 결국 개발자가 만드는 것이고, 개발자가 가장 쉽게 접근할 수 있는 모델이 에이전트 생태계의 기반이 될 가능성이 높습니다.

돌아온 왕관의 무게

자, 이제 큰 그림을 다시 한번 조립해 볼게요.

AI 모델 경쟁의 역사가 보여주는 한 가지 확실한 패턴이 있습니다. 왕관은 반드시 다시 빼앗긴다는 거예요.

Gemini 2.5 Pro가 2025년 초에 개발자 커뮤니티의 찬사를 받았을 때도, 몇 달 뒤 경쟁 모델에 밀렸습니다. Gemini 3 Pro가 11월에 왕좌에 올랐을 때도, 한 달도 안 돼 Claude Opus 4.5와 GPT-5.2에 추월당했어요. 이번 Gemini 3.1 Pro도 예외가 될 가능성은 낮습니다. OpenAI와 Anthropic이 가만히 있을 리 없으니까요.

그런데 이 반복되는 패턴 속에서, 좀 더 큰 구조적 변화 세 가지가 슬쩍 드러나고 있어요.

첫째, 모델 성능의 차이가 좁아지고 있습니다. Gemini 3.1 Pro와 Claude Opus 4.6의 SWE-Bench Verified 점수 차이는 0.2%포인트에 불과해요. 상위권이 점점 더 촘촘해지고 있다는 뜻이에요.

둘째, 경쟁의 축이 "모델"에서 "시스템"으로 이동 중입니다. 2023년부터 2025년까지는 모델 자체의 성능이 핵심 차별화 요소였지만, 2026년은 그 위에 구축되는 에이전트 워크플로, 배포 인프라, 개발자 생태계가 승부를 가르는 해가 될 겁니다.

셋째, 가격 경쟁이 본격화되고 있어요. DeepSeek이 프론티어급 성능을 혁신적 가격에 제공하면서, 빅3 모두 가격 전략을 근본부터 재고하지 않을 수 없게 됐거든요. Gemini 3.1 Pro의 "가격 동결, 성능 2배" 전략은 바로 이 경쟁 환경의 산물입니다.

2023년부터 2025년이 모델 군비 경쟁의 시대였다면, 2026년은 AI 비즈니스의 시대입니다.

Gemini 3.1 Pro가 증명한 것은 하나예요. Google이 3개월 만에 벤치마크 선두를 탈환할 수 있는 연구 역량과, 7억 5천만 명에게 즉시 배포할 수 있는 인프라를 동시에 보유하고 있다는 사실입니다.

왕관의 무게는 가볍습니다. 누구나 잠깐은 쓸 수 있으니까요. 진짜 무거운 것은 왕관이 아니라, 왕관을 쓰고도 계속 달릴 수 있는 체력입니다. 1,750억 달러짜리 CapEx와 7억 5천만 MAU라는 숫자는, Google이 그 체력 싸움에서 가장 유리한 위치에 있음을 조용히 증명하고 있어요.

이 왕관이 얼마나 오래 Google의 머리 위에 머물지는 아무도 모릅니다. 솔직히, 별로 중요하지도 않아요.

진짜 중요한 건 이겁니다. 이 경쟁 덕분에 AI 모델의 가격은 내려가고, 성능은 올라가며, 개발자와 사용자 모두가 1년 전에는 상상도 못 했던 도구를 손에 쥐게 되고 있다는 것.

왕관 게임의 진짜 수혜자는, 결국 우리 모두입니다.

시점

모델

핵심 성과

2025년 11월 18일

Gemini 3 Pro

추론·멀티모달 벤치마크 선두

2025년 11월 24일

Claude Opus 4.5

SWE-bench 80.9%, 코딩 1위

2025년 12월 11일

GPT-5.2

GPQA Diamond 93.2%, AIME 100%

2026년 2월 5일

Claude Opus 4.6

ARC-AGI-2 68.8%, 에이전트 팀 도입

2026년 2월 17일

Claude Sonnet 4.6

Opus급 성능을 40% 낮은 가격에

2026년 2월 19일

Gemini 3.1 Pro

ARC-AGI-2 77.1%, 16개 중 13개 벤치마크 1위

항목

200K 토큰 이하

200K 토큰 초과

입력 가격 (100만 토큰당)

$2.00

$4.00

출력 가격 (100만 토큰당)

$12.00

$18.00

컨텍스트 캐싱

$0.20–$0.40

저장 $4.50/시간

Gemini 3.1 Pro 정리, ARC-AGI-2 77.1%, 벤치마크 13개 1위

3개월짜리 왕관,

AI 모델 경쟁의 현주소

ARC-AGI-2 77.1%,

숫자가 말하는 것과 말하지 않는 것

벤치마크 전면전,

16개 항목 중 13개 1위의 의미

가격은 그대로, 성능은 2배,

개발자가 환호하는 진짜 이유

7억 5천만 MAU와 분당 100억 토큰,

Google의 진짜 해자

Deep Think에서 Pro로,

증류의 마법

벤치마크 너머의 전쟁,

에이전트 시대의 서막

돌아온 왕관의 무게

aicoffeechat

이런 인사이트를 매주 받아보세요

관련 글

AI 도입 기업의 62%가 실험에 머무는 진짜 이유

코드를 안 짜는 개발자의 시대가 온다면

댓글

Gemini 3.1 Pro 정리, ARC-AGI-2 77.1%, 벤치마크 13개 1위

3개월짜리 왕관,

AI 모델 경쟁의 현주소

ARC-AGI-2 77.1%,

숫자가 말하는 것과 말하지 않는 것

벤치마크 전면전,

16개 항목 중 13개 1위의 의미

가격은 그대로, 성능은 2배,

개발자가 환호하는 진짜 이유

7억 5천만 MAU와 분당 100억 토큰,

Google의 진짜 해자

Deep Think에서 Pro로,

증류의 마법

벤치마크 너머의 전쟁,

에이전트 시대의 서막

돌아온 왕관의 무게

aicoffeechat

이런 인사이트를 매주 받아보세요

관련 글

AI 도입 기업의 62%가 실험에 머무는 진짜 이유

코드를 안 짜는 개발자의 시대가 온다면

댓글