View

Mercury 2 완벽 정리 - Diffusion 기반 초고속 추론 LLM 소개 (2026)

배훈배 2026. 2. 25. 23:06

Mercury 2 완벽 정리 - Diffusion 기반 초고속 추론 LLM 소개 (2026)

📑 목차

Mercury 2란? — Diffusion 기반 추론 LLM의 등장
Diffusion LLM이란? — 기존 모델과의 차이
Mercury 2 성능 — 속도와 벤치마크
다른 모델과 비교 — Claude, Gemini, GPT와 어떻게 다를까?
Mercury 2 가격 — 파격적인 API 비용
Mercury 2 사용법 — API 연동 가이드
직접 사용해보기 — Chat 데모
정리 — Mercury 2, 어떤 경우에 쓰면 좋을까?

Mercury 2란? — Diffusion 기반 추론 LLM의 등장

2026년 2월 24일, AI 스타트업 Inception Labs가 새로운 LLM 모델 Mercury 2를 공개했습니다. Mercury 2는 기존 LLM과는 완전히 다른 방식으로 텍스트를 생성하는 Diffusion 기반 추론 모델입니다.

기존 속도 최적화 모델 대비 5배 빠른 속도, 그리고 파격적으로 낮은 API 비용으로 공개 직후 개발자 커뮤니티에서 큰 화제가 되고 있습니다.

Inception Labs Mercury 2 공식 페이지 스크린샷 — Inception Labs Mercury 2 공식 소개 페이지

ℹ️ 참고

Mercury 2는 2026년 2월 24일에 공개된 따끈따끈한 최신 모델입니다.

그렇다면 Mercury 2는 정확히 어떤 기술을 사용하고, 기존 모델과 비교해서 얼마나 다른 걸까요? 하나씩 살펴보겠습니다.

Diffusion LLM이란? — 기존 모델과의 차이

기존의 GPT, Claude, Gemini 같은 LLM은 자기회귀(Autoregressive) 방식으로 동작합니다. 쉽게 말해 "한 단어를 생성하고, 그 단어를 바탕으로 다음 단어를 생성하고..."를 반복하는 순차적인 방식입니다.

반면 Mercury 2가 사용하는 Diffusion 방식은 완전히 다릅니다. 이미지 생성 AI(Stable Diffusion, DALL-E 등)에서 사용하는 기술을 텍스트에 적용한 것입니다.

자기회귀 방식과 Diffusion 방식의 텍스트 생성 비교 다이어그램 — 기존 자기회귀 방식 vs Diffusion 방식 비교

💡 팁

쉽게 말해, 기존 LLM이 '한 글자씩 타이핑'하는 것이라면, Mercury 2는 '전체 초안을 한번에 쓰고 다듬는' 방식입니다.

Diffusion 방식의 동작 원리:

처음에 노이즈(무작위 텍스트)로 시작합니다
여러 토큰을 동시에 병렬로 처리합니다
반복적으로 정제(denoising)하면서 점점 완성된 텍스트로 다듬어갑니다
마치 편집자가 전체 초안을 한 번에 수정하는 것과 비슷합니다

이 방식 덕분에 여러 토큰을 동시에 생성할 수 있어, 기존 모델보다 압도적으로 빠른 출력 속도를 달성합니다.

Mercury 2 성능 — 속도와 벤치마크

Mercury 2의 가장 큰 강점은 속도입니다. 구체적인 수치를 살펴보겠습니다.

출력 속도 비교

모델	초당 토큰 수	레이턴시
Mercury 2	1,009 tok/s	1.7초
Claude 4.5 Haiku	89 tok/s	23.4초
GPT-5 Mini	71 tok/s	-
Gemini 3 Flash	-	14.4초

ℹ️ 참고

Mercury 2는 NVIDIA Blackwell GPU 기준 초당 1,009 토큰을 생성하며, end-to-end 레이턴시는 단 1.7초입니다.

Claude 4.5 Haiku 대비 약 11배, GPT-5 Mini 대비 약 14배 빠른 출력 속도입니다. 긴 코드를 생성하거나 대량의 텍스트를 처리할 때 이 차이는 체감이 크게 됩니다.

다른 모델과 비교 — Claude, Gemini, GPT와 어떻게 다를까?

속도만 빠르고 품질이 떨어지면 의미가 없겠죠. Mercury 2의 추론 벤치마크 성적을 살펴보겠습니다.

벤치마크 점수 비교

벤치마크	Mercury 2	Gemini 3 Flash	Claude 4.5 Haiku
AIME (수학)	91	78	54
GPQA Diamond (과학)	74	90	67
SciCode (코드)	38	51	43

⚠️ 주의

벤치마크 점수가 높다고 반드시 실제 사용 품질이 좋은 것은 아닙니다. 용도에 맞게 선택하는 것이 중요합니다.

AIME(수학 추론)에서는 Mercury 2가 91점으로 압도적 1위를 차지했습니다. 반면 GPQA(과학)와 SciCode(코딩)에서는 Gemini 3 Flash가 앞서고 있습니다.

즉, Mercury 2는 "모든 면에서 최고"가 아니라 "특정 영역에서 강점 + 압도적 속도"를 가진 모델입니다. 속도가 핵심인 실시간 서비스에 특히 적합합니다.

Mercury 2 가격 — 파격적인 API 비용

Mercury 2의 또 다른 강점은 가격입니다.

항목	Mercury 2	Gemini 3 Flash
입력 (1M 토큰당)	$0.25	$0.50
출력 (1M 토큰당)	$0.75	$3.00

💡 팁

입력 $0.25/M, 출력 $0.75/M으로 Gemini 3 Flash 대비 입력 50%, 출력 75% 저렴합니다.

Gemini 3 Flash와 비교하면 입력은 절반, 출력은 4분의 1 가격입니다. 대량의 API 호출이 필요한 서비스에서 비용 절감 효과가 매우 큽니다.

추가 사양:

컨텍스트 윈도우: 128K 토큰
도구 사용(Tool Use): 지원
JSON 출력: 지원
API 호환성: OpenAI SDK 호환

Mercury 2 사용법 — API 연동 가이드

Mercury 2는 OpenAI SDK와 호환되기 때문에, 기존에 OpenAI API를 사용하던 코드에서 base_url만 변경하면 바로 사용할 수 있습니다.

1. 패키지 설치

pip install openai

2. API 호출 코드

from openai import OpenAI

client = OpenAI(
    base_url="https://api.inceptionlabs.ai/v1",
    api_key="your-api-key"
)

response = client.chat.completions.create(
    model="mercury-2",
    messages=[
        {"role": "user", "content": "Python으로 퀵소트 구현해줘"}
    ],
    max_tokens=1024
)

print(response.choices[0].message.content)

ℹ️ 참고

Mercury 2는 OpenAI SDK와 호환되므로, 기존 OpenAI 코드에서 base_url과 api_key만 바꾸면 바로 사용할 수 있습니다.

위 코드에서 핵심 포인트는 두 가지입니다:

base_url을 https://api.inceptionlabs.ai/v1로 설정
model을 mercury-2로 지정

API 키는 Inception Labs 공식 사이트에서 Early Access를 신청하면 받을 수 있습니다.

직접 사용해보기 — Chat 데모

API 키 없이도 Mercury 2를 바로 체험해볼 수 있습니다. Inception Labs에서 제공하는 Chat 데모 페이지를 이용하면 됩니다.

Mercury 2 Chat 데모 스크린샷 — Mercury 2 Chat 데모 페이지

아래 사진과 같이 별도 회원가입 없이 바로 대화를 시작할 수 있습니다.

사용 방법:

chat.inceptionlabs.ai에 접속합니다
별도 회원가입 없이 바로 대화를 시작할 수 있습니다
코딩 질문, 수학 문제 등을 입력해보세요
응답 속도가 기존 모델 대비 얼마나 빠른지 체감할 수 있습니다

💡 팁

별도 가입 없이 chat.inceptionlabs.ai에서 바로 Mercury 2를 테스트할 수 있습니다.

정리 — Mercury 2, 어떤 경우에 쓰면 좋을까?

Mercury 2의 핵심을 정리하면 다음과 같습니다.

장점:

초당 1,000+ 토큰의 압도적인 출력 속도
경쟁 모델 대비 최대 75% 저렴한 비용
AIME 91점의 강력한 수학 추론 능력
OpenAI SDK 호환으로 쉬운 마이그레이션

단점:

첫 토큰 생성까지 12.74초로 느린 초기 응답
과학/코딩 벤치마크에서 Gemini 3 Flash보다 낮은 점수
아직 Early Access 단계로 제한적 접근
한국어 지원이 제한적

이런 경우에 Mercury 2를 추천합니다:

실시간 응답이 중요한 챗봇/서비스
대량의 코드를 빠르게 생성해야 하는 개발 도구
API 비용을 줄여야 하는 스타트업
수학/논리 추론이 필요한 교육 서비스

Diffusion 기반 LLM은 아직 초기 단계이지만, Mercury 2가 보여준 성능은 LLM 업계에 새로운 가능성을 열었습니다. 앞으로 이 기술이 어떻게 발전할지 주목할 만합니다.

❓ 자주 묻는 질문 (FAQ)

Q. Mercury 2는 무료로 사용할 수 있나요?

A. Chat 데모(chat.inceptionlabs.ai)는 무료로 테스트할 수 있습니다. API 사용은 입력 $0.25/M 토큰, 출력 $0.75/M 토큰의 비용이 발생합니다.

Q. Mercury 2와 ChatGPT 중 어떤 것이 더 좋나요?

A. 용도에 따라 다릅니다. 속도와 비용이 중요하다면 Mercury 2가 유리하고, 범용적인 대화 품질이 필요하다면 GPT-5가 더 나을 수 있습니다.

Q. Diffusion LLM은 기존 LLM보다 항상 빠른가요?

A. 토큰 생성 속도는 압도적으로 빠르지만, 첫 토큰 생성까지의 시간(TTFT)은 12.74초로 기존 모델보다 느릴 수 있습니다. 긴 출력에서 속도 이점이 극대화됩니다.

Q. 한국어도 지원하나요?

A. 현재 Mercury 2는 영어 중심으로 학습되어 있어 한국어 성능은 제한적일 수 있습니다. 코딩 관련 작업에서는 언어 영향이 적습니다.

728x90

저작자표시 (새창열림)

'Tech > AI·LLM' 카테고리의 다른 글

바이브 코딩(Vibe Coding) 완벽 가이드 — 개념부터 도구 비교·실전 활용까지 총정리 (2026) (1)	2026.03.06
로봇이 공장에 들어간다 — 피지컬 AI 개념·대표 로봇 3종 비교·관련주까지 (2026) (0)	2026.03.04
Gemini 3.1 Pro 완벽 정리 (2026) — 벤치마크·가격·API 사용법까지 한눈에 (0)	2026.03.03
MCP 서버 만들기 완벽 가이드 — Python & TypeScript로 나만의 AI 도구 만들기 (2026) (2)	2026.03.02
Claude Opus 4.6 vs GPT-5.3 Codex — 2026 AI 코딩 모델 완벽 비교 (1)	2026.03.01

Share Link

Fasebook
Twitter

reply

코후닝

View