Mercury 2 출시: 디퓨전 기반 초고속 LLM으로 AI 코딩 에이전트 성능 혁신에 대해 자세히 알고 싶습니다.

Inception Labs가 텍스트에 디퓨전 모델을 적용해 초당 11,000개 이상의 토큰을 생성하는 Mercury 2를 공개했습니다. AI 코딩과 실시간 에이전트 워크플로우의 지연 시간을 획기적으로 단축할 것으로 보입니다.

Mercury 2 출시: 디퓨전 기반 초고속 LLM으로 AI 코딩 에이전트 성능 혁신

📌 원문: Mercury 2 출시: 디퓨전 기반 초고속 LLM으로 AI 코딩 에이전트 성능 혁신 — Hacker News AI

무엇이 바뀌었나

디퓨전 모델(Diffusion Model) 기반 텍스트 생성: 기존 언어 모델의 표준이었던 순차적 생성(Autoregressive Decoding) 방식에서 벗어나, 텍스트 생성에 디퓨전 기법을 최초로 적용함.
초고속 추론 성능 달성: 초당 약 11,196개의 토큰(Tokens/s)을 생성하며, 기존 LLM 대비 10~13배 빠른 병렬 토큰 생성을 구현함.
지연 시간(Latency) 문제 해결: 토큰을 하나씩 순차적으로 출력하는 병목 현상을 병렬 정제(Parallel Refinement) 방식으로 우회하여 실시간 응답성을 극대화함.
API 호환성 확보: OpenAI API와 호환되는 규격을 제공하여 기존 AI 에이전트 및 개발 워크플로우에 즉시 통합이 가능함.

상세 분석

디퓨전 기반의 병렬 정제 메커니즘

Mercury 2는 이미지 생성 AI에서 주로 사용되던 디퓨전 아키텍처를 텍스트 도메인으로 확장했다. 기존의 자기회귀(Autoregressive) 모델이 이전 토큰을 기반으로 다음 토큰을 하나씩 예측했다면, Mercury 2는 전체 출력 시퀀스를 동시에 생성한 뒤 노이즈를 제거하며 품질을 높이는 병렬 정제(Parallel Refinement) 방식을 취한다. 이를 통해 하드웨어의 병렬 연산 능력을 극한으로 활용하며 추론 속도를 비약적으로 높였다.

성능 벤치마크 및 비교

추론 속도 측면에서 Mercury 2는 업계 최고 수준의 효율성을 보여준다. Claude 3.5 Haiku 대비 약 13배, Gemini Flash 대비 약 5배 빠른 속도를 기록했다. 비록 순수 추론 성능(Reasoning Quality) 면에서는 최상위 프런티어 모델과 격차가 있을 수 있으나, **처리량(Throughput)**과 지연 시간이 핵심인 에이전트 기반 작업에서는 독보적인 우위를 점한다.

# OpenAI SDK를 활용한 Mercury 2 호출 예시 (개념적 코드)
from openai import OpenAI

client = OpenAI(
    base_url="https://api.inceptionlabs.ai/v1", # Mercury 2 엔드포인트
    api_key="YOUR_MERCURY_API_KEY"
)

response = client.chat.completions.create(
    model="mercury-2",
    messages=[{"role": "user", "content": "복잡한 에이전트 워크플로우를 분석해줘."}],
    stream=True # 병렬 생성 특성상 스트리밍 체감 속도가 극도로 빠름
)

실무 적용 포인트

AI 에이전트 및 실시간 워크플로우 최적화

Mercury 2의 압도적인 속도는 다단계 추론이 필요한 AI 에이전트(Agentic Workflow) 구축에 최적이다. 에이전트가 스스로 도구를 선택하고 결과를 검토하는 루프 내에서 발생하는 지연 시간을 최소화하여, 마치 사람이 실시간으로 작업하는 듯한 반응 속도를 구현할 수 있다. 특히 코딩 보조 도구나 자동화된 디버깅 파이프라인에서 '바이브코딩(Vibe Coding)'의 생산성을 높이는 데 기여할 것으로 보인다.

실무 활용 팁

실시간 RAG 파이프라인 통합: 검색 증강 생성(RAG) 시스템에서 방대한 컨텍스트를 요약하거나 비교 분석할 때, Mercury 2를 활용하면 사용자 대기 시간을 1초 미만으로 단축할 수 있다.
에이전트 루프의 가속화: 전체 시스템의 최종 출력은 성능 위주의 모델(Claude, GPT 등)이 담당하더라도, 중간 단계의 의사결정이나 데이터 정제 프로세스에 Mercury 2를 배치하여 전체 실행 속도를 최적화하는 하이브리드 전략이 유효하다.

📎 참고 링크

무엇이 바뀌었나

상세 분석

디퓨전 기반의 병렬 정제 메커니즘

성능 벤치마크 및 비교

실무 적용 포인트

AI 에이전트 및 실시간 워크플로우 최적화

실무 활용 팁

댓글

관련 글

Gemma Gem 출시: WebGPU 기반 브라우저 내장 AI 에이전트와 로컬 AI 코딩의 미래

Claude Code 소스 유출로 드러난 차세대 에이전트 KAIROS와 Claude Mythos 모델

Google Gemma 4 출시: 온디바이스 에이전트 최적화와 MoE 기반 고성능 AI 코딩 도구