Acryl

Benchmarks

ALLM.H 모델 패밀리와 주요 모델의 벤치마크 비교. KorMedMCQA(공식 KMLE 기출), ASP(항생제), KorMedMCQA-V(멀티모달) 평가 결과입니다.

평가 방식: Direct vs Thinking
Direct: 모델이 추론 과정 없이 즉시 정답만 출력하는 방식 (max_tokens=64, thinking off). 대부분의 벤치마크 논문에서 사용하는 표준 평가 방식입니다.
Thinking: 모델이 내부 추론 과정을 거친 후 답변하는 방식. 아래 두 가지를 모두 포함합니다:
  • CoT Prompting — 프롬프트로 추론을 유도 (예: "단계별로 생각해봐"). 사용자가 켜고 끌 수 있으며, GPT-4o 등 일반 모델에 적용합니다.
  • Built-in Thinking — 모델 학습 단계에서 추론 능력이 내장된 방식. o1, Gemini Pro, DeepSeek-R1 등 reasoning 전용 모델이 해당하며, 일부는 끌 수 없습니다.
두 방식 모두 "추론 후 답변"이라는 점에서 평가 관점에서는 동일하게 Thinking으로 분류합니다.
CoT/Thinking의 효과 요약: 모델이 작거나 문제가 어려우면 CoT가 도움되고, 모델이 크거나 문제가 단순하면 오히려 방해됩니다.
조건CoT 효과이유
소형 모델 (≤14B)↑ 효과 큼단계별 분해 없이는 복잡한 추론 불가
대형 모델 (≥70B)→ 미미 / ↓이미 내부적으로 추론 가능, CoT가 노이즈
어려운 문제 (multi-hop)↑ 효과 있음단계별 분해가 필수적
쉬운 문제 (지식 회상)↓ 역효과overthinking — 맞는 답을 바꿈
임상 텍스트 (EHR)↓ 86.3% 하락길고 파편적 텍스트에서 CoT가 혼란 유발
관련 논문 보기
ALLM.H (Ours)
ALLM.H Previous
Open Weights
Proprietary
Base Model
KorMedMCQA-435 (435)
EHRSQL 2024 (1163)
KorMedMCQA Doctor Test (2022-2024 KMLE 공식 기출 435문항). 한국 의사 국가시험 기반 공식 벤치마크.
↗ HuggingFace Dataset ↗ Paper (arXiv)
# Model Type Direct Thinking Note
1 ALLM.H (Acryl) ★ SOTA Ours 96.78% 96.78% KorMedMCQA Doctor Test 전체 1위 (상용 모델 포함). 2026-04-13 확정.
2 Claude Opus 4 Proprietary 93.33% 96.55% Anthropic
3 Gemma4-31B-IT (Base) Base 91.95% 93.79% Google DeepMind
4 Gemini 2.5 Pro Proprietary 90.8% 90.8% Google
5 GPT-5.1 Proprietary 90.11% - OpenAI
6 HARI-Q2.5-Thinking (SNUH) Open 89.2% 89.2% Qwen2.5-72B 기반, 73B. 오픈소스 기존 최고 (ALLM.H 이전)
7 Gemini 2.5 Flash Proprietary 88.51% - Google
8 GPT-4o Proprietary 86.44% - OpenAI
9 HARI-Q2.5 (SNUH) Open 84.6% - Qwen2.5-72B 기반, 73B
10 HARI-Q3-14B (SNUH) Open 84.14% 84.14% Qwen3-14B 기반
11 HARI-Q3-8B (SNUH) Open 76.78% - Qwen3-8B 기반
EHRSQL-2024 valid set (MIMIC-IV 17 tables, 1,163 questions).

RS@k (Reliability Score): 정답 → +1, 정확한 abstain → +1, 오답 → −k (페널티). RS@10이 공식 메트릭.
↗ EHRSQL Paper ↗ EHRSQL 2024 GitHub ↗ LG-KAIST 1st Paper
# Model Type RS@0 (Accuracy) RS@10 (Reliability) Note
1 ALLM.H-SQL (Acryl) Ours 88.48% 73.34% RS@0=88.48 (1위), RS@10=73.34 (+Verifier). 스키마 비종속 설계.
2 LG-KAIST (1st place) Proprietary 88.17% 81.32% RS@0=88.17, RS@10=81.32. 4-model ensemble.
3 PromptMind (2nd place) Proprietary 82.6% 74.89% RS@0=82.6, RS@10=74.89
4 Claude Sonnet 4 Proprietary 52.62% - RS@0=52.62. Zero-shot.
5 GPT-4.1 Proprietary 50.64% - RS@0=50.64. Zero-shot.