Benchmarks
ALLM.H 모델 패밀리와 주요 모델의 벤치마크 비교. KorMedMCQA(공식 KMLE 기출), ASP(항생제), KorMedMCQA-V(멀티모달) 평가 결과입니다.
평가 방식: Direct vs Thinking
Direct: 모델이 추론 과정 없이 즉시 정답만 출력하는 방식 (
Thinking: 모델이 내부 추론 과정을 거친 후 답변하는 방식. 아래 두 가지를 모두 포함합니다:
max_tokens=64, thinking off). 대부분의 벤치마크 논문에서 사용하는 표준 평가 방식입니다.Thinking: 모델이 내부 추론 과정을 거친 후 답변하는 방식. 아래 두 가지를 모두 포함합니다:
- CoT Prompting — 프롬프트로 추론을 유도 (예: "단계별로 생각해봐"). 사용자가 켜고 끌 수 있으며, GPT-4o 등 일반 모델에 적용합니다.
- Built-in Thinking — 모델 학습 단계에서 추론 능력이 내장된 방식. o1, Gemini Pro, DeepSeek-R1 등 reasoning 전용 모델이 해당하며, 일부는 끌 수 없습니다.
CoT/Thinking의 효과 요약: 모델이 작거나 문제가 어려우면 CoT가 도움되고, 모델이 크거나 문제가 단순하면 오히려 방해됩니다.
| 조건 | CoT 효과 | 이유 |
|---|---|---|
| 소형 모델 (≤14B) | ↑ 효과 큼 | 단계별 분해 없이는 복잡한 추론 불가 |
| 대형 모델 (≥70B) | → 미미 / ↓ | 이미 내부적으로 추론 가능, CoT가 노이즈 |
| 어려운 문제 (multi-hop) | ↑ 효과 있음 | 단계별 분해가 필수적 |
| 쉬운 문제 (지식 회상) | ↓ 역효과 | overthinking — 맞는 답을 바꿈 |
| 임상 텍스트 (EHR) | ↓ 86.3% 하락 | 길고 파편적 텍스트에서 CoT가 혼란 유발 |
관련 논문 보기
- ▲ 효과 있는 경우:
- KorMedMCQA 평가에서 CoT 적용 시 Direct 대비 최대 4.5% 성능 향상 (59개 LLM 평가) — KorMedMCQA Paper (arXiv, 2024)
- o1 reasoning 모델이 USMLE 사회적 기술 평가에서 97.5%로 1위 — Reasoning-based LLMs surpass human performance (Nature Sci Reports, 2025)
- 의료 교과서에서 추출한 CoT로 소형 모델(7B) 성능 22.3% 향상 — Small LMs learn enhanced reasoning from medical textbooks (npj Digital Medicine, 2025)
- ▼ 효과 없거나 역효과:
- 의료 MCQ에서 CoT prompting 방식에 따라 효과가 상이하며, 일부 방식은 오히려 성능 저하 — Comparative evaluation of CoT for medical QA (Computers in Biology and Medicine, 2025)
- 6개 태스크 중 3개에서 CoT 적용 시 최대 36.3% 정확도 하락 (o1-preview vs GPT-4o) — Mind Your Step (by Step): CoT can Reduce Performance (NeurIPS 2024)
- 최신 모델에서 CoT의 가치가 감소 추세: 20~80% 시간 증가 대비 정확도 개선은 미미 — The Decreasing Value of Chain of Thought in Prompting (Wharton GAIL, 2025)
- 95개 LLM × 87개 임상 태스크 평가에서 86.3%의 모델이 CoT로 성능 하락 — Why Chain of Thought Fails in Clinical Text Understanding (arXiv, 2025)
ALLM.H (Ours)
ALLM.H Previous
Open Weights
Proprietary
Base Model
KorMedMCQA-435
(435)
EHRSQL 2024
(1163)
KorMedMCQA Doctor Test (2022-2024 KMLE 공식 기출 435문항). 한국 의사 국가시험 기반 공식 벤치마크.
| # | Model | Type | Direct | Thinking | Note |
|---|---|---|---|---|---|
| 1 | ALLM.H (Acryl) ★ SOTA | Ours | 96.78% | 96.78% | KorMedMCQA Doctor Test 전체 1위 (상용 모델 포함). 2026-04-13 확정. |
| 2 | Claude Opus 4 | Proprietary | 93.33% | 96.55% | Anthropic |
| 3 | Gemma4-31B-IT (Base) | Base | 91.95% | 93.79% | Google DeepMind |
| 4 | Gemini 2.5 Pro | Proprietary | 90.8% | 90.8% | |
| 5 | GPT-5.1 | Proprietary | 90.11% | - | OpenAI |
| 6 | HARI-Q2.5-Thinking (SNUH) | Open | 89.2% | 89.2% | Qwen2.5-72B 기반, 73B. 오픈소스 기존 최고 (ALLM.H 이전) |
| 7 | Gemini 2.5 Flash | Proprietary | 88.51% | - | |
| 8 | GPT-4o | Proprietary | 86.44% | - | OpenAI |
| 9 | HARI-Q2.5 (SNUH) | Open | 84.6% | - | Qwen2.5-72B 기반, 73B |
| 10 | HARI-Q3-14B (SNUH) | Open | 84.14% | 84.14% | Qwen3-14B 기반 |
| 11 | HARI-Q3-8B (SNUH) | Open | 76.78% | - | Qwen3-8B 기반 |
EHRSQL-2024 valid set (MIMIC-IV 17 tables, 1,163 questions).
RS@k (Reliability Score): 정답 → +1, 정확한 abstain → +1, 오답 → −k (페널티). RS@10이 공식 메트릭.
RS@k (Reliability Score): 정답 → +1, 정확한 abstain → +1, 오답 → −k (페널티). RS@10이 공식 메트릭.
| # | Model | Type | RS@0 (Accuracy) | RS@10 (Reliability) | Note |
|---|---|---|---|---|---|
| 1 | ALLM.H-SQL (Acryl) | Ours | 88.48% | 73.34% | RS@0=88.48 (1위), RS@10=73.34 (+Verifier). 스키마 비종속 설계. |
| 2 | LG-KAIST (1st place) | Proprietary | 88.17% | 81.32% | RS@0=88.17, RS@10=81.32. 4-model ensemble. |
| 3 | PromptMind (2nd place) | Proprietary | 82.6% | 74.89% | RS@0=82.6, RS@10=74.89 |
| 4 | Claude Sonnet 4 | Proprietary | 52.62% | - | RS@0=52.62. Zero-shot. |
| 5 | GPT-4.1 | Proprietary | 50.64% | - | RS@0=50.64. Zero-shot. |