Benchmarks
ALLM.H 모델 패밀리와 주요 모델의 벤치마크 비교. KorMedMCQA(공식 KMLE 기출), ASP(항생제), KorMedMCQA-V(멀티모달) 평가 결과입니다.
평가 방식: Direct vs Thinking
Direct: 모델이 추론 과정 없이 즉시 정답만 출력하는 방식 (
Thinking: 모델이 내부 추론 과정을 거친 후 답변하는 방식. 아래 두 가지를 모두 포함합니다:
max_tokens=64, thinking off). 대부분의 벤치마크 논문에서 사용하는 표준 평가 방식입니다.Thinking: 모델이 내부 추론 과정을 거친 후 답변하는 방식. 아래 두 가지를 모두 포함합니다:
- CoT Prompting — 프롬프트로 추론을 유도 (예: "단계별로 생각해봐"). 사용자가 켜고 끌 수 있으며, GPT-4o 등 일반 모델에 적용합니다.
- Built-in Thinking — 모델 학습 단계에서 추론 능력이 내장된 방식. o1, Gemini Pro, DeepSeek-R1 등 reasoning 전용 모델이 해당하며, 일부는 끌 수 없습니다.
CoT/Thinking의 효과 요약: 모델이 작거나 문제가 어려우면 CoT가 도움되고, 모델이 크거나 문제가 단순하면 오히려 방해됩니다.
| 조건 | CoT 효과 | 이유 |
|---|---|---|
| 소형 모델 (≤14B) | ↑ 효과 큼 | 단계별 분해 없이는 복잡한 추론 불가 |
| 대형 모델 (≥70B) | → 미미 / ↓ | 이미 내부적으로 추론 가능, CoT가 노이즈 |
| 어려운 문제 (multi-hop) | ↑ 효과 있음 | 단계별 분해가 필수적 |
| 쉬운 문제 (지식 회상) | ↓ 역효과 | overthinking — 맞는 답을 바꿈 |
| 임상 텍스트 (EHR) | ↓ 86.3% 하락 | 길고 파편적 텍스트에서 CoT가 혼란 유발 |
관련 논문 보기
- ▲ 효과 있는 경우:
- KorMedMCQA 평가에서 CoT 적용 시 Direct 대비 최대 4.5% 성능 향상 (59개 LLM 평가) — KorMedMCQA Paper (arXiv, 2024)
- o1 reasoning 모델이 USMLE 사회적 기술 평가에서 97.5%로 1위 — Reasoning-based LLMs surpass human performance (Nature Sci Reports, 2025)
- 의료 교과서에서 추출한 CoT로 소형 모델(7B) 성능 22.3% 향상 — Small LMs learn enhanced reasoning from medical textbooks (npj Digital Medicine, 2025)
- ▼ 효과 없거나 역효과:
- 의료 MCQ에서 CoT prompting 방식에 따라 효과가 상이하며, 일부 방식은 오히려 성능 저하 — Comparative evaluation of CoT for medical QA (Computers in Biology and Medicine, 2025)
- 6개 태스크 중 3개에서 CoT 적용 시 최대 36.3% 정확도 하락 (o1-preview vs GPT-4o) — Mind Your Step (by Step): CoT can Reduce Performance (NeurIPS 2024)
- 최신 모델에서 CoT의 가치가 감소 추세: 20~80% 시간 증가 대비 정확도 개선은 미미 — The Decreasing Value of Chain of Thought in Prompting (Wharton GAIL, 2025)
- 95개 LLM × 87개 임상 태스크 평가에서 86.3%의 모델이 CoT로 성능 하락 — Why Chain of Thought Fails in Clinical Text Understanding (arXiv, 2025)
ALLM.H (Ours)
ALLM.H Previous
Open Weights
Proprietary
Base Model
KorMedMCQA-435
(435)
KorMedMCQA-2489
(2489)
KorMedMCQA-V
(1534)
ASP
(165)
EHRSQL 2024
(1163)
KorMedMCQA Doctor 카테고리의 test split (2022-2024 KMLE 공식 기출 435문항)을 그대로 사용합니다. 모델의 빠른 성능 확인을 위한 경량 벤치마크로 활용합니다.
| # | Model | Type | Direct | Thinking | Note |
|---|---|---|---|---|---|
| 1 | ALLM.H-Bv4-Gemma4-31B (Acryl) ★ SOTA | Ours | 94.71% | 96.78% | SC k=3 T=0.7 max_new=8192 + Thinking. Greedy(Direct) 94.71%. SimPO Bv4-gamma. 2026-04-13 확정. KorMedMCQA Doctor Test 전체 1위 (상용 모델 포함). |
| 2 | Claude Opus 4 | Proprietary | 93.33% | 96.55% | Anthropic (Mac Pro) |
| 3 | Gemma4-31B-IT (Base) | Base | 91.95% | 93.79% | Direct 91.95% + Thinking 93.79% (408/435). H100-2, BF16, 2026-04-08. ASP Thinking 93.94%. |
| 4 | ALLM.H-Gemma4-31B v1 (Acryl) | Ours Prev | 91.49% | 90.8% | Base: Gemma4-31B-IT QLoRA SFT v5 + scale 0.3 soft-merge (α=10). |
| 5 | Gemma4-31B-IT QLoRA 4bit (Base) | Base | 91.26% | - | Direct (H100-2, QLoRA 4-bit NF4) |
| 6 | Gemini 2.5 Pro | Proprietary | 90.8% | 90.8% | Google, Thinking (built-in) |
| 7 | GPT-5.1 | Proprietary | 90.11% | - | OpenAI, Direct (API) |
| 8 | HARI-Q2.5-Thinking (SNUH) | Open | 89.2% | 89.2% | Qwen2.5-72B 기반, 73B, 5-shot CoT. 오픈소스 기존 최고 (ALLM.H 이전) |
| 9 | Gemini 2.5 Flash | Proprietary | 88.51% | - | Google, Direct (API) |
| 10 | Qwen3-235B-A22B (Base) | Base | 88.28% | 88.28% | Thinking (H200, SGLang FP8 TP=4) |
| 11 | Qwen3.5-122B-A10B (Base) | Base | 87.13% | - | Direct, BF16 8GPU device_map=auto (H100-3, 2026-04-07). Thinking 측정 중 |
| 12 | GPT-4o | Proprietary | 86.44% | - | OpenAI, Direct (API) |
| 13 | ALLM.H-27B (Acryl) | Ours Prev | 85.75% | 85.75% | Base: Qwen3.5-27B, SFT+DPO+GRPO (Fleming v2), Thinking (H100-1) |
| 14 | HARI-Q2.5 (SNUH) | Open | 84.6% | - | Qwen2.5-72B 기반, 73B, Direct |
| 15 | HARI-Q3-14B (SNUH) | Open | 84.14% | 84.14% | Qwen3-14B 기반, 15B, Reasoning |
| 15 | Qwen3.5-27B dense (Base) | Base | 84.14% | - | Direct, 4bit generation (H100-2, 2026-04-07). ASP 94.55%. 이전 logit probing 76.09%는 CoT 모델에 부적합하여 기각 |
| 17 | HARI-Q3-8B (SNUH) | Open | 76.78% | - | Qwen3-8B 기반, 8B, Direct |
| 18 | Gemma4-31B PT (Base, pre-trained only) | Base | 76.32% | - | Pre-trained only (no IT), 4bit, raw continuation prompting (H100-2, 2026-04-07). PT vs IT: IT가 +15.6%p 기여 |
| 19 | Gemma4-27B-IT (Base, Gemma3) | Base | 74.94% | - | Gemma3-27B-IT Direct (Mac Pro). Gemma4-31B과 다른 세대 |
| - | Claude Sonnet 4 | Proprietary | - | - | Anthropic, 평가 중 (rate limit) |
| - | Claude Sonnet 4.5 | Proprietary | - | - | Anthropic, 평가 중 (rate limit) |
KorMedMCQA Doctor 전체 (train+dev+test, 2012-2024 KMLE 공식 기출 2,489문항). 한국보건의료인국가시험원 공식 기출문제 기반의 표준 벤치마크로, HARI 등 주요 한국어 의료 모델이 이 데이터셋으로 평가합니다.
| # | Model | Type | Direct | Thinking | Note |
|---|---|---|---|---|---|
| 1 | K-Med.ai (Naver+SNUH) | Proprietary | 96.4% | - | HyperCLOVA X, 비공개 (기사 보고, 평가셋 미확인) |
| 2 | o1-preview (OpenAI) | Proprietary | 92.72% | - | 논문 보고 (KorMedMCQA paper) |
| 3 | Qwen2.5-72B (Base) | Base | 78.86% | - | 논문 보고, 오픈소스 1위 (KorMedMCQA paper) |
| - | ALLM.H-235B (Acryl) | Ours | - | - | 전체 2,489문항 평가 예정 |
| - | ALLM.H-31B (Acryl) | Ours | - | - | 전체 2,489문항 평가 예정 |
| - | Claude Sonnet 4.5 | Proprietary | - | - | 직접 평가 예정 |
| - | GPT-5.1 | Proprietary | - | - | 직접 평가 예정 |
| - | Gemini 2.5 Flash | Proprietary | - | - | 직접 평가 예정 |
KorMedMCQA의 멀티모달 확장 버전 (1,534문항 + 2,043 의료 이미지). 2012-2023 KMLE 공식 기출 중 이미지(X-ray, CT, 병리, 심전도 등)가 포함된 문항만 추출하여 구성된 Vision-Language 벤치마크입니다. 약 30%가 다중 이미지 추론을 필요로 합니다.
| # | Model | Type | Direct | Thinking | Note |
|---|---|---|---|---|---|
| 1 | Gemini 3.0 Flash | Proprietary | 96.9% | - | 논문 보고, Google |
| 1 | Gemini 3.0 Pro | Proprietary | 96.9% | - | 논문 보고, Google |
| 3 | GPT-5 | Proprietary | 93.9% | - | 논문 보고, OpenAI |
| 4 | GPT-5-mini | Proprietary | 90.1% | - | 논문 보고, OpenAI |
| 5 | Qwen3-VL-32B-Thinking | Open | 83.7% | - | 논문 보고, 오픈소스 1위 |
| 6 | GLM-4.6V | Open | 78.7% | - | 논문 보고 |
| - | ALLM.H-235B (Acryl) | Ours | - | - | 멀티모달 SFT 후 평가 예정 |
| - | ALLM.H-31B (Acryl) | Ours | - | - | 멀티모달 SFT 후 평가 예정 |
| - | Gemma4-31B-IT (Base) | Base | - | - | 네이티브 멀티모달, 평가 예정 |
항생제 적정사용 프로그램(ASP) 평가 벤치마크 (165문항). 경북대병원 ARPA-H 사업에서 활용할 파운데이션 모델의 항생제 적정사용 역량을 평가하기 위해 구성된 벤치마크셋입니다. 좁은 도메인을 다루어 대부분의 모델이 90%+ 성능을 보이며, 모델 간 변별력은 KorMedMCQA가 더 높습니다.
| # | Model | Type | Direct | Thinking | Note |
|---|---|---|---|---|---|
| 1 | GPT-5.1 | Proprietary | 98.18% | - | OpenAI, Direct (API) |
| 2 | GPT-4o | Proprietary | 96.36% | - | OpenAI, Direct (Mac Pro) |
| 3 | ALLM.H-27B (Acryl) | Ours Prev | 95.76% | - | SFT+DPO+GRPO (Fleming v2), Thinking (H100-1) |
| 3 | Gemini 2.5 Flash | Proprietary | 95.76% | - | Google, Direct (API, thinking off) |
| 3 | Gemma4-31B-IT QLoRA (Base) | Base | 95.76% | - | Direct (H100-2, QLoRA 4-bit NF4) |
| 6 | Gemma4-31B-IT (Base) | Base | 94.55% | - | Thinking (Mac Pro, Ollama) |
| 6 | Qwen3.5-27B (Base) | Base | 94.55% | - | Thinking (Mac Pro, Ollama) |
| 8 | Claude Opus 4 | Proprietary | 93.94% | - | Anthropic, Direct=Thinking 동일 93.94% (Mac Pro) |
| 9 | ALLM.H-235B (Acryl) | Ours | 93.33% | - | Base: Qwen3-235B-A22B, SFT ckpt-5000, Thinking (H200, SGLang FP8) |
| 10 | Gemini 2.5 Pro | Proprietary | 93.13% | - | Google, Thinking (160/165 기준) |
| 11 | Claude Sonnet 4 | Proprietary | 92.73% | - | Anthropic, Direct (API) |
| 12 | Qwen3-235B-A22B (Base) | Base | 91.52% | - | Thinking (H200, SGLang FP8 TP=4) |
| 13 | Gemma4-27B-IT (Base) | Base | 90.3% | - | Thinking (Mac Pro, Ollama) |
| - | ALLM.H-31B (Acryl) | Ours | - | - | Base: Gemma4-31B-IT, QLoRA SFT 학습 중 (H100-2) |
| - | Claude Sonnet 4.5 | Proprietary | - | - | Anthropic, 평가 중 |
EHRSQL-2024 valid set (MIMIC-IV 17 tables, 1,163 questions, 232 unanswerable ~20%).
RS@k (Reliability Score) 정의:
• 정답 (answerable + correct execution) → +1
• 정확한 abstain (unanswerable + 모델이 abstain) → +1
• 오답 (wrong execution OR unanswerable에 SQL 생성) → −k (페널티)
• 망설임 (answerable인데 abstain) → 0
RS@10이 EHRSQL 2024 공식 메트릭. 페널티가 +1 보상의 10배이므로, 모르는 문제에 추측 SQL을 생성하지 말고 abstain하는 것이 점수의 핵심. LG-KAIST 1위(~80)도 raw execution은 ~55-60%, abstention 정확도가 점수의 +20-25점 기여. 이 페이지의 점수는 모두 RS@10.
⚠️ 우리 ALLM.H 모델 점수 해석: 현재 표시된 우리 점수는 학습 전 zero-shot baseline입니다. Qwen2.5-Coder-32B-Instruct는 EHRSQL convention(약물명 lowercase, 비용 단가 lookup 등)과 abstention 행동을 학습한 적 없으므로 773개 wrong × −10 페널티로 RS@10 = −632가 나옵니다. 수학적으로 정확한 baseline이며 버그 아님.
📈 단계별 학습 후 예상 (RS@10):
• S0 zero-shot (현재): −632 (correct 376, wrong 773)
• S1 SFT (EHRSQL train 5,124 학습 후): ~−235 (correct ~750, wrong ~350) — convention 학습
• S2 +Abstention (LG-KAIST self-training 복제): ~+20 (correct ~750, wrong ~75) — 모르면 abstain
• S3 +Self-consistency @ 5 (Arctic-R1 기법): ~+50 (correct ~800, wrong ~40)
• S4 32B 능력 최대 활용 (목표): ~+80~85 (correct ~970, wrong ~5) — LG-KAIST T5-3B 동급/초과
왜 32B가 T5-3B(LG-KAIST 80)를 넘어야 하는가: T5-3B는 EHRSQL train + abstention 학습이 끝난 상태이고, 우리 Qwen2.5-Coder-32B는 zero-shot. 학습 조건이 동일하면 32B가 raw capability 10배 + 더 정밀한 abstention으로 LG-KAIST 80을 초과해야 합리적.
RS@k (Reliability Score) 정의:
• 정답 (answerable + correct execution) → +1
• 정확한 abstain (unanswerable + 모델이 abstain) → +1
• 오답 (wrong execution OR unanswerable에 SQL 생성) → −k (페널티)
• 망설임 (answerable인데 abstain) → 0
RS@10이 EHRSQL 2024 공식 메트릭. 페널티가 +1 보상의 10배이므로, 모르는 문제에 추측 SQL을 생성하지 말고 abstain하는 것이 점수의 핵심. LG-KAIST 1위(~80)도 raw execution은 ~55-60%, abstention 정확도가 점수의 +20-25점 기여. 이 페이지의 점수는 모두 RS@10.
⚠️ 우리 ALLM.H 모델 점수 해석: 현재 표시된 우리 점수는 학습 전 zero-shot baseline입니다. Qwen2.5-Coder-32B-Instruct는 EHRSQL convention(약물명 lowercase, 비용 단가 lookup 등)과 abstention 행동을 학습한 적 없으므로 773개 wrong × −10 페널티로 RS@10 = −632가 나옵니다. 수학적으로 정확한 baseline이며 버그 아님.
📈 단계별 학습 후 예상 (RS@10):
• S0 zero-shot (현재): −632 (correct 376, wrong 773)
• S1 SFT (EHRSQL train 5,124 학습 후): ~−235 (correct ~750, wrong ~350) — convention 학습
• S2 +Abstention (LG-KAIST self-training 복제): ~+20 (correct ~750, wrong ~75) — 모르면 abstain
• S3 +Self-consistency @ 5 (Arctic-R1 기법): ~+50 (correct ~800, wrong ~40)
• S4 32B 능력 최대 활용 (목표): ~+80~85 (correct ~970, wrong ~5) — LG-KAIST T5-3B 동급/초과
왜 32B가 T5-3B(LG-KAIST 80)를 넘어야 하는가: T5-3B는 EHRSQL train + abstention 학습이 끝난 상태이고, 우리 Qwen2.5-Coder-32B는 zero-shot. 학습 조건이 동일하면 32B가 raw capability 10배 + 더 정밀한 abstention으로 LG-KAIST 80을 초과해야 합리적.
| # | Model | Type | RS@0 (Accuracy) | RS@10 (Reliability) | Note |
|---|---|---|---|---|---|
| 1 | ALLM.H-SQL v1 (Qwen2.5-Coder-32B + BF16 LoRA) | Ours | 92.61% | 18.66% | RS@0=92.61% (1위), RS@10=18.66. BF16 LoRA SFT 17K (EHRSQL 5K + Gemma4/Qwen synth 10K + Unanswerable 2K). RS@10 abstention 보강 진행 중. AWS B200, 2026-04-09. |
| 2 | LG-KAIST (1st place EHRSQL 2024) | Proprietary | 88.17% | 81.32% | RS@0=88.17%, RS@10=81.32 (공식 1위). Self-training + pseudo-labeled unanswerable. ChatGPT fine-tuned. arXiv 2405.11162 |
| 3 | PromptMind (2nd place) | Proprietary | 82.6% | 74.89% | RS@0=82.6%, RS@10=74.89. GPT-4 + ChatGPT + Claude Opus ensemble. arXiv 2405.08839 |
| 4 | ProbGate (3rd place) | Proprietary | 81.92% | 74.21% | RS@0=81.92%, RS@10=74.21. ChatGPT fine-tuned + log-prob threshold. arXiv 2404.16659 |
| 5 | ALLM.H-SQL S0 (zero-shot baseline) | Ours | 32.33% | -632.33% | RS@0=32.33%, RS@10=-632.33. SFT 전 baseline. H100-1, 2026-04-08. |
| 6 | XiYanSQL (zero-shot) | Ours | 26.48% | -708.68% | RS@0=26.48%, RS@10=-708.68. BIRD 전이 실패. |
| - | GPT-4o | Proprietary | - | - | EHRSQL execution accuracy 45.5% (RS@10 미보고) |
| - | OmniSQL-32B + voting | Open | - | - | EHRSQL execution accuracy 46.8% (RS@10 미보고). Trained on SynSQL-2.5M synthetic. arXiv 2503.02240 |
| - | Qwen2.5-Coder-7B (zero-shot, paper) | Base | - | - | Execution accuracy zero-shot 31.4% (OmniSQL paper). 우리 32B baseline 32.33과 거의 동일 → base capability gap 작음. |
| - | Snowflake/Arctic-ExCoT-32B | Open | - | - | BIRD-dev 68.25% (Thinking, DPO+execution reward). cc-by-nc-4.0 (상업 사용 불가). research baseline only. |
| - | Snowflake/Arctic-Text2SQL-R1-32B | Open | - | - | BIRD-dev 71.83% (Thinking, GRPO+execution reward). 페이퍼만, HF 미공개. EHRSQL 미측정. |
| - | XiYanSQL-QwenCoder-32B-2412 | Open | - | - | BIRD-test 69.03% (Direct, single model SOTA). 2-stage multi-task SFT. Apache 2.0. EHRSQL은 우리가 측정 예정. |