Benchmarks

ALLM.H 모델 패밀리와 주요 모델의 벤치마크 비교. KorMedMCQA(공식 KMLE 기출), ASP(항생제), KorMedMCQA-V(멀티모달) 평가 결과입니다.

평가 방식: Direct vs Thinking

Direct: 모델이 추론 과정 없이 즉시 정답만 출력하는 방식 (max_tokens=64, thinking off). 대부분의 벤치마크 논문에서 사용하는 표준 평가 방식입니다.
Thinking: 모델이 내부 추론 과정을 거친 후 답변하는 방식. 아래 두 가지를 모두 포함합니다:

CoT Prompting — 프롬프트로 추론을 유도 (예: "단계별로 생각해봐"). 사용자가 켜고 끌 수 있으며, GPT-4o 등 일반 모델에 적용합니다.
Built-in Thinking — 모델 학습 단계에서 추론 능력이 내장된 방식. o1, Gemini Pro, DeepSeek-R1 등 reasoning 전용 모델이 해당하며, 일부는 끌 수 없습니다.

두 방식 모두 "추론 후 답변"이라는 점에서 평가 관점에서는 동일하게 Thinking으로 분류합니다.

CoT/Thinking의 효과 요약: 모델이 작거나 문제가 어려우면 CoT가 도움되고, 모델이 크거나 문제가 단순하면 오히려 방해됩니다.

조건	CoT 효과	이유
소형 모델 (≤14B)	↑ 효과 큼	단계별 분해 없이는 복잡한 추론 불가
대형 모델 (≥70B)	→ 미미 / ↓	이미 내부적으로 추론 가능, CoT가 노이즈
어려운 문제 (multi-hop)	↑ 효과 있음	단계별 분해가 필수적
쉬운 문제 (지식 회상)	↓ 역효과	overthinking — 맞는 답을 바꿈
임상 텍스트 (EHR)	↓ 86.3% 하락	길고 파편적 텍스트에서 CoT가 혼란 유발

관련 논문 보기

▲ 효과 있는 경우:
KorMedMCQA 평가에서 CoT 적용 시 Direct 대비 최대 4.5% 성능 향상 (59개 LLM 평가) — KorMedMCQA Paper (arXiv, 2024)
o1 reasoning 모델이 USMLE 사회적 기술 평가에서 97.5%로 1위 — Reasoning-based LLMs surpass human performance (Nature Sci Reports, 2025)
의료 교과서에서 추출한 CoT로 소형 모델(7B) 성능 22.3% 향상 — Small LMs learn enhanced reasoning from medical textbooks (npj Digital Medicine, 2025)
▼ 효과 없거나 역효과:
의료 MCQ에서 CoT prompting 방식에 따라 효과가 상이하며, 일부 방식은 오히려 성능 저하 — Comparative evaluation of CoT for medical QA (Computers in Biology and Medicine, 2025)
6개 태스크 중 3개에서 CoT 적용 시 최대 36.3% 정확도 하락 (o1-preview vs GPT-4o) — Mind Your Step (by Step): CoT can Reduce Performance (NeurIPS 2024)
최신 모델에서 CoT의 가치가 감소 추세: 20~80% 시간 증가 대비 정확도 개선은 미미 — The Decreasing Value of Chain of Thought in Prompting (Wharton GAIL, 2025)
95개 LLM × 87개 임상 태스크 평가에서 86.3%의 모델이 CoT로 성능 하락 — Why Chain of Thought Fails in Clinical Text Understanding (arXiv, 2025)

ALLM.H (Ours)

ALLM.H Previous

Open Weights

Proprietary

Base Model

KorMedMCQA-435 (435)

KorMedMCQA-2489 (2489)

KorMedMCQA-V (1534)

ASP (165)

EHRSQL 2024 (1163)

KorMedMCQA Doctor 카테고리의 test split (2022-2024 KMLE 공식 기출 435문항)을 그대로 사용합니다. 모델의 빠른 성능 확인을 위한 경량 벤치마크로 활용합니다.

↗ HuggingFace Dataset ↗ Paper (arXiv)

#	Model	Type	Direct	Thinking	Note
1	ALLM.H-Bv4-Gemma4-31B (Acryl) ★ SOTA	Ours	94.71%	96.78%	SC k=3 T=0.7 max_new=8192 + Thinking. Greedy(Direct) 94.71%. SimPO Bv4-gamma. 2026-04-13 확정. KorMedMCQA Doctor Test 전체 1위 (상용 모델 포함).
2	Claude Opus 4	Proprietary	93.33%	96.55%	Anthropic (Mac Pro)
3	Gemma4-31B-IT (Base)	Base	91.95%	93.79%	Direct 91.95% + Thinking 93.79% (408/435). H100-2, BF16, 2026-04-08. ASP Thinking 93.94%.
4	ALLM.H-Gemma4-31B v1 (Acryl)	Ours Prev	91.49%	90.8%	Base: Gemma4-31B-IT QLoRA SFT v5 + scale 0.3 soft-merge (α=10).
5	Gemma4-31B-IT QLoRA 4bit (Base)	Base	91.26%	-	Direct (H100-2, QLoRA 4-bit NF4)
6	Gemini 2.5 Pro	Proprietary	90.8%	90.8%	Google, Thinking (built-in)
7	GPT-5.1	Proprietary	90.11%	-	OpenAI, Direct (API)
8	HARI-Q2.5-Thinking (SNUH)	Open	89.2%	89.2%	Qwen2.5-72B 기반, 73B, 5-shot CoT. 오픈소스 기존 최고 (ALLM.H 이전)
9	Gemini 2.5 Flash	Proprietary	88.51%	-	Google, Direct (API)
10	Qwen3-235B-A22B (Base)	Base	88.28%	88.28%	Thinking (H200, SGLang FP8 TP=4)
11	Qwen3.5-122B-A10B (Base)	Base	87.13%	-	Direct, BF16 8GPU device_map=auto (H100-3, 2026-04-07). Thinking 측정 중
12	GPT-4o	Proprietary	86.44%	-	OpenAI, Direct (API)
13	ALLM.H-27B (Acryl)	Ours Prev	85.75%	85.75%	Base: Qwen3.5-27B, SFT+DPO+GRPO (Fleming v2), Thinking (H100-1)
14	HARI-Q2.5 (SNUH)	Open	84.6%	-	Qwen2.5-72B 기반, 73B, Direct
15	HARI-Q3-14B (SNUH)	Open	84.14%	84.14%	Qwen3-14B 기반, 15B, Reasoning
15	Qwen3.5-27B dense (Base)	Base	84.14%	-	Direct, 4bit generation (H100-2, 2026-04-07). ASP 94.55%. 이전 logit probing 76.09%는 CoT 모델에 부적합하여 기각
17	HARI-Q3-8B (SNUH)	Open	76.78%	-	Qwen3-8B 기반, 8B, Direct
18	Gemma4-31B PT (Base, pre-trained only)	Base	76.32%	-	Pre-trained only (no IT), 4bit, raw continuation prompting (H100-2, 2026-04-07). PT vs IT: IT가 +15.6%p 기여
19	Gemma4-27B-IT (Base, Gemma3)	Base	74.94%	-	Gemma3-27B-IT Direct (Mac Pro). Gemma4-31B과 다른 세대
-	Claude Sonnet 4	Proprietary	-	-	Anthropic, 평가 중 (rate limit)
-	Claude Sonnet 4.5	Proprietary	-	-	Anthropic, 평가 중 (rate limit)

KorMedMCQA Doctor 전체 (train+dev+test, 2012-2024 KMLE 공식 기출 2,489문항). 한국보건의료인국가시험원 공식 기출문제 기반의 표준 벤치마크로, HARI 등 주요 한국어 의료 모델이 이 데이터셋으로 평가합니다.

↗ HuggingFace Dataset ↗ Paper (arXiv)

#	Model	Type	Direct	Thinking	Note
1	K-Med.ai (Naver+SNUH)	Proprietary	96.4%	-	HyperCLOVA X, 비공개 (기사 보고, 평가셋 미확인)
2	o1-preview (OpenAI)	Proprietary	92.72%	-	논문 보고 (KorMedMCQA paper)
3	Qwen2.5-72B (Base)	Base	78.86%	-	논문 보고, 오픈소스 1위 (KorMedMCQA paper)
-	ALLM.H-235B (Acryl)	Ours	-	-	전체 2,489문항 평가 예정
-	ALLM.H-31B (Acryl)	Ours	-	-	전체 2,489문항 평가 예정
-	Claude Sonnet 4.5	Proprietary	-	-	직접 평가 예정
-	GPT-5.1	Proprietary	-	-	직접 평가 예정
-	Gemini 2.5 Flash	Proprietary	-	-	직접 평가 예정

KorMedMCQA의 멀티모달 확장 버전 (1,534문항 + 2,043 의료 이미지). 2012-2023 KMLE 공식 기출 중 이미지(X-ray, CT, 병리, 심전도 등)가 포함된 문항만 추출하여 구성된 Vision-Language 벤치마크입니다. 약 30%가 다중 이미지 추론을 필요로 합니다.

↗ HuggingFace Dataset ↗ Paper (arXiv)

#	Model	Type	Direct	Thinking	Note
1	Gemini 3.0 Flash	Proprietary	96.9%	-	논문 보고, Google
1	Gemini 3.0 Pro	Proprietary	96.9%	-	논문 보고, Google
3	GPT-5	Proprietary	93.9%	-	논문 보고, OpenAI
4	GPT-5-mini	Proprietary	90.1%	-	논문 보고, OpenAI
5	Qwen3-VL-32B-Thinking	Open	83.7%	-	논문 보고, 오픈소스 1위
6	GLM-4.6V	Open	78.7%	-	논문 보고
-	ALLM.H-235B (Acryl)	Ours	-	-	멀티모달 SFT 후 평가 예정
-	ALLM.H-31B (Acryl)	Ours	-	-	멀티모달 SFT 후 평가 예정
-	Gemma4-31B-IT (Base)	Base	-	-	네이티브 멀티모달, 평가 예정

항생제 적정사용 프로그램(ASP) 평가 벤치마크 (165문항). 경북대병원 ARPA-H 사업에서 활용할 파운데이션 모델의 항생제 적정사용 역량을 평가하기 위해 구성된 벤치마크셋입니다. 좁은 도메인을 다루어 대부분의 모델이 90%+ 성능을 보이며, 모델 간 변별력은 KorMedMCQA가 더 높습니다.

#	Model	Type	Direct	Thinking	Note
1	GPT-5.1	Proprietary	98.18%	-	OpenAI, Direct (API)
2	GPT-4o	Proprietary	96.36%	-	OpenAI, Direct (Mac Pro)
3	ALLM.H-27B (Acryl)	Ours Prev	95.76%	-	SFT+DPO+GRPO (Fleming v2), Thinking (H100-1)
3	Gemini 2.5 Flash	Proprietary	95.76%	-	Google, Direct (API, thinking off)
3	Gemma4-31B-IT QLoRA (Base)	Base	95.76%	-	Direct (H100-2, QLoRA 4-bit NF4)
6	Gemma4-31B-IT (Base)	Base	94.55%	-	Thinking (Mac Pro, Ollama)
6	Qwen3.5-27B (Base)	Base	94.55%	-	Thinking (Mac Pro, Ollama)
8	Claude Opus 4	Proprietary	93.94%	-	Anthropic, Direct=Thinking 동일 93.94% (Mac Pro)
9	ALLM.H-235B (Acryl)	Ours	93.33%	-	Base: Qwen3-235B-A22B, SFT ckpt-5000, Thinking (H200, SGLang FP8)
10	Gemini 2.5 Pro	Proprietary	93.13%	-	Google, Thinking (160/165 기준)
11	Claude Sonnet 4	Proprietary	92.73%	-	Anthropic, Direct (API)
12	Qwen3-235B-A22B (Base)	Base	91.52%	-	Thinking (H200, SGLang FP8 TP=4)
13	Gemma4-27B-IT (Base)	Base	90.3%	-	Thinking (Mac Pro, Ollama)
-	ALLM.H-31B (Acryl)	Ours	-	-	Base: Gemma4-31B-IT, QLoRA SFT 학습 중 (H100-2)
-	Claude Sonnet 4.5	Proprietary	-	-	Anthropic, 평가 중

EHRSQL-2024 valid set (MIMIC-IV 17 tables, 1,163 questions, 232 unanswerable ~20%).

RS@k (Reliability Score) 정의:
• 정답 (answerable + correct execution) → +1
• 정확한 abstain (unanswerable + 모델이 abstain) → +1
• 오답 (wrong execution OR unanswerable에 SQL 생성) → −k (페널티)
• 망설임 (answerable인데 abstain) → 0

RS@10이 EHRSQL 2024 공식 메트릭. 페널티가 +1 보상의 10배이므로, 모르는 문제에 추측 SQL을 생성하지 말고 abstain하는 것이 점수의 핵심. LG-KAIST 1위(~80)도 raw execution은 ~55-60%, abstention 정확도가 점수의 +20-25점 기여. 이 페이지의 점수는 모두 RS@10.

⚠️ 우리 ALLM.H 모델 점수 해석: 현재 표시된 우리 점수는 학습 전 zero-shot baseline입니다. Qwen2.5-Coder-32B-Instruct는 EHRSQL convention(약물명 lowercase, 비용 단가 lookup 등)과 abstention 행동을 학습한 적 없으므로 773개 wrong × −10 페널티로 RS@10 = −632가 나옵니다. 수학적으로 정확한 baseline이며 버그 아님.

📈 단계별 학습 후 예상 (RS@10):
• S0 zero-shot (현재): −632 (correct 376, wrong 773)
• S1 SFT (EHRSQL train 5,124 학습 후): ~−235 (correct ~750, wrong ~350) — convention 학습
• S2 +Abstention (LG-KAIST self-training 복제): ~+20 (correct ~750, wrong ~75) — 모르면 abstain
• S3 +Self-consistency @ 5 (Arctic-R1 기법): ~+50 (correct ~800, wrong ~40)
• S4 32B 능력 최대 활용 (목표): ~+80~85 (correct ~970, wrong ~5) — LG-KAIST T5-3B 동급/초과

왜 32B가 T5-3B(LG-KAIST 80)를 넘어야 하는가: T5-3B는 EHRSQL train + abstention 학습이 끝난 상태이고, 우리 Qwen2.5-Coder-32B는 zero-shot. 학습 조건이 동일하면 32B가 raw capability 10배 + 더 정밀한 abstention으로 LG-KAIST 80을 초과해야 합리적.

↗ EHRSQL Paper (arXiv) ↗ EHRSQL 2024 GitHub ↗ Shared Task Paper ↗ LG-KAIST 1st Paper

#	Model	Type	RS@0 (Accuracy)	RS@10 (Reliability)	Note
1	ALLM.H-SQL v1 (Qwen2.5-Coder-32B + BF16 LoRA)	Ours	92.61%	18.66%	RS@0=92.61% (1위), RS@10=18.66. BF16 LoRA SFT 17K (EHRSQL 5K + Gemma4/Qwen synth 10K + Unanswerable 2K). RS@10 abstention 보강 진행 중. AWS B200, 2026-04-09.
2	LG-KAIST (1st place EHRSQL 2024)	Proprietary	88.17%	81.32%	RS@0=88.17%, RS@10=81.32 (공식 1위). Self-training + pseudo-labeled unanswerable. ChatGPT fine-tuned. arXiv 2405.11162
3	PromptMind (2nd place)	Proprietary	82.6%	74.89%	RS@0=82.6%, RS@10=74.89. GPT-4 + ChatGPT + Claude Opus ensemble. arXiv 2405.08839
4	ProbGate (3rd place)	Proprietary	81.92%	74.21%	RS@0=81.92%, RS@10=74.21. ChatGPT fine-tuned + log-prob threshold. arXiv 2404.16659
5	ALLM.H-SQL S0 (zero-shot baseline)	Ours	32.33%	-632.33%	RS@0=32.33%, RS@10=-632.33. SFT 전 baseline. H100-1, 2026-04-08.
6	XiYanSQL (zero-shot)	Ours	26.48%	-708.68%	RS@0=26.48%, RS@10=-708.68. BIRD 전이 실패.
-	GPT-4o	Proprietary	-	-	EHRSQL execution accuracy 45.5% (RS@10 미보고)
-	OmniSQL-32B + voting	Open	-	-	EHRSQL execution accuracy 46.8% (RS@10 미보고). Trained on SynSQL-2.5M synthetic. arXiv 2503.02240
-	Qwen2.5-Coder-7B (zero-shot, paper)	Base	-	-	Execution accuracy zero-shot 31.4% (OmniSQL paper). 우리 32B baseline 32.33과 거의 동일 → base capability gap 작음.
-	Snowflake/Arctic-ExCoT-32B	Open	-	-	BIRD-dev 68.25% (Thinking, DPO+execution reward). cc-by-nc-4.0 (상업 사용 불가). research baseline only.
-	Snowflake/Arctic-Text2SQL-R1-32B	Open	-	-	BIRD-dev 71.83% (Thinking, GRPO+execution reward). 페이퍼만, HF 미공개. EHRSQL 미측정.
-	XiYanSQL-QwenCoder-32B-2412	Open	-	-	BIRD-test 69.03% (Direct, single model SOTA). 2-stage multi-task SFT. Apache 2.0. EHRSQL은 우리가 측정 예정.