Acryl

Benchmarks

ALLM.H 모델 패밀리와 주요 모델의 벤치마크 비교. KorMedMCQA(공식 KMLE 기출), ASP(항생제), KorMedMCQA-V(멀티모달) 평가 결과입니다.

평가 방식: Direct vs Thinking
Direct: 모델이 추론 과정 없이 즉시 정답만 출력하는 방식 (max_tokens=64, thinking off). 대부분의 벤치마크 논문에서 사용하는 표준 평가 방식입니다.
Thinking: 모델이 내부 추론 과정을 거친 후 답변하는 방식. 아래 두 가지를 모두 포함합니다:
  • CoT Prompting — 프롬프트로 추론을 유도 (예: "단계별로 생각해봐"). 사용자가 켜고 끌 수 있으며, GPT-4o 등 일반 모델에 적용합니다.
  • Built-in Thinking — 모델 학습 단계에서 추론 능력이 내장된 방식. o1, Gemini Pro, DeepSeek-R1 등 reasoning 전용 모델이 해당하며, 일부는 끌 수 없습니다.
두 방식 모두 "추론 후 답변"이라는 점에서 평가 관점에서는 동일하게 Thinking으로 분류합니다.
CoT/Thinking의 효과 요약: 모델이 작거나 문제가 어려우면 CoT가 도움되고, 모델이 크거나 문제가 단순하면 오히려 방해됩니다.
조건CoT 효과이유
소형 모델 (≤14B)↑ 효과 큼단계별 분해 없이는 복잡한 추론 불가
대형 모델 (≥70B)→ 미미 / ↓이미 내부적으로 추론 가능, CoT가 노이즈
어려운 문제 (multi-hop)↑ 효과 있음단계별 분해가 필수적
쉬운 문제 (지식 회상)↓ 역효과overthinking — 맞는 답을 바꿈
임상 텍스트 (EHR)↓ 86.3% 하락길고 파편적 텍스트에서 CoT가 혼란 유발
관련 논문 보기
ALLM.H (Ours)
ALLM.H Previous
Open Weights
Proprietary
Base Model
KorMedMCQA-435 (435)
KorMedMCQA-2489 (2489)
KorMedMCQA-V (1534)
ASP (165)
EHRSQL 2024 (1163)
KorMedMCQA Doctor 카테고리의 test split (2022-2024 KMLE 공식 기출 435문항)을 그대로 사용합니다. 모델의 빠른 성능 확인을 위한 경량 벤치마크로 활용합니다.
↗ HuggingFace Dataset ↗ Paper (arXiv)
# Model Type Direct Thinking Note
1 ALLM.H-Bv4-Gemma4-31B (Acryl) ★ SOTA Ours 94.71% 96.78% SC k=3 T=0.7 max_new=8192 + Thinking. Greedy(Direct) 94.71%. SimPO Bv4-gamma. 2026-04-13 확정. KorMedMCQA Doctor Test 전체 1위 (상용 모델 포함).
2 Claude Opus 4 Proprietary 93.33% 96.55% Anthropic (Mac Pro)
3 Gemma4-31B-IT (Base) Base 91.95% 93.79% Direct 91.95% + Thinking 93.79% (408/435). H100-2, BF16, 2026-04-08. ASP Thinking 93.94%.
4 ALLM.H-Gemma4-31B v1 (Acryl) Ours Prev 91.49% 90.8% Base: Gemma4-31B-IT QLoRA SFT v5 + scale 0.3 soft-merge (α=10).
5 Gemma4-31B-IT QLoRA 4bit (Base) Base 91.26% - Direct (H100-2, QLoRA 4-bit NF4)
6 Gemini 2.5 Pro Proprietary 90.8% 90.8% Google, Thinking (built-in)
7 GPT-5.1 Proprietary 90.11% - OpenAI, Direct (API)
8 HARI-Q2.5-Thinking (SNUH) Open 89.2% 89.2% Qwen2.5-72B 기반, 73B, 5-shot CoT. 오픈소스 기존 최고 (ALLM.H 이전)
9 Gemini 2.5 Flash Proprietary 88.51% - Google, Direct (API)
10 Qwen3-235B-A22B (Base) Base 88.28% 88.28% Thinking (H200, SGLang FP8 TP=4)
11 Qwen3.5-122B-A10B (Base) Base 87.13% - Direct, BF16 8GPU device_map=auto (H100-3, 2026-04-07). Thinking 측정 중
12 GPT-4o Proprietary 86.44% - OpenAI, Direct (API)
13 ALLM.H-27B (Acryl) Ours Prev 85.75% 85.75% Base: Qwen3.5-27B, SFT+DPO+GRPO (Fleming v2), Thinking (H100-1)
14 HARI-Q2.5 (SNUH) Open 84.6% - Qwen2.5-72B 기반, 73B, Direct
15 HARI-Q3-14B (SNUH) Open 84.14% 84.14% Qwen3-14B 기반, 15B, Reasoning
15 Qwen3.5-27B dense (Base) Base 84.14% - Direct, 4bit generation (H100-2, 2026-04-07). ASP 94.55%. 이전 logit probing 76.09%는 CoT 모델에 부적합하여 기각
17 HARI-Q3-8B (SNUH) Open 76.78% - Qwen3-8B 기반, 8B, Direct
18 Gemma4-31B PT (Base, pre-trained only) Base 76.32% - Pre-trained only (no IT), 4bit, raw continuation prompting (H100-2, 2026-04-07). PT vs IT: IT가 +15.6%p 기여
19 Gemma4-27B-IT (Base, Gemma3) Base 74.94% - Gemma3-27B-IT Direct (Mac Pro). Gemma4-31B과 다른 세대
- Claude Sonnet 4 Proprietary - - Anthropic, 평가 중 (rate limit)
- Claude Sonnet 4.5 Proprietary - - Anthropic, 평가 중 (rate limit)
KorMedMCQA Doctor 전체 (train+dev+test, 2012-2024 KMLE 공식 기출 2,489문항). 한국보건의료인국가시험원 공식 기출문제 기반의 표준 벤치마크로, HARI 등 주요 한국어 의료 모델이 이 데이터셋으로 평가합니다.
↗ HuggingFace Dataset ↗ Paper (arXiv)
# Model Type Direct Thinking Note
1 K-Med.ai (Naver+SNUH) Proprietary 96.4% - HyperCLOVA X, 비공개 (기사 보고, 평가셋 미확인)
2 o1-preview (OpenAI) Proprietary 92.72% - 논문 보고 (KorMedMCQA paper)
3 Qwen2.5-72B (Base) Base 78.86% - 논문 보고, 오픈소스 1위 (KorMedMCQA paper)
- ALLM.H-235B (Acryl) Ours - - 전체 2,489문항 평가 예정
- ALLM.H-31B (Acryl) Ours - - 전체 2,489문항 평가 예정
- Claude Sonnet 4.5 Proprietary - - 직접 평가 예정
- GPT-5.1 Proprietary - - 직접 평가 예정
- Gemini 2.5 Flash Proprietary - - 직접 평가 예정
KorMedMCQA의 멀티모달 확장 버전 (1,534문항 + 2,043 의료 이미지). 2012-2023 KMLE 공식 기출 중 이미지(X-ray, CT, 병리, 심전도 등)가 포함된 문항만 추출하여 구성된 Vision-Language 벤치마크입니다. 약 30%가 다중 이미지 추론을 필요로 합니다.
↗ HuggingFace Dataset ↗ Paper (arXiv)
# Model Type Direct Thinking Note
1 Gemini 3.0 Flash Proprietary 96.9% - 논문 보고, Google
1 Gemini 3.0 Pro Proprietary 96.9% - 논문 보고, Google
3 GPT-5 Proprietary 93.9% - 논문 보고, OpenAI
4 GPT-5-mini Proprietary 90.1% - 논문 보고, OpenAI
5 Qwen3-VL-32B-Thinking Open 83.7% - 논문 보고, 오픈소스 1위
6 GLM-4.6V Open 78.7% - 논문 보고
- ALLM.H-235B (Acryl) Ours - - 멀티모달 SFT 후 평가 예정
- ALLM.H-31B (Acryl) Ours - - 멀티모달 SFT 후 평가 예정
- Gemma4-31B-IT (Base) Base - - 네이티브 멀티모달, 평가 예정
항생제 적정사용 프로그램(ASP) 평가 벤치마크 (165문항). 경북대병원 ARPA-H 사업에서 활용할 파운데이션 모델의 항생제 적정사용 역량을 평가하기 위해 구성된 벤치마크셋입니다. 좁은 도메인을 다루어 대부분의 모델이 90%+ 성능을 보이며, 모델 간 변별력은 KorMedMCQA가 더 높습니다.
# Model Type Direct Thinking Note
1 GPT-5.1 Proprietary 98.18% - OpenAI, Direct (API)
2 GPT-4o Proprietary 96.36% - OpenAI, Direct (Mac Pro)
3 ALLM.H-27B (Acryl) Ours Prev 95.76% - SFT+DPO+GRPO (Fleming v2), Thinking (H100-1)
3 Gemini 2.5 Flash Proprietary 95.76% - Google, Direct (API, thinking off)
3 Gemma4-31B-IT QLoRA (Base) Base 95.76% - Direct (H100-2, QLoRA 4-bit NF4)
6 Gemma4-31B-IT (Base) Base 94.55% - Thinking (Mac Pro, Ollama)
6 Qwen3.5-27B (Base) Base 94.55% - Thinking (Mac Pro, Ollama)
8 Claude Opus 4 Proprietary 93.94% - Anthropic, Direct=Thinking 동일 93.94% (Mac Pro)
9 ALLM.H-235B (Acryl) Ours 93.33% - Base: Qwen3-235B-A22B, SFT ckpt-5000, Thinking (H200, SGLang FP8)
10 Gemini 2.5 Pro Proprietary 93.13% - Google, Thinking (160/165 기준)
11 Claude Sonnet 4 Proprietary 92.73% - Anthropic, Direct (API)
12 Qwen3-235B-A22B (Base) Base 91.52% - Thinking (H200, SGLang FP8 TP=4)
13 Gemma4-27B-IT (Base) Base 90.3% - Thinking (Mac Pro, Ollama)
- ALLM.H-31B (Acryl) Ours - - Base: Gemma4-31B-IT, QLoRA SFT 학습 중 (H100-2)
- Claude Sonnet 4.5 Proprietary - - Anthropic, 평가 중
EHRSQL-2024 valid set (MIMIC-IV 17 tables, 1,163 questions, 232 unanswerable ~20%).

RS@k (Reliability Score) 정의:
• 정답 (answerable + correct execution) → +1
• 정확한 abstain (unanswerable + 모델이 abstain) → +1
• 오답 (wrong execution OR unanswerable에 SQL 생성) → −k (페널티)
• 망설임 (answerable인데 abstain) → 0

RS@10이 EHRSQL 2024 공식 메트릭. 페널티가 +1 보상의 10배이므로, 모르는 문제에 추측 SQL을 생성하지 말고 abstain하는 것이 점수의 핵심. LG-KAIST 1위(~80)도 raw execution은 ~55-60%, abstention 정확도가 점수의 +20-25점 기여. 이 페이지의 점수는 모두 RS@10.

⚠️ 우리 ALLM.H 모델 점수 해석: 현재 표시된 우리 점수는 학습 전 zero-shot baseline입니다. Qwen2.5-Coder-32B-Instruct는 EHRSQL convention(약물명 lowercase, 비용 단가 lookup 등)과 abstention 행동을 학습한 적 없으므로 773개 wrong × −10 페널티로 RS@10 = −632가 나옵니다. 수학적으로 정확한 baseline이며 버그 아님.

📈 단계별 학습 후 예상 (RS@10):
S0 zero-shot (현재): −632 (correct 376, wrong 773)
S1 SFT (EHRSQL train 5,124 학습 후): ~−235 (correct ~750, wrong ~350) — convention 학습
S2 +Abstention (LG-KAIST self-training 복제): ~+20 (correct ~750, wrong ~75) — 모르면 abstain
S3 +Self-consistency @ 5 (Arctic-R1 기법): ~+50 (correct ~800, wrong ~40)
S4 32B 능력 최대 활용 (목표): ~+80~85 (correct ~970, wrong ~5) — LG-KAIST T5-3B 동급/초과

왜 32B가 T5-3B(LG-KAIST 80)를 넘어야 하는가: T5-3B는 EHRSQL train + abstention 학습이 끝난 상태이고, 우리 Qwen2.5-Coder-32B는 zero-shot. 학습 조건이 동일하면 32B가 raw capability 10배 + 더 정밀한 abstention으로 LG-KAIST 80을 초과해야 합리적.
↗ EHRSQL Paper (arXiv) ↗ EHRSQL 2024 GitHub ↗ Shared Task Paper ↗ LG-KAIST 1st Paper
# Model Type RS@0 (Accuracy) RS@10 (Reliability) Note
1 ALLM.H-SQL v1 (Qwen2.5-Coder-32B + BF16 LoRA) Ours 92.61% 18.66% RS@0=92.61% (1위), RS@10=18.66. BF16 LoRA SFT 17K (EHRSQL 5K + Gemma4/Qwen synth 10K + Unanswerable 2K). RS@10 abstention 보강 진행 중. AWS B200, 2026-04-09.
2 LG-KAIST (1st place EHRSQL 2024) Proprietary 88.17% 81.32% RS@0=88.17%, RS@10=81.32 (공식 1위). Self-training + pseudo-labeled unanswerable. ChatGPT fine-tuned. arXiv 2405.11162
3 PromptMind (2nd place) Proprietary 82.6% 74.89% RS@0=82.6%, RS@10=74.89. GPT-4 + ChatGPT + Claude Opus ensemble. arXiv 2405.08839
4 ProbGate (3rd place) Proprietary 81.92% 74.21% RS@0=81.92%, RS@10=74.21. ChatGPT fine-tuned + log-prob threshold. arXiv 2404.16659
5 ALLM.H-SQL S0 (zero-shot baseline) Ours 32.33% -632.33% RS@0=32.33%, RS@10=-632.33. SFT 전 baseline. H100-1, 2026-04-08.
6 XiYanSQL (zero-shot) Ours 26.48% -708.68% RS@0=26.48%, RS@10=-708.68. BIRD 전이 실패.
- GPT-4o Proprietary - - EHRSQL execution accuracy 45.5% (RS@10 미보고)
- OmniSQL-32B + voting Open - - EHRSQL execution accuracy 46.8% (RS@10 미보고). Trained on SynSQL-2.5M synthetic. arXiv 2503.02240
- Qwen2.5-Coder-7B (zero-shot, paper) Base - - Execution accuracy zero-shot 31.4% (OmniSQL paper). 우리 32B baseline 32.33과 거의 동일 → base capability gap 작음.
- Snowflake/Arctic-ExCoT-32B Open - - BIRD-dev 68.25% (Thinking, DPO+execution reward). cc-by-nc-4.0 (상업 사용 불가). research baseline only.
- Snowflake/Arctic-Text2SQL-R1-32B Open - - BIRD-dev 71.83% (Thinking, GRPO+execution reward). 페이퍼만, HF 미공개. EHRSQL 미측정.
- XiYanSQL-QwenCoder-32B-2412 Open - - BIRD-test 69.03% (Direct, single model SOTA). 2-stage multi-task SFT. Apache 2.0. EHRSQL은 우리가 측정 예정.