9B · Qwen3.5-9B

ALLM.H-URO

Urology Specialist Model
비뇨의학과 특화 9B 경량 모델. KMLE 비뇨기과 94.7%(Thinking), LUTS 감별진단 BOO/DUA에서 GPT-5.1 능가. Qwen3.5-9B 기반 다단계 학습(General Medical SFT + Urology Specialist SFT + CoT Internalization).
Model Card
Base Model
Qwen3.5-9B
Parameters
9B
License
Qwen License (weights only)
Languages
Korean, English
Modalities
Text
Hardware
2× DGX Spark GB10 120GB
Training Pipeline
Base Model
Qwen3.5-9B
Stage 1: General Medical SFT
54,738 samples — KMLE 전 영역 CoT 데이터로 일반 의료 추론 기반 확립
Stage 2: Urology Specialist SFT
26,507 samples — 비뇨기과 교과서/가이드라인 + Self-distillation + CoT Internalization
What Makes This Different
기존 연구우리 차별점
GPT-4o (90.5%)KMLE 비뇨기과 94.7% (9B 경량 모델로 달성)
GPT-5.1 (LUTS BOO 47.4%)BOO 50.5%, DUA 59.7% — 하부요로증상 감별 우수
대형 모델 의존 (70B+)9B 경량 모델로 임상 환경 실배포 가능
단순 도메인 파인튜닝CoT Internalization으로 Non-thinking에서도 깊은 추론
Paper Contributions
  • 9B 경량 모델로 GPT-4o급 비뇨기과 성능 달성
  • 다단계 학습 + Self-distillation으로 catastrophic forgetting 방지
  • CoT Internalization 기법으로 Non-thinking 모드에서도 전문 추론
  • 하부요로증상 감별진단에서 GPT-5.1 능가 (BOO, DUA 카테고리)
Benchmarks
BenchmarkScoreBaseline / SOTAMetric
KMLE 비뇨기과 (190문항, Thinking)94.7%GPT-4o 90.5%Accuracy
LUTS BOO 감별진단50.5%GPT-5.1 47.4%Accuracy
LUTS DUA 감별진단59.7%GPT-5.1 46.9%Accuracy
Training Data
Quick Start
# pip install transformers torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("acryl-ai/ALLM.H-URO")
tokenizer = AutoTokenizer.from_pretrained("acryl-ai/ALLM.H-URO")

messages = [
    {"role": "user", "content": "65세 남성, 갑작스런 흉통과 호흡곤란. 감별 진단은?"}
]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(text, return_tensors="pt").to(model.device)
output = model.generate(**inputs, max_new_tokens=1024)
print(tokenizer.decode(output[0], skip_special_tokens=True))