9B · Qwen3.5-9B

ALLM.H-URO

Urology Specialist Model

비뇨의학과 특화 9B 경량 모델. KMLE 비뇨기과 94.7%, LUTS 감별진단에서 GPT-5.1 능가.

HuggingFace Playground

Model Card

Base Model

Qwen3.5-9B

Parameters

License

Qwen License + Acryl Research License

Languages

Korean, English

Modalities

Text

Hardware

Multi-GPU cluster

Training Pipeline

Base Model

Qwen3.5-9B

Stage 1: General Medical Fine-tuning

General medical reasoning foundation

Stage 2: Urology Specialist Fine-tuning

Urology-specific knowledge internalization

What Makes This Different

기존 연구	우리 차별점
GPT-4o (90.5%)	KMLE 비뇨기과 94.7% (9B 경량 모델로 달성)
GPT-5.1 (LUTS BOO 47.4%)	BOO 50.5%, DUA 59.7% — 하부요로증상 감별 우수
대형 모델 의존 (70B+)	9B 경량 모델로 임상 환경 실배포 가능

Paper Contributions

9B 경량 모델로 GPT-4o급 비뇨기과 성능 달성
하부요로증상 감별진단에서 GPT-5.1 능가 (BOO, DUA 카테고리)

Benchmarks

Benchmark	Score	Baseline / SOTA	Metric
KMLE 비뇨기과 (190문항, Thinking)	94.7%	GPT-4o 90.5%	Accuracy
LUTS BOO 감별진단	50.5%	GPT-5.1 47.4%	Accuracy
LUTS DUA 감별진단	59.7%	GPT-5.1 46.9%	Accuracy

Training Data

METHODMulti-stage fine-tuning pipeline

Quick Start

# pip install transformers torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("Acryl-aLLM/ALLM.H-URO")
tokenizer = AutoTokenizer.from_pretrained("Acryl-aLLM/ALLM.H-URO")

messages = [
    {"role": "user", "content": "65세 남성, 갑작스런 흉통과 호흡곤란. 감별 진단은?"}
]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(text, return_tensors="pt").to(model.device)
output = model.generate(**inputs, max_new_tokens=1024)
print(tokenizer.decode(output[0], skip_special_tokens=True))