31B · Gemma4-31B-IT (Vision)
ALLM.H-V
Multimodal Medical Foundation Model
ALLM.H의 멀티모달 확장. 의료 영상(X-ray, CT, MRI, 병리 슬라이드, 해부도)을 이해하고 텍스트와 함께 추론하는 멀티모달 의료 AI. Vision encoder frozen + LLM 학습.
Model Card
Base Model
Gemma4-31B-IT (Vision)
Parameters
31B
License
Gemma License + Acryl Research License
Languages
Korean, English
Modalities
Text, Image
Hardware
Multi-GPU cluster
Training Pipeline
Base Model
Gemma4-31B-IT (Multimodal)
Medical Visual Alignment
Vision encoder frozen + LLM LoRA
Preference Optimization
Medical image QA SimPO training
What Makes This Different
| 기존 연구 | 우리 차별점 |
|---|---|
| MedGemma (Google) | 한국어 의료 영상 이해 + KMLE SOTA 기반 |
| 텍스트 전용 의료 LLM | 의료 영상 분석 + 텍스트 추론 통합 |
Paper Contributions
- ALLM.H SOTA 기반 멀티모달 확장 — forgetting 없이 이미지 이해 추가
- 41,851건 의료 이미지-텍스트 쌍으로 SimPO 학습
Benchmarks
| Benchmark | Score | Baseline / SOTA | Metric |
|---|
Training Data
- METHODProprietary multimodal training pipeline (41,851 image-text pairs)
Quick Start
# pip install transformers torch from transformers import AutoModelForCausalLM, AutoTokenizer model = AutoModelForCausalLM.from_pretrained("Acryl-aLLM/ALLM.H-V") tokenizer = AutoTokenizer.from_pretrained("Acryl-aLLM/ALLM.H-V") messages = [ {"role": "user", "content": "65세 남성, 갑작스런 흉통과 호흡곤란. 감별 진단은?"} ] text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True) inputs = tokenizer(text, return_tensors="pt").to(model.device) output = model.generate(**inputs, max_new_tokens=1024) print(tokenizer.decode(output[0], skip_special_tokens=True))