31B · Gemma4-31B-IT (Vision)

ALLM.H-V

Multimodal Medical Foundation Model
ALLM.H의 멀티모달 확장. 의료 영상(X-ray, CT, MRI, 병리 슬라이드, 해부도)을 이해하고 텍스트와 함께 추론하는 멀티모달 의료 AI. Vision encoder frozen + LLM 학습.
Model Card
Base Model
Gemma4-31B-IT (Vision)
Parameters
31B
License
Gemma License + Acryl Research License
Languages
Korean, English
Modalities
Text, Image
Hardware
Multi-GPU cluster
Training Pipeline
Base Model
Gemma4-31B-IT (Multimodal)
Medical Visual Alignment
Vision encoder frozen + LLM LoRA
Preference Optimization
Medical image QA SimPO training
What Makes This Different
기존 연구우리 차별점
MedGemma (Google)한국어 의료 영상 이해 + KMLE SOTA 기반
텍스트 전용 의료 LLM의료 영상 분석 + 텍스트 추론 통합
Paper Contributions
  • ALLM.H SOTA 기반 멀티모달 확장 — forgetting 없이 이미지 이해 추가
  • 41,851건 의료 이미지-텍스트 쌍으로 SimPO 학습
Benchmarks
BenchmarkScoreBaseline / SOTAMetric
Training Data
Quick Start
# pip install transformers torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("Acryl-aLLM/ALLM.H-V")
tokenizer = AutoTokenizer.from_pretrained("Acryl-aLLM/ALLM.H-V")

messages = [
    {"role": "user", "content": "65세 남성, 갑작스런 흉통과 호흡곤란. 감별 진단은?"}
]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(text, return_tensors="pt").to(model.device)
output = model.generate(**inputs, max_new_tokens=1024)
print(tokenizer.decode(output[0], skip_special_tokens=True))