31B · Gemma4-31B-IT (Vision)

ALLM.H-V

Multimodal Medical Foundation Model

ALLM.H의 멀티모달 확장. 의료 영상(X-ray, CT, MRI, 병리 슬라이드, 해부도)을 이해하고 텍스트와 함께 추론하는 멀티모달 의료 AI. Vision encoder frozen + LLM 학습.

HuggingFace Playground

Model Card

Base Model

Gemma4-31B-IT (Vision)

Parameters

31B

License

Gemma License + Acryl Research License

Languages

Korean, English

Modalities

Text, Image

Hardware

Multi-GPU cluster

Training Pipeline

Base Model

Gemma4-31B-IT (Multimodal)

Medical Visual Alignment

Vision encoder frozen + LLM LoRA

Preference Optimization

Medical image QA SimPO training

What Makes This Different

기존 연구	우리 차별점
MedGemma (Google)	한국어 의료 영상 이해 + KMLE SOTA 기반
텍스트 전용 의료 LLM	의료 영상 분석 + 텍스트 추론 통합

Paper Contributions

ALLM.H SOTA 기반 멀티모달 확장 — forgetting 없이 이미지 이해 추가
41,851건 의료 이미지-텍스트 쌍으로 SimPO 학습

Benchmarks

Benchmark	Score	Baseline / SOTA	Metric

Training Data

METHODProprietary multimodal training pipeline (41,851 image-text pairs)

Quick Start

# pip install transformers torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("Acryl-aLLM/ALLM.H-V")
tokenizer = AutoTokenizer.from_pretrained("Acryl-aLLM/ALLM.H-V")

messages = [
    {"role": "user", "content": "65세 남성, 갑작스런 흉통과 호흡곤란. 감별 진단은?"}
]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(text, return_tensors="pt").to(model.device)
output = model.generate(**inputs, max_new_tokens=1024)
print(tokenizer.decode(output[0], skip_special_tokens=True))