TBD · TBD

ALLM.H-OCR

Medical Document OCR System
의료 문서(처방전, 검사 결과지, 진단서, 의무기록)에 특화된 OCR 시스템. 병원 서식 인식, 수기 처방전 판독, 의료 양식 자동 데이터화.
Model Card
Base Model
TBD
Parameters
TBD
License
Acryl Research License
Languages
Korean, English
Modalities
Text, Image
Hardware
Multi-GPU cluster
Training Pipeline
Document Detection
Medical form template recognition
Text Recognition
Handwritten + printed medical text OCR
Structured Extraction
Key-value pair extraction from medical forms
What Makes This Different
기존 연구우리 차별점
범용 OCR (Tesseract, Google Vision)의료 문서 특화 — 수기 처방전, 검사 결과지
영어 Medical OCR한국어 의료 서식 인식
Paper Contributions
  • 한국어 의료 문서 특화 OCR
  • 수기 처방전 판독 + 의료 양식 자동 데이터화
Benchmarks
BenchmarkScoreBaseline / SOTAMetric
Training Data
Quick Start
# pip install transformers torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("")
tokenizer = AutoTokenizer.from_pretrained("")

messages = [
    {"role": "user", "content": "65세 남성, 갑작스런 흉통과 호흡곤란. 감별 진단은?"}
]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(text, return_tensors="pt").to(model.device)
output = model.generate(**inputs, max_new_tokens=1024)
print(tokenizer.decode(output[0], skip_special_tokens=True))