olmOCR 로컬 배포 가이드: PDF 처리를 간편하게!

OLMOCR Team
2025년 3월 1일
olmOCR 로컬 배포 가이드: PDF 처리를 간편하게!
PDF 문서 처리 담당자 여러분, 주목하세요! 이제 olmOCR로 복잡한 레이아웃의 PDF 문서도 언어 모델로 쉽게 처리할 수 있습니다! 학술 논문, 복잡한 표 등 어떤 문서든 문제없습니다. 로컬 배포를 지원하여 데이터 보안도 걱정 없습니다. 지금부터 설치 및 사용 방법을 단계별로 안내해 드립니다👇
🛠️ 준비 작업: 의존성 패키지 설치
먼저, 시스템 레벨 의존성을 설치합니다 (Ubuntu 기준):
# 필수 패키지 설치
sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools
💡 팁: 설치 중 글꼴 라이선스 동의가 나오면 TAB
키를 눌러 <Yes>
를 선택하고 확인하세요!
🌱 Python 환경 생성
conda를 사용하여 환경을 관리하는 것을 추천합니다:
conda create -n olmocr python=3.11
conda activate olmocr
# 저장소 복제 및 설치
git clone https://github.com/allenai/olmocr.git
cd olmocr
pip install -e .
⚡ 가속 컴포넌트 설치
GPU 가속을 사용하고 싶으신가요? 다음 명령어를 실행하세요:
pip install sgl-kernel==0.0.3.post1 --force-reinstall --no-deps
pip install "sglang[all]==0.4.2" --find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/
🚀 빠른 체험: PDF 변환 실습
단일 파일 변환
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/horribleocr.pdf
일괄 처리
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/*.pdf
변환 결과는 ./localworkspace/results
디렉터리 아래 JSONL 파일로 저장됩니다. 다음 명령어로 결과를 확인할 수 있습니다:
cat localworkspace/results/output_*.jsonl
👀 시각적 비교 도구
원본 PDF와 변환 결과를 직접 비교하고 싶으신가요? 다음 도구를 사용해 보세요:
python -m olmocr.viewer.dolmaviewer localworkspace/results/output_*.jsonl
생성된 dolma_previews
디렉터리 안의 HTML 파일을 열면 다음과 같은 비교 화면을 볼 수 있습니다👇
🧰 고급 활용법
대규모 PDF 처리
기업 수준의 대규모 PDF 처리가 필요한 경우, AWS 클러스터를 활용할 수 있습니다:
# 첫 번째 노드 초기화
python -m olmocr.pipeline s3://my_bucket/workspace --pdfs s3://my_bucket/pdfs/*.pdf
# 다른 노드 클러스터 참여
python -m olmocr.pipeline s3://my_bucket/workspace
전체 파라미터 확인
python -m olmocr.pipeline --help
💻 Docker 사용자 전용
공식 Dockerfile을 제공하여 이미지를 바로 사용할 수 있습니다:
FROM allenai/olmocr-inference:latest
# 자세한 사용법은 프로젝트 문서를 참고하세요.
# 링크:
https://github.com/allenai/olmocr/blob/main/scripts/beaker/Dockerfile-inference
❓ 자주 묻는 질문
-
GPU 오류가 발생하면 어떻게 하나요?
- 그래픽 카드 드라이버와 CUDA 버전을 확인하세요. RTX 4090/L40S/A100/H100 등 최신 카드를 사용하는 것이 좋습니다.
-
한국어 PDF도 지원되나요?
- 현재는 영어 문서에 최적화되어 있지만,
--apply_filter
파라미터를 사용하여 다른 언어도 시도해 볼 수 있습니다.
- 현재는 영어 문서에 최적화되어 있지만,
-
디스크 공간이 부족하면 어떻게 하나요?
- 최소 30GB의 공간을 확보하세요. 대용량 파일을 처리하는 경우 SSD를 사용하는 것이 좋습니다.
👏 감사의 말씀
olmOCR은 앨런 인공지능 연구소(AI2)에서 개발했으며, Apache 2.0 오픈 소스 라이선스를 따릅니다. 개발팀의 기여에 감사드립니다 (전체 기여자 목록).
지금 바로 사용해 보세요! 궁금한 점은 Discord 커뮤니티에서 문의하세요. 🎉