olmOCR 로컬 배포 가이드: PDF 처리를 간편하게!

olmOCR 로컬 배포 가이드: PDF 처리를 간편하게!

Author

OLMOCR Team

2025년 3월 1일

olmOCR 로컬 배포 가이드: PDF 처리를 간편하게!

olmOCR Logo

PDF 문서 처리 담당자 여러분, 주목하세요! 이제 olmOCR로 복잡한 레이아웃의 PDF 문서도 언어 모델로 쉽게 처리할 수 있습니다! 학술 논문, 복잡한 표 등 어떤 문서든 문제없습니다. 로컬 배포를 지원하여 데이터 보안도 걱정 없습니다. 지금부터 설치 및 사용 방법을 단계별로 안내해 드립니다👇


🛠️ 준비 작업: 의존성 패키지 설치

먼저, 시스템 레벨 의존성을 설치합니다 (Ubuntu 기준):

# 필수 패키지 설치
sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools

💡 : 설치 중 글꼴 라이선스 동의가 나오면 TAB 키를 눌러 <Yes>를 선택하고 확인하세요!


🌱 Python 환경 생성

conda를 사용하여 환경을 관리하는 것을 추천합니다:

conda create -n olmocr python=3.11
conda activate olmocr

# 저장소 복제  설치
git clone https://github.com/allenai/olmocr.git
cd olmocr
pip install -e .

⚡ 가속 컴포넌트 설치

GPU 가속을 사용하고 싶으신가요? 다음 명령어를 실행하세요:

pip install sgl-kernel==0.0.3.post1 --force-reinstall --no-deps
pip install "sglang[all]==0.4.2" --find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/

🚀 빠른 체험: PDF 변환 실습

단일 파일 변환

python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/horribleocr.pdf

일괄 처리

python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/*.pdf

변환 결과는 ./localworkspace/results 디렉터리 아래 JSONL 파일로 저장됩니다. 다음 명령어로 결과를 확인할 수 있습니다:

cat localworkspace/results/output_*.jsonl

👀 시각적 비교 도구

원본 PDF와 변환 결과를 직접 비교하고 싶으신가요? 다음 도구를 사용해 보세요:

python -m olmocr.viewer.dolmaviewer localworkspace/results/output_*.jsonl

생성된 dolma_previews 디렉터리 안의 HTML 파일을 열면 다음과 같은 비교 화면을 볼 수 있습니다👇

시각적 비교 예시


🧰 고급 활용법

대규모 PDF 처리

기업 수준의 대규모 PDF 처리가 필요한 경우, AWS 클러스터를 활용할 수 있습니다:

#  번째 노드 초기화
python -m olmocr.pipeline s3://my_bucket/workspace --pdfs s3://my_bucket/pdfs/*.pdf

# 다른 노드 클러스터 참여
python -m olmocr.pipeline s3://my_bucket/workspace

전체 파라미터 확인

python -m olmocr.pipeline --help

💻 Docker 사용자 전용

공식 Dockerfile을 제공하여 이미지를 바로 사용할 수 있습니다:

FROM allenai/olmocr-inference:latest
# 자세한 사용법은 프로젝트 문서를 참고하세요.
# 링크:
https://github.com/allenai/olmocr/blob/main/scripts/beaker/Dockerfile-inference

❓ 자주 묻는 질문

  1. GPU 오류가 발생하면 어떻게 하나요?

    • 그래픽 카드 드라이버와 CUDA 버전을 확인하세요. RTX 4090/L40S/A100/H100 등 최신 카드를 사용하는 것이 좋습니다.
  2. 한국어 PDF도 지원되나요?

    • 현재는 영어 문서에 최적화되어 있지만, --apply_filter 파라미터를 사용하여 다른 언어도 시도해 볼 수 있습니다.
  3. 디스크 공간이 부족하면 어떻게 하나요?

    • 최소 30GB의 공간을 확보하세요. 대용량 파일을 처리하는 경우 SSD를 사용하는 것이 좋습니다.

👏 감사의 말씀

olmOCR은 앨런 인공지능 연구소(AI2)에서 개발했으며, Apache 2.0 오픈 소스 라이선스를 따릅니다. 개발팀의 기여에 감사드립니다 (전체 기여자 목록).

지금 바로 사용해 보세요! 궁금한 점은 Discord 커뮤니티에서 문의하세요. 🎉