Trin-for-trin guide til lokal installation af olmOCR: Gør PDF-behandling super nemt!
⚠️ IMPORTANT UPDATE: This guide is now outdated. Please refer to our Complete olmOCR Local Deployment Guide 2025 for the latest installation methods, performance optimizations, and Docker configurations with version 0.3.4+.
Hej alle jer, der arbejder med PDF-dokumenter! I dag vil jeg dele et fantastisk værktøj med jer - olmOCR! Det gør det nemt for sprogmodeller at forstå alle slags mærkeligt formaterede PDF'er! Uanset om det er akademiske artikler eller komplekse tabeller, kan det klare det hele. Det bedste er, at det understøtter lokal installation, hvilket sikrer datasikkerhed! Nedenfor vil jeg guide jer trin for trin gennem installation og brug 👇
🛠️ Forberedelse: Installation af afhængigheder
Først skal vi installere et par systemafhængigheder (med Ubuntu som eksempel):
# One-stop installation af alle pakker
sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools💡 Tip: Når du støder på fontlicensaftaler under installationen, skal du trykke på TAB-tasten for at vælge <Yes> og bekræfte!
🌱 Oprettelse af et Python-miljø
Det anbefales at bruge conda til at administrere miljøet:
conda create -n olmocr python=3.11
conda activate olmocr
# Klon repositoriet og installer
git clone https://github.com/allenai/olmocr.git
cd olmocr
pip install -e .⚡ Installation af accelerationskomponenter
Vil du bruge GPU-acceleration? Disse to kommandolinjer er essentielle:
pip install sgl-kernel==0.0.3.post1 --force-reinstall --no-deps
pip install "sglang[all]==0.4.2" --find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/🚀 Hurtig oplevelse: Konvertering af PDF'er i praksis
Konvertering af en enkelt fil
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/horribleocr.pdfBatchbehandling
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/*.pdfKonverteringsresultaterne gemmes i JSONL-filer i mappen ./localworkspace/results. Brug denne kommando til at se dem:
cat localworkspace/results/output_*.jsonl👀 Visuelt sammenligningsværktøj
Vil du visuelt sammenligne den originale PDF med konverteringsresultaterne? Prøv dette:
python -m olmocr.viewer.dolmaviewer localworkspace/results/output_*.jsonlÅbn HTML-filen i den genererede dolma_previews-mappe, og du vil se en sammenligningsgrænseflade som denne 👇
🧰 Avanceret brug
Behandling af millioner af PDF'er
Til behandling af store mængder PDF'er i virksomhedsskala kan du bruge en AWS-klynge:
# Initialisering på den første node
python -m olmocr.pipeline s3://my_bucket/workspace --pdfs s3://my_bucket/pdfs/*.pdf
# Andre noder tilslutter sig klyngen
python -m olmocr.pipeline s3://my_bucket/workspaceSe alle parametre
python -m olmocr.pipeline --help💻 For Docker-brugere
Den officielle Dockerfile er tilgængelig, hvilket gør det nemmere at hente imaget direkte:
FROM allenai/olmocr-inference:latest
# Se projektdokumentationen for specifik brug
# Link:
https://github.com/allenai/olmocr/blob/main/scripts/beaker/Dockerfile-inference❓ Ofte stillede spørgsmål
-
Hvad skal jeg gøre, hvis der opstår en GPU-fejl?
Bekræft driveren til grafikkortet og CUDA-versionen. Det anbefales at bruge nyere kort som RTX 4090/L40S/A100/H100. -
Understøttes kinesiske PDF'er?
I øjeblikket er optimeringen primært til engelske dokumenter, men du kan prøve andre sprog ved hjælp af parameteren--apply_filter. -
Ikke nok diskplads?
Sørg for at have mindst 30 GB ledig plads. Det anbefales at bruge en SSD til behandling af store filer.
👏 Anerkendelser
olmOCR er udviklet af Allen Institute for AI (AI2) og er udgivet under Apache 2.0-licensen. En særlig tak til udviklingsteamet for deres bidrag (fuld liste over bidragydere).
Prøv det nu! Hvis du støder på problemer, er du velkommen til at deltage i Discord-fællesskabet for at diskutere dem 🎉