Trin-for-trin guide til lokal installation af olmOCR: Gør PDF-behandling super nemt!

Trin-for-trin guide til lokal installation af olmOCR: Gør PDF-behandling super nemt!

Author

OLMOCR Team

1. marts 2025

Trin-for-trin guide til lokal installation af olmOCR: Gør PDF-behandling super nemt!

olmOCR Logo

Hej alle jer, der arbejder med PDF-dokumenter! I dag vil jeg dele et fantastisk værktøj med jer - olmOCR! Det gør det nemt for sprogmodeller at forstå alle slags mærkeligt formaterede PDF'er! Uanset om det er akademiske artikler eller komplekse tabeller, kan det klare det hele. Det bedste er, at det understøtter lokal installation, hvilket sikrer datasikkerhed! Nedenfor vil jeg guide jer trin for trin gennem installation og brug 👇


🛠️ Forberedelse: Installation af afhængigheder

Først skal vi installere et par systemafhængigheder (med Ubuntu som eksempel):

# One-stop installation af alle pakker
sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools

💡 Tip: Når du støder på fontlicensaftaler under installationen, skal du trykke på TAB-tasten for at vælge <Yes> og bekræfte!


🌱 Oprettelse af et Python-miljø

Det anbefales at bruge conda til at administrere miljøet:

conda create -n olmocr python=3.11
conda activate olmocr

# Klon repositoriet og installer
git clone https://github.com/allenai/olmocr.git
cd olmocr
pip install -e .

⚡ Installation af accelerationskomponenter

Vil du bruge GPU-acceleration? Disse to kommandolinjer er essentielle:

pip install sgl-kernel==0.0.3.post1 --force-reinstall --no-deps
pip install "sglang[all]==0.4.2" --find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/

🚀 Hurtig oplevelse: Konvertering af PDF'er i praksis

Konvertering af en enkelt fil

python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/horribleocr.pdf

Batchbehandling

python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/*.pdf

Konverteringsresultaterne gemmes i JSONL-filer i mappen ./localworkspace/results. Brug denne kommando til at se dem:

cat localworkspace/results/output_*.jsonl

👀 Visuelt sammenligningsværktøj

Vil du visuelt sammenligne den originale PDF med konverteringsresultaterne? Prøv dette:

python -m olmocr.viewer.dolmaviewer localworkspace/results/output_*.jsonl

Åbn HTML-filen i den genererede dolma_previews-mappe, og du vil se en sammenligningsgrænseflade som denne 👇

Eksempel på visuel sammenligning


🧰 Avanceret brug

Behandling af millioner af PDF'er

Til behandling af store mængder PDF'er i virksomhedsskala kan du bruge en AWS-klynge:

# Initialisering  den første node
python -m olmocr.pipeline s3://my_bucket/workspace --pdfs s3://my_bucket/pdfs/*.pdf

# Andre noder tilslutter sig klyngen
python -m olmocr.pipeline s3://my_bucket/workspace

Se alle parametre

python -m olmocr.pipeline --help

💻 For Docker-brugere

Den officielle Dockerfile er tilgængelig, hvilket gør det nemmere at hente imaget direkte:

FROM allenai/olmocr-inference:latest
# Se projektdokumentationen for specifik brug
# Link:
https://github.com/allenai/olmocr/blob/main/scripts/beaker/Dockerfile-inference

❓ Ofte stillede spørgsmål

  1. Hvad skal jeg gøre, hvis der opstår en GPU-fejl?
    Bekræft driveren til grafikkortet og CUDA-versionen. Det anbefales at bruge nyere kort som RTX 4090/L40S/A100/H100.

  2. Understøttes kinesiske PDF'er?
    I øjeblikket er optimeringen primært til engelske dokumenter, men du kan prøve andre sprog ved hjælp af parameteren --apply_filter.

  3. Ikke nok diskplads?
    Sørg for at have mindst 30 GB ledig plads. Det anbefales at bruge en SSD til behandling af store filer.


👏 Anerkendelser

olmOCR er udviklet af Allen Institute for AI (AI2) og er udgivet under Apache 2.0-licensen. En særlig tak til udviklingsteamet for deres bidrag (fuld liste over bidragydere).

Prøv det nu! Hvis du støder på problemer, er du velkommen til at deltage i Discord-fællesskabet for at diskutere dem 🎉