Trin-for-trin guide til lokal installation af olmOCR: Gør PDF-behandling super nemt!

OLMOCR Team
1. marts 2025
Trin-for-trin guide til lokal installation af olmOCR: Gør PDF-behandling super nemt!
Hej alle jer, der arbejder med PDF-dokumenter! I dag vil jeg dele et fantastisk værktøj med jer - olmOCR! Det gør det nemt for sprogmodeller at forstå alle slags mærkeligt formaterede PDF'er! Uanset om det er akademiske artikler eller komplekse tabeller, kan det klare det hele. Det bedste er, at det understøtter lokal installation, hvilket sikrer datasikkerhed! Nedenfor vil jeg guide jer trin for trin gennem installation og brug 👇
🛠️ Forberedelse: Installation af afhængigheder
Først skal vi installere et par systemafhængigheder (med Ubuntu som eksempel):
# One-stop installation af alle pakker
sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools
💡 Tip: Når du støder på fontlicensaftaler under installationen, skal du trykke på TAB
-tasten for at vælge <Yes>
og bekræfte!
🌱 Oprettelse af et Python-miljø
Det anbefales at bruge conda til at administrere miljøet:
conda create -n olmocr python=3.11
conda activate olmocr
# Klon repositoriet og installer
git clone https://github.com/allenai/olmocr.git
cd olmocr
pip install -e .
⚡ Installation af accelerationskomponenter
Vil du bruge GPU-acceleration? Disse to kommandolinjer er essentielle:
pip install sgl-kernel==0.0.3.post1 --force-reinstall --no-deps
pip install "sglang[all]==0.4.2" --find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/
🚀 Hurtig oplevelse: Konvertering af PDF'er i praksis
Konvertering af en enkelt fil
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/horribleocr.pdf
Batchbehandling
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/*.pdf
Konverteringsresultaterne gemmes i JSONL-filer i mappen ./localworkspace/results
. Brug denne kommando til at se dem:
cat localworkspace/results/output_*.jsonl
👀 Visuelt sammenligningsværktøj
Vil du visuelt sammenligne den originale PDF med konverteringsresultaterne? Prøv dette:
python -m olmocr.viewer.dolmaviewer localworkspace/results/output_*.jsonl
Åbn HTML-filen i den genererede dolma_previews
-mappe, og du vil se en sammenligningsgrænseflade som denne 👇
🧰 Avanceret brug
Behandling af millioner af PDF'er
Til behandling af store mængder PDF'er i virksomhedsskala kan du bruge en AWS-klynge:
# Initialisering på den første node
python -m olmocr.pipeline s3://my_bucket/workspace --pdfs s3://my_bucket/pdfs/*.pdf
# Andre noder tilslutter sig klyngen
python -m olmocr.pipeline s3://my_bucket/workspace
Se alle parametre
python -m olmocr.pipeline --help
💻 For Docker-brugere
Den officielle Dockerfile er tilgængelig, hvilket gør det nemmere at hente imaget direkte:
FROM allenai/olmocr-inference:latest
# Se projektdokumentationen for specifik brug
# Link:
https://github.com/allenai/olmocr/blob/main/scripts/beaker/Dockerfile-inference
❓ Ofte stillede spørgsmål
-
Hvad skal jeg gøre, hvis der opstår en GPU-fejl?
Bekræft driveren til grafikkortet og CUDA-versionen. Det anbefales at bruge nyere kort som RTX 4090/L40S/A100/H100. -
Understøttes kinesiske PDF'er?
I øjeblikket er optimeringen primært til engelske dokumenter, men du kan prøve andre sprog ved hjælp af parameteren--apply_filter
. -
Ikke nok diskplads?
Sørg for at have mindst 30 GB ledig plads. Det anbefales at bruge en SSD til behandling af store filer.
👏 Anerkendelser
olmOCR er udviklet af Allen Institute for AI (AI2) og er udgivet under Apache 2.0-licensen. En særlig tak til udviklingsteamet for deres bidrag (fuld liste over bidragydere).
Prøv det nu! Hvis du støder på problemer, er du velkommen til at deltage i Discord-fællesskabet for at diskutere dem 🎉