Asenna olmOCR paikallisesti: Tee PDF-käsittelystä superhelppoa!

OLMOCR Team
1. maaliskuuta 2025
Asenna olmOCR paikallisesti: Tee PDF-käsittelystä superhelppoa!
Huomio kaikki PDF-dokumenttien kanssa työskentelevät! Tänään esittelen teille mahtavan työkalun – olmOCR:n – joka mahdollistaa kielimallien ymmärtää kaikenlaisia hankalia PDF-asetteluja! Olipa kyseessä sitten akateemiset julkaisut tai monimutkaiset taulukot, se selviää kaikesta. Parasta on, että se tukee paikallista asennusta, joten tietoturva on taattu! Seuraavaksi opastan teidät askel askeleelta asennuksen ja käytön läpi 👇
🛠️ Valmistelut: Asenna riippuvuudet
Ensiksi meidän täytyy asentaa muutama järjestelmätason riippuvuus (esimerkiksi Ubuntussa):
# Asenna kaikki kerralla
sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools
💡 Vinkki: Jos asennuksen aikana tulee vastaan fonttien lisenssisopimus, paina TAB
-näppäintä valitaksesi <Yes>
ja hyväksyäksesi!
🌱 Luo Python-ympäristö
Suosittelen conda-ympäristön hallintaan:
conda create -n olmocr python=3.11
conda activate olmocr
# Kloonaa arkisto ja asenna
git clone https://github.com/allenai/olmocr.git
cd olmocr
pip install -e .
⚡ Asenna kiihdytyskomponentit
Haluatko käyttää GPU-kiihdytystä? Nämä kaksi komentoriviä ovat välttämättömiä:
pip install sgl-kernel==0.0.3.post1 --force-reinstall --no-deps
pip install "sglang[all]==0.4.2" --find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/
🚀 Nopea kokeilu: PDF-muunnos käytännössä
Yksittäisen tiedoston muuntaminen
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/horribleocr.pdf
Eräajo
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/*.pdf
Muunnostulokset tallennetaan localworkspace/results
-hakemistoon JSONL-tiedostoihin. Tarkastele niitä tällä komennolla:
cat localworkspace/results/output_*.jsonl
👀 Visualisointityökalu vertailuun
Haluatko visuaalisesti verrata alkuperäistä PDF-tiedostoa ja muunnostuloksia? Kokeile tätä:
python -m olmocr.viewer.dolmaviewer localworkspace/results/output_*.jsonl
Avaa luotu dolma_previews
-hakemisto ja sen sisältämät HTML-tiedostot. Näet tällaisen vertailunäkymän 👇
🧰 Edistyneet ominaisuudet
Miljoonien PDF-tiedostojen käsittely
Jos kyseessä on yritystason massiivinen PDF-käsittely, voit käyttää AWS-klusteria:
# Alustus ensimmäisellä solmulla
python -m olmocr.pipeline s3://my_bucket/workspace --pdfs s3://my_bucket/pdfs/*.pdf
# Muut solmut liittyvät klusteriin
python -m olmocr.pipeline s3://my_bucket/workspace
Tarkastele kaikkia parametreja
python -m olmocr.pipeline --help
💻 Docker-käyttäjille
Virallinen Dockerfile on saatavilla, joten voit yksinkertaisesti ladata imagen:
FROM allenai/olmocr-inference:latest
# Katso tarkemmat käyttöohjeet projektin dokumentaatiosta
# Linkki:
https://github.com/allenai/olmocr/blob/main/scripts/beaker/Dockerfile-inference
❓ Usein kysytyt kysymykset
-
GPU-virhe? Varmista näytönohjaimen ajurit ja CUDA-versio. Suositellaan uusia kortteja, kuten RTX 4090/L40S/A100/H100.
-
Tukeeko se kiinalaisia PDF-tiedostoja? Tällä hetkellä se on optimoitu pääasiassa englanninkielisille dokumenteille, mutta voit kokeilla muita kieliä
--apply_filter
-parametrilla. -
Levytila ei riitä? Varaa vähintään 30 Gt tilaa. Suurten tiedostojen käsittelyyn suositellaan SSD-levyä.
👏 Kiitokset
olmOCR:n on kehittänyt Allen Institute for AI (AI2), ja se on julkaistu Apache 2.0 -lisenssillä. Erityiskiitokset kehitystiimille (täydellinen luettelo osallistujista).
Kokeile nyt! Jos kohtaat ongelmia, tervetuloa keskustelemaan Discord-yhteisössä ~🎉