Asenna olmOCR paikallisesti: Tee PDF-käsittelystä superhelppoa!

Asenna olmOCR paikallisesti: Tee PDF-käsittelystä superhelppoa!

Author

OLMOCR Team

1. maaliskuuta 2025

Asenna olmOCR paikallisesti: Tee PDF-käsittelystä superhelppoa!

olmOCR Logo

Huomio kaikki PDF-dokumenttien kanssa työskentelevät! Tänään esittelen teille mahtavan työkalun – olmOCR:n – joka mahdollistaa kielimallien ymmärtää kaikenlaisia hankalia PDF-asetteluja! Olipa kyseessä sitten akateemiset julkaisut tai monimutkaiset taulukot, se selviää kaikesta. Parasta on, että se tukee paikallista asennusta, joten tietoturva on taattu! Seuraavaksi opastan teidät askel askeleelta asennuksen ja käytön läpi 👇


🛠️ Valmistelut: Asenna riippuvuudet

Ensiksi meidän täytyy asentaa muutama järjestelmätason riippuvuus (esimerkiksi Ubuntussa):

# Asenna kaikki kerralla
sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools

💡 Vinkki: Jos asennuksen aikana tulee vastaan fonttien lisenssisopimus, paina TAB-näppäintä valitaksesi <Yes> ja hyväksyäksesi!


🌱 Luo Python-ympäristö

Suosittelen conda-ympäristön hallintaan:

conda create -n olmocr python=3.11
conda activate olmocr

# Kloonaa arkisto ja asenna
git clone https://github.com/allenai/olmocr.git
cd olmocr
pip install -e .

⚡ Asenna kiihdytyskomponentit

Haluatko käyttää GPU-kiihdytystä? Nämä kaksi komentoriviä ovat välttämättömiä:

pip install sgl-kernel==0.0.3.post1 --force-reinstall --no-deps
pip install "sglang[all]==0.4.2" --find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/

🚀 Nopea kokeilu: PDF-muunnos käytännössä

Yksittäisen tiedoston muuntaminen

python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/horribleocr.pdf

Eräajo

python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/*.pdf

Muunnostulokset tallennetaan localworkspace/results-hakemistoon JSONL-tiedostoihin. Tarkastele niitä tällä komennolla:

cat localworkspace/results/output_*.jsonl

👀 Visualisointityökalu vertailuun

Haluatko visuaalisesti verrata alkuperäistä PDF-tiedostoa ja muunnostuloksia? Kokeile tätä:

python -m olmocr.viewer.dolmaviewer localworkspace/results/output_*.jsonl

Avaa luotu dolma_previews-hakemisto ja sen sisältämät HTML-tiedostot. Näet tällaisen vertailunäkymän 👇

Esimerkki visualisoidusta vertailusta


🧰 Edistyneet ominaisuudet

Miljoonien PDF-tiedostojen käsittely

Jos kyseessä on yritystason massiivinen PDF-käsittely, voit käyttää AWS-klusteria:

# Alustus ensimmäisellä solmulla
python -m olmocr.pipeline s3://my_bucket/workspace --pdfs s3://my_bucket/pdfs/*.pdf

# Muut solmut liittyvät klusteriin
python -m olmocr.pipeline s3://my_bucket/workspace

Tarkastele kaikkia parametreja

python -m olmocr.pipeline --help

💻 Docker-käyttäjille

Virallinen Dockerfile on saatavilla, joten voit yksinkertaisesti ladata imagen:

FROM allenai/olmocr-inference:latest
# Katso tarkemmat käyttöohjeet projektin dokumentaatiosta
# Linkki:
https://github.com/allenai/olmocr/blob/main/scripts/beaker/Dockerfile-inference

❓ Usein kysytyt kysymykset

  1. GPU-virhe? Varmista näytönohjaimen ajurit ja CUDA-versio. Suositellaan uusia kortteja, kuten RTX 4090/L40S/A100/H100.

  2. Tukeeko se kiinalaisia PDF-tiedostoja? Tällä hetkellä se on optimoitu pääasiassa englanninkielisille dokumenteille, mutta voit kokeilla muita kieliä --apply_filter-parametrilla.

  3. Levytila ei riitä? Varaa vähintään 30 Gt tilaa. Suurten tiedostojen käsittelyyn suositellaan SSD-levyä.


👏 Kiitokset

olmOCR:n on kehittänyt Allen Institute for AI (AI2), ja se on julkaistu Apache 2.0 -lisenssillä. Erityiskiitokset kehitystiimille (täydellinen luettelo osallistujista).

Kokeile nyt! Jos kohtaat ongelmia, tervetuloa keskustelemaan Discord-yhteisössä ~🎉