Οδηγός βήμα προς βήμα για την τοπική εγκατάσταση του olmOCR: Κάντε την επεξεργασία PDF εξαιρετικά απλή!

Οδηγός βήμα προς βήμα για την τοπική εγκατάσταση του olmOCR: Κάντε την επεξεργασία PDF εξαιρετικά απλή!

Author

OLMOCR Team

1 Μαρτίου 2025

Οδηγός βήμα προς βήμα για την τοπική εγκατάσταση του olmOCR: Κάντε την επεξεργασία PDF εξαιρετικά απλή!

olmOCR Logo

Προσοχή σε όλους εσάς που ασχολείστε με έγγραφα PDF! Σήμερα σας προτείνω ένα πανίσχυρο εργαλείο - το olmOCR, το οποίο επιτρέπει στα γλωσσικά μοντέλα να διαβάζουν εύκολα PDF με περίεργες διατάξεις! Είτε πρόκειται για ακαδημαϊκές εργασίες είτε για πολύπλοκους πίνακες, τα καταφέρνει όλα. Το καλύτερο είναι ότι υποστηρίζει τοπική εγκατάσταση, διασφαλίζοντας την ασφάλεια των δεδομένων σας! Παρακάτω, θα σας καθοδηγήσω βήμα προς βήμα στη διαδικασία εγκατάστασης και χρήσης 👇


🛠️ Προετοιμασία: Εγκατάσταση Εξαρτήσεων

Αρχικά, πρέπει να εγκαταστήσουμε μερικές εξαρτήσεις σε επίπεδο συστήματος (για παράδειγμα, στο Ubuntu):

# Εγκατάσταση όλων με μία εντολή
sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools

💡 Συμβουλή: Εάν συναντήσετε συμφωνίες αδειοδότησης γραμματοσειρών κατά τη διάρκεια της εγκατάστασης, πατήστε το πλήκτρο TAB για να επιλέξετε <Yes> και να επιβεβαιώσετε!


🌱 Δημιουργία Περιβάλλοντος Python

Συνιστάται η χρήση του conda για τη διαχείριση του περιβάλλοντος:

conda create -n olmocr python=3.11
conda activate olmocr

# Κλωνοποίηση του αποθετηρίου και εγκατάσταση
git clone https://github.com/allenai/olmocr.git
cd olmocr
pip install -e .

⚡ Εγκατάσταση Στοιχείων Επιτάχυνσης

Θέλετε να χρησιμοποιήσετε επιτάχυνση GPU; Αυτές οι δύο εντολές είναι απαραίτητες:

pip install sgl-kernel==0.0.3.post1 --force-reinstall --no-deps
pip install "sglang[all]==0.4.2" --find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/

🚀 Γρήγορη Εμπειρία: Μετατροπή PDF στην Πράξη

Μετατροπή ενός αρχείου

python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/horribleocr.pdf

Μαζική επεξεργασία

python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/*.pdf

Τα αποτελέσματα της μετατροπής θα αποθηκευτούν σε αρχεία JSONL στον κατάλογο ./localworkspace/results. Χρησιμοποιήστε αυτήν την εντολή για να τα δείτε:

cat localworkspace/results/output_*.jsonl

👀 Εργαλείο Οπτικοποίησης για Σύγκριση

Θέλετε να συγκρίνετε οπτικά το αρχικό PDF με τα αποτελέσματα της μετατροπής; Δοκιμάστε αυτό:

python -m olmocr.viewer.dolmaviewer localworkspace/results/output_*.jsonl

Ανοίξτε τα αρχεία HTML στον κατάλογο dolma_previews που δημιουργήθηκε και θα δείτε μια διεπαφή σύγκρισης όπως αυτή 👇

Παράδειγμα οπτικοποίησης σύγκρισης


🧰 Προηγμένες Λειτουργίες

Επεξεργασία PDF σε κλίμακα εκατομμυρίων

Για επεξεργασία PDF σε εταιρική κλίμακα, μπορείτε να χρησιμοποιήσετε ένα σύμπλεγμα AWS:

# Αρχικοποίηση στον πρώτο κόμβο
python -m olmocr.pipeline s3://my_bucket/workspace --pdfs s3://my_bucket/pdfs/*.pdf

# Προσθήκη άλλων κόμβων στο σύμπλεγμα
python -m olmocr.pipeline s3://my_bucket/workspace

Προβολή πλήρων παραμέτρων

python -m olmocr.pipeline --help

💻 Αποκλειστικά για χρήστες Docker

Ένα επίσημο Dockerfile παρέχεται για ευκολότερη χρήση:

FROM allenai/olmocr-inference:latest
# Για λεπτομερή χρήση, ανατρέξτε στην τεκμηρίωση του έργου
# Σύνδεσμος:
https://github.com/allenai/olmocr/blob/main/scripts/beaker/Dockerfile-inference

❓ Συχνές Ερωτήσεις

  1. Τι να κάνω εάν παρουσιαστεί σφάλμα GPU; Βεβαιωθείτε ότι οι οδηγοί της κάρτας γραφικών και η έκδοση CUDA είναι σωστές. Συνιστάται η χρήση νεότερων καρτών όπως RTX 4090/L40S/A100/H100.

  2. Υποστηρίζονται τα κινεζικά PDF; Προς το παρόν, η βελτιστοποίηση αφορά κυρίως αγγλικά έγγραφα, αλλά μπορείτε να δοκιμάσετε άλλες γλώσσες χρησιμοποιώντας την παράμετρο --apply_filter.

  3. Ανεπαρκής χώρος στο δίσκο; Διαθέστε τουλάχιστον 30 GB χώρου. Για την επεξεργασία μεγάλων αρχείων, συνιστάται η χρήση SSD.


👏 Ευχαριστίες

Το olmOCR αναπτύχθηκε από το Ινστιτούτο Allen για την Τεχνητή Νοημοσύνη (AI2) και διατίθεται με την άδεια Apache 2.0 ανοιχτού κώδικα. Ιδιαίτερες ευχαριστίες στην ομάδα ανάπτυξης για τη συνεισφορά τους (πλήρης λίστα συνεισφερόντων).

Δοκιμάστε το τώρα! Εάν αντιμετωπίσετε προβλήματα, μη διστάσετε να τα συζητήσετε στην κοινότητα Discord ~🎉