Panduan Lengkap: Instalasi Lokal olmOCR untuk Pemrosesan PDF Super Mudah!

OLMOCR Team
1 Maret 2025
Panduan Lengkap: Instalasi Lokal olmOCR untuk Pemrosesan PDF Super Mudah!
Perhatian para pengguna dokumen PDF! Hari ini, saya akan memperkenalkan sebuah alat canggih – olmOCR, yang memungkinkan model bahasa memahami berbagai macam layout PDF yang rumit! Baik itu makalah akademis maupun tabel kompleks, semuanya bisa ditangani. Yang terbaik adalah, olmOCR mendukung instalasi lokal, sehingga keamanan data terjamin! Berikut ini panduan langkah demi langkah untuk instalasi dan penggunaannya 👇
🛠️ Persiapan: Instalasi Paket Dependensi
Pertama, kita perlu menginstal beberapa dependensi tingkat sistem (contohnya pada Ubuntu):
# Instalasi lengkap dengan satu perintah
sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools
💡 Tips: Saat proses instalasi, jika muncul perjanjian lisensi font, tekan tombol TAB
untuk memilih <Yes>
dan konfirmasi!
🌱 Membuat Lingkungan Python
Direkomendasikan menggunakan conda untuk manajemen lingkungan:
conda create -n olmocr python=3.11
conda activate olmocr
# Klon repositori dan instal
git clone https://github.com/allenai/olmocr.git
cd olmocr
pip install -e .
⚡ Instalasi Komponen Akselerasi
Ingin menggunakan akselerasi GPU? Dua baris perintah ini tidak boleh dilewatkan:
pip install sgl-kernel==0.0.3.post1 --force-reinstall --no-deps
pip install "sglang[all]==0.4.2" --find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/
🚀 Uji Coba Cepat: Konversi PDF dalam Praktik
Konversi Satu File
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/horribleocr.pdf
Pemrosesan Batch
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/*.pdf
Hasil konversi akan disimpan dalam file JSONL di direktori ./localworkspace/results
. Gunakan perintah ini untuk melihatnya:
cat localworkspace/results/output_*.jsonl
👀 Alat Perbandingan Visual yang Canggih
Ingin membandingkan PDF asli dan hasil konversi secara visual? Coba ini:
python -m olmocr.viewer.dolmaviewer localworkspace/results/output_*.jsonl
Buka file HTML yang dihasilkan di direktori dolma_previews
, Anda akan melihat tampilan perbandingan seperti ini 👇
🧰 Fitur Tingkat Lanjut
Pemrosesan Jutaan PDF
Untuk pemrosesan PDF skala perusahaan, Anda bisa menggunakan klaster AWS:
# Inisialisasi node pertama
python -m olmocr.pipeline s3://my_bucket/workspace --pdfs s3://my_bucket/pdfs/*.pdf
# Node lain bergabung dengan klaster
python -m olmocr.pipeline s3://my_bucket/workspace
Lihat Parameter Lengkap
python -m olmocr.pipeline --help
💻 Khusus Pengguna Docker
Tersedia Dockerfile resmi, lebih mudah dengan langsung menarik image:
FROM allenai/olmocr-inference:latest
# Penggunaan spesifik lihat dokumentasi proyek
# Tautan:
https://github.com/allenai/olmocr/blob/main/scripts/beaker/Dockerfile-inference
❓ Pertanyaan Umum
-
Apa yang harus dilakukan jika terjadi kesalahan GPU?
Pastikan driver kartu grafis dan versi CUDA, disarankan menggunakan kartu baru seperti RTX 4090/L40S/A100/H100. -
Apakah PDF berbahasa Mandarin didukung?
Saat ini, optimasi utama adalah untuk dokumen berbahasa Inggris, tetapi Anda dapat mencoba bahasa lain melalui parameter--apply_filter
. -
Ruang disk tidak cukup?
Sediakan setidaknya 30GB ruang, disarankan menggunakan SSD untuk memproses file besar.
👏 Ucapan Terima Kasih
olmOCR dikembangkan oleh Allen Institute for AI (AI2), menggunakan lisensi open source Apache 2.0. Terima kasih khusus kepada tim pengembang atas kontribusinya (Daftar kontributor lengkap).
Coba sekarang juga! Jika ada pertanyaan, silakan bergabung di komunitas Discord untuk berdiskusi~🎉