Panduan Lengkap: Instalasi Lokal olmOCR untuk Pemrosesan PDF Super Mudah!

Logo olmOCR

Perhatian para pengguna dokumen PDF! Hari ini, saya akan memperkenalkan sebuah alat canggih – olmOCR, yang memungkinkan model bahasa memahami berbagai macam layout PDF yang rumit! Baik itu makalah akademis maupun tabel kompleks, semuanya bisa ditangani. Yang terbaik adalah, olmOCR mendukung instalasi lokal, sehingga keamanan data terjamin! Berikut ini panduan langkah demi langkah untuk instalasi dan penggunaannya 👇

🛠️ Persiapan: Instalasi Paket Dependensi

Pertama, kita perlu menginstal beberapa dependensi tingkat sistem (contohnya pada Ubuntu):

# Instalasi lengkap dengan satu perintah
sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools

💡 Tips: Saat proses instalasi, jika muncul perjanjian lisensi font, tekan tombol TAB untuk memilih <Yes> dan konfirmasi!

🌱 Membuat Lingkungan Python

Direkomendasikan menggunakan conda untuk manajemen lingkungan:

conda create -n olmocr python=3.11
conda activate olmocr

# Klon repositori dan instal
git clone https://github.com/allenai/olmocr.git
cd olmocr
pip install -e .

⚡ Instalasi Komponen Akselerasi

Ingin menggunakan akselerasi GPU? Dua baris perintah ini tidak boleh dilewatkan:

pip install sgl-kernel==0.0.3.post1 --force-reinstall --no-deps
pip install "sglang[all]==0.4.2" --find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/

🚀 Uji Coba Cepat: Konversi PDF dalam Praktik

Konversi Satu File

python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/horribleocr.pdf

Pemrosesan Batch

python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/*.pdf

Hasil konversi akan disimpan dalam file JSONL di direktori ./localworkspace/results. Gunakan perintah ini untuk melihatnya:

cat localworkspace/results/output_*.jsonl

👀 Alat Perbandingan Visual yang Canggih

Ingin membandingkan PDF asli dan hasil konversi secara visual? Coba ini:

python -m olmocr.viewer.dolmaviewer localworkspace/results/output_*.jsonl

Buka file HTML yang dihasilkan di direktori dolma_previews, Anda akan melihat tampilan perbandingan seperti ini 👇

Contoh Perbandingan Visual

🧰 Fitur Tingkat Lanjut

Pemrosesan Jutaan PDF

Untuk pemrosesan PDF skala perusahaan, Anda bisa menggunakan klaster AWS:

# Inisialisasi node pertama
python -m olmocr.pipeline s3://my_bucket/workspace --pdfs s3://my_bucket/pdfs/*.pdf

# Node lain bergabung dengan klaster
python -m olmocr.pipeline s3://my_bucket/workspace

Lihat Parameter Lengkap

python -m olmocr.pipeline --help

💻 Khusus Pengguna Docker

Tersedia Dockerfile resmi, lebih mudah dengan langsung menarik image:

FROM allenai/olmocr-inference:latest
# Penggunaan spesifik lihat dokumentasi proyek
# Tautan:
https://github.com/allenai/olmocr/blob/main/scripts/beaker/Dockerfile-inference

❓ Pertanyaan Umum

Apa yang harus dilakukan jika terjadi kesalahan GPU?
Pastikan driver kartu grafis dan versi CUDA, disarankan menggunakan kartu baru seperti RTX 4090/L40S/A100/H100.
Apakah PDF berbahasa Mandarin didukung?
Saat ini, optimasi utama adalah untuk dokumen berbahasa Inggris, tetapi Anda dapat mencoba bahasa lain melalui parameter --apply_filter.
Ruang disk tidak cukup?
Sediakan setidaknya 30GB ruang, disarankan menggunakan SSD untuk memproses file besar.

👏 Ucapan Terima Kasih

olmOCR dikembangkan oleh Allen Institute for AI (AI2), menggunakan lisensi open source Apache 2.0. Terima kasih khusus kepada tim pengembang atas kontribusinya (Daftar kontributor lengkap).

Coba sekarang juga! Jika ada pertanyaan, silakan bergabung di komunitas Discord untuk berdiskusi～🎉

Panduan Lengkap: Instalasi Lokal olmOCR untuk Pemrosesan PDF Super Mudah!

Daftar Isi