olmOCR'yi Yerel Olarak Kurulumu: PDF İşlemlerini Kolaylaştırın!

OLMOCR Team
1 Mart 2025
olmOCR'yi Yerel Olarak Kurulumu: PDF İşlemlerini Kolaylaştırın!
PDF belgeleriyle uğraşanlar, dikkat! Bugün size, dil modellerinin karmaşık düzenlere sahip PDF'leri bile kolayca okumasını sağlayan harika bir araç olan olmOCR'yi tanıtacağım. İster akademik makaleler ister karmaşık tablolar olsun, her şeyin üstesinden gelebilir. En iyi yanı, yerel dağıtımı desteklemesi ve veri güvenliğini sağlaması! Şimdi size adım adım kurulum ve kullanımı göstereceğim👇
🛠️ Hazırlık: Bağımlılık Paketlerini Yükleme
Öncelikle, birkaç sistem düzeyinde bağımlılık yüklememiz gerekiyor (Ubuntu örneği):
# Hepsi bir arada kurulum
sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools
💡 İpucu: Kurulum sırasında yazı tipi lisans sözleşmesiyle karşılaşırsanız, TAB
tuşuna basarak <Yes>
seçeneğini belirleyin ve onaylayın!
🌱 Python Ortamı Oluşturma
Ortamı yönetmek için conda kullanmanız önerilir:
conda create -n olmocr python=3.11
conda activate olmocr
# Depoyu klonlayın ve kurun
git clone https://github.com/allenai/olmocr.git
cd olmocr
pip install -e .
⚡ Hızlandırma Bileşenlerini Yükleme
GPU hızlandırmasını kullanmak ister misiniz? Bu iki komut satırı çok önemlidir:
pip install sgl-kernel==0.0.3.post1 --force-reinstall --no-deps
pip install "sglang[all]==0.4.2" --find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/
🚀 Hızlı Deneyim: PDF Dönüştürme Uygulaması
Tek Dosya Dönüştürme
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/horribleocr.pdf
Toplu İşleme
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/*.pdf
Dönüştürme sonuçları, ./localworkspace/results
dizinindeki JSONL dosyalarına kaydedilecektir. Görüntülemek için şu komutu kullanın:
cat localworkspace/results/output_*.jsonl
👀 Görsel Karşılaştırma Aracı
Orijinal PDF ile dönüştürme sonuçlarını görsel olarak karşılaştırmak ister misiniz? Bunu deneyin:
python -m olmocr.viewer.dolmaviewer localworkspace/results/output_*.jsonl
Oluşturulan dolma_previews
dizinindeki HTML dosyasını açın, aşağıdaki gibi bir karşılaştırma arayüzü göreceksiniz👇
🧰 Gelişmiş Kullanım
Milyonlarca PDF İşleme
Kurumsal düzeyde büyük ölçekli PDF işleme için AWS kümesini kullanabilirsiniz:
# İlk düğüm başlatma
python -m olmocr.pipeline s3://my_bucket/workspace --pdfs s3://my_bucket/pdfs/*.pdf
# Diğer düğümler kümeye katılır
python -m olmocr.pipeline s3://my_bucket/workspace
Tüm Parametreleri Görüntüleme
python -m olmocr.pipeline --help
💻 Docker Kullanıcılarına Özel
Resmi olarak sağlanan hazır bir Dockerfile var, görüntüyü doğrudan çekmek daha kolay:
FROM allenai/olmocr-inference:latest
# Ayrıntılı kullanım için proje belgelerine bakın
# Bağlantı:
https://github.com/allenai/olmocr/blob/main/scripts/beaker/Dockerfile-inference
❓ Sıkça Sorulan Sorular
-
GPU hatası alıyorum, ne yapmalıyım?
Ekran kartı sürücünüzü ve CUDA sürümünüzü kontrol edin. RTX 4090/L40S/A100/H100 gibi yeni kartlar kullanmanız önerilir. -
Türkçe PDF'ler destekleniyor mu?
Şu anda İngilizce belgeler için optimize edilmiştir, ancak--apply_filter
parametresiyle diğer dilleri deneyebilirsiniz. -
Disk alanı yetersiz mi?
En az 30 GB boş alan ayırın. Büyük dosyaları işlemek için bir SSD kullanmanız önerilir.
👏 Teşekkür
olmOCR, Allen Yapay Zeka Enstitüsü (AI2) tarafından geliştirilmiştir ve Apache 2.0 açık kaynak lisansı altında yayınlanmıştır. Geliştirme ekibinin katkılarına özel teşekkürler (katkıda bulunanların tam listesi).
Şimdi deneyin! Sorunlarla karşılaşırsanız, Discord topluluğunda bizimle iletişime geçmekten çekinmeyin~🎉