
Vizyon Dil Modelleri ile Verimli PDF Metin Çıkarımı —— olmOCR Neden Oyunu Değiştiriyor?

OLMOCR Team
3 Mart 2025
Açıklama: olmOCR'nin uçtan uca boru hattı, dağınık PDF'leri GPT-4o'nun maliyetinin 1/32'si karşılığında yapılandırılmış Markdown metnine dönüştürür.
PDF'lerin Gizli Zorluğu: Düz Metin Neden Önemli?
Dil modelleri temiz metin üzerinde gelişir, ancak PDF'ler nihai düşmandır. Yazdırmak için tasarlanan, ayrıştırmak için değil, metin konumlarını karıştırır, tabloları ikili kodlara gömer ve denklemleri görsel bulmacalara dönüştürürler. Geleneksel OCR araçları? Genellikle biçimlendirmeyi kaçırır, çok sütunlu düzenlerle mücadele eder veya servet isterler.
Karşınızda olmOCR: PDF kodunu kırmak için vizyon-dil modellerini (VDM'ler) akıllı mühendislikle birleştiren açık kaynaklı bir araç takımı. Geliştiricilerin ve araştırmacıların neden bu kadar heyecanlandığını inceleyelim.
olmOCR'nin Diğer Araçlardan Daha İyi Olmasının 5 Nedeni
-
Göz Ardı Edilmesi Zor Maliyet Etkinliği
1 milyon sayfayı 190$'a işleyin; bu, GPT-4o toplu API'lerinden 32 kat daha ucuz. Nasıl mı? 250 bin farklı sayfa (akademik makaleler, yasal belgeler, hatta el yazısı mektuplar) üzerinde ince ayar yaparak ve SGLang/vLLM ile çıkarımı optimize ederek.
-
Markdown Sihri Artık regex kabusları yok. olmOCR, aşağıdakileri içeren temiz Markdown çıktısı verir:
- Korunan denklemler (
E=mc²
) - Tabloların tablo olarak kalması
- Karmaşık düzenler için doğru okuma sırası
- Korunan denklemler (
-
Her Şey Dahil Boru Hattı
python -m olmocr.pipeline ./workspace --pdfs your_file.pdf
1'den 100+'ya kadar GPU'ya sorunsuz bir şekilde ölçeklendirin. Yerleşik hata işleme, meta veri bozulması gibi yaygın PDF sorunlarını ele alır.
-
Açık Kaynak, Sıfır Kara Kutu Ağırlıklar, eğitim verileri (evet, tüm 250 bin sayfa!) ve kod herkese açık. Qwen2-VL-7B-Instruct üzerine kuruldu; tescilli bağımlılıklar yok.
-
İnsan Tarafından Kanıtlanmış Üstünlük
Marker, GOT-OCR 2.0 ve MinerU'ya karşı yapılan kör testlerde:
- Karşılaştırmaların %61'ini kazanır
- ELO >1800 (Altın Standart) elde eder
Kaputun Altında: olmOCR'yi Nasıl Oluşturduk?
Belge Sabitleme: Gizli Sos
Açıklama: Metin + resim bağlamı = doğru çıkarma.
Eğitim sırasında VDM'leri "sabitlemek" için PDF'lerin kendi metin/meta verilerini kullanıyoruz:
- Metin bloklarını ve resim bölgelerini çıkarın
- Bunları model istemlerinde birleştirin
- GPT-4o'nun "altın standart" etiketler oluşturmasına izin verin
Sonuç? Hem metnin ne söylediğini hem de nerede olması gerektiğini anlayan bir model.
Gerçek Dünya için Eğitim
- Veri Kümesi: %60 akademik makale, %12 broşür, %11 yasal belge
- Donanım: NVIDIA GPU'lar için optimize edildi, karşılaştırılabilir kurulumlardan %90 daha düşük enerji kullanımı
- İnce Ayar: Belge "konuşmaları" için uyarlanmış Qwen2-VL-7B-Instruct
3 Dakikada olmOCR'yi Deneyin
- Kurulum
git clone https://github.com/allenai/olmocr && cd olmocr pip install -e .
- Örnek PDF Üzerinde Çalıştırın
python -m olmocr.pipeline ./demo_output --pdfs tests/gnarly_pdfs/horribleocr.pdf
- Markdown'ı Kontrol Edin
./demo_output/horribleocr.md
dosyasını açın; tabloları, denklemleri ve metin akışının bozulmadan kaldığını görün!
Sonuç
olmOCR sadece başka bir araç değil, bir paradigma değişikliğidir. VDM'leri şeffaf mühendislikle birleştirerek, yüksek kaliteli metin çıkarımını herkes için erişilebilir hale getirir. İster bir araştırma derlemi oluşturuyor olun, ister fatura işlemeyi otomatikleştiriyor olun, bu araç takımı yığınıza ait.
Sonraki Adımlar
- ⭐ GitHub deposunu yıldızlayın
- 📊 Etkileşimli Araç kullanarak çıktıları karşılaştırın
- 💬 Hugging Face üzerindeki tartışmaya katılın
PDF acısını düz metin kazancına dönüştürelim! 🚀