विजन लैंग्वेज मॉडल के साथ कुशल PDF टेक्स्ट निष्कर्षण —— olmOCR गेम क्यों बदलता है

विजन लैंग्वेज मॉडल के साथ कुशल PDF टेक्स्ट निष्कर्षण —— olmOCR गेम क्यों बदलता है

Author

OLMOCR Team

3 मार्च 2025

olmOCR पाइपलाइन कैप्शन: olmOCR की एंड-टू-एंड पाइपलाइन GPT-4o की लागत के 1/32वें हिस्से पर गंदे PDFs को संरचित Markdown टेक्स्ट में बदल देती है।

PDF का छिपा हुआ चैलेंज: सादे टेक्स्ट का महत्व

भाषा मॉडल साफ टेक्स्ट पर फलते-फूलते हैं—लेकिन PDF अंतिम दुश्मन हैं। प्रिंटिंग के लिए डिज़ाइन किए गए, पार्सिंग के लिए नहीं, वे टेक्स्ट की स्थिति को गड़बड़ कर देते हैं, बाइनरी कोड में टेबल को दफन कर देते हैं, और समीकरणों को दृश्य पहेलियों में बदल देते हैं। पारंपरिक OCR टूल? वे अक्सर स्वरूपण से चूक जाते हैं, मल्टी-कॉलम लेआउट से जूझते हैं, या भारी शुल्क लेते हैं।

olmOCR में प्रवेश करें: एक ओपन-सोर्स टूलकिट जो PDF कोड को क्रैक करने के लिए विजन-लैंग्वेज मॉडल (VLMs) को स्मार्ट इंजीनियरिंग के साथ जोड़ता है। आइए इस बात पर गौर करें कि डेवलपर्स और शोधकर्ता इसके बारे में क्यों उत्साहित हैं।


5 कारण olmOCR अन्य टूल से बेहतर है

  1. लागत दक्षता जिसे अनदेखा करना मुश्किल है लागत तुलना चार्ट 1 मिलियन पृष्ठों को $190 में प्रोसेस करें—यह GPT-4o बैच APIs की तुलना में 32x सस्ता है। कैसे? 250K विविध पृष्ठों (अकादमिक पेपर, कानूनी दस्तावेज, यहां तक कि हस्तलिखित पत्र) पर फाइन-ट्यूनिंग करके और SGLang/vLLM के साथ अनुमान को अनुकूलित करके।

  2. Markdown मैजिक अब कोई रेगुलर एक्सप्रेशन दुःस्वप्न नहीं। olmOCR साफ Markdown आउटपुट करता है जिसमें शामिल हैं:

    • संरक्षित समीकरण (E=mc²)
    • टेबल जो टेबल ही रहते हैं
    • जटिल लेआउट के लिए सही पढ़ने का क्रम
  3. बैटरी-इनक्लूडेड पाइपलाइन

    python -m olmocr.pipeline ./workspace --pdfs your_file.pdf

    1 से 100+ GPUs तक निर्बाध रूप से स्केल करें। अंतर्निहित त्रुटि प्रबंधन सामान्य PDF समस्याओं जैसे मेटाडेटा भ्रष्टाचार से निपटता है।

  4. ओपन सोर्स, जीरो ब्लैक बॉक्स वज़न, प्रशिक्षण डेटा (हाँ, सभी 250K पृष्ठ!), और कोड सार्वजनिक हैं। Qwen2-VL-7B-Instruct पर बनाया गया—कोई मालिकाना निर्भरता नहीं।

  5. मानव-सिद्ध श्रेष्ठता ELO रैंकिंग मार्कर, GOT-OCR 2.0, और MinerU के खिलाफ ब्लाइंड टेस्ट में:

    • तुलनाओं में 61% जीतता है
    • ELO >1800 (गोल्ड स्टैंडर्ड) प्राप्त करता है

हुड के नीचे: हमने olmOCR कैसे बनाया

दस्तावेज़ एंकरिंग: गुप्त सॉस

दस्तावेज़ एंकरिंग आरेख कैप्शन: टेक्स्ट + छवि संदर्भ = सटीक निष्कर्षण।

हम प्रशिक्षण के दौरान VLMs को "एंकर" करने के लिए PDFs के अपने टेक्स्ट/मेटाडेटा का उपयोग करते हैं:

  1. टेक्स्ट ब्लॉक और छवि क्षेत्रों को निकालें
  2. उन्हें मॉडल प्रॉम्प्ट में मिलाएं
  3. GPT-4o को "गोल्ड स्टैंडर्ड" लेबल उत्पन्न करने दें

परिणाम? एक मॉडल जो समझता है कि टेक्स्ट क्या कहता है और वह कहां है।

वास्तविक दुनिया के लिए प्रशिक्षण

  • डेटासेट: 60% अकादमिक पेपर, 12% ब्रोशर, 11% कानूनी दस्तावेज
  • हार्डवेयर: NVIDIA GPUs के लिए अनुकूलित, तुलनीय सेटअप की तुलना में 90% कम ऊर्जा उपयोग
  • फाइन-ट्यूनिंग: दस्तावेज़ "बातचीत" के लिए Qwen2-VL-7B-Instruct को अनुकूलित किया गया

3 मिनट में olmOCR आज़माएँ

  1. इंस्टॉल करें
    git clone https://github.com/allenai/olmocr && cd olmocr
    pip install -e .
  2. नमूना PDF पर चलाएँ
    python -m olmocr.pipeline ./demo_output --pdfs tests/gnarly_pdfs/horribleocr.pdf
  3. Markdown की जाँच करें ./demo_output/horribleocr.md खोलें—टेबल, समीकरण और टेक्स्ट प्रवाह को बरकरार देखें!

अंतिम निष्कर्ष

olmOCR सिर्फ एक और टूल नहीं है—यह एक प्रतिमान बदलाव है। VLMs को पारदर्शी इंजीनियरिंग के साथ जोड़कर, यह सभी के लिए उच्च-गुणवत्ता वाले टेक्स्ट निष्कर्षण को सुलभ बनाता है। चाहे आप एक शोध कॉर्पस बना रहे हों या चालान प्रसंस्करण को स्वचालित कर रहे हों, यह टूलकिट आपके स्टैक में होना चाहिए।

अगले कदम

आइए PDF दर्द को सादे टेक्स्ट लाभ में बदलें! 🚀