स्थानीय रूप से olmOCR परिनियोजित करने के लिए चरण-दर-चरण मार्गदर्शिका: PDF संसाधन को अत्यंत सरल बनाना!

olmOCR Logo

PDF दस्तावेज़ों के साथ काम करने वाले सभी साथियों के लिए ध्यान दें! आज मैं एक शक्तिशाली उपकरण - olmOCR की अनुशंसा कर रहा हूँ, जो भाषा मॉडल को विभिन्न जटिल लेआउट वाले PDF को आसानी से समझने में सक्षम बनाता है! चाहे वह अकादमिक पेपर हों या जटिल तालिकाएँ, यह सब संभाल सकता है। सबसे अच्छी बात यह है कि यह स्थानीय परिनियोजन का समर्थन करता है, जिससे डेटा सुरक्षा सुनिश्चित होती है! नीचे, मैं आपको स्थापना और उपयोग के माध्यम से चरण-दर-चरण मार्गदर्शन करूँगा 👇

🛠️ तैयारी: निर्भरता पैकेज स्थापित करना

सबसे पहले, हमें कुछ सिस्टम-स्तरीय निर्भरताएँ स्थापित करनी होंगी (उदाहरण के लिए, Ubuntu):

# एक-क्लिक में सभी पैकेज स्थापित करें
sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools

💡 सुझाव: स्थापना के दौरान फ़ॉन्ट लाइसेंसिंग समझौते का सामना करते समय, पुष्टि करने के लिए TAB कुंजी दबाकर <Yes> चुनें!

🌱 पायथन वातावरण बनाना

वातावरण प्रबंधन के लिए कोंडा का उपयोग करने की अनुशंसा की जाती है:

conda create -n olmocr python=3.11
conda activate olmocr

# रिपॉजिटरी क्लोन करें और स्थापित करें
git clone https://github.com/allenai/olmocr.git
cd olmocr
pip install -e .

⚡ त्वरण घटकों को स्थापित करना

GPU त्वरण का उपयोग करना चाहते हैं? ये दो कमांड लाइनें आवश्यक हैं:

pip install sgl-kernel==0.0.3.post1 --force-reinstall --no-deps
pip install "sglang[all]==0.4.2" --find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/

🚀 त्वरित अनुभव: PDF रूपांतरण अभ्यास

एकल फ़ाइल रूपांतरण

python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/horribleocr.pdf

बैच संसाधन

python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/*.pdf

रूपांतरण परिणाम ./localworkspace/results निर्देशिका में JSONL फ़ाइलों में सहेजे जाएँगे। उन्हें देखने के लिए इस कमांड का उपयोग करें:

cat localworkspace/results/output_*.jsonl

👀 विज़ुअलाइज़ेशन तुलना उपकरण

मूल PDF और रूपांतरण परिणामों के बीच एक दृश्य तुलना चाहते हैं? इसे आजमाएँ:

python -m olmocr.viewer.dolmaviewer localworkspace/results/output_*.jsonl

उत्पन्न dolma_previews निर्देशिका में HTML फ़ाइल खोलें, और आपको इस तरह का एक तुलना इंटरफ़ेस दिखाई देगा 👇

विज़ुअलाइज़ेशन तुलना उदाहरण

🧰 उन्नत सुविधाएँ

लाखों PDF का संसाधन

यदि यह उद्यम-स्तर का बड़े पैमाने पर PDF संसाधन है, तो आप AWS क्लस्टर का उपयोग कर सकते हैं:

# पहले नोड को इनिशियलाइज़ करें
python -m olmocr.pipeline s3://my_bucket/workspace --pdfs s3://my_bucket/pdfs/*.pdf

# अन्य नोड्स को क्लस्टर में शामिल करें
python -m olmocr.pipeline s3://my_bucket/workspace

पूर्ण पैरामीटर देखें

python -m olmocr.pipeline --help

💻 डॉकर प्रेमियों के लिए विशेष

आधिकारिक तौर पर एक तैयार Dockerfile प्रदान किया गया है, जो सीधे छवि को खींचकर अधिक सुविधाजनक बनाता है:

FROM allenai/olmocr-inference:latest
# विशिष्ट उपयोग के लिए, परियोजना दस्तावेज़ देखें
# लिंक इस प्रकार है:
https://github.com/allenai/olmocr/blob/main/scripts/beaker/Dockerfile-inference

❓ सामान्य प्रश्न

GPU त्रुटियों का निवारण कैसे करें? ग्राफिक्स कार्ड ड्राइवर और CUDA संस्करण की पुष्टि करें। RTX 4090/L40S/A100/H100 जैसे नए कार्ड का उपयोग करने की अनुशंसा की जाती है।
क्या चीनी PDF समर्थित हैं? वर्तमान में मुख्य रूप से अंग्रेजी दस्तावेज़ों के लिए अनुकूलित है, लेकिन आप --apply_filter पैरामीटर के माध्यम से अन्य भाषाओं का प्रयास कर सकते हैं।
अपर्याप्त डिस्क स्थान? कम से कम 30GB स्थान आरक्षित करें। बड़ी फ़ाइलों को संसाधित करने के लिए SSD माउंट करने की अनुशंसा की जाती है।

👏 आभार

olmOCR को एलन इंस्टीट्यूट फॉर आर्टिफिशियल इंटेलिजेंस (AI2) द्वारा विकसित किया गया है और यह अपाचे 2.0 ओपन सोर्स लाइसेंस के तहत जारी किया गया है। विकास टीम के योगदान के लिए विशेष धन्यवाद (योगदानकर्ताओं की पूरी सूची)।

इसे अभी आजमाएँ! यदि आपको कोई समस्या आती है, तो डिस्कॉर्ड समुदाय में चर्चा करने के लिए आपका स्वागत है 🎉