स्थानीय रूप से olmOCR परिनियोजित करने के लिए चरण-दर-चरण मार्गदर्शिका: PDF संसाधन को अत्यंत सरल बनाना!
⚠️ IMPORTANT UPDATE: This guide is now outdated. Please refer to our Complete olmOCR Local Deployment Guide 2025 for the latest installation methods, performance optimizations, and Docker configurations with version 0.3.4+.
PDF दस्तावेज़ों के साथ काम करने वाले सभी साथियों के लिए ध्यान दें! आज मैं एक शक्तिशाली उपकरण - olmOCR की अनुशंसा कर रहा हूँ, जो भाषा मॉडल को विभिन्न जटिल लेआउट वाले PDF को आसानी से समझने में सक्षम बनाता है! चाहे वह अकादमिक पेपर हों या जटिल तालिकाएँ, यह सब संभाल सकता है। सबसे अच्छी बात यह है कि यह स्थानीय परिनियोजन का समर्थन करता है, जिससे डेटा सुरक्षा सुनिश्चित होती है! नीचे, मैं आपको स्थापना और उपयोग के माध्यम से चरण-दर-चरण मार्गदर्शन करूँगा 👇
🛠️ तैयारी: निर्भरता पैकेज स्थापित करना
सबसे पहले, हमें कुछ सिस्टम-स्तरीय निर्भरताएँ स्थापित करनी होंगी (उदाहरण के लिए, Ubuntu):
# एक-क्लिक में सभी पैकेज स्थापित करें
sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools💡 सुझाव: स्थापना के दौरान फ़ॉन्ट लाइसेंसिंग समझौते का सामना करते समय, पुष्टि करने के लिए TAB कुंजी दबाकर <Yes> चुनें!
🌱 पायथन वातावरण बनाना
वातावरण प्रबंधन के लिए कोंडा का उपयोग करने की अनुशंसा की जाती है:
conda create -n olmocr python=3.11
conda activate olmocr
# रिपॉजिटरी क्लोन करें और स्थापित करें
git clone https://github.com/allenai/olmocr.git
cd olmocr
pip install -e .⚡ त्वरण घटकों को स्थापित करना
GPU त्वरण का उपयोग करना चाहते हैं? ये दो कमांड लाइनें आवश्यक हैं:
pip install sgl-kernel==0.0.3.post1 --force-reinstall --no-deps
pip install "sglang[all]==0.4.2" --find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/🚀 त्वरित अनुभव: PDF रूपांतरण अभ्यास
एकल फ़ाइल रूपांतरण
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/horribleocr.pdfबैच संसाधन
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/*.pdfरूपांतरण परिणाम ./localworkspace/results निर्देशिका में JSONL फ़ाइलों में सहेजे जाएँगे। उन्हें देखने के लिए इस कमांड का उपयोग करें:
cat localworkspace/results/output_*.jsonl👀 विज़ुअलाइज़ेशन तुलना उपकरण
मूल PDF और रूपांतरण परिणामों के बीच एक दृश्य तुलना चाहते हैं? इसे आजमाएँ:
python -m olmocr.viewer.dolmaviewer localworkspace/results/output_*.jsonlउत्पन्न dolma_previews निर्देशिका में HTML फ़ाइल खोलें, और आपको इस तरह का एक तुलना इंटरफ़ेस दिखाई देगा 👇
🧰 उन्नत सुविधाएँ
लाखों PDF का संसाधन
यदि यह उद्यम-स्तर का बड़े पैमाने पर PDF संसाधन है, तो आप AWS क्लस्टर का उपयोग कर सकते हैं:
# पहले नोड को इनिशियलाइज़ करें
python -m olmocr.pipeline s3://my_bucket/workspace --pdfs s3://my_bucket/pdfs/*.pdf
# अन्य नोड्स को क्लस्टर में शामिल करें
python -m olmocr.pipeline s3://my_bucket/workspaceपूर्ण पैरामीटर देखें
python -m olmocr.pipeline --help💻 डॉकर प्रेमियों के लिए विशेष
आधिकारिक तौर पर एक तैयार Dockerfile प्रदान किया गया है, जो सीधे छवि को खींचकर अधिक सुविधाजनक बनाता है:
FROM allenai/olmocr-inference:latest
# विशिष्ट उपयोग के लिए, परियोजना दस्तावेज़ देखें
# लिंक इस प्रकार है:
https://github.com/allenai/olmocr/blob/main/scripts/beaker/Dockerfile-inference❓ सामान्य प्रश्न
-
GPU त्रुटियों का निवारण कैसे करें? ग्राफिक्स कार्ड ड्राइवर और CUDA संस्करण की पुष्टि करें। RTX 4090/L40S/A100/H100 जैसे नए कार्ड का उपयोग करने की अनुशंसा की जाती है।
-
क्या चीनी PDF समर्थित हैं? वर्तमान में मुख्य रूप से अंग्रेजी दस्तावेज़ों के लिए अनुकूलित है, लेकिन आप
--apply_filterपैरामीटर के माध्यम से अन्य भाषाओं का प्रयास कर सकते हैं। -
अपर्याप्त डिस्क स्थान? कम से कम 30GB स्थान आरक्षित करें। बड़ी फ़ाइलों को संसाधित करने के लिए SSD माउंट करने की अनुशंसा की जाती है।
👏 आभार
olmOCR को एलन इंस्टीट्यूट फॉर आर्टिफिशियल इंटेलिजेंस (AI2) द्वारा विकसित किया गया है और यह अपाचे 2.0 ओपन सोर्स लाइसेंस के तहत जारी किया गया है। विकास टीम के योगदान के लिए विशेष धन्यवाद (योगदानकर्ताओं की पूरी सूची)।
इसे अभी आजमाएँ! यदि आपको कोई समस्या आती है, तो डिस्कॉर्ड समुदाय में चर्चा करने के लिए आपका स्वागत है 🎉