olmOCR-এর স্থানীয় স্থাপনার সাথে PDF প্রসেসিং সহজ করুন!

OLMOCR Team
১ মার্চ, ২০২৫
olmOCR-এর স্থানীয় স্থাপনার সাথে PDF প্রসেসিং সহজ করুন!
যারা PDF ডকুমেন্ট নিয়ে কাজ করেন, তাদের জন্য দারুণ একটি টুল হল olmOCR। এটি ব্যবহার করে যেকোন জটিল বিন্যাসের PDF পড়া যাবে, যেমন - একাডেমিক পেপার বা জটিল টেবিল। সবচেয়ে গুরুত্বপূর্ণ হল, এটি স্থানীয়ভাবে স্থাপন করা যায়, ফলে ডেটার নিরাপত্তা নিশ্চিত থাকে। নিচে ধাপে ধাপে এর ইনস্টলেশন এবং ব্যবহারের পদ্ধতি দেখুন👇
🛠️ প্রয়োজনীয় প্যাকেজ ইনস্টলেশন
প্রথমে, কিছু সিস্টেম-স্তরের প্যাকেজ ইনস্টল করতে হবে (উদাহরণস্বরূপ, উবুন্টুতে):
# সব প্রয়োজনীয় প্যাকেজ একসাথে ইনস্টল করার জন্য
sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools
💡 পরামর্শ: ফন্ট লাইসেন্স এগ্রিমেন্ট আসলে, TAB
কী চেপে <Yes>
নির্বাচন করে নিশ্চিত করুন!
🌱 পাইথন এনভায়রনমেন্ট তৈরি
কন্ডা ব্যবহার করে এনভায়রনমেন্ট পরিচালনা করা সুবিধাজনক:
conda create -n olmocr python=3.11
conda activate olmocr
# রিপোজিটরি ক্লোন এবং ইনস্টল করুন
git clone https://github.com/allenai/olmocr.git
cd olmocr
pip install -e .
⚡ দ্রুতগতির জন্য সহায়ক কম্পোনেন্ট
GPU ব্যবহার করে দ্রুত কাজ করতে চাইলে, এই দুটি কমান্ড ব্যবহার করুন:
pip install sgl-kernel==0.0.3.post1 --force-reinstall --no-deps
pip install "sglang[all]==0.4.2" --find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/
🚀 দ্রুত পরীক্ষা: PDF রূপান্তর
একটি ফাইল রূপান্তর
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/horribleocr.pdf
একাধিক ফাইল প্রসেস
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/*.pdf
রূপান্তরিত ফলাফল ./localworkspace/results
ফোল্ডারের JSONL ফাইলে সংরক্ষণ করা হবে। এটি দেখতে, এই কমান্ডটি ব্যবহার করুন:
cat localworkspace/results/output_*.jsonl
👀 ভিজ্যুয়াল তুলনা
আসল PDF এবং রূপান্তরিত ফলাফলের মধ্যে তুলনা করতে চাইলে, এটি ব্যবহার করুন:
python -m olmocr.viewer.dolmaviewer localworkspace/results/output_*.jsonl
তৈরি হওয়া dolma_previews
ফোল্ডারের HTML ফাইলটি খুলুন, আপনি এইরকম একটি তুলনামূলক ইন্টারফেস দেখতে পাবেন👇
🧰 উন্নত ব্যবহার
বৃহৎ আকারের PDF প্রসেসিং
যদি প্রচুর পরিমাণে PDF প্রসেস করার প্রয়োজন হয়, তবে AWS ক্লাস্টার ব্যবহার করা যেতে পারে:
# প্রথম নোড শুরু করার জন্য
python -m olmocr.pipeline s3://my_bucket/workspace --pdfs s3://my_bucket/pdfs/*.pdf
# অন্যান্য নোড যুক্ত করার জন্য
python -m olmocr.pipeline s3://my_bucket/workspace
সম্পূর্ণ প্যারামিটার দেখুন
python -m olmocr.pipeline --help
💻 ডকার ব্যবহারকারীদের জন্য
অফিসিয়াল ডকারফাইল রয়েছে, যা সরাসরি ইমেজ ব্যবহার করে কাজ সহজ করে:
FROM allenai/olmocr-inference:latest
# বিস্তারিত ব্যবহারের জন্য, প্রকল্পের ডকুমেন্টেশন দেখুন:
# লিঙ্ক:
https://github.com/allenai/olmocr/blob/main/scripts/beaker/Dockerfile-inference
❓ সাধারণ সমস্যা
-
GPU সংক্রান্ত সমস্যা হলে কী করবেন?
গ্রাফিক্স কার্ড ড্রাইভার এবং CUDA ভার্সন নিশ্চিত করুন। RTX 4090/L40S/A100/H100-এর মতো নতুন কার্ড ব্যবহার করার পরামর্শ দেওয়া হয়। -
বাংলা PDF কি সাপোর্ট করে?
বর্তমানে এটি ইংরেজি ডকুমেন্টের জন্য অপ্টিমাইজ করা হয়েছে, তবে--apply_filter
প্যারামিটার ব্যবহার করে অন্যান্য ভাষা চেষ্টা করা যেতে পারে। -
ডিস্কে পর্যাপ্ত জায়গা না থাকলে?
কমপক্ষে 30GB জায়গা খালি রাখুন। বড় ফাইল প্রসেস করার জন্য SSD ব্যবহার করার পরামর্শ দেওয়া হয়।
👏 কৃতজ্ঞতা
olmOCR অ্যালেন ইনস্টিটিউট ফর আর্টিফিশিয়াল ইন্টেলিজেন্স (AI2) দ্বারা তৈরি করা হয়েছে এবং এটি Apache 2.0 লাইসেন্সের অধীনে উপলব্ধ। ডেভেলপার টিমের অবদানের জন্য বিশেষ ধন্যবাদ (অবদানকারীদের সম্পূর্ণ তালিকা)।
এখনই এটি ব্যবহার করে দেখুন! কোন সমস্যা হলে, ডিসকর্ড সম্প্রদায় এ যোগাযোগ করুন। 🎉