olmOCR-এর স্থানীয় স্থাপনার সাথে PDF প্রসেসিং সহজ করুন!

olmOCR লোগো

যারা PDF ডকুমেন্ট নিয়ে কাজ করেন, তাদের জন্য দারুণ একটি টুল হল olmOCR। এটি ব্যবহার করে যেকোন জটিল বিন্যাসের PDF পড়া যাবে, যেমন - একাডেমিক পেপার বা জটিল টেবিল। সবচেয়ে গুরুত্বপূর্ণ হল, এটি স্থানীয়ভাবে স্থাপন করা যায়, ফলে ডেটার নিরাপত্তা নিশ্চিত থাকে। নিচে ধাপে ধাপে এর ইনস্টলেশন এবং ব্যবহারের পদ্ধতি দেখুন👇

🛠️ প্রয়োজনীয় প্যাকেজ ইনস্টলেশন

প্রথমে, কিছু সিস্টেম-স্তরের প্যাকেজ ইনস্টল করতে হবে (উদাহরণস্বরূপ, উবুন্টুতে):

# সব প্রয়োজনীয় প্যাকেজ একসাথে ইনস্টল করার জন্য
sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools

💡 পরামর্শ: ফন্ট লাইসেন্স এগ্রিমেন্ট আসলে, TAB কী চেপে <Yes> নির্বাচন করে নিশ্চিত করুন!

🌱 পাইথন এনভায়রনমেন্ট তৈরি

কন্ডা ব্যবহার করে এনভায়রনমেন্ট পরিচালনা করা সুবিধাজনক:

conda create -n olmocr python=3.11
conda activate olmocr

# রিপোজিটরি ক্লোন এবং ইনস্টল করুন
git clone https://github.com/allenai/olmocr.git
cd olmocr
pip install -e .

⚡ দ্রুতগতির জন্য সহায়ক কম্পোনেন্ট

GPU ব্যবহার করে দ্রুত কাজ করতে চাইলে, এই দুটি কমান্ড ব্যবহার করুন:

pip install sgl-kernel==0.0.3.post1 --force-reinstall --no-deps
pip install "sglang[all]==0.4.2" --find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/

🚀 দ্রুত পরীক্ষা: PDF রূপান্তর

একটি ফাইল রূপান্তর

python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/horribleocr.pdf

একাধিক ফাইল প্রসেস

python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/*.pdf

রূপান্তরিত ফলাফল ./localworkspace/results ফোল্ডারের JSONL ফাইলে সংরক্ষণ করা হবে। এটি দেখতে, এই কমান্ডটি ব্যবহার করুন:

cat localworkspace/results/output_*.jsonl

👀 ভিজ্যুয়াল তুলনা

আসল PDF এবং রূপান্তরিত ফলাফলের মধ্যে তুলনা করতে চাইলে, এটি ব্যবহার করুন:

python -m olmocr.viewer.dolmaviewer localworkspace/results/output_*.jsonl

তৈরি হওয়া dolma_previews ফোল্ডারের HTML ফাইলটি খুলুন, আপনি এইরকম একটি তুলনামূলক ইন্টারফেস দেখতে পাবেন👇

ভিজ্যুয়াল তুলনার উদাহরণ

🧰 উন্নত ব্যবহার

বৃহৎ আকারের PDF প্রসেসিং

যদি প্রচুর পরিমাণে PDF প্রসেস করার প্রয়োজন হয়, তবে AWS ক্লাস্টার ব্যবহার করা যেতে পারে:

# প্রথম নোড শুরু করার জন্য
python -m olmocr.pipeline s3://my_bucket/workspace --pdfs s3://my_bucket/pdfs/*.pdf

# অন্যান্য নোড যুক্ত করার জন্য
python -m olmocr.pipeline s3://my_bucket/workspace

সম্পূর্ণ প্যারামিটার দেখুন

python -m olmocr.pipeline --help

💻 ডকার ব্যবহারকারীদের জন্য

অফিসিয়াল ডকারফাইল রয়েছে, যা সরাসরি ইমেজ ব্যবহার করে কাজ সহজ করে:

FROM allenai/olmocr-inference:latest
# বিস্তারিত ব্যবহারের জন্য, প্রকল্পের ডকুমেন্টেশন দেখুন:
# লিঙ্ক:
https://github.com/allenai/olmocr/blob/main/scripts/beaker/Dockerfile-inference

❓ সাধারণ সমস্যা

GPU সংক্রান্ত সমস্যা হলে কী করবেন?
গ্রাফিক্স কার্ড ড্রাইভার এবং CUDA ভার্সন নিশ্চিত করুন। RTX 4090/L40S/A100/H100-এর মতো নতুন কার্ড ব্যবহার করার পরামর্শ দেওয়া হয়।
বাংলা PDF কি সাপোর্ট করে?
বর্তমানে এটি ইংরেজি ডকুমেন্টের জন্য অপ্টিমাইজ করা হয়েছে, তবে --apply_filter প্যারামিটার ব্যবহার করে অন্যান্য ভাষা চেষ্টা করা যেতে পারে।
ডিস্কে পর্যাপ্ত জায়গা না থাকলে?
কমপক্ষে 30GB জায়গা খালি রাখুন। বড় ফাইল প্রসেস করার জন্য SSD ব্যবহার করার পরামর্শ দেওয়া হয়।

👏 কৃতজ্ঞতা

olmOCR অ্যালেন ইনস্টিটিউট ফর আর্টিফিশিয়াল ইন্টেলিজেন্স (AI2) দ্বারা তৈরি করা হয়েছে এবং এটি Apache 2.0 লাইসেন্সের অধীনে উপলব্ধ। ডেভেলপার টিমের অবদানের জন্য বিশেষ ধন্যবাদ (অবদানকারীদের সম্পূর্ণ তালিকা)।

এখনই এটি ব্যবহার করে দেখুন! কোন সমস্যা হলে, ডিসকর্ড সম্প্রদায় এ যোগাযোগ করুন। 🎉