Hướng dẫn cài đặt olmOCR tại máy tính cá nhân: Xử lý PDF siêu đơn giản!

Hướng dẫn cài đặt olmOCR tại máy tính cá nhân: Xử lý PDF siêu đơn giản!

Author

OLMOCR Team

1 tháng 3, 2025

Hướng dẫn cài đặt olmOCR tại máy tính cá nhân: Xử lý PDF siêu đơn giản!

olmOCR Logo

Xin chào các bạn thường xuyên làm việc với tài liệu PDF! Hôm nay, tôi xin giới thiệu một công cụ tuyệt vời - olmOCR, giúp mô hình ngôn ngữ đọc hiểu các tài liệu PDF có bố cục phức tạp một cách dễ dàng! Dù là tài liệu học thuật hay bảng biểu phức tạp, olmOCR đều có thể xử lý. Điều tuyệt vời nhất là nó hỗ trợ cài đặt tại máy tính cá nhân, đảm bảo an toàn dữ liệu! Sau đây, tôi sẽ hướng dẫn các bạn từng bước cài đặt và sử dụng 👇


🛠️ Chuẩn bị: Cài đặt các gói phụ thuộc

Đầu tiên, chúng ta cần cài đặt một số gói phụ thuộc cấp hệ thống (ví dụ trên Ubuntu):

# Cài đặt tất cả trong một
sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools

💡 Mẹo nhỏ: Khi gặp thông báo về thỏa thuận cấp phép phông chữ trong quá trình cài đặt, hãy nhấn phím TAB để chọn <Yes> và xác nhận!


🌱 Tạo môi trường Python

Khuyến nghị sử dụng conda để quản lý môi trường:

conda create -n olmocr python=3.11
conda activate olmocr

# Sao chép kho lưu trữ  cài đặt
git clone https://github.com/allenai/olmocr.git
cd olmocr
pip install -e .

⚡ Cài đặt các thành phần tăng tốc

Bạn muốn tăng tốc bằng GPU? Đừng bỏ qua hai dòng lệnh này:

pip install sgl-kernel==0.0.3.post1 --force-reinstall --no-deps
pip install "sglang[all]==0.4.2" --find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/

🚀 Trải nghiệm nhanh: Chuyển đổi PDF thực tế

Chuyển đổi một tệp

python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/horribleocr.pdf

Xử lý hàng loạt

python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/*.pdf

Kết quả chuyển đổi sẽ được lưu trong tệp JSONL trong thư mục ./localworkspace/results. Sử dụng lệnh này để xem:

cat localworkspace/results/output_*.jsonl

👀 Công cụ so sánh trực quan

Bạn muốn so sánh trực quan PDF gốc và kết quả chuyển đổi? Hãy thử công cụ này:

python -m olmocr.viewer.dolmaviewer localworkspace/results/output_*.jsonl

Mở tệp HTML trong thư mục dolma_previews được tạo, bạn sẽ thấy giao diện so sánh như thế này 👇

Ví dụ về so sánh trực quan


🧰 Cách chơi nâng cao

Xử lý hàng triệu PDF

Nếu bạn cần xử lý một lượng lớn PDF ở cấp độ doanh nghiệp, bạn có thể sử dụng cụm AWS:

# Khởi tạo trên nút đầu tiên
python -m olmocr.pipeline s3://my_bucket/workspace --pdfs s3://my_bucket/pdfs/*.pdf

# Các nút khác tham gia cụm
python -m olmocr.pipeline s3://my_bucket/workspace

Xem các tham số đầy đủ

python -m olmocr.pipeline --help

💻 Dành riêng cho người dùng Docker

Nhóm phát triển đã cung cấp Dockerfile sẵn có, giúp bạn dễ dàng lấy image hơn:

FROM allenai/olmocr-inference:latest
# Xem tài liệu dự án để biết cách sử dụng chi tiết
# Liên kết:
https://github.com/allenai/olmocr/blob/main/scripts/beaker/Dockerfile-inference

❓ Câu hỏi thường gặp

  1. Lỗi GPU thì phải làm sao?
    Kiểm tra trình điều khiển card đồ họa và phiên bản CUDA. Khuyến nghị sử dụng các card mới như RTX 4090/L40S/A100/H100.

  2. Có hỗ trợ PDF tiếng Việt không?
    Hiện tại, olmOCR được tối ưu hóa chủ yếu cho tài liệu tiếng Anh, nhưng bạn có thể thử các ngôn ngữ khác bằng cách sử dụng tham số --apply_filter.

  3. Không đủ dung lượng ổ đĩa?
    Đảm bảo có ít nhất 30GB dung lượng trống. Nếu xử lý các tệp lớn, nên gắn ổ SSD.


👏 Lời cảm ơn

olmOCR được phát triển bởi Viện Trí tuệ Nhân tạo Allen (AI2), sử dụng giấy phép nguồn mở Apache 2.0. Xin chân thành cảm ơn những đóng góp của nhóm phát triển (danh sách đầy đủ những người đóng góp).

Hãy bắt đầu thử ngay bây giờ! Nếu bạn gặp bất kỳ vấn đề nào, hãy tham gia cộng đồng Discord để trao đổi ~🎉