Hướng dẫn Triển khai Cục bộ olmOCR hoàn chỉnh 2025: Xử lý PDF hiện đại với Docker & vLLM

Logo olmOCR

Tôi đã làm việc với olmOCR trong vài tháng qua, và phải nói rằng – công cụ này đã thay đổi hoàn toàn cách tôi xử lý PDF. Phiên bản 0.3.4 vừa ra mắt, và thực sự ấn tượng với những gì đội ngũ Allen AI đã làm được ở đây.

🚀 Muốn thử trước không? Hãy truy cập trang chủ của chúng tôi để kiểm tra khả năng của olmOCR với các tệp PDF của riêng bạn trước khi thiết lập triển khai cục bộ.

📚 Lưu ý: Nếu bạn đang tìm hướng dẫn triển khai trước đây của chúng tôi "Hướng dẫn từng bước cho Triển khai cục bộ olmOCR", xin lưu ý rằng nó hiện đã lỗi thời. Hướng dẫn toàn diện 2025 này chứa các phương pháp cài đặt mới nhất và thực tiễn tốt nhất.

Đây là những gì thu hút sự chú ý của tôi trong bản phát hành mới nhất:

Phát hiện tự động xoay thực sự hoạt động bây giờ (không còn tài liệu nằm ngang nữa!)
Thiết lập Docker mượt mà hơn nhiều so với trước
Họ đã chuyển sang vLLM và sự khác biệt về tốc độ có thể nhận thấy
Nếu bạn có RTX 4090 hoặc H100, tối ưu hóa FlashInfer rất đáng giá
Tiết kiệm chi phí là thực: tôi xử lý tài liệu với 150.000đ mỗi triệu trang thay vì 10 triệu đ+ mà tôi trả cho API thương mại

🎯 Tại sao tôi chuyển sang Triển khai olmOCR cục bộ

Con số không nói dối (nhưng không phải tất cả)

Nghe này, tôi sẽ không làm cho nó ngọt ngào – tôi chuyển sang olmOCR vì tiền. Benchmark cho thấy độ chính xác 78.5% so với 70.1% của Marker, và điều đó tuyệt vời, nhưng điều thuyết phục tôi là sự khác biệt chi phí. Tôi đang mất tiền với API thương mại.

Nhưng đây là những gì thực sự quan trọng trong thực tế:

Thực sự giữ dữ liệu của bạn riêng tư: Không tải lên hợp đồng nhạy cảm lên dịch vụ bên thứ ba
Hoạt động offline: Internet đứt? Ai quan tâm, bạn vẫn đang xử lý tài liệu
Xử lý PDF kỳ lạ: Bạn biết những tài liệu được quét từ năm 1995 với layout kỳ lạ chứ? Đúng, nó cũng xử lý được chúng
Mở rộng quy mô khi cần: Bắt đầu với tệp đơn lẻ, bây giờ tôi xử lý hàng nghìn tệp mà không làm vỡ ngân hàng

🛠️ Bạn thực sự cần gì

Hãy nói về Phần cứng (Yêu cầu thực)

Trước khi đi sâu, hãy thành thật về những gì bạn cần. Tài liệu nói "cấu hình tối thiểu" nhưng tôi sẽ cho bạn biết cái gì thực sự hoạt động:

Nếu bạn muốn bắt đầu:

GPU: RTX 4090 với 24GB là điểm ngọt cho hầu hết mọi người. Tôi đã thấy nó chạy trên 16GB nhưng nó chật – kiểm tra thực tế: cộng đồng báo cáo rằng nó thực sự sử dụng ~20GB VRAM trên 3090, vậy nên card 16GB khó khăn
RAM: 32GB ổn, mặc dù tôi sẽ lấy 64GB nếu bạn có kế hoạch xử lý batch lớn
Lưu trữ: 30GB tối thiểu, nhưng lấy NVMe SSD nếu có thể. Tin tôi về điều này
CUDA: 12.8+ (kiểm tra trước với nvidia-smi)

⚠️ Cảnh báo Cộng đồng - Multi-GPU không hoạt động: Nếu bạn đang nghĩ "Tôi sẽ chỉ sử dụng hai RTX 3060 để có tổng 24GB" – đừng. Điều này xuất hiện liên tục trong các issue GitHub. olmOCR không thể gộp VRAM qua nhiều GPU. Bạn cần 20GB+ trên một card duy nhất. Tránh đau đầu cho bản thân.

Nếu bạn làm điều này cho công việc:

GPU: H100 nếu công ty bạn có túi sâu, A100 nếu không có
RAM: 64GB+ vì bạn sẽ chạy nhiều thứ khác nữa
Lưu trữ: 100GB+ trên lưu trữ nhanh. Xử lý trở nên lộn xộn

Thiết lập Nhàm chán nhưng Thiết yếu

Đúng, tôi biết, cài đặt dependency không vui. Nhưng bỏ qua điều này và bạn sẽ debug các vấn đề render PDF kỳ lạ sau này. Trên Ubuntu/Debian:

# Các nghi phạm thường lệ trước
sudo apt-get update

# Đây là dòng ma thuật sửa hầu hết vấn đề PDF
sudo apt-get install -y \
    poppler-utils \
    ttf-mscorefonts-installer \
    msttcorefonts \
    fonts-crosextra-caladea \
    fonts-crosextra-carlito \
    gsfonts \
    lcdf-typetools

Chú ý: Khi cài đặt font, bạn sẽ nhận được popup license. Chỉ cần nhấn TAB và chọn Yes. Đó là font Microsoft đang là Microsoft.

🐍 Thiết lập Python đúng cách

Chỉ sử dụng Conda (Nghiêm túc)

Tôi đã thử cả conda và venv cho việc này. Conda thắng mọi lần. Địa ngục dependency là thực với PyTorch và CUDA, và conda xử lý tốt hơn:

# Tạo môi trường sạch (Python 3.11 là cái họ test với)
conda create -n olmocr python=3.11
conda activate olmocr

# Dòng này sẽ tải xuống ~3GB đồ, hãy kiên nhẫn
pip install olmocr[gpu] --extra-index-url https://download.pytorch.org/whl/cu128

# Nếu bạn có RTX 4090 hoặc H100, điều này tạo khác biệt
pip install https://download.pytorch.org/whl/cu128/flashinfer/flashinfer_python-0.2.5%2Bcu128torch2.7-cp38-abi3-linux_x86_64.whl

Nếu bạn thực sự muốn sử dụng venv thay thế

Nhìn này, tôi hiểu. Một số người thích venv. Không sao, chỉ đừng đổ lỗi cho tôi khi bạn dành hai giờ debug phiên bản PyTorch:

# Thiết lập venv tiêu chuẩn
python3.11 -m venv olmocr-env
source olmocr-env/bin/activate  # Linux/Mac
# Cho người dùng Windows: olmocr-env\Scripts\activate

# Bắt chéo các ngón tay và cài đặt
pip install olmocr[gpu] --extra-index-url https://download.pytorch.org/whl/cu128

💬 Trải nghiệm Người dùng Thực: Một người dùng GitHub tóm tắt hoàn hảo: "Dành 3 giờ chiến đấu với xung đột phiên bản CUDA/PyTorch với venv. Chuyển sang conda và nó hoạt động trong 10 phút." Giải quyết dependency trong conda thực sự tạo khác biệt ở đây.

🚀 Thời gian thực sự sử dụng cái này

PDF đầu tiên của bạn (Khoảnh khắc Sự thật)

Hãy bắt đầu đơn giản. Nếu điều này không hoạt động, có gì đó sai với thiết lập của bạn:

# Lấy PDF test của họ (chỉ 3 trang)
curl -o olmocr-sample.pdf https://olmocr.allenai.org/papers/olmocr_3pg_sample.pdf

# Lần chạy đầu tiên sẽ tải xuống model (~13GB), vậy nên lấy cà phê
python -m olmocr.pipeline ./workspace --markdown --pdfs olmocr-sample.pdf

Lần chạy đầu tiên mất mãi mãi vì nó tải xuống model. Đừng hoảng sợ.

Xử lý Batch nhiều tệp

# Xử lý tất cả PDF trong thư mục
python -m olmocr.pipeline ./workspace --markdown --pdfs /path/to/pdfs/*.pdf

# Xử lý với thiết lập tùy chỉnh
python -m olmocr.pipeline ./workspace \
    --markdown \
    --pdfs /path/to/pdfs/*.pdf \
    --workers 4 \
    --target_longest_image_dim 2048

Xử lý tệp Hình ảnh

olmOCR hỗ trợ nhiều định dạng hình ảnh:

# Xử lý hình ảnh PNG/JPEG
python -m olmocr.pipeline ./workspace --markdown --pdfs document.png image.jpg

🐳 Hướng dẫn Triển khai Docker

Phương pháp 1: Docker Image Chính thức (Khuyến nghị)

# Pull Docker image olmOCR mới nhất
docker pull alleninstituteforai/olmocr:latest

# Chạy với hỗ trợ GPU và mount volume
docker run -it --gpus all \
    -v /path/to/your/documents:/documents \
    -v /path/to/output:/output \
    --name olmocr_container \
    alleninstituteforai/olmocr:latest /bin/bash

Bên trong Docker Container

# Xử lý tài liệu bên trong container
python -m olmocr.pipeline /output/workspace \
    --markdown \
    --pdfs /documents/*.pdf

Phương pháp 2: Docker với máy chủ vLLM bên ngoài

Cho môi trường sản xuất, tách máy chủ inference:

# Khởi động vLLM server container
docker run -d --gpus all \
    -p 8000:8000 \
    --name vllm-server \
    vllm/vllm-openai:latest \
    --served-model-name olmocr \
    --model allenai/olmOCR-7B-0825-FP8 \
    --max-model-len 16384

# Chạy olmOCR client trỏ đến vLLM server
docker run --rm --network host \
    -v /path/to/documents:/documents \
    -v /path/to/output:/output \
    alleninstituteforai/olmocr:latest \
    python -m olmocr.pipeline /output/workspace \
    --server http://localhost:8000 \
    --markdown \
    --pdfs /documents/*.pdf

⚡ Tùy chọn Cấu hình Nâng cao

Tối ưu hóa Bộ nhớ GPU

# Tối ưu hóa sử dụng bộ nhớ GPU
python -m olmocr.pipeline ./workspace \
    --markdown \
    --pdfs documents/*.pdf \
    --gpu-memory-utilization 0.9 \
    --max_model_len 8192 \
    --tensor-parallel-size 2

Cấu hình Model tùy chỉnh

# Sử dụng phiên bản model cụ thể
python -m olmocr.pipeline ./workspace \
    --model allenai/olmOCR-7B-0825-FP8 \
    --markdown \
    --pdfs documents/*.pdf

Điều chỉnh Chất lượng và Hiệu suất

# Xử lý chất lượng cao với thiết lập tùy chỉnh
python -m olmocr.pipeline ./workspace \
    --markdown \
    --pdfs documents/*.pdf \
    --target_longest_image_dim 2048 \
    --max_page_retries 5 \
    --max_page_error_rate 0.02 \
    --workers 8 \
    --apply_filter

🏢 Triển khai Doanh nghiệp & Sản xuất

Thiết lập Cluster đa node với AWS S3

Để xử lý hàng triệu tài liệu qua nhiều máy chủ:

# Khởi tạo workspace trên node đầu tiên
python -m olmocr.pipeline s3://my-bucket/workspace \
    --pdfs s3://my-bucket/documents/*.pdf

# Tham gia các node bổ sung vào cùng workspace
python -m olmocr.pipeline s3://my-bucket/workspace

Cấu hình máy chủ vLLM bên ngoài

Cho môi trường sản xuất throughput cao:

# Khởi động vLLM server
vllm serve allenai/olmOCR-7B-0825-FP8 \
    --served-model-name olmocr \
    --max-model-len 16384 \
    --tensor-parallel-size 4 \
    --gpu-memory-utilization 0.95

# Kết nối olmOCR với máy chủ bên ngoài
python -m olmocr.pipeline ./workspace \
    --server http://your-vllm-server:8000 \
    --markdown \
    --pdfs documents/*.pdf

Giám sát Hiệu suất & Tối ưu hóa

# Kích hoạt thống kê chi tiết
python -m olmocr.pipeline ./workspace \
    --stats \
    --markdown \
    --pdfs documents/*.pdf

📊 Xem và Quản lý Kết quả

Cấu trúc Thư mục Output

workspace/
├── markdown/           # Tệp markdown có thể đọc được bởi con người
├── results/           # Output định dạng Dolma
└── logs/              # Log xử lý

Xem Nội dung đã Chuyển đổi

# Xem output markdown
cat workspace/markdown/document.md

# Kiểm tra kết quả chi tiết
cat workspace/results/output_*.jsonl

Công cụ So sánh Hình ảnh

So sánh PDF gốc với kết quả đã chuyển đổi:

# Tạo so sánh cạnh nhau
python -m olmocr.viewer.dolmaviewer workspace/results/output_*.jsonl

# Mở tệp HTML được tạo trong trình duyệt
open dolma_previews/comparison.html

🔧 Khi mọi thứ đi sai (Và chúng sẽ sai)

CUDA Out of Memory (Cổ điển)

Điều này xảy ra với mọi người. GPU của bạn hết VRAM:

# Giảm sử dụng bộ nhớ và thử lại
python -m olmocr.pipeline ./workspace \
    --gpu-memory-utilization 0.7 \
    --max_model_len 8192 \
    --pdfs documents/*.pdf

🤷‍♂️ Cộng đồng nói gì: "Nếu bạn gặp lỗi OOM trên bất cứ thứ gì ít hơn 20GB VRAM, điều đó bình thường. Model chỉ đói thôi." - GitHub issue #142. Nhiều người dùng xác nhận rằng ngay cả với tối ưu hóa, bạn thực sự cần đầy đủ 20GB cho xử lý đáng tin cậy.

Model không muốn tải xuống

Đôi khi máy chủ HuggingFace chậm hoặc kết nối của bạn timeout:

# Tải xuống riêng trước
huggingface-cli download allenai/olmOCR-7B-0825-FP8

Vấn đề Font/Rendering kỳ lạ

PDF trông bị biến dạng? Thường là vấn đề font:

# Tùy chọn hạt nhân: cài đặt lại tất cả font
sudo apt-get install --reinstall ttf-mscorefonts-installer

Docker không thể thấy GPU của bạn

Docker có lẽ không được cấu hình cho truy cập GPU:

# Cài đặt NVIDIA Docker runtime
sudo apt-get install nvidia-docker2
sudo systemctl restart docker

Đúng, bạn cần khởi động lại Docker. Tôi học điều này theo cách khó khăn.

📈 Benchmark Hiệu suất & Tối ưu hóa

Kết quả Benchmark (olmOCR v0.3.0)

Model	ArXiv	Bảng	Scan cũ	Điểm tổng
olmOCR v0.3.0	78.6	72.9	43.9	78.5
Marker v1.7.5	76.0	57.6	27.8	70.1
MinerU v1.3.10	75.4	60.9	17.3	61.5

So sánh Chi phí

olmOCR: 150.000đ mỗi triệu trang
GPT-4o API: 10 triệu đ mỗi triệu trang
Tiết kiệm Chi phí: Giảm 98.5% chi phí xử lý

Mẹo Tối ưu hóa Hiệu suất

Lựa chọn GPU: H100 > A100 > RTX 4090 > L40S
Quản lý Bộ nhớ: Sử dụng 90% utilization GPU cho throughput tối đa
Xử lý Batch: Xử lý nhiều tệp đồng thời
Độ phân giải Hình ảnh: Cân bằng chất lượng (2048px) vs tốc độ (1280px)
Worker Threads: Khớp số worker với lõi CPU

💡 Mẹo Cộng đồng & Bài học học một cách khó khăn

Dựa trên hàng trăm issue GitHub và thảo luận cộng đồng, đây là những mẹo thế giới thực sẽ tiết kiệm thời gian cho bạn:

🎯 Kiểm tra Thực tế mua sắm Phần cứng

Điểm ngọt của Thị trường GPU đã qua sử dụng:

RTX 3090 (24GB): Yêu thích của cộng đồng cho olmOCR. Sử dụng ~20GB, để lại buffer 4GB cho bạn. Khả năng sẵn có vững chắc trên thị trường đã qua sử dụng
RTX 4080 (16GB): Về mặt kỹ thuật hoạt động nhưng chật. Một số người dùng báo cáo vấn đề OOM trên tài liệu phức tạp
Giấc mơ GPU kép: Dừng lại đó. Nhiều người dùng đã thử thiết lập RTX 3060 kép – không hoạt động, VRAM không gộp

Chiến lược Ngân sách từ Reddit: Một người dùng tóm tắt hoàn hảo: "Bán thiết lập 3060 kép của tôi, mua 3090 đã qua sử dụng. Chuyển từ 'không hoạt động' sang 'hoạt động tuyệt vời' với chênh lệch 6 triệu đồng."

🛠️ Câu chuyện Chiến tranh Cài đặt

Sự thật Quản lý Môi trường:

Python 3.11 + conda: Tỷ lệ thành công 90% trong báo cáo cộng đồng
Python 3.12 + venv: Tỷ lệ thành công 30%, nhiều địa ngục dependency
Bỏ qua 3.9/3.10: Nhiều vấn đề tương thích được báo cáo

Hướng dẫn Sống sót xung đột Dependency:

# Thứ tự cụ thể này quan trọng (học theo cách khó khăn bởi cộng đồng)
conda create -n olmocr python=3.11 -y
conda activate olmocr
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu121
pip install olmocr[gpu]

🚀 Hack Hiệu suất từ Power Users

Tối ưu hóa Bộ nhớ thực sự hoạt động:

# Điểm ngọt được test bởi cộng đồng cho RTX 3090
python -m olmocr.pipeline ./workspace \
    --gpu-memory-utilization 0.85 \
    --max_model_len 12288 \
    --workers 2 \
    --pdfs documents/*.pdf

Sự khôn ngoan Xử lý Batch:

Batch nhỏ (5-10 tệp): Nhanh hơn tổng thể, khôi phục dễ hơn từ lỗi
Batch lớn (50+ tệp): Rò rỉ bộ nhớ được báo cáo bởi cộng đồng, khởi động lại thỉnh thoảng
Một người dùng Reddit: "Xử lý 20 tệp, khởi động lại script. Nhàm chán nhưng đáng tin cậy."

🐛 Mô hình Lỗi thường gặp

Vấn đề "Hoạt động trên Demo, Thất bại trên PDF thực": Nhiều người dùng báo cáo điều này. Giải pháp thực từ thảo luận GitHub:

# Thêm các flag này cho PDF có vấn đề
--target_longest_image_dim 1500 \
--max_page_retries 3 \
--apply_filter

Vấn đề Bộ nhớ Docker trên Linux: Workaround cộng đồng cho giới hạn bộ nhớ Docker:

# Thêm vào lệnh docker run
--shm-size 8g --ulimit memlock=-1 --ulimit stack=67108864

🆕 Có gì mới trong Cập nhật 2025

Cải tiến Phiên bản 0.3.4 (Tháng 8 2025)

Auto-Rotation được cải tiến: Phát hiện hướng tài liệu tốt hơn
Xử lý Tài liệu Trống: Loại bỏ ảo giác trên trang trống
Tối ưu hóa Hiệu suất: Xử lý nhanh hơn với ít retry hơn
Tích hợp vLLM: Chuyển từ sglang sang vLLM cho tính ổn định tốt hơn
Cải tiến Docker: Cập nhật lên CUDA 12.8 cho hỗ trợ GPU mới nhất

Cải tiến Model

Model FP8 mới: allenai/olmOCR-7B-0825-FP8 cho inference nhanh hơn
Tăng Độ chính xác: Cải thiện 3+ điểm so với phiên bản trước
Hiệu quả Bộ nhớ: Giảm yêu cầu VRAM trong khi duy trì chất lượng

🔐 Cân nhắc Bảo mật & Riêng tư

Bảo vệ Dữ liệu On-Premises

Xử lý Cục bộ: Tài liệu không bao giờ rời khỏi cơ sở hạ tầng của bạn
Tuân thủ GDPR: Kiểm soát đầy đủ việc xử lý và lưu trữ dữ liệu
Bảo mật Doanh nghiệp: Triển khai sau firewall và VPN
Audit Trails: Ghi log đầy đủ các hoạt động xử lý tài liệu

Khuyến nghị Kiểm soát Truy cập

# Hạn chế truy cập mạng Docker container
docker run --rm --network none \
    -v /secure/documents:/documents:ro \
    -v /secure/output:/output \
    alleninstituteforai/olmocr:latest

🚀 Chuẩn bị Triển khai của bạn cho Tương lai

Giữ Cập nhật

# Kiểm tra cập nhật
pip list --outdated | grep olmocr

# Cập nhật lên phiên bản mới nhất
pip install --upgrade olmocr[gpu]

# Cập nhật Docker image
docker pull alleninstituteforai/olmocr:latest

Giám sát & Bảo trì

Cập nhật Thường xuyên: Kiểm tra hàng tháng cho bản phát hành mới
Giám sát Hiệu suất: Theo dõi tốc độ xử lý và độ chính xác
Sử dụng Tài nguyên: Giám sát bộ nhớ GPU và không gian đĩa
Chiến lược Sao lưu: Sao lưu thường xuyên kết quả đã xử lý

📚 Tài nguyên Bổ sung

Tài liệu Chính thức & Hỗ trợ

GitHub Repository: https://github.com/allenai/olmocr
Bài báo Kỹ thuật: Bài báo Nghiên cứu olmOCR
Demo Trực tuyến: https://olmocr.allenai.org/
Discord Cộng đồng: Tham gia Cộng đồng Discord

Trường hợp Sử dụng Nâng cao

Nghiên cứu Học thuật: Xử lý bài báo nghiên cứu và tài liệu khoa học
Tài liệu Pháp lý: Số hóa hợp đồng và tài liệu pháp lý
Lưu trữ Lịch sử: Số hóa tài liệu cũ và bản thảo
Dịch vụ Tài chính: Xử lý form và tài liệu tài chính
Chăm sóc Sức khỏe: Số hóa và xử lý hồ sơ y tế

🎉 Suy nghĩ Cuối cùng

Tôi sẽ thành thật – thiết lập olmOCR không phải là tầm thường, nhưng nó đáng giá. Sau khi sử dụng dịch vụ OCR thương mại trong nhiều năm và thấy hóa đơn của tôi tăng cao, điều này đã là một game-changer. Độ chính xác thực sự tốt hơn hầu hết các dịch vụ trả phí, và chạy cục bộ có nghĩa là không còn lo lắng về quyền riêng tư dữ liệu hoặc giới hạn API.

Đây là những gì bạn có thể làm sau khi làm theo hướng dẫn này:

✅ Xử lý tài liệu mà không cần tải lên bất cứ đâu
✅ Xử lý mọi thứ từ PDF đơn giản đến tài liệu scan phức tạp
✅ Mở rộng từ tệp đơn lẻ đến batch khổng lồ mà không làm vỡ ngân hàng
✅ Không bao giờ lo lắng về giới hạn tốc độ API nữa
✅ Giữ tài liệu nhạy cảm của bạn ở nơi chúng thuộc về – trên cơ sở hạ tầng của bạn

Bắt đầu với một PDF đơn giản, xem nó hoạt động như thế nào, rồi mở rộng quy mô lên. Thiết lập ban đầu mất thời gian, nhưng bạn sẽ cảm ơn bản thân sau này.

Mắc kẹt ở điều gì đó? Cộng đồng Discord khá hữu ích: discord.gg/sZq3jTNVNG

❓ Câu hỏi tôi tiếp tục nhận được

H: Cái này có thể xử lý tài liệu bằng tiếng Trung/Tây Ban Nha/bất cứ thứ gì không?
Đ: Có, nó hoạt động với nhiều ngôn ngữ. Thêm --apply_filter cho những thứ không phải tiếng Anh, mặc dù việc huấn luyện chủ yếu là trên tài liệu tiếng Anh nên YMMV.

H: Cái này sẽ hoạt động trên RTX 3090 của tôi không?
Đ: Thực ra, có! 3090 hoạt động tuyệt vời - người dùng báo cáo rằng nó sử dụng khoảng 20GB trong số 24GB có sẵn. Nó đã trở nên phổ biến trong cộng đồng như một lựa chọn hiệu quả về chi phí, đặc biệt là trên thị trường đã qua sử dụng.

H: Nó có thực sự tốt hơn các dịch vụ trả phí không?
Đ: Trong kiểm thử của tôi, có. Nó đạt 78.5% trên benchmark của họ vs 70% cho hầu hết các lựa chọn thương mại. Thêm nữa, bạn biết đó, nó không tốn 10 triệu đồng mỗi triệu trang.

H: Tôi có phải sử dụng Docker không?
Đ: Không! Docker chỉ làm cho triển khai dễ hơn. Thiết lập conda hoạt động tốt nếu bạn thích lộ trình đó.

H: Có kế hoạch cho GUI không?
Đ: Không mà tôi biết. Nó chỉ là command-line, nhưng có web demo nếu bạn muốn test tệp mà không cài đặt gì.

H: Tìm thấy bug, tôi làm gì?
Đ: Tạo issue trên GitHub. Đội Allen AI khá phản hồi.

H: Có kế hoạch cho hỗ trợ multi-GPU không?
Đ: Đây là tính năng #1 được yêu cầu trong các issue GitHub. Hiện tại không có timeline chính thức, nhưng cộng đồng thực sự muốn nó. Hiện tại bạn bị mắc kẹt với việc cần một card VRAM cao duy nhất.

H: Thế còn Apple Silicon/Mac series M?
Đ: Cũng được yêu cầu cao nhưng hiện tại không được hỗ trợ. Hiện tại chỉ là CUDA thôi. Một số người dùng hỏi về hỗ trợ MPS nhưng chưa có gì cụ thể.

Hướng dẫn Triển khai Cục bộ olmOCR hoàn chỉnh 2025: Xử lý PDF hiện đại với Docker & vLLM

Mục lục