Ефективне вилучення тексту з PDF за допомогою візуально-мовних моделей —— чому olmOCR змінює правила гри

Ефективне вилучення тексту з PDF за допомогою візуально-мовних моделей —— чому olmOCR змінює правила гри

Author

OLMOCR Team

3 березня 2025 р.

olmOCR Pipeline Підпис: Наскрізний конвеєр olmOCR перетворює заплутані PDF-файли на структурований текст Markdown за ціною, що в 32 рази нижча, ніж у GPT-4o.

Прихована проблема PDF: чому простий текст має значення

Мовні моделі процвітають на чистому тексті, але PDF-файли — це їхній головний ворог. Розроблені для друку, а не для аналізу, вони плутають розташування тексту, ховають таблиці в двійковому коді та перетворюють рівняння на візуальні головоломки. Традиційні інструменти OCR? Вони часто пропускають форматування, мають проблеми з багатоколонковими макетами або коштують цілий статок.

Представляємо olmOCR: інструментарій з відкритим кодом, який поєднує візуально-мовні моделі (VLM) з розумною інженерією, щоб зламати код PDF. Давайте розберемо, чому розробники та дослідники так захоплені ним.


5 причин, чому olmOCR перевершує інші інструменти

  1. Економічна ефективність, яку важко ігнорувати Cost Comparison Chart Обробляйте 1 мільйон сторінок за $190 — це в 32 рази дешевше, ніж пакетні API GPT-4o. Як? За допомогою точного налаштування на 250 тис. різноманітних сторінок (наукові статті, юридичні документи, навіть рукописні листи) та оптимізації висновків за допомогою SGLang/vLLM.

  2. Магія Markdown Більше ніяких кошмарів з регулярними виразами. olmOCR видає чистий Markdown з:

    • Збереженими рівняннями (E=mc²)
    • Таблицями, які залишаються таблицями
    • Правильним порядком читання для складних макетів
  3. Конвеєр з усіма необхідними компонентами

    python -m olmocr.pipeline ./workspace --pdfs your_file.pdf

    Масштабуйте від 1 до 100+ графічних процесорів без проблем. Вбудована обробка помилок вирішує поширені проблеми PDF, такі як пошкодження метаданих.

  4. Відкритий код, нуль чорних ящиків Ваги, навчальні дані (так, усі 250 тис. сторінок!) та код є загальнодоступними. Побудовано на основі Qwen2-VL-7B-Instruct — без пропрієтарних залежностей.

  5. Перевага, доведена людьми ELO Rankings У сліпих тестах проти Marker, GOT-OCR 2.0 та MinerU:

    • Перемагає у 61% порівнянь
    • Досягає ELO >1800 (Золотий стандарт)

Під капотом: як ми створили olmOCR

Якоріння документа: секретний соус

Document Anchoring Diagram Підпис: Контекст тексту + зображення = точне вилучення.

Ми використовуємо власний текст/метадані PDF для «закріплення» VLM під час навчання:

  1. Вилучення текстових блоків та областей зображень
  2. Об'єднання їх у підказки моделі
  3. Нехай GPT-4o генерує «золотий стандарт» міток

Результат? Модель, яка розуміє як що говорить текст, так і де йому місце.

Навчання для реального світу

  • Набір даних: 60% наукових статей, 12% брошур, 11% юридичних документів
  • Обладнання: Оптимізовано для графічних процесорів NVIDIA, споживання енергії на 90% нижче, ніж у аналогічних налаштуваннях
  • Точне налаштування: Qwen2-VL-7B-Instruct адаптовано для «розмов» з документами

Спробуйте olmOCR за 3 хвилини

  1. Встановлення
    git clone https://github.com/allenai/olmocr && cd olmocr
    pip install -e .
  2. Запуск на прикладі PDF
    python -m olmocr.pipeline ./demo_output --pdfs tests/gnarly_pdfs/horribleocr.pdf
  3. Перевірте Markdown Відкрийте ./demo_output/horribleocr.md — побачите таблиці, рівняння та цілісний потік тексту!

Підсумок

olmOCR — це не просто ще один інструмент, це зміна парадигми. Поєднуючи VLM з прозорою інженерією, він робить високоякісне вилучення тексту доступним для всіх. Незалежно від того, чи створюєте ви дослідницький корпус, чи автоматизуєте обробку рахунків-фактур, цей інструментарій має бути у вашому стеку.

Наступні кроки

Перетворимо біль від PDF на просту текстову вигоду! 🚀