免费试用我们的 OCR 工具。 免费提取前 3 页的文本。
我们的 OCR 技术使用先进的 AI 来分析文档上下文,即使从复杂的布局中也能确保高度准确的文本提取。
处理各种文档类型,包括扫描文件、照片、屏幕截图和 PDF,并获得一致的高质量结果。
探索 OLMOCR 的实际应用示例。了解我们基于人工智能的 OCR 技术如何将各种类型的文档(从手写笔记到复杂的 PDF)转换为准确、可编辑的文本。
每个示例都展示了 OLMOCR 处理不同文档类型的能力,同时显示原始文档和高精度提取的文本输出。
Abstract We present OLMo 2, the next generation of our fully open language models. OLMo 2 includes dense autoregressive models with improved architecture and training recipe, pretraining data mixtures, and instruction tuning recipes. Our modified model architecture and training recipe achieve both better training stability and improved per-token efficiency. Our updated pretraining data mixture introduces a new, specialized data mix called Dolmino Mix 1124, which significantly improves model capabilities across many downstream task benchmarks when introduced via late-stage curriculum training (i.e. specialized data during the annealing phase of pretraining). Finally, we incorporate best practices from Tülu 3 to develop OLMo 2-Instruct, focusing on permissive data and extending our final-stage reinforcement learning with verifiable rewards (RLVR). Our OLMo 2 base models sit at the Pareto frontier of performance to compute, often matching or outperforming open-weight only models like Llama 3.1 and Qwen 2.5 while using fewer FLOPs and with fully transparent training data, code, and recipe. Our fully open OLMo 2-Instruct models are competitive with or surpassing open-weight only models of comparable size, including Qwen 2.5, Llama 3.1 and Gemma 2. We release all OLMo 2 artifacts openly—models at 7B and 13B scales, both pretrained and post-trained, including their full training data, training code and recipes, training logs and thousands of intermediate checkpoints. The final instruction model is available on the Ai2 Playground as a free research demo.
按需购买,无订阅费用,终身有效
J/hVSQ
推荐
J/hVSQ
J/hVSQ
J/hVSQ
免费 OLM OCR 在线是一款基于网络的工具,它使用光学字符识别 (OCR) 技术,由 OLM 提供支持并由 AI 增强,可以将图像(如扫描文档、照片或屏幕截图)转换为可编辑文本。完全免费使用。
虽然没有列出具体格式,但 OCR 工具通常支持常见的图像格式,如 JPG、JPEG、PNG、TIFF、GIF 和 BMP。 最好使用高质量的图像以获得最佳效果。 您可能需要在您的网站上明确列出支持的格式。
得益于 OLM OCR 和 AI 增强技术的结合,准确率非常高。 AI 有助于纠正错误并提高识别率,尤其是在复杂布局或图像质量不佳的情况下。 然而,与所有 OCR 一样,并不能保证绝对的准确性,尤其是在手写文本或极低分辨率的图像中。
您应该在您的网站上指定文件大小限制。 常见的做法是设置一个合理的大小限制(例如,10MB、20MB),以确保处理顺利并防止滥用。 如果没有限制,请说明,但要准备好处理非常大文件时可能出现的性能问题。
是的,您的文档将被上传。 但请放心,所有处理都在服务器端完成,并且文档在处理后会被删除。
OLM OCR 可能支持多种语言,尽管仅针对英文文档进行了优化,但您可以尝试其他语言。
手写文本识别比印刷文本更具挑战性。一个好的回答是:"虽然我们 AI 驱动的 OCR 有时可以识别手写文本,但准确性会低于印刷文本。结果将取决于手写的清晰度和风格。我们建议使用清晰、光线充足的印刷文本图像以获得最佳效果。"
您只能下载 TXT 格式的提取文本。
如果您计划为开发人员提供 API,请在此处提及。如果没有,请声明:"我们目前不提供公共 API,但我们可能会在未来考虑。"
简要解释 OLM OCR。例如:"OLM OCR 是一种强大的光学字符识别技术,是我们服务的基础。它以其将图像转换为文本的准确性和速度而闻名。"
解释 AI 的作用。例如:"AI 增强功能通过识别和纠正错误、识别复杂布局以及处理字体样式和图像质量的变化,有助于提高 OCR 过程的准确性。它从海量的图像和文本数据集中学习,以提供最佳结果。"
提供联系信息。例如:"如果您有任何其他问题或遇到任何问题,请通过 cc@freeolmocm.com 与我们联系。"