我一直在找的 PDF 解析工具，终于出现了

783 字

4 分钟

我一直在找的 PDF 解析工具，终于出现了

2026-05-30

工具推荐

PDF

/

工具

/

开源

https://github.com/run-llama/liteparse

上周我在处理一个数据提取项目，需要从几百份 PDF 合同里抽取条款信息。试了 PyPDF2，格式乱七八糟；试了 pdfplumber，遇到扫描件就歇菜；试了某个商业 API，价格直接劝退。后来在 LlamaIndex 的 GitHub 组织里发现了 LiteParse，一行 pip install 装上，跑了一下手头最难的那份合同，输出居然保留了段落位置和字体信息。

LiteParse 是 LlamaIndex 团队做的开源 PDF 解析工具。核心卖点就一个字：快。它用 Rust 写的底层解析引擎，通过 napi-rs 和 PyO3 绑定到 Node.js 和 Python，所以你用起来跟普通 Python 库没区别，但性能是原生级别的。我测了一下，一份 50 页的 PDF，PyPDF2 需要 8 秒，LiteParse 只要 1.2 秒。

为什么我会注意到它？因为它的定位很清晰：不做万能工具，只做”快和轻”的本地解析。现在很多 PDF 解析方案要么依赖云端 API（贵），要么依赖大型 LLM（慢），LiteParse 走的是纯本地路线，OCR 用 Tesseract，零配置就能跑。对于我这种经常需要离线处理文档的场景，这点特别重要。

LiteParse 解析示例

实际装上之后，我花了大概 10 分钟测试各种场景。最让我惊喜的是它的 JSON 输出格式，每个文本块都带有精确的坐标信息（x, y, width, height），还有字体名称和大小。这意味着我可以根据位置关系来重建文档结构，而不是只拿到一坨纯文本。另外它还支持截图功能，直接把 PDF 页面渲染成 PNG，这对 LLM agent 场景很有用，因为有些图表信息纯文本根本提取不出来。

财务报表解析