PDF文件格式
现在,可移植文档格式(PDF)属于最经常使用的数据格式。在1990年,PDF文档的结构由Adobe定义。PDF格式的思想是,对于通讯过程当中涉及的双方(建立者,做者或发送者以及接收者)而言,传输的数据/文档看起来彻底相同。html
工具和库
适用于Python的PDF工具,模块和库的可用解决方案范围有些混乱,须要花一点时间弄清楚什么是什么,以及哪些项目须要连续维护。根据咱们的研究,如下是最新的候选人:python
PyPDF2:一个Python库,用于提取文档信息和内容,逐页拆分文档,合并文档,裁剪页面并添加水印。PyPDF2支持未加密和加密的文档。git
PDFMiner:彻底用Python编写,适用于Python 2.4。对于Python 3,请使用克隆的包PDFMiner.six。这两个软件包都容许您解析,分析和转换PDF文档。这包括对PDF 1.7以及CJK语言(中文,日文和韩文)的支持,以及各类字体类型(Type1,TrueType,Type3和CID)。github
pdflib for Python:Poppler库的扩展,为它提供了Python绑定。它使您能够解析,分析和转换PDF文档。不要将其与具备相同名称的商业吊坠相混淆。工具
PyFPDF:一个在Python下生成PDF文档的库。从FPDF PHP库移植而来,这是著名的PDFlib扩展替换,其中包含许多示例,脚本和派生类。性能
PDFTables:一项商业服务,提供从PDF文档附带的表格中提取的内容。提供一个API,以便PDFTables能够用做SAAS。字体
PyX -Python图形包:PyX是用于建立PostScript,PDF和SVG文件的Python包。它结合了PostScript绘图模型的抽象和TeX / LaTeX接口。这些基元能够构建复杂的任务,例如以可发布的质量建立2D和3D绘图。网站
ReportLab:一个雄心勃勃的,具备行业实力的图书馆,主要致力于精确建立PDF文档。免费提供开放源代码版本和名为ReportLab PLUS的商业加强版本。this
PyMuPDF(又称“ fitz”):MuPDF的Python绑定,这是一种轻量级的PDF和XPS查看器。该库能够访问PDF,XPS,OpenXPS,epub,漫画和小说书格式的文件,而且以其最佳性能和高渲染质量而闻
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ji-chu/102087.html