一、判断文件类型为PDF

# 方法一：filetype文件可判断PDF、JPEG等多种文件类型
import filetype
print(filetype.guess(file_path))  # <filetype.types.archive.Pdf object at 0x7fc2b8d947b8>

# 方法二：二进制读取文件进行判断
binfile = open(file_path, 'rb')  # 二制字读取
binfile.seek(0)   # 文件游标移动，从位置0开始
print(binfile.read(10))  # b'%PDF-1.4\r\n'

二、判断是文字版还是扫描版PDF

目前没有找到特别优雅的方法来通过python代码区分，采用的是读取第一页（或所有页）基于是否包含文字来进行区分。网上有个人也是采用了这个方案：

https://github.com/dothinking/pdf2docx/issues/99

下文用了pdfplumber和fitz两种方法来进行源文件所有页的解析，如场景特殊且对速度要求高，可以改成第一页。

import fitz
import pdfplumber
import time

def fitz_judee_pdf(filename):
    doc = fitz.open(filename)
    for page in doc:
        # print(page.getText())
        if page.getText():
            return True
    return False


def pdfplumber_judee_pdf(filename):
    doc = pdfplumber.open(filename)
    for page in doc.pages:
        # print(page.extract_words())
        if page.extract_words():
            return True
    return False


t0 =time.time()
print(fitz_judee_pdf(file_path))
print(time.time()-t0)

t0 =time.time()
print(pdfplumber_judee_pdf(file_path))
print(time.time()-t0)

三、pdf 解析文本

公认比较好用的pip库是pdfplumber，此外fitz也可以，经费够可以调pdflux这种服务商。fitz仅处理文本，pdfplumber还可以处理表格。

3.1 pdfplumber解析文本

PDFPlumber是基于 PDFMiner 构建的 PDF 解析器，微软构建DocBank（大规模文档布局标注数据集）用到了这个库。不能100%还原表格，支持可视化调试。在mac上解析某个markdown生成的pdf时遇到了一个坑，解析出来的文字是cid编码，解析普通的pdf没有问题。

CID码：PDF包含将字符代码映射到字形索引的CMAP。因此，CID是它映射到的字形在CMAP表中的字符标识。

import pdfplumber
pdf = pdfplumber.open(path)
import pandas as pd
for page in pdf.pages:
    # 获取当前页面的全部文本信息，包括表格中的文字
    # print(page.extract_text())   # 只提取文字，对表格信息，有简单合并行
    # print(page.extract_words())   # 提取字符串的文本、坐标等信息
    # print(page.extract_tables())   # 按行元素返回表格信息，无坐标
    # print(page.chars)   # 按字符而非字符串提取文本、坐标等信息

    for t in page.extract_tables():
        # for row in t:
        #     print(row)
        # 得到的table是嵌套list类型，转化成DataFrame更加方便查看和分析
        df = pd.DataFrame(t[1:], columns=t[0])
        print(df)
    # 只用第一页测试
    break

pdf.close()

3.2 fitz 解析文本

import fitz
doc = fitz.open(path)
whole_pdf = []
for i, page in enumerate(doc):
    words = page.getTextWords()  # [x0, y0, x1, y1, "text", block#, line#, word#]

    print(words)
    # for w in words:
    #     print(fitz.Rect(w[:4]), w[4])
    break

3.3 pdfplumber和fitz的区别

pdfplumber：速度慢，提取出的文字全

fitz：速度快，例如‘判断是文字版还是扫描版PDF’这部分会比pdfplumber快很多；有些pdf文字的部分文字明明可选但抽不出来？

此外解析带表格的pdf还有一些其他方法：

1、pdfminer：较复杂、不能直接还原出表格，据说是pdfplumber的底层

2、tabula：依赖java、识别有问题、难以区分多张表

3、各个表格解析的开源项目，如paddleocr、tablemaster、camelot…

4、各个人工智能服务供应商，注册服务后获取token，需要上传文件后下载，如庖丁科技的pdflux

5、poppler：C++

四、pdf 转图像

不论是扫描生成的图片型pdf还是word生成的可复制文本型pdf，均可转为图像。

def pdf2img(file_path, dest_path):
    zoom_x = 2.0  # horizontal zoom
    zomm_y = 2.0  # vertical zoom
    mat = fitz.Matrix(zoom_x, zomm_y)  # zoom factor 2 in each dimension
    doc = fitz.open(file_path)  # open document
    image_paths = []
    for page in doc:  # iterate through the pages
        pix = page.getPixmap(matrix=mat)
        image_path = '{0}_{1}.jpg'.format(dest_path, page.number+1)
        pix.writeImage(image_path)
        image_paths.append(image_path)
    return image_paths

今天的文章PDF解析分享到此就结束了，感谢您的阅读，如果确实帮到您，您可以动动手指转发给其他人。

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。
如需转载请保留出处：https://bianchenghao.cn/27397.html

PDF解析