从DOCX文件中提取内嵌的PDF文件

收到一个内嵌PDF和Word的Word文档(DOCX),内嵌的Word文档能够正常打开,但是PDF文档死活开不出来。

Word提示要使用Acrobat打开PDF文档(因为创建者是使用Acrobat嵌入PDF文档的),可是我电脑上已经正常安装了Acrobat DC但打不开,我一气之下卸掉Acrobat DC后,Word的报错变成电脑上没安装Acrobat了……总之还是打不开。

笔者换了台电脑,安装Acrobat Reader后,在Word中能够直接打开PDF文件,在Acrobat中文档另存为即可提取文件。

但是笔者就是不想安装Acrobat,所以本文提供一种无需依赖Acrobat的解决方案。

笔者电脑使用Microsoft 365版本的Word。

从Word文档中提取内嵌的PDF文件(DOCX)

步骤

  1. 将DOCX文件的后缀名改为ZIP;
  2. 解压ZIP文件;
  3. 进入word\embeddings文件夹,如图所示;
  4. PDF文件的文件名类似oleObjext数字.bin,如果存在多个文件,需要判断哪个文件是您需要的;
  5. 使用十六进制编辑器(比如HxD)打开文件;
  6. 找到形如%PDF-1.5的一行,将其上面的所有内容删除,并保存;
  7. 将该文件后缀名改为.pdf

参考资料:

  1. How to Extract Images, Text, and Embedded Files from Word, Excel, and PowerPoint Documents
  2. 取得 Word(.docx) 中的內嵌檔案