问题描述
我遇到的问题是,当我从“访问”数据库.docx中读取嵌入式(ole)(.docx)对象时。我使用c#.net查找“ 50 4B 03 04 14 00 06 00 ”十六进制标头。我没有任何问题地提取了PDF,DOC,PNG,TIFF。
解决方法
DOCX文件是XML(Open Packaging Conventions)和其他压缩格式的集合(WordprocessingML,OPC)。 (here中描述了整个DOCX / OOXML标准。)由于压缩会压缩文件,因此会更改二进制内容。尝试在解压缩后的任何OPC部件上重复您的方法-关键的WordprocessingML将是一个不错的起点:word/document.xml