如何使用python-docx阅读源自Word模板的docx？复制做笔记测试

问题描述

我正在使用 python-docx 库获取 docx 文件的所有文本。其简化代码如下

from docx import Document

def read_element(doc):
    for p in doc.paragraphs:
        print('paragraph text:',p.text)
    for table in doc.tables:
        for row in table.rows:
            for cell in row.cells:
                read_element(cell)

doc = Document("<path to file>")

read_element(doc)

这在很多情况下都很好用，除非我从通过 Microsoft Word 模板创建的文件中读取。在这些情况下，它只读取我在文件中写入的输入，而不读取模板附带的文本

复制

通过 Create from template 创建 Microsoft Word 文档
在其中写一个词，即“测试”
保存
替换上面代码中的路径
运行代码

输出：

paragraph text:  testing
paragraph text: To learn more and get OneNote,visit .

当文件中的文本多于输出内容时

做笔记测试

要记笔记，只需点按此处即可开始输入。
或者，使用免费的 OneNote 应用程序轻松为您的所有笔记创建一个数字笔记本，并在您的设备之间自动同步。

要了解更多信息并获取 OneNote，请访问 www.onenote.com。

正如我们在我们试图读取的文件图像中看到的那样Docx file

关于如何检索丢失的文本的任何想法？

解决方法

python-docx 只会在文档的顶级找到段落和表格。特别是，不会检测到“包装”在“容器”元素中的段落或表格。

最常见的是，“容器”是一个待定（尚未接受）的修订版，这会产生类似的行为。

要提取“wrapped”文本，您需要知道“wrapper”元素是什么。一种方法是转储文档正文的 XML：

document = Document("my-document.docx")
print(document._body._body.xml)

段落元素有一个 w:p 标记，您可以检查输出以查找这些标记，我预计其中一些将在另一个元素中。

然后您可以使用 XPath 表达式提取这些元素，类似这样的东西，如果“包装器”元素是 <w:x>，这将起作用：

from docx.text.paragraph import Paragraph

body = document._body._body
ps_under_xs = body.xpath("w:x//w:p")
for p in ps_under_xs:
    paragraph = Paragraph(p,None)
    print(paragraph.text)

您也可以只获取文档中的所有 <w:p> 元素，而不考虑它们的“出身”，如下所示：

ps = body.xpath(".//w:p")

这样做的缺点是某些容器（如未接受的修订标记）可能包含已从文档中“删除”的文本，因此您可能会得到比您想要的更多的内容。

无论如何，这种通用方法应该适用于您所描述的工作。如果您需要更复杂的内容，可以在搜索中找到有关 XPath 表达式的更多信息。

ms-word python python-docx

如何使用python-docx阅读源自Word模板的docx？ 复制做笔记测试

问题描述

复制

做笔记测试

解决方法

如何使用python-docx阅读源自Word模板的docx？复制做笔记测试