如何从我无法在xslt中处理的us-ascii文档中剥离不可见的'hex c'字符

问题描述

我正在阅读us-ascii文档,并尝试解析为XML

<xsl:analyze-string select="unparsed-text($filename,'us-ascii')" regex="{$regex_clp}">

但是我遇到错误

XTDE1190: The unparsed-text file contains a character that is illegal in XML (line=51 column=2 value=hex c)

在寻找此字符时,我进行了查找并替换了所有可见字符 和新行,我在文档中留有一个空白字符,当执行xslt脚本时,该字符会在不同的位置导致相同的错误

XTDE1190: The unparsed-text file contains a character that is illegal in XML (line=1 column=2 value=hex c)

当我将此“十六进制c”复制并粘贴到Java应用程序中以尝试剥离它,然后尝试使用Backspace按钮将其删除时,它不会删除,而是可以多次按下Backspace按钮,并且光标停留在我粘贴的“十六进制c”旁边的位置相同。

我已在此处上传了此文件,该文件的字符为'hex c' https://drive.google.com/file/d/1e0hkfraiSz39QEPV_zWn0ujyYcQknSCD/view?usp=sharing

您知道这个字符是什么以及如何将该字符从文件删除吗?

问候 继续

解决方法

好的,所以在我将文本文件发布到google来创建此问题之后,我下载了out.txt只是为了使其在从Google上载并下载后仍然存在相同的问题。

但是这次我可以在文本文件中看到一堆符号。我将它们复制并输入OxygenXML中,查找并替换为\ f表单供稿

我找到并替换为\ f,问题已解决。

\ f标识(换页,0x0C)。

问候 继续