尝试使用PHP解析格式不正确的UTF-8 xml文件

问题描述

|| 我正在尝试解析XML文件,但是在某个地方XML文件格式不正确。我尝试了很多转换和其他东西,但是没有帮助。首先,我尝试使用simplexml,然后尝试使用XMLReader,但是我遇到了以下错误:“解析器错误:输入的UTF-8输入不正确,表示编码!字节:0x0C 0x41 0x62 0x6F \”。 有没有技巧,在将其放入simplexml之前,我可以首先处理xml内容?还是有人可以使用格式不正确的XML字符串更好的XML解析器? 谢谢 尼克     

解决方法

        我使用DOmDocument取得了一些成功:
libxml_use_internal_errors(true);
$doc = new DOMDocument;
$doc->preserveWhiteSpace = false;
$doc->loadHtml($r);
foreach($doc->getElementsByTagName(\'mytag\') as $t) {...etc..}
加载文档后,您可以调用一些函数来尝试清理它,DomDocument