java-如何使用SAX获取xml标记的正确开始/结束位置?

SAX中有一个定位器,它可以跟踪当前位置.但是,当我在startElement()中调用它时,它总是返回xml标记的结束位置.

如何获得标签的起始位置?有什么办法可以优雅地解决这个问题吗?

解决方法:

不幸的是,由org.xml.sax包中的Java系统库提供的Locator接口不允许通过定义提供有关文档位置的更多详细信息.引用getColumnNumber方法的documentation(我添加的突出显示):

The return value from the method is intended only as an approximation for the sake of diagnostics; it is not intended to provide sufficient information to edit the character content of the original XML document. For example, when lines contain combining character sequences, wide characters, surrogate pairs, or bi-directional text, the value may not correspond to the column in a text editor’s display.

根据该规范,您将始终根据SAX驱动程序的最大努力来获得“与文档事件相关联的文本之后的第一个字符的位置”.因此,对问题第一部分的简短回答是:不,定位器不提供有关标签起始位置的信息.另外,如果您要处理文档中的多字节字符(例如中文或日语文本),则从SAX驱动程序获得的位置可能不是您想要的.

如果您追随标签的确切位置,或者想要更多有关属性,属性内容等的细粒度信息,则必须实现自己的位置提供程序.

考虑到所有潜在的编码问题,Unicode字符等,我想这是一个太大的项目,无法在此处发布,实现方式也取决于您的特定要求.

个人经验只是一个简短的警告:围绕传递给SAX解析器的InputStream编写包装是危险的,因为您不知道什么时候SAX解析器将根据已从流中读取的内容报告事件.

除了使用Locator信息之外,您还可以通过检查换行符,制表符等内容来对ContentHandler的character(char [],int,int)方法进行一些计数,除了使用Locator信息外,这还可以为您提供更好的画面您实际在文档中的位置.通过记住上一个事件的位置,您可以计算当前事件的开始位置.但是要考虑到,您可能看不到所有换行符,因为这些换行符可能会出现在标记中,而您不会在字符中看到这些换行符,但是可以从定位器信息中推断出这些换行符.

上一篇:北京市白天、晚上人口分布图_点数据(间隔100m)和1km、3km网格数据


下一篇:如何配置Java的SaxParserFactory禁用实体检查?