Scala 解析 XML


Scala 解析 XML
打开微信扫一扫,关注微信公众号【数据与算法联盟】

转载请注明出处:https://yq.aliyun.com/u/thinkgamer
博主微博:http://weibo.com/234654758
Github:https://github.com/thinkgamer

在使用Spark时,有时候主函数入口参数过多的时候,会特别复杂,这个时候我们可以将相应的参数写在xml文件中,然后只要将xml文件的路径传进去即可,这里的xml路径可以是本地的,也可以是hdfs上的。

scala提供了类似于Xpath的语法来解析xml文件,其中很重要的两个操作符是""
和 "\"

  • :根据搜索条件得到下一个节点
  • \ :根据条件获取所有的节点
<configure>
    <input>
        <name>app_feature_goods</name>
        <hdfs>/user/path/to/goods</hdfs>
    </input>
    <input>
        <name>app_feature_user</name>
        <hdfs>/user/path/to/user</hdfs>
    </input>
</configure>
val input = args(0)
val xml = XML.load(input)


// 找到所有的一级节点 input
val input_list = xml\"input"
input_list.foreach(println)

// 遍历每个一级节点,得到具体的值
for(one <- input_list){
    println(one\"name")
    println((one\"name").text)
    println(one\"hdfs")
    println((one\"hdfs").text)
}

// 得到所有的name
val name_list = xml\\"name"
name_list.map(one => one.text).foreach(println)

// 获取所有hdfs
val hdfs_list = xml\\"hdfs"
hdfs_list.map(one => one.text).foreach(println)

// 获取具有class的值
println(xml\"input"\"name"\\"@class")

// 打印出具有class属性的name值和hdfs值
println((xml\\"name").filter(_.attribute("class").exists(_.text.equals("test"))).text)
println((xml\\"hdfs").filter(_.attribute("class").exists(_.text.equals("test"))).text)

打印出的信息为:

<input>
        <name>app_feature_goods</name>
        <hdfs>/user/path/to/goods</hdfs>
    </input>
<input>
        <name>app_feature_user</name>
        <hdfs>/user/path/to/user</hdfs>
    </input>
<input>
        <name class="test">app_feature_user_test</name>
        <hdfs class="test">/user/path/to/user_test</hdfs>
    </input>
-------------
<name>app_feature_goods</name>
app_feature_goods
<hdfs>/user/path/to/goods</hdfs>
/user/path/to/goods
<name>app_feature_user</name>
app_feature_user
<hdfs>/user/path/to/user</hdfs>
/user/path/to/user
<name class="test">app_feature_user_test</name>
app_feature_user_test
<hdfs class="test">/user/path/to/user_test</hdfs>
/user/path/to/user_test
-------------
app_feature_goods
app_feature_user
app_feature_user_test
-------------
/user/path/to/goods
/user/path/to/user
/user/path/to/user_test
-------------
test
-------------
app_feature_user_test
/user/path/to/user_test
-------------

Process finished with exit code 0
上一篇:java读写文件大全


下一篇:Python模拟登陆 —— 征服验证码 5 拉钩