博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
xpath节点匹配简易教程
阅读量:7060 次
发布时间:2019-06-28

本文共 1989 字,大约阅读时间需要 6 分钟。

2017-03-23

非本人原创,只是写爬虫时很有用,就留下了

<A id="a1">

   <B id="b1">
    <C id="c1">
     <B name="b"/>
     <D id="d1"/>
     <E id="e1"/>
     <E id="e2"/>
    </C>
   </B>
   <B id="b2"/>
   <C id="c2">
    <B/>
    <D id="d2"/>
    <F/>
   </C>
   <E/>
  </A>
以下将要介绍一些XPath中节点匹配的基本方法。
  路径匹配
  路径匹配与文件路径的表示相仿,比较好理解。有以下几个符号:
  (1)用“/”指示节点路径
  如“/A/C/D” 表示节点"A"的子节点"C"的子节点"D",即id值为d2的D节点, “/”表示根节点。
     (2)用“//” 表示所有路径以"//"后指定的子路径结尾的元素
  如“//E” 表示所有E元素,结果是所有三个E元素,如“//C/E”表示所有父节点为C的E元素,结果是id值为e1和e2的两个E元素 。
  (3)用“*” 表示路径的通配符
  如“/A/B/C/*”表示 A元素→B元素→C元素下的所有子元素,即name值为b的B元素、 id值为d1的D元素和id值为e1和e2的两个E元素
  “/*/*/D”表示上面有两级节点的D元素,匹配结果是id值为d2的D元素 ,如“//*”表示所有的元素。
  位置匹配
对于每一个元素,它的各个子元素是有序的。
  如:/A/B/C/B[1]表示A元素→B元素→C元素的第一个B元素,得到name值为b的B元素
  /A/B/C/E[last()]表示A元素→B元素→C元素的最后一个E元素,得到id值为e2的E元素
  /A/B/C/E[position()>1]表示A元素→B元素→C元素之下的位置号大于1的E元素,得到id值为e2的E元素 
  属性及属性值
  在XPath中可以利用属性及属性值来匹配元素,要注意的是,元素的属性名前要有"@"前缀。例如:
  //B[@id]表示所有具有属性id的B元素,结果为id值为b1和b2的两个B元素
  //B[@*]表示所有具有属性的B元素,结果为两个具有id属性的B元素和一个具有name属性B元素
  //B[not(@*)]表示所有不具有属性的B元素,结果为A元素→C元素下的B元素
  //B[@id="b1"] id值为b1的B元素,结果为A元素下的B元素
  亲属关系匹配
XML文档可归结为树型结构,因此任何一个节点都不是孤立的。通常我们把节点之间的归属关系归结为一种亲属关系,如父亲、孩子、祖先、后代、兄弟等等。在对元素进行匹配时,同样可以用到这些概念。例如:
    //E/parent::* 表示所有E节点的父节点元素,结果为id值为a1的A元素和id值为c1的C元素
  //F/ancestor::* 表示所有F元素的祖先节点元素,结果为id值为a1的A元素和id值为c2的C元素
  /A/child::* 表示A的子元素,结果为id值为b1、b2的B元素,id值为c2的C元素,以及没有任何属性的E元素
  /A/descendant::* 表示A的所有后代元素,结果为除A元素以外的所有其它元素
  //F/self::* 表示所有F的自身元素,结果为F元素本身
  //F/ancestor-or-self::* 表示所有F元素及它的祖先节点元素,结果为F元素、F元素的父节点C元素和A元素
  /A/C/descendant-or-self::* 表示所有A元素→C元素及它们的后代元素,结果为id值为c2的C元素、该元素的子元素B、D、F元素
  /A/C/following-sibling::* 表示A元素→C元素的紧邻的后序所有兄弟节点元素,结果为没有任何属性的E元素
  /A/C/preceding-sibling::* 表示A元素→C元素的紧邻的前面所有兄弟节点元素,结果为id值为b1和b2的两个B元素
  /A/B/C/following::* 表示A元素→B元素→C元素的后序的所有元素,结果为id 为b2的B元素、无属性的C元素、无属性的B元素、id为d2的D元素、无属性的F元素、无属性的E元素。
  /A/C/preceding::* 表示A元素→C元素的前面的所有元素,结果为id为b2的B元素、id为e2的E元素、id为e1的E元素、id为d1的D元素、name为 b的B元素、id为c1的C元素、id为b1的B元素

转载于:https://www.cnblogs.com/zhangtianyuan/p/6829496.html

你可能感兴趣的文章
字符串的全排列
查看>>
Java并发编程的艺术(十)——Java中的锁(5)
查看>>
mysql实战39 | 自增主键为什么不是连续的?
查看>>
软件架构师的修炼之道
查看>>
[HDU 1372] Knight Moves
查看>>
java代码实现 金字塔(倒置)
查看>>
NOIP2015DAY2T2子串
查看>>
5种PHP创建数组的方式
查看>>
24. [Ext JS 4] 实战之Load Mask(加载遮罩)的显示与隐藏
查看>>
【C语言】07-基本语句和运算
查看>>
ajax异步获取提示框数据(鼠标悬浮事件)
查看>>
Android 内存使用hprof文件打开方法
查看>>
android入门一
查看>>
C#实现简单爬虫
查看>>
MVC项目中怎么浏览html页面
查看>>
密钥对加密原理
查看>>
Spark Streaming
查看>>
EhCache 常用配置项详解
查看>>
Docker镜像仓库Harbor搭建及配置
查看>>
【iOS Web App】嵌入 Cordova WebView 到 iOS(XCode 4.6,Cordova 2.3.0+)
查看>>