xpath节点匹配简易教程-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

xpath节点匹配简易教程

阅读量：7060 次

发布时间：2019-06-28

本文共 1989 字，大约阅读时间需要 6 分钟。

2017-03-23

非本人原创，只是写爬虫时很有用，就留下了

<A id="a1">

　　　<B id="b1">

　　　　<C id="c1">

　　　　　<B name="b"/>

　　　　　<D id="d1"/>

　　　　　<E id="e1"/>

　　　　　<E id="e2"/>

　　　　</C>

　　　</B>

　　　<B id="b2"/>

　　　<C id="c2">

　　　　<B/>

　　　　<D id="d2"/>

　　　　<F/>

　　　</C>

　　　<E/>

　　</A>

以下将要介绍一些XPath中节点匹配的基本方法。

　　路径匹配

　　路径匹配与文件路径的表示相仿，比较好理解。有以下几个符号：

　　（1）用“/”指示节点路径

　　如“/A/C/D” 表示节点"A"的子节点"C"的子节点"D"，即id值为d2的D节点， “/”表示根节点。

（2）用“//” 表示所有路径以"//"后指定的子路径结尾的元素

　　如“//E” 表示所有E元素，结果是所有三个E元素，如“//C/E”表示所有父节点为C的E元素，结果是id值为e1和e2的两个E元素。

　　（3）用“*” 表示路径的通配符

　　如“/A/B/C/*”表示 A元素→B元素→C元素下的所有子元素，即name值为b的B元素、 id值为d1的D元素和id值为e1和e2的两个E元素

　　“/*/*/D”表示上面有两级节点的D元素，匹配结果是id值为d2的D元素，如“//*”表示所有的元素。

　　位置匹配

对于每一个元素，它的各个子元素是有序的。

　　如：/A/B/C/B[1]表示A元素→B元素→C元素的第一个B元素，得到name值为b的B元素

　　/A/B/C/E[last()]表示A元素→B元素→C元素的最后一个E元素，得到id值为e2的E元素

　　/A/B/C/E[position()>1]表示A元素→B元素→C元素之下的位置号大于1的E元素，得到id值为e2的E元素

　　属性及属性值

　　在XPath中可以利用属性及属性值来匹配元素，要注意的是，元素的属性名前要有"@"前缀。例如：

　　//B[@id]表示所有具有属性id的B元素，结果为id值为b1和b2的两个B元素

　　//B[@*]表示所有具有属性的B元素，结果为两个具有id属性的B元素和一个具有name属性B元素

　　//B[not(@*)]表示所有不具有属性的B元素，结果为A元素→C元素下的B元素

　　//B[@id="b1"] id值为b1的B元素，结果为A元素下的B元素

　　亲属关系匹配

XML文档可归结为树型结构，因此任何一个节点都不是孤立的。通常我们把节点之间的归属关系归结为一种亲属关系，如父亲、孩子、祖先、后代、兄弟等等。在对元素进行匹配时，同样可以用到这些概念。例如：

//E/parent::* 表示所有E节点的父节点元素，结果为id值为a1的A元素和id值为c1的C元素

　　//F/ancestor::* 表示所有F元素的祖先节点元素，结果为id值为a1的A元素和id值为c2的C元素

　　/A/child::* 表示A的子元素，结果为id值为b1、b2的B元素，id值为c2的C元素，以及没有任何属性的E元素

　　/A/descendant::* 表示A的所有后代元素，结果为除A元素以外的所有其它元素

　　//F/self::* 表示所有F的自身元素，结果为F元素本身

　　//F/ancestor-or-self::* 表示所有F元素及它的祖先节点元素，结果为F元素、F元素的父节点C元素和A元素

　　/A/C/descendant-or-self::* 表示所有A元素→C元素及它们的后代元素，结果为id值为c2的C元素、该元素的子元素B、D、F元素

　　/A/C/following-sibling::* 表示A元素→C元素的紧邻的后序所有兄弟节点元素，结果为没有任何属性的E元素

　　/A/C/preceding-sibling::* 表示A元素→C元素的紧邻的前面所有兄弟节点元素，结果为id值为b1和b2的两个B元素

　　/A/B/C/following::* 表示A元素→B元素→C元素的后序的所有元素，结果为id 为b2的B元素、无属性的C元素、无属性的B元素、id为d2的D元素、无属性的F元素、无属性的E元素。

　　/A/C/preceding::* 表示A元素→C元素的前面的所有元素，结果为id为b2的B元素、id为e2的E元素、id为e1的E元素、id为d1的D元素、name为 b的B元素、id为c1的C元素、id为b1的B元素

转载于:https://www.cnblogs.com/zhangtianyuan/p/6829496.html

你可能感兴趣的文章

字符串的全排列

Java并发编程的艺术(十)——Java中的锁(5)

mysql实战39 | 自增主键为什么不是连续的？

软件架构师的修炼之道

[HDU 1372] Knight Moves

java代码实现金字塔（倒置）

NOIP2015DAY2T2子串

5种PHP创建数组的方式

24. [Ext JS 4] 实战之Load Mask(加载遮罩)的显示与隐藏

【C语言】07-基本语句和运算

ajax异步获取提示框数据（鼠标悬浮事件）

Android 内存使用hprof文件打开方法

android入门一

C#实现简单爬虫

MVC项目中怎么浏览html页面

密钥对加密原理

Spark Streaming

EhCache 常用配置项详解

Docker镜像仓库Harbor搭建及配置

【iOS Web App】嵌入 Cordova WebView 到 iOS（XCode 4.6，Cordova 2.3.0+）

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-02-07 14:49:36 当前IP: 18.219.201.167 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我