30 分钟轻松搞定正则表达式基础-淘娜娜副业社

本文为霍格沃兹测试学员学习笔记，进阶学习文末加群。

正则表达式简介

提起正则表达式，可能大家的第一印象是：既强大好用但也晦涩难懂。正则表达式在文本处理中相当重要，各大编程语言中均有支持（跟 Linux 三剑客结合更是神兵利器）。

正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。（来自百度百科）

个人理解如下：某个大佬为了从字符串中匹配或找出符合特定规律（如手机号、身份证号）的子字符串，先定义了一些通用符号来表示字符串中各个类型的元素（如数字用 d 表示），再将它们组合起来得到了一个模板（如：dd模板就是指代两个数字），拿这个模板去字符串中比对，找出符合该模板的子字符串。

简单的例子

由几个例子去进一步理解，比如现在有一个字符串为：

I am a , and My job is to test some .

test是一个正则表达式，它的匹配情况：I am a , and My job is to test some . 它既可以匹配中的test，又可以匹配第二个test。正则表达式中的test就代表test这个单词本身。btestb是一个正则表达式，它的匹配情况：I am a , and My job is to test some . 它只能匹配第二个test。因为b具有特殊意义，指代的是单词的开头或结尾。故中的test就不符合该模式。testw*是一个正则表达式，它的匹配情况：I am a , and My job is to test some . 它匹配出了，也匹配出了第二个test。其中w的意思是匹配字母数字下划线，*表示的是数量，指有0个或多个w。所以这个正则表达是的意思就是匹配开头为test，后续跟着0个及以上字母数字下划线的子字符串testw+是一个正则表达式，它的匹配情况：I am a , and My job is to test some . 它只匹配了。因为+与*不同，+的意思是1个或多个，所以该正则表达式匹配的是开头为test，后续跟着1个及以上字母数字下划线的字符串。

通过上述几个例子，应该可以看出正则表达式的工作方式，正则表达式由一般字符和元字符组成，一般字符就是例子中的‘test’，其指代的意思就是字符本身，t匹配的就是字母t；元字符就是例子中有特殊含义的字符，如w, b, *, +等。后续介绍一些基础的元字符。

元字符介绍

元字符有很多，不同元字符有不同的作用，大致可以分为如下几类。

用于表示意义

有些元字符专门用来指代字符串中的元素类型，常用的如下：

元字符说明

w匹配所有字母数字下划线W与上相反d匹配所有数字D与上相反s匹配所有空格字符，如：n,tS与上相反.匹配所有字符，除了换行符n匹配换行符t匹配制表符

通过上述表格中的数据可以发现，w,d,s都有一个与之相反的元字符（将对应字母大写后就是了）。w匹配所有字母数字下划线，那么W就是匹配所有不是字母数字下划线的字符。只要记住其中3个，另外3个就很好记了。

乍一看这几个元字符挺简单的，但是经常不用的话保不准会忘记，此处分享一下我的记忆方法。我把这几个元字符都当作是某一个单词的缩写（虽然可能就是某个单词的缩写，但是没有找到准确的资料去印证）：

好了，看到此处你应该已经熟记了6个元字符了。

接下来，n和t平时会经常用到，这个肯定比较熟了，最后一个元字符‘.’可以理解它匹配一行中的所有元素，因为遇到换行符后就不再进行匹配了（万事万物源于一点）。

用于表示数量

有些元字符用于表示某种元素的数量，如d表示一个数字，当你想表示6位数字怎么办？当然可以dddddd ，但确实太麻烦了，为了简便就需要一些表示数量的元字符，上述可以写成d{6}，元字符详情如下:

元字符说明

*0个或多个+1个或多个?0个或1个{n}n个{n,}n个或多个{n,m}n到m个(m必须比n大，否则语法错误)

这几个元字符还算比较好记。

*表示0个或多个+表示1个或多个（这个可能会混淆，或许你可以这么记，* 表示1*0=0或多个，+表示1+0=1或多个）?表示0或1个，可以理解成某个人在问你这个类型的元素有还是没有呀？你回答可能有（1）也可能没有（0）。

剩下的三个只要记住大括号是用来表示数量，后续我们还会看到除了{}外，还有[]和()。它们各有各的作用。

用于表示位置

有些元字符没有具体的的匹配项，它只是一个抽象的位置概念，它用来表示字符串中的各个位置。一个字符串的位置可以分成：字符串的开头或结尾、单词的开头或结尾。

如字符串‘I am a .’，I前面是字符串的开头位置，英文句号后面为字符串的结尾位置，每一个word(注意此处指的不是传统意义上的单词)前后的位置即为单词的开头或结尾，对于‘’来说t前面是单词开头，下划线是单词结尾。

元字符说明

b匹配单词的开头或结尾位置^匹配字符串的开头位置$匹配字符串的结尾位置

其中b在前面的例子中有说过，此处可以以这种方式记忆：b是block（块）的缩写，即一个单词是一块内容，b是这一块的边界。至于另外两个元字符，暂时没找到很好的记忆方法（^一个尖角，小荷才露尖尖角？），但应该也不难记。

此处有个地方要提及一下，所有表示位置的不会实际占用字符。为了理解可以继续看最上面的第二个例子，btestb最终匹配出来了子字符串“test”，而不是“ test ”。

大家依据目前了解的元字符概念，可以思考一下这个正则表达式^d{6,10}$，和d{6,10}的区别。针对字符串‘‘，第一个和第二个都可以匹配出’‘。

但是针对字符串’‘，只有第二个可以正确匹配出’‘，原因在于第一个正则表达式的意思匹配一个字符串只有6-10个数字组成，而第二个正则表达式意思是匹配字符串中的6-10个连续数字。

除了这三个元字符表示位置外，还有零宽断言、负向零宽断言也表示位置，后续会详细介绍。

用于字符转义

字符转义的概念大家肯定不陌生，对于*, +等有特殊意义的元字符，假如你想匹配5个*号应该怎么写，*{5}吗？肯定不是，这样写是语法错误，应该使用将其转义：*{5}。这样一来*的特殊意义就被给取消了，想要匹配的话，也是一样，再用一个把特殊意义取消掉就好了。

字符集

前面列出了部分用于表示意义的元字符，但是可能这几个元字符覆盖的都太广泛了，想要具体的匹配某一类字符。比如就是想匹配abcd这四个字符中的某一个，正则表达式当然也是支持的。

这时候就需要用到第二种括号，中括号[]。匹配abcd中的某一个可以写成[abcd]或者[a-d]，意思是匹配一个a-d中的任意字符。相反若匹配非abcd的任意字符，可以写成[^abcd]，意思是匹配一个不是abcd的字符。

括号内也可以写入不同类型的元素，如[a-d1-7@]，表示的是匹配一个a-d或1-7或@中的任意字符，[^a-d1-7@]则与之相反

分组

讲完中括号后我们可以看一下小括号()，小括号的意思是分组，即小括号内部的所有元字符是一个整体。

之前有学过表示数量的元字符，但是那个表示的数量都是针对于一个元字符来说的，比如ab+表示的是匹配一个a后面跟着1个或多个b的子字符串。

倘若我们想要匹配的是1个或多个ab（如：），此时分组就派上作用了，可以这么写：(ab)+。此时ab被绑定为一个整体，后面的数量元字符对这个整体起作用。

分枝条件

元字符中有一个或运算符，它与大多数编程语言类似都是用 | 来表示。它的作用为：Ab|aB表示的是匹配Ab或者aB。通过这个例子可以很直观的理解该元字符的作用。当然它也经常和分组一起使用：(Ab|aB)+c，该正则匹配开始为1-N个Ab或aB之后是c的子字符串，如：AbaBc, 。

后向引用

后向引用的使用是依附于分组的，分组的概念之前讲过了。

首先，我们先看一下正则表达式中组号的分配方式，此时先看一个用到分组的正则表达式：(ab)?(c|C)d。这个正则的意思大家现在肯定都清楚了。这个正则表达式里面用到了两个分组分别是(ab)和(c|C)。

正则内部会对所有分组进行组号分配，从左向右，第一个分组(ab)的组号是1，第二个分组(c|C)的组号是2。而组号0代表的是整个正则表达式。尝试过正则的此处应该有印象，匹配对象的group方法传参为0或不传则返回整个正则所匹配的结果，传参为1为第一个分组匹配的结果。

了解了组号分配方式后，可以开始解释后向引用了。后向引用就是将前面某个分组已经匹配的数据拿过来用，第一个分组匹配的数据用1代替，第二个分组匹配的数据用2代替，依次类推。

似乎不是特别好理解，直接看例子吧，(ab)?(c|C)d2D该正则中2表示的是第二个分组匹配到的数据，若第二个分组匹配到了c那么2就是c，反之亦然。所以它能匹配到：, 。不能匹配：, 。通过这个例子可以理解它的作用了吧。

当然分组除了有自己的组号外，还可以给它自定义组名。不同编程语言中的方式不同，中自定义组名的格式为：(?Pexp)，Name为你自定义的组名，exp代表任意元字符的组合。后面引用的方法为(?P=name)。所以上面例子可以修改成：(ab)?(?Pc|C)d(?P=CWord)D。

组号分配介绍

上一节简单的讲了一下正则表达式是如何分配组号的，但其实还有几个需要注意的地方。

贪婪与懒惰

人性是贪婪的，正则表达式与人一样也是贪婪的。一个正则表达式会尽量多的去匹配字符串，如：ab.+c去匹配’’是会将该字符串全部匹配出来。但有时候我们只想要其匹配’abcc’，此时怎么办呢？需要给正则表达式中表示数量的元字符加一个?变成ab.+?c。此时该正则表达式就变懒了，不会再去匹配那么多，匹配到‘abcc’就完事了。

元字符说明

*?0个或多个，尽可能少+?1个或多个，尽可能少??0个或1个，尽可能少{n}?n个，尽可能少{n,}?n个或多个，尽可能少{n,m}?n到m个，尽可能少

零宽断言及负向零宽断言

这两个个概念有些不太好理解。正如前面所说这两个也是表示位置的元字符。从字面意思上理解，零宽代表其没有宽度，即如之前介绍表示位置的元字符中提到的一样，不会实际占用字符。

断言是什么？是，是用来判断条件是True还是False。理解完这两个词语的意思后，零宽断言的概念应该也就能理解了。那么负向无非就是它的反义词。

元字符名称说明

(?=exp)零宽度正预测先行断言匹配exp前面的位置(?

你以为文章到总结就结束了？So naive，我再来列举一个测试日常工作中的案例，将理论应用到实践（编程语言选择，因为我目前只会这个）。

设想这么一个场景，在测试过程中需要获取某个时间段内某个程序的运行情况，从而分析出该程序的稳定性或使用频率等指标，该程序的日志记录完备，日志格式固定且已知。这时候最佳的办法就是从该程序日志中进行相关信息的获取。

假如该日志内容格式大概如下（注：该日志样例不是实际项目中的日志文件，为个人举例）:

———END———
限时特惠： 本站每日持续更新海量各大内部创业教程，永久会员只需109元，全站资源免费下载点击查看详情
站长微信： nanadh666

声明：1、本内容转载于网络，版权归原作者所有！2、本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。3、本内容若侵犯到你的版权利益，请联系我们，会尽快给予删除处理！

30 分钟轻松搞定正则表达式基础

站长简介

最新实战项目

微头条变现写作课程，掌握流量变现技巧，提升微头条质量，实现收益增长

AI+自媒体运营变现课，掌握AI写作与RPA技术，轻松实现自媒体变现

微信朋友圈广告投放全攻略：ADQ平台介绍、推广层级、商品库与营销目标

人工智能AI时代，饭碗频遭抢夺，普通人咋办？躺赢之道在何方？

图书博主养成记：4类带货方式，视频直播课助力，快速入局图文赛道

YouTube视频营销入门：账号注册指南，平台介绍与外贸推广

小红书飞书模板实战变现：小红书快速起号，搭建一个赚钱的飞书模板

联盟营销实战指南，详解联盟模式、平台规则及联盟客运作，实现流量变现

30 分钟轻松搞定正则表达式基础

相关文章

站长简介

最新实战项目