Categories: 在线文档

《正则表达式傻瓜书》第一章:通配符

本文由Yurii原创,转载请注明来源: Life Sailor

本文链接 《正则表达式傻瓜书》第一章:通配符


第一章:通配符

我们已经说过,这本《正则表达式傻瓜书》并非把读者当傻瓜,而是保证“傻瓜都能看懂”。如果你到现在还没听说过“通配符”或是“正则表达式”,那么,请看这一章。
要说明的另一点是,因为一般的Linux/Unix用户都熟悉通配符,所以,本章假设读者工作于Windows平台下,所举的例子也全部面向Windows平台。

从Windows的搜索谈起

正则表达式是进行文本处理的工具。那么,它到底进行哪些“处理”?简而言之,正则表达式的主要功能就是对文本进行查找(匹配)和替换(修改)。在这一章里,我们先从最简单的文本查找说起。
正则表达式所“搜索/查找”功能的对象,就是我们说的“文本”——它可以是Word文档、Excel表格、浏览器看到的网页等等,也可以是文件名(工作日报20090925.doc)、电话号码(400-82055555)、电子邮件地址(somebody@someone.net)等等。所以也有这样一种说法:正则表达式处理的是“字符串”——也就是一系列的字符。想想也是,Word文档的内容、Excel表格的内容、网页的内容、文件名、电话号码、电子邮件等等,无非都是“连接起来”的字符,也就是“字符串”了。
几乎每种文本处理工具(Word、Excel、记事本、写字板)都提供了查找(和替换)功能:


图1-1 Word中的查找

Windows中查找文件的“搜索”功能,其实也是查找文本:


图1-2 Windows中的搜索

如果我们需要查找包含“李刚”的文件名,直接输入“李刚”搜索,就可以找到。


图1-3 “李刚”查找结果

那么,正则表达式的查到底有什么优势呢?我们不妨看一个例子:
假设某个目录下存在许多记录手机用户信息的文件,每个文件对应一个用户,文件名就是手机号码:号码为13812345678这个用户的记录文件,就是1381234567.doc。
现在需要找出某个号段的全部用户(比如说1310000号段),我们该怎么办?
你或许会说,这很简单,搜索“1310000”就可以了!可是真的如此吗?


图1-4 查找错误

在这里,一个不属于1310000号段(也就是不以1310000开头),但是包含1310000的手机号码(15801310000)也被找了出来。这时候直接“搜索”是无能为力的,因为它无法应对“变数”——我们要查找的是这样的文件:最前面7个字符是“1310000”,最后的4个字符是“.doc”,然而中间的4个字符是“不知道也不确定”的,换句话说,在查找结果出现之前,谁都不知道这4个字符都是什么。
如何解决“未知”的问题?在数学里,我们可以用一个未知数来解决这类问题。在文本查找中,有没有这样的“未知数x”呢?答案是有的:在数学里它是“x”,在文本查找中,它就是普通的问号“?”。
我们要找的文件是这样的:“1310000”开头,最后是“.doc”,中间是4个“未知数”。好了,现在我们在搜索栏填入“1310000????.doc”(注意,要输入英文的问号,而不能是中文的问号,如果不清楚,请关闭中文输入法,输入问号),再次点击搜索。果然,这次我们找到的都是131号段的文件了。


图1-5 图片

在上面的例子中,我们用到了一个特殊的字符『?』来表示“单个任意字符”。概略地说,这就是正则表达式的雏形,当然,正则表达式的真正威力远远比这个大得多。我们现在用到的这个雏形叫做“通配符”(Wildcard,根据维基百科的定义,计算机上的通配符可以用来“表示字符串中的任何单个或多个字符”)。表示“单个任意字符”的『?』就是通配符之一。下面我们介绍另一个通配符,星号『*』。

更复杂的搜索

解数学题时我们不能限定“未知数x只能是一位数”;同样,在文本匹配中也不应该有这样的限制:在上面的例子中,我们明确知道131后面应该有8个字符,但下面的情况呢?
仍然是查找文件的问题,这次我们要找的是电子书。在某个目录下存放着许多本电子书,文件名就是书的名字,我们现在要查找的是名为“社会某某学”的书籍:社会心理学、社会组织学、社会人类与文化学、社会系统动力学……不幸的是,在“社会”和“学”之间的字数是不确定的:“心理”和“组织”是两个字,“人类与文化”是五个字,“系统动力”是四个字,所以,这里无法使用问号,该怎么办呢?
仔细想想我们面对的问题:需要有一个新的“未知数x”来匹配这些字符,它的长度必须是可变的,谁也不能预先知道它“匹配”了多少字符。恰好,这就是另一个通配符『*』的意义。于是,我们在搜索框里输入“社会*学”。


图1-6 “社会*学”的搜索结果

比较搜索结果和我们输入的“社会*学”就可以发现,对不同的文件,『*』有时候表示“人类与文化”,有时候表示“动力”,有时候又代表“心理”等等,也就是说,它能“表示”的字符串长度是不确定的!
如果你再仔细观察就会发现,除了“社会心理学”、“社会组织学”、“社会人类与文化学”、“社会系统动力学”之外,“社会学”也被找了出来。所以,请务必记住这一点:『*』可以表示任意长度的字符串,包括长度为0的字符串(比如””,虽然这个字符串里什么也没有)!

再进一步

现在把要求提的更高一些:我们希望从搜索结果里去掉“社会学”(因为它不符合“社会某某学”的样式),该怎么办?一个办法是先用“社会*学”搜索出所有的结果,再去掉“社会学”;另一个办法则可以免去周折、一步到位。
我们仔细思考这个问题就会发现,“社会学”之所以会出现在搜索结果里,是因为『*』可以匹配“长度为0的字符串”,在“社会”和“学”之间,果真就有一个“长度为0的字符串”(也可以说,什么都没有)!如果我们能保证这个“社会”和“学”之间的字符串的长度大于1,问题就解决了。该怎么办呢?
既然问号『?』能保证匹配一个任意字符,『*』能匹配任意长度的字符串,你可能已经想到答案了:它们拼起来不就是“长度至少为1的字符串”了吗?
果然,结果就是这样的。


图1-7 “社会*?学”的搜索结果

看到这里有人可能会想,顺序呢?『*?』和『?*』有区别吗?答案是,至少在这里,没有区别。如果你想弄明白其中的原因,请继续耐心阅读本书。


图1-8 “社会?*学”的搜索结果

如果“社会*?学”真是你自己想到的,那么要恭喜你;如果不是这样,也不必沮丧。因为从这个例子里,我们已经看到了正则表达式的大致模样:定义一些可以代表未知情况的特殊字符(比如代表“一个任意字符”的『?』和代表“任意长度(包括0)字符串”的『*』),再用一些规则把它们组合起来(比如『*?』),就可以准确描述我们希望查找的文本的特征。本书后面的部分,翻来覆去讲的还是这样的内容,只是特殊字符更多,组合规则更复杂,而已。如果你看现在的例子觉得没问题,相信整本书对你来说也不是问题。
需要补充的一点:正因为『?』和『*』是“特殊字符”,它们的“意义”不同于问号和星号本身的含义,所以文件名中是不容许出现这这类特殊字符的(否则,计算机怎么判断你输入的星号是要匹配“任意长度的字符串”还是匹配“文件名中的星号字符”呢?)


图1-9 文件名中不能包含的字符

更进一步

看到这里,你或许想问:『*』和『?』,是在任何工具中都通行的吗?
答案是:不是,比如记事本就不支持这两个特殊字符。不过,一般来说,稍微“高级”一点的工具都提供了这样的功能。比如,Word就提供了这样的功能,只是做起来稍有区别而已。
仍然看查找1310000号段手机号的例子,我们做一个与上面例子类似的Word文档,每一行都是一个文件名,按下ctrl + f,出现“查找与替换”对话框。输入“1310000????.doc”,却不能找到任何结果。


图1-10 word中的搜索

怎么出错了呢,开头不是说Word也支持正则表达式吗?没错,Word确实是支持。只是默认情况的搜索并不支持通配符(还记得文件名搜索的例子吗?文件名可以规定不得使用『*』和『?』,但是Word可不能规定文章里不能出现“*”和“?”)。
要使用『*』和『?』,就必须打开对通配符的支持。具体来讲,就是点选“查找和替换”对话框的“高级(M)”按钮,在其中勾选“使用通配符(U)”,再搜索,就会出现想要的结果了。


图1-11 word中使用通配符的搜索

这个例子也告诉我们,“正则表达式(通配符)查找”和普通的“查找”是不同的。在后面我们会看到,在一般的文本处理工具中使用正则表达式的功能,多半需要在设置中开启相应的功能选项(譬如这里的“使用通配符”),而一般的编程语言,在普通文本操作的接口之外,也会提供专门的正则表达式操作接口。

我们考虑更复杂一点的情况:如果“不幸”有个文件的名字是“1310000号段资料.doc”,也会被找出来。为什么?因为“号段资料”也是4个字符,正好对应到『????』!


图1-12 word中使用通配符搜索的问题

这个问题要怎么解决?
我们再次思考这个问题的根源,发现根源在于,通配符问号『?』能匹配“任意一个字符”,而不仅仅是数字字符。如果我们能限定,问号只匹配数字字符,问题就解决了!那么,怎么匹配“数字字符”呢?其实,所谓的数字字符,就是0123456789这9个字符之一嘛!好,我们就规定这样一个字符,它就表示上面说的意思。按照正则表达式的规矩,它写作『[0123456789]』。容易看懂吗?在方括号里把“可能”的字符都列出来,看起来很简单,又很古怪——这样长长的一串字符,居然只匹配一个字符!不过别担心,这还只是刚刚开始呢,看顺眼就好了,而且,这样“古怪”的东西并不多。
现在我们试试,用
1310000[0123456789][0123456789][0123456789][0123456789].doc
查找。果然对了!


图1-13 word中搜索的最终形式

对了是对了,就是不好看,太长了点。不过别担心,我们可以把它缩到很短,只是现在一下子堆出太多概念,可能并不合适。只要你耐心继续阅读下去,循序渐进,就会学到怎么把这个正确但“很长”的表达式缩短!

小结

在这一章,我们已经看到了最简单的正则表达式应用:通配符。
与常见的查找不同,通配符可以应付“变数”,表示“未知”的字符。问号『?』可以匹配“单个任意字符”,而星号『*』可以匹配“任意长度的字符串”,也包括“长度为0的字符串”;而且,我们也可以把这两个通配符搭配起来,表示“长度至少为1”的字符串。最后,我们看到,如果要限定“只匹配一个数字字符”,可以用『[0123456789]』的形式。
从这些例子中,我们也看到,在正则表达式(通配符模式)中,某些字符表示不同于其“字面”含义的意义,所以文件名中不能包含某些特殊字符,所以在一般的文本处理工具中,使用与正则表达式相关的功能,要开启相应的模式。

下面,我们开始“正经”学习正则表达式。

Yurii

Share
Published by
Yurii

Recent Posts

德国育儿经验:家长需要和儿童谈论”空气动力学“吗?

家长应当和儿童,尤其是低龄儿童谈论“空气动力学”吗? 我的答案曾经是非常肯定的:不应当。不要说儿童,就是成年人也不见得理解这些抽象的概念,与儿童谈论这些名词,只会让人望而生畏。身为父母,我们应当做的是,以孩子能理解的、感兴趣的方式谈论相关的具体问题,但绝对不要提这些大词。 不过世界的奇妙就在于,父母对教育并没有绝对的权威,总是需要根据实际情况来修正自己的观点。在“空气动力学”的问题上,我就吃到了教训。 那是一个下午,家里小朋友在iPad上看完他最喜欢的Blippi(这个节目我之前介绍过,对80后父母来说,Blippi可以理解为“带你见识各种新鲜玩意的董浩叔叔”),忽然抬起头来问我:“爸爸,你知道什么是aerodynamics吗?” “什么?你问我知不知道什么是aerodynamics?”我的下巴都要掉下来了。“空气动力学”这种词还是上中学时,身为军迷的我们在《航空知识》上知道的。再往后英语好一些,能看原版科普视频了,才知道“空气动力学”的原文就是aerodynamics。可是,我家这个还没上小学的家伙,竟然就能真诚地瞪大眼睛,一本正经地问我“知不知道什么是aerodynamics”。 (more…)

4 months ago

忆孟繁超老师:他从来没有给我上过一堂正式的课,但我永远都是他的学生。

我本来是不应该认识孟老师的。 2001年,我在寝室夜谈里第一次听到孟老师的名字。当时有同学说“公共选修课的《法学概论》讲得真好,那个老师叫孟繁超”,开始我不怎么在意,慢慢才发现这么说的人还不少。那个年月网上的资料正丰富,出版管制也不那么严格,刚进大学不久的我正自由自在地看得过瘾,心想“大学里的法学概论讲再好,能讲些什么,还不是教科书上老一套”,所以这种课,不听也罢。 但生活就在这么奇妙。那年冬天,有天中午我吃过饭正准备午睡,忽然有人敲门问“计算机系有位叫余晟的同学在这里吗?” 大中午的谁会来找我?我正好奇这个问题,门一推开就有同学喊“孟老师,孟老师来了”。 那是我第一次见到孟老师,中年人,国字脸,身材高大,打扮很精神,披在身后的深色大衣让我一下子想起电影里的斗篷。他笑眯眯地说“你是余晟?听同学说你搞电脑很厉害,我家的电脑坏了,想请你去看看。” (more…)

4 months ago

“历史照进现实”,这似乎不太现实

中国人大概都对历史有一些特别的偏好。对我们普通人来说,历史首先是文化的象征,一个人“懂历史”,基本等于这个人“有文化”;历史也是民族自豪感的来源,哪怕考古上仍然存在争议,但是“五千年文明”的说法是普通人都耳熟能详的。 不过等我长大之后才发现,这种偏好大概还有更深层次的原因,那就是历史看起来有种道德的意味,因为我们从小就熟悉“以史为鉴”的智慧,也熟悉各种“历史的选择”:每当我们对现实感到失望、困惑的时候,我们经常去历史——而不是先贤的智慧中——中寻找解答。找到曾经发生的类似的故事,就可以预言未来的结局。 于是乎,失望也好、困惑也罢,总归会有光明的未来,历史总会给我们支撑的信念。 我曾经很相信,熟谙历史是种智慧,而且是深层次的智慧。但是看得越多、经历得越多,我就越觉得,这很难称之为“智慧”。 为什么? (more…)

4 months ago

无人出租车,是技术进步的一粒灰,还是普通人头上的一座山?

“无人出租车要来了”。以百度“萝卜快跑”为代表的无人出租车,眼看就要在国内多个城市成规模运营。 熟悉IT的人都知道,IT的独特优势就在于“大规模扩展时边际成本极低”。在软件时代,微软开发的Windows,多卖一份的成本只是多刻录一张光盘而已。在无人驾驶时代,从10辆车到10万辆车的成本,也遵循同样的规律。换句话说,一旦模式“跑通”了,就可以迅速大规模铺开。无人出租车的大规模应用,也是“指日可待”了。 只不过,新技术这一次似乎没有那么激动人心,反而引起了很多争议——无人驾驶出租车大规模推广,会不会影响广大出租车、网约车车主的收入甚至生计?如果是,这样的技术进步,真的是我们所需要、所期待的吗?对于这个问题,不同的人有相差迥异的答案。 按照我的观察,许多人对此是相当乐观的。理由在于,“技术的每一次飞跃发展,虽然有阵痛,最终都创造了更多的新岗位”。既如此,无人出租车短期“看似”抢了许多人的饭碗,但也只是短期的“阵痛”而已。看看历史,纺织机的发明,蒸汽机的改良,汽车的诞生,无不证明了“阵痛说”的正确性。 坦白说,这种观点我是怀疑的。 (more…)

4 months ago

回国感受:松弛一点,愉快一点

因为小朋友放暑假,近期带小朋友回国待了几个礼拜。最深的感受就是标题所说的:松弛一点,愉快一点。 我第一次突出意识到这点,是在上海下飞机乘地铁。当时我们乘的直梯就要关门,远远看见有个年轻小伙子跑过来,我连忙按住开门按钮,并招呼他”别着急,慢慢来“,等他进了轿厢才关门。本来我以为大家起码会打个招呼,露个笑脸,因为我已经习惯如此,但完全出乎我意料的是,他进来之后对我们完全视若不见,自顾自掏出手机,盯着看得入迷。 我继而发现,不管是在电梯里,站台上,还是车厢里,虽然四下里都是广播”请扶好站稳,抓好扶手,不要看手机“,但是似乎人人都盯着自己的手机。年轻人在打手机游戏,年纪大一点的在滑各种小视频,还有不少人在聊天软件里打字如飞……对着屏幕的表情都很生动,可是一旦抬起头来,似乎马上又换了个人。 后来又有一次,我乘地铁的时候,因为比较拥挤,一个小伙子倒退时踩了我一脚,他大概意识到了,很快把脚挪开,脸上闪过一丝不安,马上又恢复正常,我也没有计较。不幸的是,过了十来分钟,他又踩了我一脚,同样是先有一点不安,很快又恢复正常。 这次我忍不了了,于是我开口告诉他:“小伙子,你已经踩了我两脚了。” (more…)

4 months ago

First name, last name, middle name,浅谈外国人名

前几天,国内朋友发来一条消息,原来是乌克兰F-16坠落,飞行员丧生的新闻。我本来以为他要讨论此事的真假和原委,他真正的问题却完全出乎我的意料: 新闻里说,飞行员叫阿列克谢·“月鱼”·梅斯,对应原文是Alexei “Moonfish” Mes,为什么会有人把“月鱼”写在自己的名字里,而且还打引号。 之前看新闻,乌克兰还有一个著名的飞行员叫安德烈·“果汁”·皮尔希科夫(Andrii “Juice” Pishchykov),怎么“果汁”也是正式的名字? 未必Moonfish和Juice之类,还有什么特别的含义吗?…… 这堆问题看的我有点想笑,因为自己以前也很苦恼外国人的名字,只有在国外长期生活,才逐渐搞清楚这其中的名堂。所以,除了解答朋友的问题,我也把自己的解释写下来,搞清楚两个最不容易理解的点,就不会对外国人名有那么多问题了。 (more…)

4 months ago