《正则表达式傻瓜书》前言
按:《精通正则表达式》是一本好书,我翻译之后,一直都奢望写本关于正则表达式的书,为《精通正则表达式》接上地气,今年终于有机会把“奢望”变成“苦差”。下面是本书(暂定名《正则表达式傻瓜书》,大家对此有意见或建议也请直说)的前言,其中介绍了本书的结构、读者和价值,请大家多提建议,在这里先行谢过。
前言
正则表达式简介
“正则表达式”,这个名字看起来有点古怪。不过别着急,我们先看看它到底是有什么用,再解释这古怪名字的来历。
简而言之,正则表达式就是一套专门处理文本的强大工具。“学术”地说,它能够做的事情主要是:
- 复杂的文本查找/匹配/提取
- 复杂的文本替换
请注意,这里说的是“复杂”的操作,而不是“简单”的查找/匹配/提取/替换(几乎任何一种文本处理工具,例如Word和记事本,都提供了这种功能)。或者,通俗地说,正则表达式能够做的事情是这样的:
如果你是一般用户:
- 把多行的文本迅速拼成用逗号分隔的一行文本(群发邮件时这非常有用);
- 把一长篇文章里的手机号码都找出来(除了匹配13x、15x、18x开头的号码,还可以处理开头有‘0’和/或有‘+86’的情况);
- 把一篇文章里可能拼写错的某个单词。比如把separete、saparate、saperete之类“自动纠正”到separate,而且不受大小写限制(seParate, separaTe也可以纠正);
如果你是专业用户:
- 验证用户输入的手机号、邮件地址是否合法(还记得填写网页表单时常见的提示吗?);
- 提取网页源代码中的所有图片链接、超链接(搜索引擎就是这么干的);
- 提取文本中的邮件地址(现在你知道自己的邮件地址怎么被“抓”走了吧?);
- 进行复杂的格式检查(把各种小数“统一”成精度为0.01的格式,去掉重复的单词);
这样的任务可能并不是我们日常工作的主要内容,“不幸”遇上了却非常烦人——简单重复劳动往往要耗费我们大量的时间。所以,在《卓有成效的程序员》(Neal Ford著,机械工业出版社2009年版)中,作者写道:
在我刚才提到的例子中,开发人员用了1小时58分建立正确的(正则表达式)语法,然后用了不足两分钟运行。在一些未曾培训过的人眼里,他的大多数时间都没有效率(这就是为什么他们反对使用正则表达式的原因),但最后,他节省的是几天的时间!
正则表达式还可以玩出更炫更酷的花样;不过现在,你只需要记得一点:不管任务有多么复杂,多么“不可思议”,只要掌握了关于正则表达式的基础知识,就能“以不变应万变”。这有点像搭积木,如果你学会了搭积木,就能随心所欲地搭出各种结构。而这本书的目的,就是教会你“搭积木”,也就是学会正则表达式;如果加以锻炼,相信不久你就能游刃有余地解决各种古怪的问题了。
现在我们回头说说正则表达式的古怪名字。我估计,古怪主要的原因来自“正则”——我们的生活中很少见到“正则”这个词。其实,“正则”的原文是英文单词regular,也就是“规则”、“规范”的意思。谈到这个regular,就必须提到一个概念:“正规语言(regular language)”,概略地说,“正规语言”就是严格遵照一系列规则构造出来的“语言”(不同于规则模糊且“可能出错”的自然语言)。“正则表达式”的“正则”,也就是这个“正规”的意思,它可以进行精确(很细致但也很“繁琐”)的描述:举个例子,我们都能一眼判断出,一串字符是不是“邮政编码”,但用正规语言来描述,大概是这样的——“邮政编码是前后相连的六个十进制数字字符(也就是说,每个字符都是0123456789之一),而且在这六个字符前后不能再出现数字字符”,如果我们能这样“规范”地表达自己的意图,计算机就可以匹配邮政编码字符串了。正则表达式的功能之所以强大,正是因为它可以“正规(规范)”的方式进行精确的描述/表达自己操作文本的意图——有了规矩才有方圆,计算机才能完整准确“理解”我们的想法。
回过头来,无论你看“正则表达式”这个名字是否顺眼,现在只要明白它是用来处理文本的强大工具,就可以了。
谁适合阅读这本书
本书名为《正则表达式傻瓜书》,并非假设读者都是傻瓜,而是保证“傻瓜都能看懂”。从这个定义出发,我们假设读者对正则表达式没有任何基础。如果您真的“不幸”成为其中一员,那么恭喜你,整本书都是为你而写的,如果你能循序渐进,一路修炼下来,一定能把正则表达式玩弄于股掌之间。
如果你之前已经稍微了解了正则表达式,那么更要恭喜你。我发现,许多接触过正则表达式的开发人员,并不真正理解正则表达式。要用的时候,他们往往从网上搜索一个正则表达式应急,如果不能用就改改——却往往被“这个字符是否要转义呢?”、“这门语言是否支持这个功能”之类的问题困扰。如果你能细心读完本书的基础章节,一定能厘清概念、正本清源,功力再上层楼。
如果你自认为在这两种人之外,或者毫无兴趣,也不必“自绝于”本书。你可能会在很多地方遇到正则表达式:你的浏览器是否有插件屏蔽某些网站的广告?如果有,你想不想设定应当屏蔽“哪些”广告?你在访问一些网站时是否遇到了困难,而需要为“某些”网站设定使用代理服务器?如果是,那么你不妨学一点正则表达式。俄罗斯有句谚语是这么说的:年轻人,多学一点本领总不是坏事!
学习方法
关于正则表达式,最重要的概念就是“规定可变的范围”:它匹配和处理的文本的是“变化”的(如果你只想寻找“中华人民共和国”之类的固定字符串,直接进行简单的查找就是了;电子邮件地址则不同,它的样子千变万化,这时候就得正则表达式上场了),但这些“变化”又必须遵循一定的规则(“电子邮件地址不就是“用户名 + @ + 主机名”嘛,超文本链接不就是“http:// + 主机名 + 路径 + 参数[可能出现]”嘛,而“用户名”、“主机名”之类都有明确的规定:可以按什么次序,出现什么字符),只要想明白了这回事,再弄明白正则表达式的规则和门道,把这些“变化规则”准确描述出来,就可做到“万变不离其宗”——任文本的形式怎么变化,都逃不出你的手掌心。
要学会正则表达式的规则和门道,可以分三步,据此,本书也分为三个部分:
第一步,基础,提供“入门”和“基础”。如果你从未接触过“正则表达式”,我们将从最简单的通配符的概念介绍起,帮你建立最基本的感性认识,并介绍正则表达式中最最基本的功能,它们不但可以用在编程语言里,也可以应用在平常的工具中。所以,看完这一部分,你应该能了解最基本最常用的关于正则表达式的概念,并把它们应用的日常工作中去。
第二步,进阶,在这里,我们会跟进一步,介绍普通文字编辑软件没有提供,但正则表达式中常用的重要知识、譬如多选结构、分组等等。并辅以恰当的例子,让读者通过对比,深刻牢固地认识这些概念。可以说,如果能充分认识、恰当运用这些概念,就能完成80%基本的字符处理任务,这也是本书的重中之重。
第三步,深入,向读者介绍更复杂、更高级的功能。包括其它类型的量词、匹配模式、锚点等,并会讲解一些常见的应用思路。了解了这些概念,你就能玩出更炫更酷的花样,也能解决更复杂、更罕见的问题。另外,在本章,我们会简单介绍不同的语言对于正则表达式的实现,以及各自的特点。
对于一般人,掌握这些已经完全足够了,如果学完这些,你还不满足,要“百尺竿头更进一步”,推荐你阅读本人翻译的《精通正则表达式(第三版)》(Jeffery Friedl著,电子工业出版社2007年版)的高级内容,相信你一定会有新的收获。
本书的价值
可能有读者会问,现在关于正则表达式的书那么多,有《精通正则表达式》,有《正则表达式必知必会》……为什么还要有“傻瓜书”?
确实,为什么要有“傻瓜书”呢?我学正则表达式的时候,也就是生吞活剥了《精通正则表达式》的影印版,就大致掌握了这东西嘛。
不过,在后来的开发中,我逐渐发现,对于处于开发前线、需要亲手写正则表达式的广大同行,从阅读关于正则表达式的经典作品,到熟练解决手上的难题,还有一个艰难的过程。比如,我曾遇到过这样的任务:要把一段文本里的“湖南株洲”智能地替换为“湖南省株洲市”,简单的文本替换在这里是行不通的,因为原文中可能也存在“湖南株洲市”,简单替换之后就成了“湖南省株洲市市”(出现了两个重复的“市”)(程序员可能会说,用程序检查“株洲”之后的那个字符就可以了嘛,但这是不行的,因为可能遇到越界错误:如果文本最后的两个字符就是“株洲”,后面不存在任何字符,检查“后一个”字符的程序就会报错退出)。再比如,不同的语言/环境在对正则表达式的支持上也有细微的区别,许多时候我们明白“理论上”应该怎么做,但实际操作起来又有诸多掣肘(譬如在Apache的Rewrite规则中,怎样用一条表达式匹配“除aaa.somesite.com和bbb.somesite.com之外somesite.com的所有子域名”呢),该怎样绕过它们,很多书都没有讲,只能依靠猜测和经验来解决。本书在讲解相关的知识点时,会尽可能贴近实际的应用,举出针对具体开发环境的例子,降低大家从“阅读外版书借鉴国外经验”到“消化、吸收,应用到具体开发”之间的学习成本。
另一方面,不少关于正则表达式的书籍往往追求全面,把各条知识事无巨细地罗列出来。然而广大应用正则表达式的人员,却不太可能有精力通读这些“百科全书”,对他们来说,最重要的就是在遇到问题的时候迅速地找到最合适表达式,或者看懂某个复杂的表达式,加以改造,服务于自己的工作。这一点,我自己也深有体会。因此,本书会着重讲解一些常用的正则表达式,并提供它们在各种语言中的版本,并讲解一些常见问题的解决思路(常见的“与、或、非”的逻辑要怎么表达,掌握了这些,你就可以解决“长度在8到16之间,同时包含字母、数字、符号的密码字符串怎么用一条正则表达式验证”的问题了);即便您找不到能直接使用的例子,也可以触类旁通。从某种意义上说,您也可以将本书放在案头,当成“正则表达式速查手册”。
最后,在《精通正则表达式》中文版出版之后,我收到了许多热心读者的来信,也看到许多读者的评论。有不少读者觉得,《精通》一书确实不错,但详略安排可以更好:许多简单的问题往往花费了太多时间,生怕读者不懂,而复杂问题的讲解又不够到位,读来总有十全九美的遗憾;也有读者觉得,《精通》的篇幅太长,价格太贵,并非人人都要“精通”,降低点成本,“够用”就好。有鉴于此,我会努力根据读者的意见,尽力调整这本书的详略安排。当然,贯彻始终的原则是“简明扼要”。毕竟,学习正则表达式就是为了节省时间,如果让读者在“不值得”的内容上浪费时间,就违背了本书的写作初衷。
勘误
我向读者保证会尽力避免犯错,但是我不敢保证这本书里没有错误。所以,如果您在阅读时发现有错误,请一定来信告知,您的意见,经过确认,会进入勘误列表,并在下次重印时进行订正。当然,我也欢迎您来信告知建议、感想。我的电子邮箱是 [email protected],诚挚地等待您的邮件。
From Life Sailor, post 《正则表达式傻瓜书》前言
严重支持,等着看…
请余大定期发布书籍出版的进度…
《正则表达式必知必会》的写作方式值得借鉴。最好加多一点和中文字词中文标点符号相关的例子。虽然原理还是那些原理,但这些外国的书没有。
终于出原创了,期待+支持
刚看到《精通》的第六章,感觉还不错。但是觉得里面举的例子实在太外国化了。用面包屑和汽车对于我来说相当于把例子复杂化了。回溯就相当于游戏里的“记忆点”,走迷宫的时候经常要用到的。希望本书更让国人容易理解,正则表达式是一个很有用的东西,如果能让大家都能使用它那将会是件很好的事情
@anrs
你这是给我压力,不是给我建议
@franzcai
多谢你的建议,很有用
@浪雪
是,我今年终于弄明白了什么是“分电器盖”…
“无论你看“正则表达式”这个名字是否顺眼,现在只要明白它是用来处理文本的强大工具,就可以了。”
相反,本人作为一个自学的菜鸟,深刻的觉得正确的理解一个名称是很重要的。正确理解正则表示式的含义,对后面的学习是很有帮助的。
以前记英语单词的时候,采用了记字根等辅助手法,等积累到一定量的时候,才不会产生混乱的感觉,反而会越来越轻松。比如说respect这个词,我们可以硬记住“尊重”这个中文意思,也可以分拆成re(重复)spect(看)这2个字根,重复的看就是尊重。虽然说第一次记忆未必就要比直接硬背要容易,但是到了一定的量的时候,就会产生区别。当我们学习到inspect这个词时,in(内部)spect(看),这样就很容易推出“检查”的意思“深入内部的看”。
而正则表达式这个概念如果不说清楚,可能会让像我这样的菜鸟初学者造成困扰。我甚至觉得专门花一章来解释正则的意思都不为过。我认为(有可能是错的,欢迎指正),正则表达式是用一种“抽象的语言”转述了我们的“自然语言”,而这种抽象的语言是有自己规则的。(然后深入的讲解什么是抽象。虽然抽象这个词经常见,但是我我认为大部分人都不能正确理解抽象这个词。如果本书打算写给非程序员的人,更要好好解释抽象这个概念。)
所以正则表达式(regular expressions)我们可以认为是用一套我们之前没接触过的“规则”来“表达”我们想要说的东西——“规则的表达”
然后再引出——“但这些文本的“本质”又是不变的(“电子邮件地址不就是“用户名 + @ + 主机名”嘛,超文本链接不就是“http:// + 主机名 + 路径 + 参数(可能出现,也可能不出现)”这个例子。但是我们怎么用“规则”的语言来“表达”上面这个大白话的意思呢?这时我们就要学习这个规则。(这样对后面所说的[^”/]和.*的区别之类的解释就更容易让人懂。)
@浪雪
非常感谢你这么热心的留言。
我之所以要这么写,是觉得凡事都有一个分寸。在一本关于正则表达式的书里,花太多笔墨去介绍形式语言之类的概念,似乎不太合适。
当然,“正规”的概念,加强一些似乎更好一点,谢谢你的提醒。
有感于“年轻人,多学一点本领总不是坏事!”
支持,再接再厉!
不懂归不懂,但还是要支持一把。:)
@浪雪
我已经照你的意见做了修改,如果你能看到最新的版本,能否继续提建议?
谢谢
期待中。
作为一本“傻瓜书”,说它是“处理文本的强大工具”,前言里是否有必要秀一下它长什么样子,就用文中提到的那些例子?
快出版,到时候我带领小弟们去团购
好专业的感觉,—_—!看不懂,呼呼。。。。。
@Anonymous
你说的很对,我会在书里增加一些简单实用的例子,以及在Word等工具里使用正则表达式的知识。
感谢!
为博主的才智与辛勤劳动致以最热切的支持!
这可真是一个苦差!
请教一下:
如果我用正则表达式是做一些文字、信息处理(查找替换),我觉得(只是我觉得,因为我还没有这本书)这本书有点性价比不高(大部分用不到)。
请问博主是怎么看的。能否推荐一本对我来说性价比较高的书。谢谢。
若能直接回到email最好!这里也可以。
暂时来说,可能《正则表达式必知必会》比较好;我写这本书,也是打算简明扼要,不要鸿篇巨制的;如果有兴趣的话,欢迎你继续关注
不好意思,我来留言看错了,我以为这个是介绍《精通正则表达式》的。
期待你的书,希望定价低一点,呵呵。
《精通正则表达式》这本折后还要60,有点小贵(虽然价值的确很大),《精通正则表达式》我觉得如果在心理价50以内,销量一定会更好,呵呵。
《正则表达式傻瓜书》?会不会是wiley系列啊,呵呵。
定价30以内,甚至20以内就好了。
呵呵。
《精通》我是译者,不是定价的人啊
《傻瓜书》我也想言简意赅,两百页左右说明问题,这样大家都能接受,也够用了
如果你有兴趣,欢迎继续关注我的写作进度,并多提宝贵意见
请问什么时候更新第二章呀?