Year: 2012

北京车牌异地验车委托书开具流程

按:这段时间为了办理异地验车手续,费了不少力气折腾,而且发现网络上的许多答案都不准确,所以把我的流程贴在blog上,希望可以帮到大家。

北京车牌异地验车委托书开具流程

申请时间:在行使证有效期到期前的2个月(60天内)内。

申请资料:车辆行使证或者机动车登记证书的原件,最好带上一份复印件(在车管所复印需要排队、花钱)。

申请费用:无。

前提条件:车辆无违章信息(可在北京市交管局网站查询,目前已经全国联网,所以异地违章也可能有记录,不过支付宝可以办理一些异地违章)。

受理单位:北京市各车管所和车管分所(网上有说法必须到上牌注册的车管所,这是不对的)。

受理时间:早上9点到下午4点(周六日也可以办理)。

补充说明:超过行使证有效期(逾期)之后,仍然可以开具委托书并在异地验车,不收取任何额外费用,如果车辆在在逾期之后验车之前上路被抓拍,需要缴纳罚款。

拿到开具好的委托书后,加上行使证、登记证书、保险资料(有些地方还要求提供当年的车船税年票,请提前咨询),到所在地车辆检测场按照正常验车流程进行即可。

事关“工程师思维”(2)

2011年前我写过《事关“工程师思维”》,在那篇文章里所谈的“工程师思维”,指的是“一种可以把想法实现出来,一步步的变成现实的思维和实践训练”。两年过去了,工作和生活中的许多经历让我认识到,“工程师思维”不仅仅是一种思维和实践的训练,更是从多个方面体现出来的习惯,以下简单说说我的两点理解。

工程师思维的体现之一,是对于工具的执着。工程师不是赤膊上阵的莽夫,要完成自己的任务,必然离不开工具的支持,所以,优秀的工程师,必然从思想上重视工具。
我刚刚接触Linux下的开发时,是在一家当时国内有名的互联网公司。当时自己学了点vi,开始编写php程序。有天,一位同事从旁边走过,他忽然说:你的vim怎么没有颜色呢?然后不由分说,抢过我的键盘噼啪一顿敲,瞬间编辑器就有了格式和颜色(其实就是加上了syntax语法文件)。当时我只是觉得新奇好玩,过了几天,随着程序不断变复杂,才发现开发效率相比之前已经大大提高;后来让我惊奇的是,原来那天帮我弄出颜色来的同事,正是公司的首席科学家;更让我惊奇的是,他负责的项目,基本是不用加班的,而且交付质量都相当出色。
这件事情我印象一直很深,一方面是因为身为首席科学家,愿意“屈尊”为新入门的同事配置工具(后来我才意识到,他所负责的项目之所以都能高质量的准时交付,离不开一个又一个的细节,对工具的执着就是其中之一);另一方面,我也发现很多“工程师”并不那么在乎工具,更愿意坚守一些原始粗糙的工具(“粗糙”与“简单”不同,精心配置的vim当然不算粗糙的工具),你建议他们去换用新工具时,他们往往说“没事,我习惯了,再说也查不了多少”为理由拒绝(我认为这更多是思维上的懒惰)。更不幸的是,我见过的有这样习惯的人,基本都算不上优秀的工程师。两厢对比,我越发深刻地认为,“工程师思维”的一个重要方面就是对工具的执着,甚至既要对自己的工具精益求精,更容不下团队里其他人使用粗糙的工具。

工程师思维的体现之二,是对于流程的执着。工程不同于艺术,不需要天马行空的自如,工程的完成离不开严谨周密的步骤,只有执著于流程的工程师,才能够各种工程中贯彻严谨周密的步骤,从而减少变数,保证工程顺利完成。
许多开发人员都遇到过这样的情况:经常需要解决各种重复或者类似的问题,但是每次都需要花不少力气翻找之前的资料。我也曾遇到过这样的问题,直到有一天,发现某位同事有一个巨大的“脚本库”:无论我问他什么问题,他都可以迅速找出一个脚本,我只需要修改几个参数,就一定可以解决这个问题。
回头去想,这些脚本描述的就是解决某类问题的流程,它标明了具体的操作和步骤,保证任何人都可以照章解决某类问题,这种看似“与人无关、缺乏灵气”的方案,其实正是“工程思维”的体现,最大限度地减少了工程中的不可控因素。于是,我也逐渐积累自己的流程文档,更重要的是,在解决一个个问题的“个案”中,尝试从“流程”的角度观察和思考:这个问题是怎么解决的?前后分为几步?哪些步骤是和其它问题相通的?时间久了,既积累丰富了自己的流程文档,又强化了自己的思考能力。如果因为某些任务看似简单,就不去思考背后的流程,想凭“巧劲”手动解决,遇到真正复杂的问题,就没有化繁为简、系统解决的能力,如果问题重复出现,每次仍然需要手动处理,速度只能停在某个很低的水平。这样的表现,当然和“工程师”不挨边了。

如今流行的某种说法认为,中国人的理工科培训,造就了许多人的“工程师思维”。听起来,“工程师思维”似乎是某种不好的习惯,只知做事,不会思考;但在我看来,事实全然不是这样:“工程”是一门讲究实践、思考、经验总结的学问,而我国现行体制里教育出来的人,往往只擅长照章执行,根本谈不上“工程师”;无论是谁,想要具备真正的工程师思维,都离不开持续、专门的学习、思考和训练。

职业程序员的克制与放纵

程序员有哪些职业素养?关于这个话题已经有很多资料,前段时间章显洲和我一起翻译了Uncle Bob的Clean Coder(中文名《程序员的职业素养》),通篇谈的都是程序员的职业素养,而且讲的很在理。不过今天,我想根据自己的经验和观察,谈“程序员的职业素养”的两个方面:克制和放纵。这里说的“克制”,指的是要克制自己敲代码的冲动;而“放纵”,指的是要放纵自己关于程序本身的思考。下面先从克制说起。

许多年前我刚开始学编程时,朋友曾说过一个笑话:差劲的程序员有两种,一种是开始就写main函数的;还有一种是上来就上网找各种类库源代码的。当时我并不能完全理解:编程序,不去找类库源代码,不从main函数开始,还要怎么做呢?后来才逐渐明白,上来就写main函数,或者上来就找类库找源代码,归根到底都是不能克制关于代码的冲动。直接写代码当然很“爽”,很有“成就感”。可是,这样做真的是好事吗?

在现实生活中,我确实看到相当多的程序员写代码的冲动相当强烈,难以克制。这可能是因为任何软件都需要落实为代码,拿到一个任务,直接写代码可以赋予程序员充足甚至全部的成就感。在心里想个明白,在纸上写写画画,反而成了一种难以克制的煎熬。但有经验的人都知道,程序不等于代码,程序的含义和复杂性远远超过代码;没有明晰的需求,没有清楚的头脑,没有良好的规划,写出来的代码就成了无源之水,无本之木,写的越爽,后果可能越严重。

我曾经见过一套系统,其中充满了各种状态码的条件判断,这种情况本来很正常,不幸所有的状态码都是硬编码的数字,整个系统就是一本天书:一会儿判断这里是否等于2,一会儿判断那里是否大于7……究其原因,是程序员觉得这些状态码无非就是“用数字代表状态”,所以随便选些数字就好了:2代表什么,7对应什么,自己记得就好;更重要的是,硬编码的状态码“用起来方便”,敲代码的速度大大提升——不需要查找变量,也不需要输入整个变量名。这种系统的问题相信大家都猜得到,维护和修改起来无比痛苦。所以,尽管写这些程序的程序员已经有了一两年甚至更多的工作经验,但他们身上很难说有“职业素养”。

与此相反,重构的人员采取了完全不同的方法:虽然全部硬编码看起来不爽,用起来更不爽,人人都有立刻动手改掉它的冲动,但重构时首先要做的并不是直接修改代码,而是仔细阅读整个程序,编写了一份所有状态码的图表(并且打印出来供随时查阅),再根据状态码的意义和使用场景,重新设计状态码(因为各个状态之间还存在逻辑关系,所以需要以自定义类型表示状态),最后才动手编码完成重构。事实证明,这种策略是非常成功的:阅读代码、制定图表、重新设计需要三周的时间,真正的重构只用几天就顺利完成了,而且从此以后维护和修改的难度大大降低,真正达到了重构的目的。完成重构工作的程序员,工作经验并不比最初编写程序的人要多,他们没有一开始就写代码,甚至没有花太多时间在代码上,更没有用到高深莫测的技术,但他们身上恰恰体现出了程序员的职业素养。

身为程序员,大概人人都喜欢狂敲代码带来的快感;但身为职业程序员,必须要克制写代码的冲动,在写代码之前花更多时间理解需求,设计系统,制定规划,这样写出来的代码才会更加精炼,整个程序才更有价值。我们甚至可以说,拿到需求就动手敲代码的程序员,无论有多少年经验,仍然不过是楞头青。

说完了克制,下面说放纵。此处的“放纵”其实是一个比较夸张的说法,但依我所见,用“放纵”非常有必要,因为不少程序员写的程序实在太“保守”了,矫枉必须过正。

我刚刚工作时,项目经理分给我的任务是从网络上抓些特定的信息存到数据库。这个任务我花了不少工夫完成,本以为可以赢得项目经理的表扬,结果却是劈头盖脸的苛责:“你当这是学生写程序吗?什么异常情况都没考虑?网络断了怎么办?数据库连不通怎么办?……”虽然在学校写过不少程序,但这些问题我真是没处理过,甚至完全没考虑过。可以说,在那一刻,我才真正开始理解,为什么要有异常,为什么会有强制异常处理。

本来我以为这只是自己经验不足的教训,但后来我逐渐发现,不少程序员对异常处理都相当吝啬,更乐意让自己的程序呆在舒适安逸的温柔乡里,走在万事俱备的康庄大道上——用户的输入永远是符合预期的,程序的计算永远不会出任何误差,网络和数据库连接永远是稳定可靠的……这样做最明显的后果就是,对程序员意料之外的情况,程序做不了任何处理,只能交由它所依赖的类库或者运行平台来显示最原始的错误信息,而这些信息直接暴露给客户——比如明明是网络不通,却提示 “无法解析域名”(对普通人来说,“解析域名”简直就是天书);明明是客户输入有错误,却直接抛出最底层异常(即便大公司也会犯这种错误)。

亚马逊的报错界面
几年前我自己的抓屏

每次遇到这种情况,用户即便有能力解决问题,也不知所措,只能找程序员本人来处理。如果某人开发的程序发布之后经常需要在线调试、现场维护,开发效率和质量就会大打折扣,我们也很难说哪里体现了“职业素养”。相反,足够职业的程序员,哪怕开发一个非常简单的程序,必然不会局限于正常的逻辑,而会“放纵”自己的时间精力,去考虑各种异常情况,做出合适的处理,他开发的程序就像优秀作家的作品,可以简单,也可以复杂,可以平实,也可以高深,但一定不会轻易倒下。

武侠小说里常见一些顶尖高手,用平凡无奇的招式,轻松击败对手,那是因为比起招式,“功力”和“应对”是更重要的因素,其实程序开发也是这个道理。如果我们把看得见、摸得着的代码比作某种招式,那么程序员越能克制写代码的冲动,花越多的时间思考和设计,此招式的功力就越深厚;另一方面,程序员越能放纵自己对各种意外的考虑和处理,此招式的应对能力就更强。如果成为武林高手必然有深厚的功力,有丰富的应对经验,那么要成为职业程序员,也必然要花大量精力思考代码之外的问题,处理意料之外的情况。

回到常识

按:此为最近我翻译的《简约之美(Code Simplicity)》的译者序。

1776年,美国独立战争爆发,当时北美尚有很多民众对“独立”充满怀疑: “北美真的要脱离英国吗”、“新的国家需要怎样组织”,这些今天看来不是问题的问题,并没有清晰明确的答案。就在此时,有位叫托马斯•潘恩(Thomas Paine)的人站了出来,单枪匹马解开了人们心中的疑惑,大大鼓舞了北美民众的独立情绪,而他所依靠的,只是一本名为《常识》的小册子。

《常识》这本小册子说了什么呢?我随便摘录几句:

如果没有人监督,对国王是不能信任的;或者换句话说,渴望保持专制政权的欲念是君主政体的固有弊病

独立自主的问题不外乎意味着:究竟是我们将自己制定我们的法律,还是让这个大陆的目前和将来最大的敌人——英王来吩咐我们,除我所喜欢的法律以外不准有任何法律

让我们为宪章加冕,从而使世人知道我们是否赞成君主政体,知道北美的法律就是国王

200多年后再读,仍然可以感受到这些文字的力量,所以不难想象,在美国独立战争时告知民众这些道理,能发挥多么重要的作用——据载,在当时只有二百多万人的 北美,成年男子几乎人手一册《常识》。不夸张地说,这本书推动了美国建国的进程。

潘恩既不是高明的政治哲学家,也不是熟谙宣传的政客,他的书也谈不上多么高深,在我看来,主要原因是《常识》用朴素平实的语言把道理讲出来,告诉大家“原来是这样的”。换句话说,许多道理其实并不高深,但必须以“常识”的形式表达出来,大家才能听进去;否则,终究难逃曲高和寡的悲惨命运。

读者或许会觉得奇怪,一本技术书籍的译者序,为什么要花这么多篇幅介绍历史呢?之所以这么做,是因为我在翻译这本看似平淡无奇的书籍时,数次想到托马斯•潘恩的《常识》。我深刻觉得,在软件开发的各种书籍和资料中,也应当有类似《常识》的文本来告诉大家:道理原来是这样的,就是这样。

我相信,任何一位读者,只要认真看过全书,都会发现《简约之美》其实只强调了几条非常简单的道理:

  1. 软件是必然要变化的,变化乃是常态;
  2. 有变化就需要维护,随时间推移,维护成本会远远超过初期开发的成本,占据成本的大头;
  3. 因此,在软件开发中,最重要的是要降低维护成本;
  4. 维护成本正比于系统的复杂程度,所以要降低维护成本,系统的设计就应当追求简单清晰;

这链条看似简单,其实并非如此。不少有经验的开发人员,似乎对这类“道理”不屑一顾,他们更在意新潮的技术、先进的架构、流行的语言……新出了哪种类库,什么软件新发布了版本,大数据该怎么处理,说起来头头是道,但真刀真枪地写起程序来,往往错漏百出(甚至不自知)。

我曾经见过一套系统,设计和开发这套系统的人几乎用到了.Net的所有高级特性,但95%以上都用错了,结果就是系统层次混乱、类责任混淆、通讯完全不可靠。诡异的是,许多错误都属于“地雷”,如果业务一直维持在原始状态,它们几乎不会爆炸。不幸,业务无可避免地要扩展、要增长、要规范,于是地雷一颗接一颗地爆炸,只能投入大量优秀程序员,花比开发时多好几倍的精力,去维护和重构系统,才勉强保证了业务的发展。最终,当系统重构告一段落之后回头看,其实所谓的“维护”,也无非是“降低维护成本”,一点点地去掉之前那些花哨的特性,用简单的技术构建清晰的架构,而已。

就我所见,上面这种情况并不罕见,反而非常常见,更糟糕的是,还有许多项目始终不得解脱,被高昂的维护成本死死困住;即便推倒重来,因为设计和开发仍然缺乏对“降低维护成本”的足够重视,导致悲剧重现……

说起来,这一切的根源都是因为目标不明确,没有考虑且不重视维护成本,也没有考虑设计的简洁清晰。其中的道理不算复杂,但怎么才能让大家明白?这个问题我一直在思考,所以在翻译本书时,才会反复想起托马斯•潘恩的《常识》——软件开发需要常识,软件开发的资料里需要《常识》之类的读本,不需要艰深的道理,也不需要花哨的说辞。潘恩的《常识》用短小的篇幅向广大民众澄清了“北美应该独立,且不需要国王”,我希望《简约之美》也能用短小的篇幅向广大开发人员说明“应当重视软件的维护成本,追求简单清晰的设计”。

Code Simplicity

Clean Coder的发现

今天收到了人民邮电出版社图灵出版公司的快递,是章显洲和我翻译的《程序员的职业素养》(Clean Coder)的样书,前段时间的努力终于见到了结果。说起来,我与这本书很有些机缘。

在Clean Coder之前,Uncle Bob曾写过Clean Code,这同样是一本好书,更凑巧的是,它的中文版(《代码整洁之道》)是我的挚友韩磊翻译的,此其一;2009年,在翻译完两本技术图书之后,因为感觉到翻译实在太累,我打算就此收手,最多做做译稿的审校,未料到Clean Coder审校到一半,自己竟阴差阳错地成了合译者,炒股炒成股东是悲剧,审校审成译者也算离奇,此其二;Clean Coder中的Clean,最后确定为我偏爱的“职业素养”,之前众人曾为这个词大伤脑筋,我曾提议为“拎得清的程序员”,被认为类似方言,不够普遍,最终想到的“职业素养”乃是某天妙手偶得,也非常满意,此其三。

不过,我更在乎的奇妙机缘是,因为由翻译这本书,有了意想不到的发现。

2009年,我已经翻译完《精通正则表达式》和《技术领导之路》,共计一百万字,深感翻译是苦差事,殚精竭虑,冥思苦想,所得(尤其是物质的)却往往非常有限;所以决定不再做翻译这类费力不讨好的事情,最多只帮忙做做审校。

然而“破例”翻译《程序员的职业素养》,本来以为又要暗无天日地苦干一段时间,其实不然。我最后发现,翻译并不全是苦差,而是个相当健康的爱好,而且更深刻感觉,生活应当具有健康的爱好。

所谓爱好,应当是有趣味、能引发兴趣的活动,你必然愿意为它去做一点牺牲。这样看来,“无聊”显然不算一种爱好,因为它没有趣味;无所事事打发时间,显然也不算爱好,因为这只是一种无奈的选择,打发时间并没有什么牺牲;相反,打牌、看电视却可以算一种爱好,因为喜欢打牌、看电视,你必须付出某些代价,比如工作开小差,比如偷懒不做家务。付出这些代价换来的,是兴趣或趣味的满足。

不过,打牌、看电视之类,并不能算健康的爱好。我以为,健康的爱好,不但可以提供持续的趣味,而且在追求趣味的过程中,是能够收获积累与提高的。譬如看电影,若只是一部部走马观花地看过去,多半算不上健康的爱好,但如果能花一些时间去研究和思考,电影看得越多,能看出来的门道就更多,感受也更多,这便可以算是健康的爱好了。同样的道理也适用于摄影——摄影本身可以算所以一种爱好,但不花时间去学习,“镜头后的那个头”永远不变,拍出来的永远是糖水片,其实算不得健康的爱好。

时隔三年,重操旧业来做翻译,我发现它天然就是健康的爱好:翻译本身是一种锻炼脑力的活动,并没有墨守不变的规矩,经常需要反复推敲琢磨,完成之后自然乐在其中;而且,随着翻译经验的增多,逐渐可以领略到不同语言之间的奇妙联系,会恍然大悟“噢,原来这个意思,用英语该这么表达,而汉语该那么表达”,之后阅读各种文本时又有了更深切的感受。

更重要的是,无论工作有多忙,生活有多么不顺心,晚间往电脑前一坐,气定神闲,专心致志地做上半小时到一小时,就可以忘记各种烦恼,看看自己终于又做了一点有意义的事情,心情也好了很多。这样看来,拥有了健康的爱好,就可以把生活分成几部分,从某一部分(健康的爱好)中提炼出乐观的心态,去面对不顺心的部分。如果人人都能找到或者培养出自己的健康的爱好,生活中的长吁短叹,应该是会大大减少的。

回想起来,我对翻译一直是有兴趣的,但之前为什么会把它当成苦差事,而很少体验“乐在其中”呢?我仔细思考这个问题,相比之前翻译《精通正则表达式》和《技术领导之路》时的起伏心情、痛苦煎熬,现在翻译《程序员的职业素养》时,可以更好地把握翻译的节奏,这便是最大的区别所在。

翻译《程序员的职业素养》时,我先评估了自己平均状态的翻译速度,再估算了每天大概可以抽出多少时间来翻译,与编辑确认计划之后,剩下的就是按部就班,每天“不以物喜、不以己悲”地执行计划,并为看到当天的工作结果而欣慰;最终,可以按时按质交出自己的译稿。翻译完成之后,我猛然发现,自己翻译这本书时,确定合理计划并持续执行的做法,与书里提到的职业素养,竟然有许多重合的地方,真是“万变不离其宗”,要做好做成一些事情,总有些共通的规律。

这件事也给了我足够的信心:随着岁数的增长,我们不再有年轻时天马行空的乐观想象,认为自己可以这样那样生活,可以不顾现实、不计成本地做这样那样的事情,而是变得现实起来;但是另一方面,没有期望、不值得争取的生活,其实是不值得过的。把握节奏感,就是清楚自己的节奏,可以预估出出来,按照可行的速度,到某个时候,自己大概能到达怎样的状态或程度。然后要做的,便是依靠毅力,持之以恒地坚持推进,直到达成自己设定的目标。

前几天在深圳,与一个毕业不久的小伙子谈起,没有目标的生活是不值得过的。以我的经验,如果你想象的生活里有健康的爱好,有节奏感的准确把握,无论具体形态如何,只要去做了,都可以算是幸福的生活。

享受职业素养

按:前段时间与章显洲共同参与了图灵出版公司Clean Coder中文版的翻译,这是我的译者序。

我在招聘时常问的一个问题是:在你过去的工作中,遭遇过哪些印象深刻的困难,最后是怎么解决的?依我的经验,简历写得再漂亮的人,如果这个问题答不好,大都可以直接忽略。为什么会有这种结论?因为我们需要招聘的不是“经历丰富”的人,而是“有职业素养的人”。你遇到的问题可能很容易也可能很难,但我看重的并不是问题的难度,而是解决问题的方式、步骤,以及反思的深度。拿恢复误删数据来说,这可能算非常简单的任务,我更感兴趣的是怎样分析问题,找了怎样的资料,采取了怎样的步骤,此后做了哪些措施来避免这种错误再次出现。在我看来,相比问题本身的难度,解决问题的方式和步骤,以及反思的深度,都体现出一个人的职业素养。

是的,上面我两次提到了“职业素养“。相比起“专业主义”、“职业化”等说法,我更喜欢用它来翻译Professionalism,因为素养强调的并不是天赋的神秘,也不是技艺的高深,而是持续积淀的结晶:一方面,它体现了能力和素质,另一方面,它又强调了持续的积累和养成。甚为职业开发人员,基本技能不够熟练,当然谈不上职业素养;但是能迅速地编写代码,却不关心代码背后的意义,不能迅速判断、解决程序运行中的各种问题,自信满满地为自己交付的程序承担责任,同样是与职业素养绝缘的——许多所谓的”高手“,其实正是缺乏职业素养的典型。

当然,这只是我对于“职业素养”的理解。由个体经验总结的“职业素养”,多有一鳞半爪的嫌疑,所以即便你觉得上面说的有道理,难免感觉只见树木,不见森林。其实真正的”职业素养“绝不限于上述几方面,而是要广阔得多,深刻得多。要想一窥技术人员“职业素养”的全貌,已经有很多现成的资料可以参考,Bob大叔的Clean Coder就是其中的佼佼者。

作为一本技术类书籍,Clean Coder中有相当的内容,是介绍纯技艺的方面,比如测试驱动开发等等,自认已经算“职业开发人员”的人,大概对此并不感冒(不过,我仍然建议你认真看看)。但其它的内容,绝对值得你感冒,比如:什么情况下应该对业务部门说“是”,说“是”意味着什么。如果你没有想过这些问题,或者没有明确的答案,不妨看看Bob大叔是怎么说的:

(说“是”时)你对自己将会做某件事做了清晰的事实陈述,而且还明确说明了完成期限(do with a clean end time)。那不是指别人,而是说的自己。你谈的是自己会去(will)做的一项行动(action),而且,你不是“可能(possibly)”去做,或是“可能做到(might get to it)”,而是“会(will)”做到。

就我所见,技术人员往往太容易说”是“,往往在没有明确目标和期限的情况下,就草率给出了确认的答复,而且并不将其视为自己的一种承诺。屡见不鲜的项目延期,有相当原因就是在这种不负责任的情况下说“是”所致。但是我们想想,似乎没有哪一个正经行业,会把不能完成任务的人视为“有职业素养的人”,软件行业也不能例外。

如果你觉得自己已经足够负责,懂得“是”背后所蕴含的意义和责任,也不过如此,我们不妨更进一步,看看关于说“否”。在第2章,Bob大叔介绍了两个项目搞砸的经过,他并没有像常见的所谓专家那样故作聪明地指出实施过程中出现了哪些问题,导致了失败,而是一针见血地指出:这两个项目之所以会搞砸,因为开发人员没有坚决抵制各种不专业的需求(比如一些无关紧要但成本巨大的需求),抵制各种不专业的行为(比如为了赶工期而降低对程序质量的要求),最终只好喝下自己酿出的苦酒。对此,Bob大叔总结道:

有时候,获取正确决策的唯一途径,便是勇敢无畏地说出“不”字……我们要明白,委屈专业原则以求全,并非问题的解决之道。舍弃这些原则,只会制造出更多的麻烦……

对我来说,这真是振聋发聩的号角。而且,这种思维,这种视角,其实是许多技术人员所不屑或者不愿面对的——最初我也这么认为,但尝试在工作中主动说了几次“不”之后,我逐渐发现:花三分的力气去抵制无理的需求,可以节省十分甚至二十分的开发时间;相反,自欺欺人地说服自己凑合接受了无理需求,往往会非常被动乃至无法脱身,到最后,项目就落得著名的IBM
OS/360操作系统的下场,越挣扎,巨兽就越深地陷入泥潭。

要学习这样的道理,当然也可以参加培训班,听取授课或者阅读讲义,但那未免太显正经而缺乏亲和力。Bob大叔的特别之处在于,他总是可以通过浅显易懂的故事,清晰而敏锐地揭示了问题的核心所在。其中许多故事正是他自己亲身经历的,阅读过程中常会会心一笑,因为遇到了开发人员都懂的妙趣,比如费尽全力也是徒劳,无法让其他人理解“编辑程序的程序”;笑过之后,又会认识到许多道理——无法让其他人理解“编辑程序的程序”并不是真正的原因,真正的原因是:“客户……对功能的设想,其实经不起电脑前真刀真枪的考验……问题在于,东西画在纸上与真正做出来,是不一样的。业务方看到真正的运行情况时就会意识到,自己想要的根本不是这样。一看到已经满足的需求,关于到底要什么,他们就会冒出更好的想法——通常并不是他们当时看到的样子……真正的解决办法,是约定共同认可的验收测试标准,并在开发过程中保持沟通”。至少就我的经验,这一点是说的非常之对的。我曾经尝试在与业务部门确定目标原型之后,要求对方指派一个负责人,在IT部坐班,负责协商、跟进整个开发流程,确认每一点修改,这样既保证最终结果符合业务部门的需求,又提高了开发人员的工作效率,综合来看,成效相当可观。

类似的例子还有很多,在阅读这本书时,我经常会惋惜:如果早一点读到这本书,或许我之前就不会犯这样那样的错误,就能更早更好地积累自己的职业素养,另一方面,能有妙趣横生的书讲述看似枯燥的“职业素养”,对读者来说,又是一种幸运。德国作家托玛斯·曼曾经津津乐道于“斜躺在沙发上整天阅读叔本华”的美妙感觉,那是因为叔本华的文笔优美、流畅,可以把哲学变为惬意的享受。作为同时读过叔本华和Bob大叔的人,我想说,斜躺在沙发上整天阅读Clean Coder,认识和了解开发人员的职业素养,同样是相当惬意的享受。

浅谈领导和领导力

按:公司基层主管培训,安排我做关于领导力的讲座,效果尚可。我把PPT的内容总结成一篇文章,在这里与大家共享。

如今,市面上关于“领导”和“领导力”的文章和书籍已经数不胜数,却不让人厌烦,新的资料仍然层出不穷;另一方面,对相当一部分人来说,“领导”和“领导力”又确实难以捉摸,看书似乎明白了,做起来却全然不对劲。为什么会出现这种情况呢?根据我的观察和思考,主要原因在于:领导和领导力,都是与人密切有关的学问,一旦与人有关,就不能依靠硬性规则来行事。但是,没有硬性规则,又会感觉虚无缥缈无法把握,所以下面我尝试给出自己的几条经验,供大家参考。

很多人都想知道,为什么要有领导呢?或者说,什么样的人能成为领导呢?一个人被上级任命为“领导”,他就是领导了吗?不。他如果做得好,才可以成为领导,如果做不好,就不过是“空有个领导的名头”而已。另一方面,民间的很多“领导”(领头人物)并不需要任命,也可以获得大家的认可。如果从这个角度来看,一个人会想办法,能出主意,他就是领导了吗?似乎也不见得。古代的军师和谋士最擅长此道,但他们似乎和领导不沾边;但是一个人如果没有谋划,也没有规划,当然也不算“领导”。所以,”为什么要有领导“,确实不是个简单的问题。

我们可以换个角度,看看没有领导的情况是怎样的。此时,基本只有两个元素:人和任务,任务由人完成。通常,大家独自完成任务,也可能大家互相帮助,自发协同完成任务。

但是随着任务量的增加,任务复杂程度的增长,任务已经不能由个人单独完成,也不能由多人自发完成,这时就需要出现一个人来带领、协调、组织其他人,完成更重要、更复杂的任务。这个人就是通常所说的领导。从人的方面说,他有权力(影响力)去安排更多人的行为,这就是我们常说的“任命”的必要性(民间领袖通常依靠威信);从人物的方面说,他有办法让这些人完成更多更复杂的任务,无论这种办法是他自己提出的,还是采纳别人的。

这样就产生了一个问题:领导的工作,到底是应该看重人,还是应该看重任务呢?如果看重人,就需要给予下属更多的自主权,比如容许他们自行制定规划,自行安排进度,但领导需要承担放开的后果;如果看重任务,就会要求下属在规定的时间完成规定的事情,哪怕是疯狂加班也在所不惜。两种方式,究竟哪种更好呢?

其实答案比较复杂。在一般(非外包类)的公司,除去人力资源等几个部门,对领导的考核指标,并不会由对下属员工的考核所构成,而是强调领导的业绩,也就是任务的完成数量和质量;可是,领导并不能事必躬亲,自己去完成如此多如此麻烦的任务,而必须借助下属——也就是人——来完成。换句话说,领导需要完成更多更复杂的任务,但他必须通过下属来完成,或者说“迂回”地完成任务。所谓的领导力,就是这种迂回中需要的能力。

我把自己对领导和领导力的理解画成一张草图:任务是由人(下属)来完成的,领导的行为对象是作为下属的人,但其领导行为最终指向的,却是下属需要完成的任务。图中的橙色部分是领导的主要工作内容,黄色部分是下属的主要工作内容。两者有部分重叠,表示领导的工作不能止步于下属的具体内容之外,下属的工作也不能与领导的工作脱节。

现实生活中的很多例子都可以印证这一点。读过点历史的人都知道,“文革”结束之后,改革开放之初,老百姓之间流传有“要吃粮,找紫阳;要放米,找万里”的说法,称赞他们制定的“包产到户、包干到户”的农业政策。紫阳和万里并不种粮,也不是农业专家,但他们制定了正确的政策,调动了农民种粮的积极性,扭转了人民吃不饱饭的局面。虽然最终种粮的仍然是农民,但农民的种粮活动是受到紫阳和万里的领导行为的影响。也就是说,紫阳和万里“间接地”解决了吃不饱饭的问题。具体的任务还是那些任务,解决任务的人还是那些人,但换了领导,结果大不一样,这就是领导力的展现。

最开始说领导力是与人有关的学问,原因就在这里。这个道理,温伯格在《技术领导之路》中的表述更加清楚:

所谓领导力,就是创造出一个环境,提升其他人的创造力和生产力,让每个人都能发挥出更大的能力,创造出更大的价值。

或者用我的话说,同样的人,同样的事。没有领导,这些人就做不成/做不完这些事情;非得有领导才能完成。这就是领导的价值。

既然领导力与人有关,领导就不能不了解与人有关的知识。如果我们把“人完成任务的能力”粗略地称为“人力资源”,那么,人力资源有几种特性,是其它类型的资源所不具备的,值得领导特别关注。

第一种特性是,人力资源的输出是不稳定的。计算机每秒的计算量是稳定的,驴一天拉磨的圈数是固定的,泉水一天出产的水量也是相对稳定的;但人力资源不是这样,人力资源的输出受多种因素的影响。如果员工失恋了或者家人去世了,他可能每天都来上班,但上班的效率为零。当然,这只是极端的情况,但人的情绪和状态确实会极大地影响人力资源的输出。

为了保证人力资源输出的稳定,就必须保证下属的情绪和状态的相对稳定。首先,要尽量保证工作的自发自愿性,一个人是作为积极进取的公司职员,还是作为被迫劳作的农场奴隶,其生产效率绝对是有天壤之别的。在分配工作时,应当尽量考虑下属的兴趣、意愿,最糟糕的情况,就是让下属去做他非常排斥的事情,这样几乎不可能有好的收效,第一个需要反思的就是领导自己。其次,平时注意营造积极乐观的工作氛围,打消下属在工作时的过多顾虑和担忧,并注意观察下属的情绪,如果发现波动,应当及时了解、抚慰。最后,要建立信任,尤其是对喜欢多想的下属,如果没有建立足够稳定的信任机制,任何一点小变化、小波动,都可能严重影响他的情绪;如果让下属信任你对他的一贯态度,对他的工作的一贯态度,就可以避免此类问题的发生。

第二种特性是,人力资源是具有持续成长性的。要升级计算能力,你可能需要升级计算机;要烧更多的水,你可能需要更多的电,更多的煤。但是要完成更多更复杂的任务,公司给你的资源和人力编制,并不会有同步的增长。另一方面,大多数员工也有对自身发展的期望。培养下属持续成长,就可以解决以上两个问题。

要保持人力资源的持续成长,领导必须花很多的心思。一方面,根据未来的目标,有计划地培养、储备人才,以便用有限的资源,解决更多的问题。另一方面,也需要为下属考虑学习成长之路。我们在招聘时,面试者经常会说“希望能多学东西”,但是很多人并没有培养出自动自发学习进步的习惯和能力,然而如果公司没有给他“学到东西”的感觉,他又会对工作和公司失望。所以身为领导,往往必须为下属拟定一系列的学习发展步骤,并持续实施,这样既可以不断提供给下属学习的成就感和满足感,又可以培养出符合公司业务需要的,能力更强大更全面的员工。或许也正因为如此,希拉里才说:“优秀的领导,会带领人们去到他们想去的地方;卓越的领导,会带领人们去到他们没想到但应该去的地方”。

第三种特性是,人力资源的转移很快。这里说的“转移”,是指员工的流动。员工的流动会给业务的开展造成非常严重的影响——我想,再也没有什么消息,比在准备大干一场的前夜听到业务骨干离职,令领导沮丧的吧。

员工的流动是不可避免的,但身为领导,应当将其稳定在可控的范围之内。通常,员工会留在某个公司,有两个原因:第一是觉得自己的工作有希望,第二是觉得公司有希望;而且,两种希望有相当的重合。但是有些员工的“希望”很明确,有些员工的“希望”只是“有希望的感觉”而已;另一方面,员工对于“公司的希望”,其实是没有上级领导了解的全面和细致的。所以,身为领导,应当尽量向下属阐明公司的希望所在,并且照顾到员工的希望——对“希望”很明确的员工,要努力寻找他的希望与公司的希望的重合地带;对“希望”不那么明确的员工,应当从公司的角度出发,结合其个人特点,具体化并不断强化这种“期望”,得到员工的认可。如果员工的期望与公司的期望完全绝缘,找不到太多共同点,则应当尽早选定后备力量,以防下属离职给自己的工作造成困扰。

正则学习问答

最近有幸在开源中国51CTO两家网站作为嘉宾参与了于正则表达式的专题问答。在问答过程中,我收集到学习正则表达式过程中的某些普遍问题,在这里专门花一点篇幅来回答

正则表达式是难学的,这不存在疑义。但是我认为,难点也只在语法方面。正则表达式已经有年头了,它(的语法)诞生于上世纪七十年代。那是个怎样的情景?举个简单的例子吧,Unix下的usrdev等名字,就是那时留传下来的,现在已经有很多人诟病了,usr不是user,dev不是device,难学,也难记。经过这些年的飞速发展,当年的很多问题已经被包装得美轮美奂,如今的用户可能更习惯直接点击“用户目录”、“驱动器”之类的图标,再也不用为那些不规则的简短名字发愁。但是不幸的是,一直以来正则表达式的语法却没有太多的变化,甚至后续增加的功能,也沿袭了之前的语法风格,在编程语言日渐人性化的今天,它自然显得非常难懂了。今天的开发人员可能更习惯Regex.CharRange(‘a’, ‘z’)这样的写法,而不习惯[a-z];遇到(?![a-z])这样的结构就更是抓瞎,除非转为Regex.CheckRight(Regex.CharRange(‘a’, ‘z’))的写法。

不过,换一个角度来看,两者其实是一回事,只是表现形式不同,一个类似要诀,一个类似大白话。如果我们能在头脑里构建出从要诀到大白话的转换,正则表达式就简单了许多,甚至可以说就是模块的拼接。比如支付宝的流水号为18或26位数字,用正则表达式匹配,就是^([0-9]{18}|[0-9]{26})$,或者^[0-9]{18}([0-9]{8})?$。其中的逻辑很简单:^用来锁定开头,$用来锁定结尾,[0-9]匹配数字字符,([0-9]{18}|[0-9]{26})表示两个并列的选项,即数字字符串长度为18位或26位,而[0-9]{18}([0-9]{8})?表示至少需要出现18位的数字字符串,在这之后可能还有一个8位的数字字符串(所以总长度是26位)。一般的正则表达式应用,就是这么简单。

如果你觉得上面说的没错,那么学习正则表达式的难题就只剩下了选择得当的方法。我们学习编程语言时,都强调不能只看书,要动手写程序,甚至最好的办法是把书上的例子亲自输入运行一遍,这样才算真正学会了。但在许多人眼里,正则表达式或许算不上编程语言,所以学习是点到即止,甚至是满足于从网络上抄一些现成的表达式。所以,常见的问题之一是“有没有什么学习的捷径”,很不幸,答案是没有——既然拷贝他人的代码不能学会编程,抄阅现成的表达式、随便翻几篇文档,当然也学不会正则。不过也有幸运的消息,真正学会正则表达式并不需要花太长的时间。

以我的经验,学习正则表达式,真正要做的是深入理解常用功能:字符组、多选分支、匹配模式、环视。可以说,弄明白了这几点,80%的正则问题都可以解决。但是要弄明白这几点,就需要专门的学习:字符组是解决什么问题的,它是怎么使用的?多选分支是解决什么问题的,它是怎么使用的?应当抽一些时间专门学习、思考;这些都弄明白了,再研究解决复杂问题的表达式是怎么构成的。如果你可以每天抽1-2小时专门学习,两周内就会有明显收效,一个月几乎就可以修炼到相当水平。而且,以我的经验,在学习新的编程语言时,不但要把书上的例子都亲自输入运行一遍,更要自己动手去改一改示例代码,看看会出现什么现象,再想想为什么会这样。如果你在学习正则表达式时也做到这一点,必然能够事半功倍。

如果你真正理解了这些常用功能,对它们的价值和使用有清晰的概念,那么另一个麻烦也就迎刃而解了——不同语言的正则表达式不同,如何解决?虽然不同语言中的正则表达式规定各有不同,但背后的思想是统一的,不同的只是表现形式,或者说概念的落地方式。好处在于,编程语言的文档不会详细讲解什么是字符组,什么是多选分支,但会详细告诉你字符组在本语言中是如何表示的,多选分支又是如何表示的(不信你可以在这些文档中搜索character class或者alternation)。所以如果你的脑子足够清楚,即便不确定最终的表达式如何写,也只需要查文档就可以解决。举个例子,匹配空白字符的字符组\s,在Java字符串中要写作\\s,因为\s并不是Java字符串中的一个合法转义序列,所以之前还必须有\来转义\;在PHP中可以直接写作\s,因为PHP处理字符串时会把无法识别的转义序列原封不动地保存下去;在Unix下的某些工具中,必须写作[[:space:]],这是Perl风格的\s在POSIX规范中的表示法。看起来比较麻烦,也仅此而已,因为我们知道,这里需要用到的,就是“匹配空白字符的字符组”。

以上写了这么多,可能有人会说:正则表达式这东西,不登大雅之堂,没必要花那么多精力。或许正是这种观点,形成了“不认真学习正则表达式”思想根源。幸运的是,这个问题其实很好想明白,因为很多事情都是这个道理。比如写文章,我们不要求人人都是作家,但是人人都有可能在需要的时候写出几篇拿得出手的正经文章,“不是作家”并不是“需要时写不出正经文章”的理由。为了能在需要的时候写出正经文章,就必须专门抽出时间来学习和练习写作。正则表达式的学习,其实也是这个道理。

这种说法可以说服一些人,但还有一些人是说服不了的。同时据我观察,那些不能被说服的人,似乎也没有花太多精力在其它“正事”上,反而会不时为正则表达式所困扰。与此相反的是,真正有职业素质的程序员,就像the Productive Programmer中说的那样,会愿意花2小时写出一个正则表达式,为以后节省无穷无尽的时间。当然,以上说的这一切的前提,都是能端正学习正则表达式,或者说学习有价值技能的的态度。做软件的人大都读过布鲁克斯的名文《没有银弹》,所以这里不妨借用他的话说,正则表达式的学习,也不存在银弹。

浅谈编码

《学到不会忘》中我提到,为了写《正则指引》,专门抽了些时间学习Unicode,也因此明白了很多与编码有关的问题,只是最后没有全部写进《正则指引》中,以免离题。不过,这并不妨碍专门用一篇文章来讲解编码问题。

其实所谓编码问题,不外乎若干概念,弄明白了这些概念,编码问题就可以迎刃而解了,所以这里按照概念来展开讲解。

字符和字符集

字符,就是我们日常使用的各种文字,比如中文的,英文的ABC,日文的,都是字符。手写可以用到的字符几乎是无限的,但在计算机中,必须事先约定好字符的范围,也就是穷举出所有“可以使用”的字符。这个范围,就是通常说的“字符集”(Character Set)。

ISO8859-1是开发中常见的字符集(MySQL默认就采用这种字符集),它支持的语言有英语、德语、法语等,也即包含了英语、德语、法语中的字符。GBK是另一种常见的字符集,它源自GB2312字符集,GB表示“国标”,GB2312即是国家标准,它的另一个名字是CP936(Code Page 936),以前在Linux下播放MP3,如果发现ID3标签乱码,设定为CP936就可以解决。因为制定较早,GB2312只包含6763个汉字,并不足够覆盖日常的使用,所以诞生了GBK,其中的K表示“扩展”。有意思的是,GBK是微软制定的字符集,而不是“国标”,只是曾由国家技术监督局标准化司、电子工业部科技与质量监督司公布为“技术规范指导性文件”。除此以外,港台地区以前使用Big5字符集,曾经在Dos下玩过港台游戏的朋友应该还记得“大五码”这个名字。

与字符相关的另一个概念是字形(glyph),它是字符显示出来的样子,同一个字符可以有好几种写法,每种写法其实对应一种字形。下面举例列出了“高”字的几种字形(资料来自Wiki)。

编码与码值

在计算机内部,所有的数据都是编码保存的,字符也不例外。因此,每一种字符集不但约定了可以使用的文字的范围,而且为每一个字符确定了唯一的代码,称为码值(Code Point,也叫“代码点”)。

在ISO8859-1字符集中,A的码值是41(十六进制),=的码值是3d(十六进制);在GBK字符集中,的码值是b7 a1(十六进制),的码制是b7 a2(十六进制)。因为单个字节只能表示最多256个字符,而中文字符超过256个,所以GBK编码选用2个字节表示单个字符,相应的,其码值也是4位十六进制数值。

我们说的“GBK编码”、“ISO8859-1编码”,其实既指其对应的字符集,又指其对应的码值规定。通常,两者是一体的,但是在Unicode编码中的情况,却不是这样。

Unicode

随着计算机和互联网的发展,各自为战的字符集很快就遇到了问题:如果我需要在一篇文章中同时使用中文和日文字符,该怎么办呢?设定为日文编码(常用的为Shift-JIS、EUC-JP)则不能涵盖中文字符,设定为中文编码则必须放弃日文字符,所以需要一种统一的、可以覆盖各种语言的字符集,于是Unicode字符集应运而生了。

Unicode的最初想法是用2个字节(16位,65536个码值)来表示世界上所有的语言,所以它的字符集称为UCS-2(2 byte Universal Character Set)。用2个字节表示一个字符,就会带来字节序问题:在传输和存储时,到底是先传输高位字节(big endian),还是低位字节(little endian)呢?这个问题Unicode也没有确切的答案,所以设定了BOM(byte order mark,字节序标识)来解决。BOM对应的码值是fe ff,无论fe ff,还是ff fe,在Unicode中都没有实际的意义,所以不会造成干扰。在读取使用了BOM的文件时,先读取头两个字节,如果是ff fe,就是little endian,如果是fe ff,就是big endian;如果文件的开头两个字节既不是fe ff,也不是ff fe,默认采用big endian。如果你用Windows的记事本创建Unicode编码的文件,文件头就会包含little endian的BOM,其它一些文本编辑工具则不会。如果用程序解析包含BOM的XML文件,可能遇到非法字符的错误,必须先截去开头的BOM信息。

最早制定Unicode规范时,大家乐观认为觉得65536个字符就可以覆盖地球上所有语言中的字符了,这种今天看来草率的乐观,导致了不少后果。

第一,因为东亚文字(主要是中、日、韩三种语言的文字)字符非常多,为了节省码值,就将三种语言中字形类似的字符映射到同一码值,这种做法称为UniHan(统一汉字,在Unicode规范中,也称为“东亚文字(East Asian)”),比如中文(包括大陆、香港、台湾)和韩文及日文的“骨”、“直”等字,虽然写出来的字形(glyph)有微小差别,但码值是相同的。这样的好处是节省了码值,而且某些跨语言搜索可以直接进行,比如搜索日文关于“直角”的资料,直接输入“直角”即可。这样的坏处是,不能依靠码值判断到底属于中日韩语言中的哪一种(三种语言中的常用字符大都属于CJK_Unified_Ideography这个书写系统),而且,对于码值相同但字形不同的字符,到底选择哪个字形来显示,还应当参考locale设定(使用过Linux的人大都会记得zh-CN.UTF-8这样的locale设定,它可以影响到”直“、”骨“之类的字形选择)。

网络上有不少资料说,匹配中文字符的正则表达式是[\x4e00-\x9fa5],也有资料说是[\x4e00-\x9fff]。从原理上看,它们都是用字符组表示某个范围,起始码值都是4e 00,结束码值却有不同,这是为什么呢?仔细阅读UniHan规范可知,其实它们的原理都是使用CJK_Unified_Ideography书写系统(Script,这是一种Unicode属性,下面会详细讲到)中的文字,在1992年提交给IRG(International Rapporteur Group)的字符只排到9f a5。在这之后,制定更新版本的Unicode规范时都进行了扩展,新增了字符。不过从根本上说,4e00-9fff是预留给东亚文字的码值范围,所以使用[\x4e00-\x9fff]是更好的选择。具体信息可以参考 UniHan规范

如果要“完整地”匹配所有的中文(东亚文字),还必须考虑Unicode各版本中增补的CJK统一表意字符,从CJK Unified Ideographs Extension ACJK Unified Ideographs Extension B一直到最新的CJK Unified Ideographs Extension E,具体细节可以参考Wiki上的说明

第二,用2个字节表示单个字符并不合适。对ASCII字符来说,用单个字节就可以表示,2个字节造成了大量的浪费;另一方面,65536个字符并不够表示世界上的所有字符,所以Unicode规范进行了扩编,截止本文写作时止,最新的Unicode 6.1.0规范包含110116个字符,所需的字节当然超过2个(16位)。针对这种问题,Unicode字符提供了不同的字符编码方式(Character Encoding Scheme),可以这么理解:字符的码值是一回事,在存储和传输时,具体落实为几个字节,如何表示,又是另一回事,码值的具体表示形式,就由字符编码方式来规定。常见的Unicode字符编码方式有:UTF-8,UTF-16等,其中的UTF是UCS Transformation Format的缩写,明确表示它是一种传输格式,所以我们可以说“Unicode字符集”,也可以说“Unicode编码”,还可以说“UTF-8编码”、“UTF-16编码”,但不能说“UTF-8字符集”、“UTF-16字符集”。

UTF-8是一种变长编码,第一个字节的最高位如果是0,则表示这个字符用单个字节表示,否则,从这一位开始向后数,有多少个连续的1,这个字符就用多少个字节表示。于是,英文字符只需要1个字节就可以表示,而中文字符一般需要3个字节来表示。比如字,其码值为53 d1,但UTF-8文字编码方式下表示为e5 8f 91

如果我们拿到一段文本,不知道它到底是GBK编码还是UTF-8编码,就可以依据UTF-8编码的这个特征进行判断。不过我之前试验过一个取巧(但不那么保险)的办法:因为中文里的“的”字出现非常频繁,而当时要判断的文本一般都不短,所以直接查找文本中是否出现了GBK的“的”字或UTF-8的“的”字,也可以判断出来。

UTF-16则是一种定长编码,每个字符都采用2个字节,16位来表示。的UTF-16编码方式下表示为53 d1。相比UTF-8,它的字符长度固定,本来是一种好处。但是因为Unicode字符集已经超过了65536个字符,所以UTF-16已经没有什么优势了,对超过16位的Unicode字符,UTF-16必须补充另外两个字节来表示,多出来的这两个字节称为代理对(Surrogate Pair)。

Java在诞生时就有”先见之明“地选择了UTF-16作为内部文字编码方式,每个字符在JVM内部都使用16位来表示,所以Java中的char是long类型,也就是16位整数。但是随着Unicode字符集中的字符超过65536个,Java原来的字符串处理API就无能为力了。为弥补这个问题,Java 5.0另外提供了CodePoint相应的方法,比如计算CodePoint个数的codePointCount(),取代之前的length(),以及获取某个CodePoint的codePointAt()方法,取代之前的charAt()方法。另外,在进行跨语言通讯(比如调用Web Service)时,往往必须显式指定输入输出的文字编码方式为UTF-16,否则有可能遭遇乱码。

既然Unicode包含了几乎所有的字符,这些字符的分类管理当然也更复杂。比如,针对某个字符,必须能知道它属于哪种语言;再比如,还需要知道某个字符到底是空白字符,还是标点字符,还是文字字符——ASCII编码中的字符可以分为控制字符、字母字符、标点字符等等,各个分类所包含字符的码值是位于连续区间的,所以直接指定码值范围即可(参加下面的ASCII码表),但是在Unicode中,不同语言的标点字符,其码值必然不是连续的,必须要有办法表示这些分类。要满足这些需求,就必须依靠Unicode属性。

Unicode属性

Unicode不但包含了更多的字符,多种编码方式,还提供了非常有用的功能,即Unicode字符集中的每个字符,都具有好几种属性,它们从不同的方面描述这个字符的某个特征。最常见的属性有:Unicode Property、Unicode Block、Unicode Script,以下分别简要介绍。

Unicode Property的记法类似\p{L}\p{P},按照字符的功能分类Unicode字符,而每个Unicode字符只能属于一个Unicode Property。 不妨这么理解Unicode Property:它并不按照字符所属的语言来划分Unicode字符,而是按照字符的功能来划分,比如\p{Z}表示任意的空白字符或不可见的分隔符;\p{P}表示任何标点字符,等等。遇到中英文混排、全角半角同时出现的情况,我们就可以用\p{Z}匹配所有的空白字符(不关心到底是全角空格还是半角空格),用\p{P}匹配所有的标点字符(而不用关心逗号到底是中文逗号还是英文逗号),不用费心细节。

Unicode Block则不同于Unicode Property,它按照编码区间划分Unicode字符,每个Unicode Block中的字符编码都是落在同一个连续区间的。因为Unicode编码表中,某种语言的字符通常是落在同一区间的,所以它也可以粗略表示某类语言的字符,比如\p{InHebrew}表示希伯莱语字符,\p{InCJK_Unified_Ideographs}表示兼容CJK(中文、日文、韩文)统一表意字符。如果你细心观察,会发现Unicod Block的名字虽然类似某种语言的名字,但都有“In”(Java风格)或者“Is”(.NET风格)前缀,这表明它其实对应的还是“落在某个区间的Unicode字符”。

Unicode Script按照字符所属的书写系统来划分Unicode字符,比如\p{Greek}表示希腊语字符,\p{Han}表示汉语(中文字符)。它的写法类似Unicode Block,只是名字的开头没有“Is”或者“In”。

以上三种属性互相独立,之间没有层叠关系,可以用下面这幅图简要说明。

在处理字符串时,如果可以用到这几种属性,就会非常方便。如今流行的语言中,大都可以通过内建的正则表达式来获得这几种属性,并进行相应的处理。但是,语言对Unicode属性的支持并没有硬性的标准,所以造成不同语言的支持程度各有不同。一般地说,支持Unicode Property的语言有.NET、Java、PHP、Ruby(限1.9以上版本);支持Unicode Block的语言有.NET、Java;支持Unicode Script的语言有PHP和Ruby(限1.9以上版本)。具体的使用方法,可以参考Regex Tutorial的专题页面,也可以阅读《正则指引》第7章。

说说我理解的职业开发人员

应人民邮电出版社图灵公司的邀请,我有幸参与了Bob大叔所著Clean Coder(不是Clean Code)的翻译。

与前作Clean Code不同,这本书着重讲述的是开发人员的“职业素养”,也即职业开发人员应当如何做事。在阅读中,我时常会忍俊不禁,也会拍案叫绝,感叹Bob大叔把深刻的道理讲得这样通透。我虽然没有Bob大叔那样好的文笔,不过对“开发人员的职业素养”这个话题,也有很多话想说,索性分几个方面写下来。

学习

开发人员在工作之前,一般都已经经过大学阶段的专业学习。众所周知,大学的很多课程已经相当落后,教材也非常保守,所以我见过的好开发人员,不少都是自学成才。但是,这些问题并不能否认通过专业课程学习知识的意义,职业开发人员理解的“学习”,应当明确地区分知识、课程、教材:知识是重要的、稳定的,课程和教材是不那么重要的、变化的。

可以非常肯定地说,数据结构、编译原理、操作系统这类知识,是整个计算机世界的基石,是任何时候也不会过时的。即便毕业后不从事专门的科研,这类知识也会从你接触到的各种现象中体现出来。我在大学时基本抛弃了学校指定的课程和教材,但自己反复啃过影印版的《现代操作系统》,反复做过北大屈婉玲老师的三本《离散数学习题集》,后来在工作中受益匪浅——调优程序的性能,很可能需要理解调度、死锁、用户空间与系统空间等知识;重构复杂的布尔逻辑,很可能要依赖数理逻辑中的定律。如果当时没有反复的研习,没有深入理解这背后的原理,并且没有领悟到这些原理和各种现象之间的联系,遇到很多问题我很可能就会两眼抓瞎,充其量凭经验试错,无论如何,其效率远不及知识体系指导下的实践。

据我观察,大学生之所以对课程不感冒,除去学校和教师的原因,另一个因素是,几乎很少有教材能把看起来乏味的原理,和生活中遇到的问题讲清楚。学习图算法时,你是否想过“人、狼、羊、草过河”的问题可以直接由它来解决?学习内存管理时,你是否想过为什么Windows 95、Windows 98都那么容易蓝屏,到了Windows XP才有了长足的进步?我相信,如果能把原理与这类例子对应起来,你的理解就会深刻许多,印象也会深刻许多。不幸的是,这类“打通/联系”的工作,在国内教材基本是一片空白,国外教材也只有部分涉及。其结果就是,不少“有经验”的开发人员面对“32位机为什么只能支持4G内存”、“进程间通讯有哪几种方式,各有什么优劣”、“浮点数是怎么表示的,为什么是不准的”之类基本问题一脸茫然,不要小看了这些问题,不懂它们,你开发出来的程序只能凑合用,因为根子上就欠考虑,所以后期遇到问题要重构和调优,就会难比登天,最终搞到自己疲惫不堪。

对此,我的建议是:如果你现在还在学校,不妨仔细想清楚知识、课程、教材之间的关系,确定重要的知识,选择好的教材,自己安排自己的课程。如果你已经离开学校,而且感觉自己的基础并不牢靠,不妨从手头的工作开始,想想它用到了哪些原理,对应哪些知识,逐步、有针对性地补习。这其实并不难——我的朋友张东亮(@zhasm),之前几乎没有任何计算机基础知识,只是因为对正则表达式的爱好,找到了一份开发人员的工作,一年之后,他已经开始啃编译原理的书籍,而且确实学进去了。

以上说的主要是“专门”的学习,如果是工作之后的学习,会有很大的不同。

首先,工作之后的学习更多依靠自觉,没有几家公司会付出代价让员工像学生那样“学习”,所以更多时候,你只能花自己的时间、自己的金钱来学习。很多人一想到要花自己的时间,自己的金钱,心里就打了退堂鼓。要明确的是,公司没有老师那样强烈的责任培养员工“成长”,如果你找不到好的、薪水高的工作,很难责怪上一家公司没提供好的培训。所以,担心金钱和时间而放弃学习,最终的结果是自己的停滞,逐渐丧失竞争优势。相反,投入时间和金钱来学习,不但可以保持甚至扩大你的竞争优势,如果这种行为可以坚持、内化到生活中,也有助于保持健康、饱满的精神状态。

其次,工作以后的学习,需要努力摆脱工作环境的限制。我见过不少开发人员,因为工作限定在某个平台,某种语言,业余时间的学习便全部投入到这种平台、这种语言上,而没有思考自己是否合适做这些平台和语言,这些平台和语言是否处于没落期。在学校里,考分或许往往是唯一的度量,但在工作中,行将没落的语言和平台,你运用得再熟练,也于事无补。况且,过于专精于一门语言、一个平台,反而会限制你的思维和视野,影响迅速学习陌生知识的能力——要在短时间内熟悉陌生平台和语言的例子,在我们工作中并不少见,在整个IT业界中更是家常便饭。为了让它真的成为“便饭”,平时还是应当有意识地摆脱工作环境的限制,挑战自己的思维惯性。

责任

我曾经见过很多的简历,在“工作经历”里,项目描述写得天花乱坠,如何先进,如何复杂,采用了多少新技术,但是具体到个人责任,或者语焉不详,或者极其潦草。这样简历,体现的是责任感的缺失——对于自身责任没有明确的认知,也就没有足够的担当;这样的人,通常不用面试,就可以知道并不是合格的“职业开发人员”。

另一方面,我在面试时,经常会问两个问题,其中很重要的一个是:在你的工作经历中,收获最大或者印象最深的事件是什么。一般来说,如果能回答得有条理、有依据,大多可以判定为合格的职业开发人员。因为,有责任感的开发人员,大多不会把程序看成身外之物,更多地会把程序与自己的道德、声誉等等联系起来,甚至把程序看成自己的孩子;所以,必然会投入时间精力去总结、反思、完善、改进,就像照顾自己的孩子那样。其实,就我的经验看,真正的职业开发人员,不但能很好地回答这个问题,而且说起自己做过的事情,多有种充沛的自信感:XX项目是我做的,其特点是什么,我是如何如何做的,遇到什么问题,是如何解决的……涉及的技术不必很先进,开发的系统也不必很复杂,只要能够这么自信满满地一条条历数下来,你的职业素养就是无可厚非的。

业务

软件开发中,需求变化是无可避免的。虽然敏捷开发、极限编程宣称要“拥抱变化”,但真正做到拥抱变化,却是难上加难。原因在于:一方面,不少开发人员对变化本身就持怀疑甚至抵触态度;另一方面,许多需求完全是无规则、无理由地变化,不但造成极大的浪费,也严重影响开发人员的情绪。

这个问题非常普遍,也很严重。我思考了很久,发现比较合适的解决办法是进行角色的互换,尤其是开发方(包括开发人员),不能局限于“按照规程实现功能”的角色,而应当深入思考和理解业务。

不少开发人员最“理想”的工作环境就是:根本不关心自己的工作成果给谁用,怎么用,会产生什么结果,他们更喜欢这样的描述:什么类型的数据从哪里来,怎样处理之后,最后交给哪里。在架构清晰、流程完备的大公司里,或许你只需要安心填格子即可,但是拥有这样工作环境的开发人员,占总数的多少呢?更多的人面对的还是变化不定的需求,甚至连业务部门自己都不清楚自己要的是什么,这种情况下,只关心“数据从哪里来,怎样处理,交给哪里”之类的问题,无异于盲人骑瞎马,无异于挖坑埋葬自己。

相反,如果你清楚某个实现方案的缘由,知道它是基于何种应用场景,如何设计出来的,就可以在相当程度上把握它的价值和所需的工作量。如果更主动一些,可以和业务部门谈,这么做,将来会遇到什么问题,如果将来要改,哪些环节是可以改的,哪些环节是不能改的——如果你设身处地地为对方考虑,给出的建议一定比技术味道浓厚的“做不出来”更有说服力。如果做不到这么主动,你也可以预估,哪些业务是稳定不变的,哪些业务是一定会遇到问题需要改变的,然后可以合理分配工作量:对那些明显没什么前途的项目,可以适当保留资源,以免将来竹篮打水;对那些目前业务部门认为不重要,其实又相当有价值的项目,可以适当多投入精力,以免将来措手不及——要知道,业务部门提的“紧急”需求,多半不会考虑开发的工作量。

需要补充的是,做到上面这点,其实有相当的难度:一方面,你的技术功底必须足够扎实,在满足需求时,不仅仅是“模仿”现实,而应当知道这种现实,在数字世界里应当如何表达,如何重构,受到哪些条件和规则的限制(比如同一个抽象操作的不同实现,到底是选择Switch语句还是多态,其实是有章可循的,必须根据实际情况选择);另一方面,又要能跳开技术的局限,从更全面的视角理解、把握业务。不过,这是非常值得花功夫的——从某种意义上可以说,当前热门的“领域驱动开发(Domain Driven Development)”,说的大抵就是这回事。

时间

在软件开发中,时间绝对是一个非常重要的因素。在这方面,已经有无数的巨著,无数的案例,无数的先烈,但是时间,仍然是一个值得讨论的话题。

总的来说,人月是一个神话,我们不可能绝对精确地把握开发时间,但是这并不意味着,我们不能从某种程度上把握时间。我个人的经验是,计划是在现实参照下的不断调整和修正中逐渐准确的。最重要的,并不是确定远大的目标,然后限定多长时间必须完成;而是可以把大的项目拆分为不同的模块,把整个开发流程划分为不同的阶段。如果你的模块划分得足够细致,就可以以每个模块的工作量,相对准确地得知整个项目的耗时;如果你的流程划分得足够合理,就可以在各个阶段拿出看得见、用得着的结果,供业务方使用。这样,一方面避免了“到最后一起推出,却发现与业务方想象大相径庭”的尴尬;另一方面,在开发过程中,每个阶段结束,就可以提供一个阶段的生产力,作为开发方,在面对质疑时,有足够的资本和底气。

从个人方面,我注意到,职业开发人员还有另一个特点:就是可以相当精确地估计某个“小活”的工作量。以我自己和我的一些朋友为例,面对一些细致而且明确的需求,我们经常可以精确估计到工作量,时间精确到以半小时计。在紧密协作的“背靠背”编程中,我会说:现在是几点,所以我会在几点之前,给你提供怎样的功能,其行为是怎样的,接口是怎样的(行为和接口可以事先约定)。这样的自信,既要求对所需技术、会遇到难题的把握,也要求在头脑里对任务有完整清晰的模型。虽然难度不小,但能做到这一点,确实是职业素养的典型体现。