最近的面试中我发现一个很有意思的现象。问“还记得数据库范式吗?”,大多数工作了几年的开发人员都答不上来,但是其中大多数人会补充说“虽然我不记得范式了,但我可以保证自己设计的数据库肯定都是符合范式的”。
身为技术人员,大家都知道逻辑的重要性,那么逻辑的结论就是:范式这东西完全不重要,不记得了也不妨碍使用,而且不会出错。这种结论似乎有点不合逻辑,所以有必要专门谈谈范式。
很多人都知道有“数据库”这种东西,但“数据库”对他们来说只是“存放数据的仓库”而已,这是大错特错的。我们常说的“数据库”,其实是“关系型数据库”的简称,常说的DBMS(数据库管理系统)其实是RDBMS(关系型数据管理系统)。其中的“关系”来自关系模型,这是Edgar F. Codd教授在1969年提出的,使用遵循一阶逻辑的语言和结构来管理数据的模型。在这种模型下,所有的数据首先表现为n元组(tuple,和Python中的tuple不完全一样),n元组组合起来成为关系(relation)。按照关系模型构建起来的数据库,就叫“关系型数据库”。
如果上面的解释有些抽象,下面给出了5个n元组的例子:
虽然看起来很直白,我们还是应该从关系模型来讨论。前3个是4元组,后2个是5元组。在n元组内,每个元素都可以称为“属性”,同类的n元组集合起来,称为“关系”。
如果上面的讨论让你觉得抽象,把这些概念换成具体的实现就容易理解了。“属性”对应“列”,“关系”对应“表”,这就是我们日常要应对的数据库的样子了。但是请记得,列和表只是具体的落地方式,讨论关系模型时我们应该谈的概念是“属性”和“关系”。
基于关系模型,Codd教授提出了“规范化”的概念,也就是在不丢失数据的前提下,把表拆分为更小、冗余度更少的表,同时可以通过不同表之间的外键引用“组装”出原有表的信息。我们说的“范式”就是“规范化的要求”,其中第1范式由Codd教授在1970年提出,第2、第3范式由Codd教授在1971年提出。范式之间是递进的,也就是说,满足第2范式的前提是满足第1范式,满足第3范式的前提是满足第2范式。通常,如果一张表满足了第3范式,就认为这张表是“规范化”的,在增删改查操作时不会出现异常。
下面详细看看这3个范式。
换句话说,表中间的任何列都应当是承载信息的最小单位,不容许有更小的单位。一个人有身高、体重、性别等等,那么身高、体重、性别都应该对应专门的列,而不能取个名为“基本信息”的列,把这些信息统统塞进去。
实际开发中,把身高体重性别等信息都挤在同一列里的情况当然很少出现,但很多人喜欢把数目不定的属性(尤其是标签)用逗号连起来塞到同一列里。这多半是因为分不清楚数据存储模型和表现形式,看到显示的时候可以用逗号连起来,就想到在数据库里也可以用逗号连起来。谁如果做过这样的事情,还大言不惭地说“我设计的表都符合范式”,真应该拉出去打屁股。
上面的表不符合第一范式,因为“爱好”这个属性可以拆分。
有人可能会不服气“这样有什么坏处呢,这样存储也没有问题,我用like来检索就好了呀”。没错,高射炮也可以打蚊子,菜刀也可以用来割草,只是会损失原有的设计功效。数据库也一样,如果列可以拆分为多列,那么SQL语句中的很多功能就不能用了——比如大小于判断、索引等等——因为这些功能设计时考虑的最小单位就是“属性”,而不是“属性中的属性”。如果你愿意打破第一范式,就必须舍弃SQL本身的若干功能。
要把不符合第1范式的表“改造”为符合第一范式,有很多办法。比如把“爱好”单独拿出来创建一张表。当然,这样在查询“有某个爱好的人”时,操作逻辑就没有那么直观了,而且这样的表看起来“增长很快”。
主键是这样的属性:对某个关系中所有n元组来说,主键必须是没有重复的,所以依靠它可以唯一定位某个n元组。主键可以是一个属性,也可以是多个属性。如果用列和表的说法,就是“唯一定位表中某行所要用到的列”。
假设有一个电商卖家对接到电商平台,用表来存储订单信息,如果所有订单都来自同一个平台,可以用“平台订单号”作为主键;如果来自不同平台,各平台的订单号可能会重复,所以可以用“平台+订单号”作为主键……以此类推。
第2范式的要求是:在满足第1范式的基础上,所有非主属性(主键之外的属性)必须完全依赖主键,而不能只依赖主键的某个子集。
上面的表不符合第二范式,主键是“平台+订单号”,这样才能区分金额,但是“对接人邮箱”只与“平台”有关,而“平台”是“平台+订单号”的子集。
我们经常看到数据库的表会有一个毫无业务意义的自增字段作为主键,这样就保证了第二范式,因为主键只有一个属性,不存在真子集。同时,应当把非主属性和原来它依赖的“主键的子集”单独拿出来建表,比如建立一张“平台+对接人邮箱”的表格。
要满足第2范式,首先必须满足第1范式。同样的道理,要满足第3范式,首先也必须满足第2范式,并符合以下要求:所有非主属性对主键的依赖应当是直接的,不容许是间接的。也就是说,所有非主属性不容许依赖主键之外的属性。
上面的表不符合第三范式。主键是“平台+冠军种类”,但属性“品牌联系人邮箱”依赖于主键之外的属性“品牌”,虽然“品牌”依赖于表的主键,但“品牌联系人邮箱”对主键依赖是传递的。
要让表符合第3范式,可以解除传递依赖,把对应的属性拆分出来单独创建表,比如把“品牌”和“品牌联系人邮箱”单独创建表。
以上就是第1、第2、第3范式的简单讲解,如果我们仔细观察就会发现,这些范式背后都体现出“出现重复数据”的目的,一旦出现了重复数据,就要想办法把这些数据单独抽离出来单独建表,再通过外键这种“指针”来构建关系。这样做的好处不只是节省磁盘空间,还保证了数据一致性:数据库系统能够保证ACID四个特性,但如果表中存在冗余数据,同一份数据存在多个副本,是很难从逻辑上保证一致性的。如果让应用程序来保证一致性,哎还是算了吧,很多程序员早就被数据库给惯坏了,脑子里根本就没有“一致性”和“临界区”的弦。
但是“规范化”并不是万灵药,去除数据冗余性的反面就是,某些看来简单的操作,经常需要涉及多张表,这无疑会影响效率。如果遇到这种情况,就要适当进行“去规范化”的操作,增加数据冗余性,以提高操作的速度。
比如常见的“订单查询”页面,可能要同时展现订单基本信息、客户购买记录、客户收货地址、最新物流信息等信息,如果严格按照规范化建表,那么涉及的表可能很多,这个操作可能耗时很长,如果这是一个每天要执行很多次的操作,很可能就会成为系统的瓶颈。如果适当增加冗余性,把常用的数据集中存放到少数表里,每次简单查询就可以获得,就可以解决这种问题。
以上说的“去规范化”,是建立在对“规范化”和应用场景的熟悉理解,对数据模型的深入思考的基础之上做出的权衡,绝对不是不懂规范化也可以随意胡来的。但凡复杂一点的系统,都值得花足够的时间来思考基础的数据模型和它们之间的关系,这些东西不但会影响程序的运行,还会影响所有开发人员的认知。因为网页上的很多数据看起来是表格形式,就直接就照看得见的样子去建数据库的表,导致应用系统内部一塌糊涂,开发的时候举步维艰,这样的例子已经见得太多了。
顺道还可以谈谈OLTP和OLAP,在业界经常可以看到OLTP和OLAP两种应用分类,也对应着完全不同的数据库建表取向。OLTP是On-Line Transaction Processing,PLAP是On-Line Analysis Processing。前者侧重在“交易”,强调速度,只处理少量数据,所以通常会对规范化有比较高的要求;后者侧重在“分析”,不强调速度,经常要面对海量数据,所以对规范化不会有那么高的要求。这些概念看起来简单,不幸的是在实际开发中,把OLTP和OLAP搞混的还是大有人在,这多半只能说明“缺乏常识”了。
最后谈谈NoSQL。
问很多开发人员“什么是NoSQL”,很多人回答“就是MongoDB、Redis、Memcache”,再问“为什么要有NoSQL”,就答不上来了,这多少有点让人惋惜。
之前讲过,现在的DBMS其实都是RDBMS,R表示“关系”。“关系”这种概念,是非常适用于银行记账等等场合的,但是未必适合各种场合。比如之前谈到的一个人可能有很多种爱好,这是很自然的认知,程序处理起来也很容易,但为了符合第1范式,就必须新建单独的“爱好”表,如果存在“爱好里面还有细分爱好”的嵌套关系,关系模型处理起来就更加麻烦了。说到底,这根本不是一种“关系型”的模型(我甚至觉得,大段的文章本来都是“不应当”存放在数据库里的)。
而且随着IT技术的飞速发展,各种系统要面对的数据量都在飞速增长。之前成熟的RDBMS面对的问题规模都比较小,几十几百万,甚至上千万的数据处理能力,对日常记账或者图书管理、仓库管理来说已经非常足够了,但面对互联网上动辄几亿几十亿的数据量(微博、图片等等)就为难了,加上还必须保证以前关系数据模型的各种特性,已经不堪重负了。
从这两个方面来看,NoSQL的出现也就不足为奇了。它可能只有非常简单的数据类型和特性支持,但换来了对海量数据的支持(有人说某些NoSQL也支持“事务”,但这个“事务”和关系数据库的“事务”不是一回事);它可能没有那么严格规范美观,但支持现实中的各种需求,比如各种复杂的数据类型(文档、键值型、列表、集合等等),为开发提供了巨大的便利。
NoSQL带来了灵活性,也带来了混乱。因为关系型数据库背后是有一整套理论模型存在的,脱离了这套模型,“外面的世界”到底什么样,应当用怎样的模型来解决问题,某种模型适用于哪些问题哪些领域,目前还没有定论,所以MongoDB和Redis之间的差别,远远超过MSSQL和MySQL之间的差别。毕竟,破总比立要容易。
归根到底,到底是选择RDBMS还是NoSQL,如何选择NoSQL,还是取决于开发人员对领域问题的认识,以及对各种工具的理解——如果坦然抱着“我不懂范式但这不妨碍我建表”的超然态度,多半是解决不了这个问题的。
最后推荐《数据库:原理、性能与编程》,高等教育出版社2001年出的影印版。我很庆幸自己在大学里遇到了这本教材,从关系代数开始,把关系模型和数据库讲得深入浅出。观念对了,后续的开发就会受益无穷。点击“阅读原文”可以到达亚马逊购买链接。
From Life Sailor, post 浅谈范式
一 很多人关心,我们父子给M写了道歉信之后,对方是否有回应。 答案是:到目前为止,还没有任何回应。不过比较特殊的是,写完信之后德国小学就开始放秋假,学生不用去学校,既然见不到,也就不可能收到任何回应。 老实说,我觉得对方父母是有点反应过度的。这些年我的一条深刻经验是,如果出现分歧、矛盾,越早、在越低的层面直接面对,就越容易解决。许多小的矛盾之所以越闹越大甚至无法收场,往往都是经过了很多演绎、传话,而没有在一开始就开诚布公地面对。 试想,如果自己的孩子收到写着“我要杀了你”的信件,哪怕一开始很惊慌甚至愤怒,但仔细想一想,毕竟还有很多信息是未知的——比如对方是谁,平时言行如何,为何要写这样的信…… 更好的办法或许是先去直接寻求这些问题的答案,而不是直接把信交给家长委员会,走“公事公办”的路子。 我当然承认,“公事公办”无可厚非,对方家长也有这样的权利——所谓权利,就是“有资格做对方不喜欢的事情,人家还拿你没办法”。既然有这样的权利,就需要尊重。 所以,“严于律己,宽于待人”的确是与人相处的重要法则:我不会选择这么做,但我能理解和尊重你这么做的权利。 也有人问,那将来你遇到M的父母,会不会紧张? 答案是:不会。 (more…)
一 收到S老师邮件的时候,我刚刚胆战心惊地做完第一次德语技术分享,还在享受着同事们的鼓励。猛然间就收到一封邮件:“您的孩子在学校参与了一起性质严重的事件,您必须来学校面谈,请从以下时间段中选择……” 什么?“性质严重的事件”?我揉了揉眼睛,确认自己没有看错。再把这段文字贴到谷歌翻译里,确认自己没有理解错。 我没有看错,也没有理解错,就是“性质严重的事件”。好吧,既然“性质严重”,那谈话肯定是越早越好,最早的日期是第三天。我紧赶慢赶,回信确认了最早可能的谈话时间,虽然德国人通常都不期待能这么快收到回复。 去接他回来的路上,我发现他一切正常,完全看不出任何异样。于是,我也没有表现出任何异样,只是依照惯例,问他当天发生了什么,在学校开心不开心。 得到肯定的答复之后,我心生疑惑,看起来和“性质严重”完全不搭边。那会是什么事情呢? 我又问他,有没有和同学吵架、打架,是不是被人欺负了不敢说。但是,答案全都是“没有”。 我满心怀疑,又按捺不住,直接问:“既然一切都挺好,为什么S老师给我发信,说让我来学校跟她谈话呢?”我担心“性质严重”会吓到他,故意隐去了这个词。 他的满面春风在那瞬间凝固了,喃喃低语道:“好吧,原来是那件事,我还以为她不会跟你说。” (more…)
在2024年之前,我从来没想过自己有一天还可以加入乐团,甚至参加音乐会演奏。我只是个普通中年人,在之前文章里说过,上世纪八十年代随大流弹了十年手风琴,考过六级(当时最高八级)之后就彻底放弃了。直到二十多年后,在上海工作时才重新开始弹琴,当时有幸跟夏老师学了两年,打开了感官,懂得了音乐的世界远远比考级要广阔和美妙。再往后,就是自己看Youtube学习了一些乐理知识。因为德国几乎每个城市都有很多音乐学校,2023年末,我给本市的音乐学校写信,询问是否可以参加手风琴课程。通过回信我才知道,原来不只是“每个城市都有很多音乐学校”,而且“每个城市都有很多乐团”,哪怕是手风琴乐团。就这样,阴差阳错的,2024年初,经过简单的试奏,我加入了本市的手风琴乐团。虽然我是乐团新人,仍然有很多要学习的,但是一年下来,确实有不少感受。如果读者朋友也对音乐感兴趣,或者想让孩子学习音乐,也许我的感受可以提供一些参考。 (more…)
中秋节,照例是本地的华人家庭聚会,大人在一起闲聊,小朋友在一起玩耍。 我注意到,某个孩子似乎最近有些变化,嘴里说着不干不净的词汇,脸上还挂着特别的笑意。这个孩子以前不是这样,起码在我记忆里,几个月前他还不是这样。现在,很明显是受到了某些外界的影响,而且他似乎是在有意识地模仿。 考虑到与他的妈妈比较熟悉,聚会结束之后,我给她发消息提醒说,“今天我注意到您的孩子在玩耍时说了XXXX这些脏词,我以为,无论是在中文或是德语里,这么说都不太礼貌。我印象里,他以前不是这样的。记得您提到最近孩子参加了某个中文课程,或许可以问一下,是不是有同学有这样的情况,以后家长可以留意。” 我明白这有点微妙,但在德国呆久了,也觉得应当神经大条一点。孩子一起玩的时候,家长见到危险或者不礼貌的状况,直接制止别人家的孩子尤其是熟人的孩子,告诉说“嘿,小朋友,不能这样”或者“注意,那样不对”,也是非常常见的事情,有好几次我甚至会感谢别的家长,因为几乎所有情况下对方都是就事论事,而且说得对。 (more…)
一 去年回国的时候,见到了教我手风琴的夏老师。夏老师已逾古稀之年,钢琴手风琴俱佳,奈何现在学手风琴的孩子太少,我算是“关门弟子”了。多年不见,交谈起来仍然很愉悦。 我问他:“听说现在学钢琴的小孩少了,是真的吗?为什么会这样呢?” 夏老师答:确实如此,来学琴的小孩少了很多。据我判断,主要有几个原因。 第一,经济不如之前景气,许多家庭的收入下降,无力负担钢琴的学费了;第二,弹钢琴现在不能给考试加分了,愿意让孩子学钢琴的家长少了很多;第三,其实大部分家长本来也没想好为什么要让小孩学钢琴,更多是攀比心态,“你的孩子学了这个,所以我的孩子也要去学”,“既然现在你家孩子不学了,我当然也就没有压力和动力了”;第四,许多家长并不考虑小孩的状态以及音乐本身,哪怕继续让孩子学,也只是维持“学”的动作而已,重要的是老师收费便宜,上课方便——能来家里上课最好,至于老师本身的水平,小孩是否有收获,那不是考虑的重点。 末了,夏老师叹了口气,“也好,现在坚持在我这学琴的,都是小孩真正有天赋,家长也懂得音乐的价值的。” 我又问:“我在德国,发现好像每个会乐器的人都能弹钢琴,这也有点超乎我的想象。” 夏老师答:其实很好理解。钢琴是个打击乐器,简单,没有管乐的换气的问题,同时钢琴也是个键盘乐,没有弦乐的音准问题,所以很适合入门,也容易理解乐理。如果家里经济条件容许,先学一段时间的钢琴,之后再学任何乐器,都很简单。 我接着问,我家里正好有一台钢琴,因为家里领导小时候就希望学钢琴但是家里负担不起,如今终于可以圆梦了。她跟老师学了两年,很是找到些自我陶醉的感觉。我看小朋友现在弹手风琴,驾驭起来还有点吃力,是不是让他先改学一段钢琴? 夏老师说:完全可以啊。我就是七岁学钢琴,九岁学手风琴。先把钢琴学好了,之后再学手风琴事半功倍。 回到家里,我和小朋友认真聊了聊,确认他的兴趣是“像爸爸一样弹手风琴”,但在这个阶段,“学钢琴也是为将来做很好的准备”,他同意了。 (more…)
以前我写过自己学手风琴的爱恨情仇,也写过我在上海的手风琴老师。没想到,几十年后,异国他乡,自己刚上小学的孩子仍然选择了学习手风琴。比较他的学琴经历和我的学琴体验,还是有不少感慨,既能重温孩子学琴的兴奋和厌倦,也能体会家长送孩子学琴的不易与纠结。 以下,记录了我的若干感慨。 (more…)
View Comments
文章的图片都挂了 希望修正