1-1 CASE表达式

1-1 CASE 表达式

在 SQL 里表达条件分支

CASE 表达式是 SQL 里非常重要而且使用起来非常便利的技术,我们应该学会用它来描述条件分支。本节将通过行列转换、已有数据重分组(分类)、与约束的结合使用、针对聚合结果的条件分支等例题,来介绍 CASE 表达式的用法。

写在前面

CASE 表达式是从 SQL-92 标准开始被引入的。可能因为它是相对较新的技术,所以尽管使用起来非常便利,但其真正的价值却并不怎么为人所知。很多人不用它,或者用它的简略版函数,例如 DECODE(Oracle)、IF(MySQL)等。然而,正如 Joe Celko 所说,CASE 表达式也许是 SQL-92 标准里加入的最有用的特性。如果能用好它,那么 SQL 能解决的问题就会更广泛,写法也会更加漂亮。而且,因为 CASE 表达式是不依赖于具体数据库的技术,所以可以提高 SQL 代码的可移植性。这里强烈推荐大家改用 CASE 表达式,特别是使用 DECODE 函数的 Oracle 用户 1

1DECODE 是 Oracle 用户很熟悉的函数,它有以下四个不如 CASE 表达式的地方。
• 它是 Oracle 独有的函数,所以不具有可移植性。
• 分支数最大支持 127 个(参数上限 255 个,一个分支需要 2 个参数)。
• 如果分支数增加,代码会变得非常难读。
• 表达能力较弱。具体来说,参数里不能使用谓词,也不能嵌套子查询。

本节,我们将通过具体的例题来学习优点众多的 CASE 表达式。

CASE 表达式概述

首先我们来学习一下基本的写法,CASE 表达式有简单 CASE 表达式(simple case expression)和搜索 CASE 表达式(searched case expression)两种写法,它们分别如下所示。

■ CASE 表达式的写法

-- 简单CASE 表达式
CASE sex
  WHEN '1' THEN '男'
  WHEN '2' THEN '女'
ELSE '其他' END

-- 搜索CASE 表达式
CASE WHEN sex = '1' THEN '男'
     WHEN sex = '2' THEN '女'
ELSE '其他' END

这两种写法的执行结果是相同的,“sex”列(字段)如果是 '1',那么结果为男;如果是 '2',那么结果为女。简单 CASE 表达式正如其名,写法简单,但能实现的事情比较有限。简单 CASE 表达式能写的条件,搜索 CASE 表达式也能写,所以本书基本上采用搜索 CASE 表达式的写法。

我们在编写 SQL 语句的时候需要注意,在发现为真的 WHEN 子句时,CASE 表达式的真假值判断就会中止,而剩余的 WHEN 子句会被忽略。为了避免引起不必要的混乱,使用 WHEN 子句时要注意条件的排他性。

■剩余的 WHEN 子句被忽略的写法示例

-- 例如,这样写的话,结果里不会出现“第二”
CASE WHEN col_1 IN ('a', 'b') THEN '第一'
     WHEN col_1 IN ('a')      THEN '第二'
ELSE '其他' END

此外,使用 CASE 表达式的时候,还需要注意以下几点。

注意事项 1:统一各分支返回的数据类型

虽然这一点无需多言,但这里还是要强调一下:一定要注意 CASE 表达式里各个分支返回的数据类型是否一致。某个分支返回字符型,而其他分支返回数值型的写法是不正确的。

注意事项 2:不要忘了写 END

使用 CASE 表达式的时候,最容易出现的语法错误是忘记写 END。虽然忘记写时程序会返回比较容易理解的错误消息,不算多么致命的错误。但是,感觉自己写得没问题,而执行时却出错的情况大多是由这个原因引起的,所以请一定注意一下。

注意事项 3:养成写 ELSE 子句的习惯

END 不同,ELSE 子句是可选的,不写也不会出错。不写 ELSE 子句时,CASE 表达式的执行结果是 NULL。但是不写可能会造成“语法没有错误,结果却不对”这种不易追查原因的麻烦,所以最好明确地写上 ELSE 子句(即便是在结果可以为 NULL 的情况下)。养成这样的习惯后,我们从代码上就可以清楚地看到这种条件下会生成 NULL,而且将来代码有修改时也能减少失误。

将已有编号方式转换为新的方式并统计

在进行非定制化统计时,我们经常会遇到将已有编号方式转换为另外一种便于分析的方式并进行统计的需求。

例如,现在有一张按照“‘1:北海道’、‘2:青森’、……、‘47:冲绳’”这种编号方式来统计都道府县 2人口的表,我们需要以东北、关东、九州等地区为单位来分组,并统计人口数量。具体来说,就是统计下表 PopTbl 中的内容,得出如右表“统计结果”所示的结果。

2日本的省级行政单位有都、道、府、县,包含一都(东京都)、二府(京都府和大阪府)、一道(北海道)和诸多的县,统称都道府县。多个较近的县被划归到一个地区,如关东地区、九州地区等,类似我国的华北地区、华南地区等概念。——译者注

{%}

3在“统计结果”这张表中,“四国”对应的是表 PopTbl 中的“德岛、香川、爱媛、高知 ”,“九 州”对应的是表 PopTbl 中的“福冈、佐贺、长崎”。——编者注

大家会怎么实现呢?定义一个包含“地区编号”列的视图是一种做法,但是这样一来,需要添加的列的数量将等同于统计对象的编号个数,而且很难动态地修改。

而如果使用 CASE 表达式,则用如下所示的一条 SQL 语句就可以完成。为了便于理解,这里用县名(pref_name)代替编号作为 GROUP BY 的列。

-- 把县编号转换成地区编号(1)
SELECT  CASE pref_name
                WHEN '德岛' THEN '四国'
                WHEN '香川' THEN '四国'
                WHEN '爱媛' THEN '四国'
                WHEN '高知' THEN '四国'
                WHEN '福冈' THEN '九州'
                WHEN '佐贺' THEN '九州'
                WHEN '长崎' THEN '九州'
        ELSE '其他' END AS district,
        SUM(population)
  FROM  PopTbl
 GROUP BY CASE pref_name
                WHEN '德岛' THEN '四国'
                WHEN '香川' THEN '四国'
                WHEN '爱媛' THEN '四国'
                WHEN '高知' THEN '四国'
                WHEN '福冈' THEN '九州'
                WHEN '佐贺' THEN '九州'
                WHEN '长崎' THEN '九州'
          ELSE '其他' END;

这里的关键在于将 SELECT 子句里的 CASE 表达式复制到 GROUP BY 子句里。需要注意的是,如果对转换前的列“pref_name”进行 GROUP BY,就得不到正确的结果(因为这并不会引起语法错误,所以容易被忽视)。

同样地,也可以将数值按照适当的级别进行分类统计。例如,要按人口数量等级(pop_class)查询都道府县个数的时候,就可以像下面这样写 SQL 语句。

-- 按人口数量等级划分都道府县
SELECT  CASE WHEN population <  100 THEN '01'
             WHEN population >= 100 AND population < 200 THEN '02'
             WHEN population >= 200 AND population < 300 THEN '03'
             WHEN population >= 300 THEN '04'
        ELSE NULL END AS pop_class,
        COUNT(*) AS cnt
  FROM  PopTbl
 GROUP BY CASE WHEN population <  100 THEN '01'
               WHEN population >= 100 AND population < 200 THEN '02'
               WHEN population >= 200 AND population < 300 THEN '03'
               WHEN population >= 300 THEN '04'
          ELSE NULL END;

 

pop_class  cnt
--------- ----
01           1
02           3
03           3
04           2

这个技巧非常好用。不过,必须在 SELECT 子句和 GROUP BY 子句这两处写一样的 CASE 表达式,这有点儿麻烦。后期需要修改的时候,很容易发生只改了这一处而忘掉改另一处的失误。

所以,如果我们可以像下面这样写,那就方便多了。

-- 把县编号转换成地区编号(2) :将CASE 表达式归纳到一处
SELECT  CASE pref_name
                WHEN '德岛' THEN '四国'
                WHEN '香川' THEN '四国'
                WHEN '爱媛' THEN '四国'
                WHEN '高知' THEN '四国'
                WHEN '福冈' THEN '九州'
                WHEN '佐贺' THEN '九州'
                WHEN '长崎' THEN '九州'
        ELSE '其他' END AS district,
        SUM(population)
FROM  PopTbl
GROUP BY district; ←-------GROUP BY 子句里引用了SELECT 子句中定义的别名

没错,这里的 GROUP BY 子句使用的正是 SELECT 子句里定义的列的别称——district。但是严格来说,这种写法是违反标准 SQL 的规则的。因为 GROUP BY 子句比 SELECT 语句先执行,所以在 GROUP BY 子句中引用在 SELECT 子句里定义的别称是不被允许的。事实上,在 Oracle、DB2、SQL Server 等数据库里采用这种写法时就会出错。

不过也有支持这种 SQL 语句的数据库,例如在 PostgreSQL 和 MySQL 中,这个查询语句就可以顺利执行。这是因为,这些数据库在执行查询语句时,会先对 SELECT 子句里的列表进行扫描,并对列进行计算。不过因为这是违反标准的写法,所以这里不强烈推荐大家使用。但是,这样写出来的 SQL 语句确实非常简洁,而且可读性也很好。

用一条 SQL 语句进行不同条件的统计

进行不同条件的统计是 CASE 表达式的著名用法之一。例如,我们需要往存储各县人口数量的表 PopTbl 里添加上“性别”列,然后求按性别、县名汇总的人数。具体来说,就是统计表 PopTbl2 中的数据,然后求出如表“统计结果”所示的结果。

{%}

通常的做法是像下面这样,通过在 WHERE 子句里分别写上不同的条件,然后执行两条 SQL 语句来查询。

■示例代码 3

-- 男性人口
SELECT pref_name,
       SUM(population)
  FROM PopTbl2
 WHERE sex = '1'
 GROUP BY pref_name;

-- 女性人口
SELECT pref_name,
       SUM(population)
  FROM PopTbl2
 WHERE sex = '2'
 GROUP BY pref_name;

最后需要通过宿主语言或者应用程序将查询结果按列展开。如果使用 UNION,只用一条 SQL 语句就可以实现,但使用这种做法时,工作量并没有减少,SQL 语句也会变得很长。而如果使用 CASE 表达式,下面这一条简单的 SQL 语句就可以搞定。

SELECT pref_name,
       -- 男性人口
       SUM( CASE WHEN sex = '1' THEN population ELSE 0 END) AS cnt_m,
       -- 女性人口
       SUM( CASE WHEN sex = '2' THEN population ELSE 0 END) AS cnt_f
  FROM  PopTbl2
 GROUP BY pref_name;

上面这段代码所做的是,分别统计每个县的“男性”(即 '1')人数和“女性”(即 '2')人数。也就是说,这里是将“行结构”的数据转换成了“列结构”的数据。除了 SUMCOUNTAVG 等聚合函数也都可以用于将行结构的数据转换成列结构的数据。

这个技巧可贵的地方在于,它能将 SQL 的查询结果转换为二维表的格式。如果只是简单地用 GROUP BY 进行聚合,那么查询后必须通过宿主语言或者 Excel 等应用程序将结果的格式转换一下,才能使之成为交叉表。看上面的执行结果会发现,此时输出的已经是侧栏为县名、表头为性别的交叉表了。在制作统计表时,这个功能非常方便。如果用一句话来形容这个技巧,可以这样说:

新手用 WHERE 子句进行条件分支,高手用 SELECT 子句进行条件分支。

如此好的技巧,请大家多使用。

用 CHECK 约束定义多个列的条件关系

其实,CASE 表达式和 CHECK 约束是很般配的一对组合。也许有很多数据库工程师不怎么用 CHECK 约束,但是一旦他们了解了 CHECK 约束和 CASE 表达式结合使用之后的强大威力,就一定会跃跃欲试的。

假设某公司规定“女性员工的工资必须在 20 万日元以下”,而在这个公司的人事表中,这条无理的规定是使用 CHECK 约束来描述的,代码如下所示。

CONSTRAINT check_salary CHECK
           ( CASE WHEN sex = '2'
                  THEN CASE WHEN salary <= 200000
                            THEN 1 ELSE 0 END
                  ELSE 1 END = 1 )

在这段代码里,CASE 表达式被嵌入到 CHECK 约束里,描述了“如果是女性员工,则工资是 20 万日元以下”这个命题。在命题逻辑中,该命题是叫作蕴含式(conditional)的逻辑表达式,记作 P → Q。

这里需要重点理解的是蕴含式和逻辑与(logical product)的区别。逻辑与也是一个逻辑表达式,意思是“P 且 Q”,记作 P ∧ Q。用逻辑与改写的 CHECK 约束如下所示。

CONSTRAINT check_salary CHECK
           ( sex = '2' AND salary <= 200000 )

当然,这两个约束的程序行为不一样。究竟哪里不一样呢?请先思考一下,再看下面的答案和解释。

答案

如果在 CHECK 约束里使用逻辑与,该公司将不能雇佣男性员工。而如果使用蕴含式,男性也可以在这里工作。

解释

要想让逻辑与 P ∧ Q 为真,需要命题 P 和命题 Q 均为真,或者一个为真且另一个无法判定真假。也就是说,能在这家公司工作的是“性别为女且工资在 20 万日元以下”的员工,以及性别或者工资无法确定的员工(如果一个条件为假,那么即使另一个条件无法确定真假,也不能在这里工作)。

而要想让蕴含式 P → Q 为真,需要命题 P 和命题 Q 均为真,或者 P 为假,或者 P 无法判定真假。也就是说如果不满足“是女性”这个前提条件,则无需考虑工资约束。

请参考下面这个关于逻辑与和蕴含式的真值表。U 是 SQL 中三值逻辑的特有值 unknown 的缩写(关于三值逻辑,1-3 节将详细介绍)。

■逻辑与和蕴含式

逻辑与蕴含式
PQP ∧ QPQP → Q
TTTTTT
TFFTFF
TUUTUF
FTFFTT
FFFFFT
FUFFUT
UTUUTT
UFFUFT
UUUUUT

如上表所示,蕴含式在员工性别不是女性(或者无法确定性别)的时候为真,可以说相比逻辑与约束更加宽松。

在 UPDATE 语句里进行条件分支

下面思考一下这样一种需求:以某数值型的列的当前值为判断对象,将其更新成别的值。这里的问题是,此时 UPDATE 操作的条件会有多个分支。例如,我们通过下面这样一张公司人事部的员工工资信息表 Salaries 来看一下这种情况。

■Salaries

name

salary

相田

300 000

神崎

270 000

木村

220 000

齐藤

290 000

假设现在需要根据以下条件对该表的数据进行更新。

  1. 对当前工资为 30 万日元以上的员工,降薪 10%。
  2. 对当前工资为 25 万日元以上且不满 28 万日元的员工,加薪 20%。

按照这些要求更新完的数据应该如下表所示。

{%}

乍一看,分别执行下面两个 UPDATE 操作好像就可以做到,但这样的结果却是不正确的。

-- 条件1
UPDATE Salaries
   SET salary = salary * 0.9
 WHERE salary >= 300000;

-- 条件2
UPDATE Salaries
   SET salary = salary * 1.2
 WHERE salary >= 250000 AND salary < 280000;

我们来分析一下不正确的原因。例如这里有一个员工,当前工资是 30 万日元,按“条件 1”执行 UPDATE 操作后,工资会被更新为 27 万日元,但继续按“条件 2”执行 UPDATE 操作后,工资又会被更新为 32.4 万日元。这样,本来应该被降薪的员工却被加薪了 2.4 万日元。

{%}

这样的结果当然并非人事部所愿。员工相田的工资必须被准确地降为 27 万日元。问题在于,第一次的 UPDATE 操作执行后,“当前工资”发生了变化,如果还拿它当作第二次 UPDATE 的判定条件,结果就会不准确。然而,即使将两条 SQL 语句的执行顺序颠倒一下,当前工资为 27 万日元的员工,其工资的更新结果也会出现问题。为了避免这些问题,准确地表达出可恶的人事部长的意图,可以像下面这样用 CASE 表达式来写 SQL。

-- 用CASE 表达式写正确的更新操作
UPDATE Salaries
   SET salary = CASE WHEN salary >= 300000
                     THEN salary * 0.9
                     WHEN salary >= 250000 AND salary < 280000
                     THEN salary * 1.2
                     ELSE salary END;

这条 SQL 语句不仅执行结果正确,而且因为只需执行一次,所以速度也更快。这样的话,人事部长就会满意了吧?

需要注意的是,SQL 语句最后一行的 ELSE salary 非常重要,必须写上。因为如果没有它,条件 1 和条件 2 都不满足的员工的工资就会被更新成 NULL。这一点与 CASE 表达式的设计有关,在刚开始介绍 CASE 表达式的时候我们就已经了解到,如果 CASE 表达式里没有明确指定 ELSE 子句,执行结果会被默认地处理成 ELSE NULL。现在大家明白笔者最开始强调使用 CASE 表达式时要习惯性地写上 ELSE 子句的理由了吧?

这个技巧的应用范围很广。例如,可以用它简单地完成主键值调换这种繁重的工作。通常,当我们想调换主键值 ab 时,需要将主键值临时转换成某个中间值。使用这种方法时需要执行 3 次 UPDATE 操作,但是如果使用 CASE 表达式,1 次就可以做到。

SomeTable

p_key(主键)

col_1(第 1 列)

col_2(第 2 列)

a

1

b

2

c

3

如果在调换上表的主键值 ab 时不用 CASE 表达式,则需要像下面这样写 3 条 SQL 语句。

--1. 将a 转换为中间值d
UPDATE SomeTable
   SET p_key = 'd'
 WHERE p_key = 'a';

--2. 将b 调换为a
UPDATE SomeTable
   SET p_key = 'a'
 WHERE p_key = 'b';

--3. 将d 调换为b
UPDATE SomeTable
   SET p_key = 'b'
 WHERE p_key = 'd';

像上面这样做,结果确实没有问题。只是,这里没有必要执行 3 次 UPDATE 操作,而且中间值 d 是否总能使用也是问题。而如果使用 CASE 表达式,就不必担心这些,1 次就可以完成调换。

-- 用CASE 表达式调换主键值
UPDATE SomeTable
   SET p_key = CASE WHEN p_key = 'a'
                    THEN 'b'
                    WHEN p_key = 'b'
                    THEN 'a'
                    ELSE p_key END
 WHERE p_key IN ('a', 'b');

显而易见,这条 SQL 语句按照“如果是 a 则更新为 b,如果是 b 则更新为 a”这样的条件分支进行了 UPDATE 操作。不只是主键,唯一键的调换也可以用同样的方法进行。本例的关键点和上一例的加薪与降薪一样,即用 CASE 表达式的条件分支进行的更新操作是一气呵成的,因此可以避免出现主键重复所导致的错误 4

4如果在 PostgreSQL 和 MySQL 数据库执行这条 SQL 语句,会因主键重复而出现错误。但是,约束的检查本来就发生在更新完成后,因此更新途中主键一时出现重复也没有问题。事实上,在 Oracle、DB2、SQL Server 数据库执行都没有问题。

但是,一般来说需要进行这样的调换大多是因为表的设计出现了问题,所以请先重新审视一下表的设计,去掉不必要的约束。

表之间的数据匹配

DECODE 函数等相比,CASE 表达式的一大优势在于能够判断表达式。也就是说,在 CASE 表达式里,我们可以使用 BETWEENLIKE<> 等便利的谓词组合,以及能嵌套子查询的 INEXISTS 谓词。因此,CASE 表达式具有非常强大的表达能力。

如下所示,这里有一张资格培训学校的课程一览表和一张管理每个月所设课程的表。

■课程一览 CourseMaster

course_id

course_name

1

会计入门

2

财务知识

3

簿记考试

4

税务师

■开设的课程 OpenCourses

month

course_id

200706

1

200706

3

200706

4

200707

4

200708

2

200708

4

我们要用这两张表来生成下面这样的交叉表,以便于一目了然地知道每个月开设的课程。

course_name  6 月  7 月  8 月
-----------  ----  ----  ----
会计入门        ○     ×     ×
财务知识        ×     ×     ○
簿记考试        ○     ×     ×
税务师          ○     ○     ○

我们需要做的是,检查表 OpenCourses 中的各月里有表 CourseMaster 中的哪些课程。这个匹配条件可以用 CASE 表达式来写。

-- 表的匹配:使用IN 谓词
SELECT course_name,
       CASE WHEN course_id IN
                    (SELECT course_id FROM OpenCourses
                      WHERE month = 200706) THEN '○'
            ELSE '×' END AS "6 月",
       CASE WHEN course_id IN
                    (SELECT course_id FROM OpenCourses
                      WHERE month = 200707) THEN '○'
            ELSE '×' END AS "7 月",
       CASE WHEN course_id IN
                    (SELECT course_id FROM OpenCourses
                      WHERE month = 200708) THEN '○'
            ELSE '×' END AS "8 月"
  FROM CourseMaster;

-- 表的匹配:使用EXISTS 谓词
SELECT CM.course_name,
       CASE WHEN EXISTS
                    (SELECT course_id FROM OpenCourses OC
                      WHERE month = 200706
                        AND OC.course_id = CM.course_id) THEN '○'
            ELSE '×' END AS "6 月",
       CASE WHEN EXISTS
                    (SELECT course_id FROM OpenCourses OC
                      WHERE month = 200707
                        AND OC.course_id = CM.course_id) THEN '○'
            ELSE '×' END AS "7 月",
       CASE WHEN EXISTS
                    (SELECT course_id FROM OpenCourses OC
                      WHERE month = 200708
                        AND OC.course_id = CM.course_id) THEN '○'
            ELSE '×' END  AS "8 月"
  FROM CourseMaster CM;

这样的查询没有进行聚合,因此也不需要排序,月份增加的时候仅修改 SELECT 子句就可以了,扩展性比较好。

无论使用 IN 还是 EXISTS,得到的结果是一样的,但从性能方面来说, EXISTS 更好。通过 EXISTS 进行的子查询能够用到“month, course_id”这样的主键索引,因此尤其是当表 OpenCourses 里数据比较多的时候更有优势。

在 CASE 表达式中使用聚合函数

接下来介绍一下稍微高级的用法。这个用法乍一看可能让人觉得像是语法错误,实际上却并非如此。我们来看一道例题,假设这里有一张显示了学生及其加入的社团的一览表。如表 StudentClub 所示,这张表的主键是“学号、社团 ID”,存储了学生和社团之间多对多的关系。

■StudentClub

std_id(学号)

club_id(社团 ID)

club_name(社团名)

main_club_flg (主社团标志)

100

1

棒球

Y

100

2

管弦乐

N

200

2

管弦乐

N

200

3

羽毛球

Y

200

4

足球

N

300

4

足球

N

400

5

游泳

N

500

6

围棋

N

有的学生同时加入了多个社团(如学号为 100、200 的学生),有的学生只加入了某一个社团(如学号为 300、400、500 的学生)。对于加入了多个社团的学生,我们通过将其“主社团标志”列设置为 Y 或者 N 来表明哪一个社团是他的主社团;对于只加入了一个社团的学生,我们将其“主社团标志”列设置为 N。

接下来,我们按照下面的条件查询这张表里的数据。

  1. 获取只加入了一个社团的学生的社团 ID。
  2. 获取加入了多个社团的学生的主社团 ID。

很容易想到的办法是,针对两个条件分别写 SQL 语句来查询。要想知道学生“是否加入了多个社团”,我们需要用 HAVING 子句对聚合结果进行判断。

■条件 1 的 SQL

-- 条件1 :选择只加入了一个社团的学生
SELECT std_id, MAX(club_id) AS main_club
  FROM StudentClub
 GROUP BY std_id
HAVING COUNT(*) = 1;

■执行结果 1

std_id   main_club
------   ----------
300      4
400      5
500      6

■条件 2 的 SQL

-- 条件2 :选择加入了多个社团的学生
SELECT std_id, club_id AS main_club
  FROM StudentClub
 WHERE main_club_flg = 'Y' ;

■执行结果 2

std_id  main_club
------  ----------
100     1
200     3

这样做也能得到正确的结果,但需要写多条 SQL 语句。而如果使用 CASE 表达式,下面这一条 SQL 语句就可以了。

SELECT  std_id,
        CASE WHEN COUNT(*) = 1 -- 只加入了一个社团的学生
             THEN MAX(club_id)
             ELSE MAX(CASE WHEN main_club_flg = 'Y'
                           THEN club_id
                           ELSE NULL END)
        END AS main_club
  FROM StudentClub
 GROUP BY std_id;

 

std_id   main_club
------   ----------
100      1
200      3
300      4
400      5
500      6

这条 SQL 语句在 CASE 表达式里使用了聚合函数,又在聚合函数里使用了 CASE 表达式。这种嵌套的写法让人有点眼花缭乱,其主要目的是用 CASE WHEN COUNT(*) = 1 …… ELSE ……. 这样的 CASE 表达式来表示“只加入了一个社团还是加入了多个社团”这样的条件分支。我们在初学 SQL 的时候,都学过对聚合结果进行条件判断时要用 HAVING 子句,但从这道例题可以看到,在 SELECT 语句里使用 CASE 表达式也可以完成同样的工作,这种写法比较新颖。如果用一句话来形容这个技巧,可以这样说:

新手用 HAVING 子句进行条件分支,高手用 SELECT 子句进行条件分支。

通过这道例题我们可以明白:CASE 表达式用在 SELECT 子句里时,既可以写在聚合函数内部,也可以写在聚合函数外部。这种高度自由的写法正是 CASE 表达式的魅力所在。

本节小结

本节,我们一起领略了 CASE 表达式的灵活和强大的表达能力。CASE 表达式是支撑 SQL 声明式编程的根基之一,也是灵活运用 SQL 时不可或缺的基础技能,请一定要学会它。在本书的后半部分,几乎没有哪一节不用到 CASE 表达式的,这也是把它放在本书开头来介绍的原因。

最后说一点细节的东西。CASE 表达式经常会因为同 VB 和 C 语言里的 CASE“语句”混淆而被叫作 CASE 语句。但是准确来说,它并不是语句,而是和 1+1 或者 a/b 一样属于表达式的范畴。结束符 END 确实看起来像是在标记一连串处理过程的终结,所以初次接触 CASE 表达式的人容易对这一点感到困惑。“表达式”和“语句”的名称区别恰恰反映了两者在功能处理方面的差异。

作为表达式,CASE 表达式在执行时会被判定为一个固定值,因此它可以写在聚合函数内部;也正因为它是表达式,所以还可以写在 SELECE 子句、GROUP BY 子句、WHERE 子句、ORDER BY 子句里。简单点说,在能写列名和常量的地方,通常都可以写 CASE 表达式。从这个意义上来说,与 CASE 表达式最接近的不是面向过程语言里的 CASE 语句,而是 Lisp 和 Scheme 等函数式语言里的 casecond 这样的条件表达式。关于 SQL 和函数式语言的对比,第 2 章会进行介绍。

下面是本节要点。

  1. GROUP BY 子句里使用 CASE 表达式,可以灵活地选择作为聚合的单位的编号或等级。这一点在进行非定制化统计时能发挥巨大的威力。
  2. 在聚合函数中使用 CASE 表达式,可以轻松地将行结构的数据转换成列结构的数据。
  3. 相反,聚合函数也可以嵌套进 CASE 表达式里使用。
  4. 相比依赖于具体数据库的函数,CASE 表达式有更强大的表达能力和更好的可移植性。
  5. 正因为 CASE 表达式是一种表达式而不是语句,才有了这诸多优点。

如果想了解更多关于 CASE 表达式的内容,请参考下面的文献资料。

  1. Joe Celko,《SQL 权威指南(第 4 版)》(人民邮电出版社,2013 年)

    请参考 15.3.5 节“在 UPDATE 中使用 CASE 表达式”和 18.1 节“CASE 表达式”等。从 CASE 表达式的详细用法到具体事例,这两节都有广泛的介绍。

  2. Joe Celko,《SQL 解惑(第 2 版)》(人民邮电出版社,2008 年)

    关于在 CASE 表达式中嵌入聚合函数,请参考“谜题 13 教师”“谜题 36 双重职务”“谜题 43 毕业”。另外,“谜题 44 成对的款式”运用了在 UPDATE 里进行条件分支的技巧,“谜题 45 辣味香肠比萨饼”用 CASE 表达式巧妙地将行结构的数据转换成了列结构的数据。

练习题

●练习题1-1-1 :多列数据的最大值

用 SQL 从多行数据里选出最大值或最小值很容易——通过 GROUP BY 子句对合适的列进行聚合操作,并使用 MAXMIN 聚合函数就可以求出。那么,从多列数据里选出最大值该怎么做呢?

样本数据如下表所示。

Greatests

key

x

y

z

A

1

2

3

B

5

5

2

C

4

7

1

D

3

3

8

先思考一下从表里选出 xy 二者中较大的值的情况。此时求得的结果应该如下所示。

key     greatest
-----   ---------
A              2
B              5
C              7
D              3

Oracle 和 MySQL 数据库直接提供了可以实现这个需求的 GREATEST 函数,但是这里请不要用这些函数,而用标准 SQL 的方法来实现。

求出 xy 二者中较大的值后,再试着将列数扩展到 3 列以上吧。这次求的是 xyz 三者中的最大值,因此结果应该如下所示。

key     greatest
-----   ---------
A              3
B              5
C              7
D              8

●练习题1-1-2 :转换行列——在表头里加入汇总和再揭5

5常用于表示再次使用前述内容,这里指的是在表格中以合计值的形式再次体现德岛、香川、爱媛和高知这 4 个县的数据。 ——译者注

使用正文中的表 PopTbl2 作为样本数据,练习一下把行结构的数据转换为列结构的数据吧。这次请生成下面这样的表头里带有汇总和再揭的二维表。

性别    全国     德岛     香川     爱媛      高知      四国(再揭)
----   ------   -----   ------   ------   -------  ----------
男        855      60      100      100       100         360
女        845      40      100       50       100         290

“全国”列里是表 PopTbl2 中的所有都道府县(限于篇幅,还有一些都道府县未列出)人口的合计值。另外,最右边的一列“四国(再揭)”是四国地区 4 个县的合计值。

●练习题1-1-3 :用 ORDER BY 生成“排序”列

最后这个练习题用到的是比较小众的技巧,但有时又必须使用它,所以我们也来看一下。

对练习题 1-1-1 里用过的表 Greatests 正常执行 SELECT key FROM Greatests ORDER BY key; 这个查询后,结果会按照 key 这一列值的字母表顺序显示出来。

那么,请思考一个查询语句,使得结果按照 B-A-D-C 这样的指定顺序进行排列。这个顺序并没有什么具体的意义,大家也可以在实现完上述需求后,试着实现让结果按照其他顺序排列。

目录

  • 版权声明
  • 译者序
  • 前言
  • 阅读本书时的注意事项
  • 第 1 章 神奇的SQL
  • 1-1 CASE表达式
  • 1-2 自连接的用法
  • 1-3 三值逻辑和 NULL
  • 1-4 HAVING子句的力量
  • 1-5 外连接的用法
  • 1-6 用关联子查询比较行与行
  • 1-7 用 SQL 进行集合运算
  • 1-8 EXISTS 谓词的用法
  • 1-9 用 SQL 处理数列
  • 1-10 HAVING子句又回来了
  • 1-11 让SQL飞起来
  • 1-12 SQL编程方法
  • 第 2 章 关系数据库的世界
  • 2-1 关系数据库的历史
  • 2-2 为什么叫“关系”模型
  • 2-3 开始于关系,结束于关系
  • 2-4 地址这一巨大的怪物
  • 2-5 GROUP BY和PARTITION BY
  • 2-6 从面向过程思维向声明式思维、面向集合思维转变的 7 个关键点
  • 2-7 SQL 和递归集合
  • 2-8 人类的逻辑学
  • 2-9 消灭 NULL 委员会
  • 2-10 SQL中的层级
  • 第 3 章 附录
  • 3-1 习题解答
  • 3-2 参考文献
  • 后记