谷歌、Uber都在用:标准SQL语法入门指南

全文共1969字,预计学习时长11分钟

 

谷歌、Uber都在用:标准SQL语法入门指南

图源:Pexels

 

SQL(结构化查询语言)是数据分析最重要的编码语言,它手推Python,脚踩R语言,成为分析师所必须拥有的最常用工具,重要性不言而喻。

 

根据Dataquest.io的数据,几乎所有大型科技公司都使用SQL。优步、网飞、爱彼迎等,即使在脸书、谷歌和亚马逊内部,即使它们已经建立了独立的高性能数据库系统公司,用SQL查询数据和执行分析也是必不可少的。

 

像所有语言一样,你需要通过不断的练习来理解和掌握它的概念。在我看来,一旦理解了代码的基本结构,SQL是最容易使用的语言之一。本文笔者将分享进行SQL查询的必要步骤。

 

标准SQL结构

 

本文是PostgreSQL备忘单的入门部分,将涵盖SELECT、 FROM、 WHERE、GROUP BY、HAVING、ORDER BY和LIMIT的使用方法。

 

从单个表中提取结果的查询的基本结构如下:

 

SELECT
               COLUMN_NAME(S)
FROM
               TABLE_NAME
WHERE
               CONDITION
GROUP BY
               COLUMN_NAME(S)
HAVING
               AGGREGATE_CONDITION
ORDER BY
               COLUMN_NAME
LIMIT
               N

 

什么是SQL?

 

SQL意为结构化查询语言(Structured Query Language)。SQL用于和数据库交流。它是关系数据库管理系统的标准语言。SQL语句用于执行诸如更新数据库中的数据,或从数据库中检索数据等任务。

 

什么是关联式资料库管理系统(RDBMS)?

 

RDBMS将数据组织到具有行和列的表中。“关系”二字意味着每个表中的值彼此之间存在关系。

 

· 行(Rows)——也称为记录

· 列(Columns)——也称为字段,有一个描述性名称和特定的数据类型。

 

什么是PostgreSQL?

 

PostgreSQL是一个通用关联式资料库管理系统,也是最先进的开源数据库系统。

 

谷歌、Uber都在用:标准SQL语法入门指南

图源:unsplash

 

其他常用的数据库管理系统有MySQL、Oracle、IBM Db2和MS Access。

 

让我们开始吧!

 

SELECT语句

 

SELECT语句用于从数据库中选择数据。返回的数据存储在结果表中,称为结果集。

 

特定列

 

SELECT
               COLUMN_1,
               COLUMN_2
FROM
               TABLE_NAME

 

所有列

 

使用 * 可以查询表中的每一列:

 

SELECT *
FROM
               TABLE_NAME

 

独特列

 

查找列中的所有唯一记录:

 

SELECT
               DISTINCT(COLUMN_NAME)
FROM
               TABLE_NAME

 

清点所有行

 

如果你想知道整个表中的所有值,使用COUNT(*),就能得到一个单独的数字。

 

SELECT
               COUNT(*)
FROM
               TABLE_NAME

 

计数独特值

 

如果使用COUNT和DISTINCT来计算一个列中不同值的数量,则会得到一个数字,它表示一个列的总体唯一值:

 

SELECT
               COUNT (DISTINCTCOLUMN_NAME)
FROM
               TABLE_NAME

 

WHERE语句

 

使用WHERE子句,可以创建条件来筛选出想要或不想要的值。注意——WHERE总是在GROUP BY之前使用(稍后将详细介绍):

 

SELECT *
FROM
               TABLE_NAME
WHERE
               CONDITION

 

条件

 

SQL中可以使用各种各样的条件。下面是由学生在校成绩组成的表格中的一些例子。只需指定一次WHERE,为了进行演示,我在每个步骤中都包含了:

 

WHERE。WHEREFIRSTNAME      = 'BOB'      -- exact match
WHERE FIRSTNAME     != 'BOB'     -- everything excluding BOB
WHERE NOT FIRSTNAME  ='BOB'    -- everything excluding BOBWHERE FIRSTNAMEIN ('BOB', 'JASON')       -- eithercondition is met
WHERE FIRSTNAME NOT IN ('BOB', 'JASON')  -- excludes both valuesWHERE FIRSTNAME = 'BOB' AND LASTNAME ='SMITH'  -- both conditions
WHERE FIRSTNAME = 'BOB' OR FIRSTNAME = 'JASON' -- either conditionWHERE GRADES > 90           -- greater than 90
WHERE GRADES < 90           -- lessthan 90
WHERE GRADES  >= 90         -- greater than or equal to 90
WHERE GRADES  <= 90         -- less than or equal to 90WHERESUBJECT IS NULL       -- returns valueswith missing values
WHERE SUBJECT NOT NULL      -- returnsvalues with no missing values

 

条件——通配符

 

LIKE运算符用于WHERE子句中,以搜索列中的特定模式。在“”中传递LIKE运算符时,大小写会影响结果。

 

有两个通配符经常与LIKE操作符一起使用:

 

· % -百分号表示零个,一个,或多个字符

· _ -下划线表示单个字符

 

WHEREFIRSTNAME LIKE ‘B%’ -- finds values starting uppercase B
WHEREFIRSTNAME LIKE ‘%b’ -- finds values starting lowercase B
WHEREFIRSTNAME LIKE ‘%an%’ -- find values that have “an” in any position
WHEREFIRSTNAME LIKE ‘_n%’ -- find values that have “n” in the second position
WHEREFIRSTNAME LIKE ‘B__%’ -- find values that start with “B” and have at least 3characters in length
WHEREFIRSTNAME LIKE ‘B%b’ -- find values that start with “B” and end with “b”
WHEREFIRSTNAME LIKE ‘[BFL]’ -- find all values that start with ‘B’, ‘F’ OR ‘L’
WHEREFIRSTNAME LIKE ‘[B-D]’ -- find all values that start with ‘B’, ‘C’, OR ‘D’
WHEREFIRSTNAME LIKE ‘[!BFL]%’ -- find everything exlcusing values that start with‘B’, ‘F’ OR ‘L’
WHEREFIRSTNAME NOT LIKE ‘[BFL]%’ -- same as above. excludes values starting with‘B’, ‘F’, OR ‘L’
WHEREGRADES BETWEEN 80 and 90 -- find grades between 80 and 90

 

GROUP BY函数

 

GROUP BY函数帮助按所选列计算出汇总值。它通常与聚合函数(COUNT、SUM、AVG、MAX、MIN)一起使用。

 

SELECT
               SUBJECT,            
               AVG(GRADES)
FROM
               STUDENTS
GROUP BY
               SUBJECT

 

上面的查询将对每个主题进行分组并计算平均成绩。

 

SELECT
               SUBJECT,            
               COUNT(*)
FROM
               STUDENTS
GROUP BY
               SUBJECT

 

上面的查询将计算每个科目的学生人数(count)。

 

HAVING语句

 

HAVING子句类似于WHERE,但更适用于筛选聚合函数。HAVING函数位于GROUP BY之后,而WHERE位于GROUP BY之前。

 

如果我们想知道哪个学科的平均成绩90分以上,我们可以使用下面的方法。

 

SELECT
               SUBJECT,            
               AVG(GRADES)
FROM
               STUDENTS
GROUP BY
               SUBJECT
HAVING
               AVG(GRADES) >= 90

 

ORDER BY函数

 

通过使用ORDER BY函数,可以指定对数值排序的方式。继续看前面的学生表。

 

SELECT
               *
FROM
               STUDENTS
ORDER BY
               GRADES DESC

 

默认情况下使用ORDER BY时,排序将按升序进行。如果要反序,则需要在列名后面指定DESC。

 

LIMIT函数

 

谷歌、Uber都在用:标准SQL语法入门指南

图源:unsplash

 

在Postgres,我们可以使用LIMIT函数来控制查询中输出的行数。例如,我们想找到成绩最好的前三名学生。

 

SELECT
               *
FROM
               STUDENTS
ORDER BY
               GRADES DESC
LIMIT
               3

 

由于我们使用ORDER BY DESC,我们有最高分的学生的排序——现在限制为3个值,那么我们就看到前3个。

 

SQL可以做的事情还有很多,它值得你花时间去探索。本文讲到的查询单个表中的数据时使用的标准SQL语法,要好好掌握呀!

 

谷歌、Uber都在用:标准SQL语法入门指南

我们一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”

(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章