MySQL 学习记录系列(三)

目录

1、MySQL体系结构

2、存储引擎

2.1、官网简介

2.2、各种存储引擎特性

2.3、存储引擎的选择

3、优化SQL步骤

3.1、查看SQL执行频率

3.2、定位低效率执行SQL

3.3、explain分析执行计划

3.4、show profile分析SQL

3.5、trace分析优化器执行计划

4、索引的使用

4.1、验证索引提升查询效率

4.2、索引的使用 - 全值匹配

4.3、查看索引使用情况

5、SQL优化

5.1、大批量插入数据

5.2、优化insert语句

5.3、优化order by语句

5.5、优化嵌套查询

5.6、优化OR条件

5.7、优化分页查询

5.8、使用SQL提示


1、MySQL体系结构

最上层代表着客户端,包含了常见的连接客户端,如JDBC、ODBC等

整个MySQL Server由以下组成

  1. Connection Pool:连接池组件(客户端发起连接之后,将会到连接池中获得连接,然后进行认证、执行对应请求等)
  2. Management Services&Utilities:管理服务和工具组件(安全、系统配置等)
  • SQL Interface(SQL的接口,执行/封装DML、视图、存储过程等)

  • Parser(解析器,负责解析客户端发起的SQL请求,并且进行相关的过滤)

  • Optimizer(MySQL内部优化器,对SQL语句进行优化)

  • Caches & Butters(优化完成之后,进行缓存的操作,先查询缓存中是否存在相对应的数据)

  1. Pluggable Storage Engines(插件式存储引擎,MyISAM InnoDB。。MySQL5.5以后默认的存储引擎就是InnoDB)
  • 引擎:类似汽车的发动机(根据存储的数据选择不同的引擎进行相关处理)
  1. Flle systemFlles & Logs(存储层,不管是增删改查都是操作的文件系统)

1)连接层
最上层是一些客户端和链接服务,包含本地socket通信和大多数基于客户端/服务端工具实现的类似于TCP/IP的通信。

主要完成一些类似于连接处理、授权认证、及相关的安全方案。在该层上引入了线程池的概念,为通过认证安全接入的客户端提供线程。同样在该层上可以实现基于SSL的安全链接。

服务器也会为安全接入的每个客户端验证它所具有的操作权限。

2)服务层
第二层架构主要完成大多数的核心服务功能,如SQL接口,并完成缓存的查询,SQL的分析和优化,部分内置函数的执行。所有跨存储引擎的功能也在这一层实现,如过程、函数等。

在该层,服务器会解析查询并创建相应的内部解析树,并对其完成相应的优化如确定表的查询的顺序,是否利用索引等,最后生成相应的执行操作。

如果是select语句,服务器还会查询内部的缓存,

如果缓存空间足够大,这样在解决大量读操作的环境中能够很好的提升系统的性能。

3)引擎层
存储引擎层,存储引擎真正的负责了MySQL中数据的存储和提取,服务器通过APl和存储引擎进行通信。

不同的存储引擎具有不同的功能,可以根据自己的需要,来选取合适的存储引擎。

4)存储层
数据存储层,主要是将数据存储在文件系统之上,并完成与存储引擎的交互。

和其他数据库相比,MySQL有点与众不同,它的架构可以在多种不同场景中应用并发挥良好作用。

主要体现在存储引擎上,插件式的存储引擎架构,将查询处理和其他的系统任务以及数据的存储提取分离。

这种架构可以根据业务的需求和实际需要选择合适的存储引擎

 

2、存储引擎

2.1、官网简介

和大多数的数据库不同,MySQL中有一个存储引擎的概念,针对不同的存储需求可以选择最优的存储引擎。

存储引擎就是存储数据,建立索引,更新查询数据等等技术的实现方式。存储引擎是基于表的,而不是基于库的。

所以存储引擎也可被称为表类型。

Oracle,SqlServer等数据库只有一种存储引擎。

MySQL提供了插件式的存储引擎架构。所以MySQL存在多种存储引擎,可以根据需要使用相应引擎,或者编写存储引擎。

MySQL5.0支持的存储引擎包含:InnoDB、MyISAM、BDB、MEMORY、MERGE、EXAMPLE、NDB Cluster、ARCHIVE、CSV、BLACKHOLE、FEDERATED等。

其中lnnoDB和BDB提供事务安全表,其他存储引擎是非事务安全表。

可以通过指定 show engines,来查询当前数据库支持的存储引擎

创建新表时如果不指定存储引擎,那么系统就会使用默认的存储引擎,MySQL5.5之前的默认存储引擎是MyISAM,5.5之后就改为了InnoDB。

查看数据库中的一些环境变量

show VARIABLES like '%storage_engine%'

2.2、各种存储引擎特性

2.2.1、 InnoDB

InnoDB存储引擎是Mysql的默认存储引擎。

InnoDB存储引擎提供了具有提交、回滚、崩溃恢复能力的事务安全。

但是对比MyISAM的存储引擎,InnoDB写的处理效率差一些,并且会占用更多的磁盘空间以保留数据和索引。

InnoDB存储引擎不同于其他存储引擎的特点:

事务控制

CREATE TABLE goods_innodb( 
	id int NOT NULL AUTO_INCREMENT, 
	`NAME` VARCHAR ( 20 ) NOT NULL, 
	PRIMARY KEY ( id ) 
) ENGINE = INNODB DEFAULT CHARSET = utf8;
start transaction; 

insert into goods_innodb(id,name)values(null,'Meta20'); 

commit;

外键约束

MySQL支持外键的存储引擎只有InnoDB,在创建外键的时候,要求父表必须有对应的索引,子表在创建外键的时候,也会自动的创建对应的索引。

下面两张表中,country_innodb是父表,country_id为主键索引,city_innodb表是子表,country_id字段为外键,对应于country_innodb表的主键countryid。

create table country_innodb(
	country_id int NOT NULL AUTO_INCREMENT, 
	country_name varchar(100)NOT NULL, 
	primary key(country_id)
)ENGINE=InnoDB DEFAULT CHARSET=utf8;
create table city_innodb(
	city_id int NOT NULL AUTO_INCREMENT, 
	city_name varchar(50)NOT NULL, 
	country_id int NOT NULL, primary key(city_id), 
	key idx_fk_country_id(country_id), 
	CONSTRAINT `fk_city_country` FOREIGN KEY(country_id) REFERENCES country_innodb(country_id) ON DELETE RESTRICT ON UPDATE CASCADE
)ENGINE=InnoDB DEFAULT CHARSET=utf8;
insert into country_innodb values(null,'China'),(null,'America'),(null,'Japan');

insert into city_innodb values(null,'Xian',1),(null,'NewYork',2),(null,'BeiJing',1);

ON DELETE RESTRICT ON UPDATE CASCADE

ON DELETE RESTRICT:在删除主表数据时,如果有关联记录则不删除 

ON UPDATE CASCADE:在更新主表时候,如果子表有关联记录时更新该记录

在创建索引时,可以指定在删除、更新父表时,对子表进行的相应操作,包括 RESTRICT、CASCADE、SET NULL和NO ACTION。

RESTPICT和NO ACTION相同,是指限制在子表有关联记录的情况下,父表不能更新;

CASCADE表示父表在更新或者删除时,更新或者删除子表对应的记录;SET NULL则表示父表在更新或者删除的时候,子表的对应字段被SETNULL。

针对上面创建的两个表,子表的外键指定是ON DELETE RESTRICT ON UPDATE CASCADE方式的,那么在主表删除记录的时候,如果子表有对应记录,则不允许删除,主表在更新记录的时候,如果子表有对应记录,则子表对应更新。

存储方式

InnoDB存储表和索引有以下两种方式:

①.使用共享表空间存储,这种方式创建的表的表结构保存在.frm文件中,数据和索引保存在innodb_data_home_dir 和innodb_data_file_path定义的表空间中,可以是多个文件。

②.使用多表空间存储,这种方式创建的表的表结构仍然存在.frm文件中,但是每个表的数据和索引单独保存在.ibd中。

2.2.2、MyISAM

MyISAM不支持事务、也不支持外键,其优势是访问的速度快,对事务的完整性没有要求或者以SELECT、INSERT为主的应用基本上都可以使用这个引擎来创建表。

有以下两个比较重要的特点:

不支持事务

create table goods_myisam(
	id int NOT NULL AUTO_INCREMENT, 
	name varchar(20)NOT NULL, 
	primary key(id)
)ENGINE=myisam DEFAULT CHARSET=utf8;

通过测试,在MyISAM存储引擎中,是没有事务控制的;

文件存储方式

每个MyISAM在磁盘上存储成3个文件,其文件名都和表名相同,但拓展名分别是:

  • .frm(存储表定义);
  • .MYD(MYData,存储数据);
  • .MYI(MYIndex,存储索引);

2.2.3、 MEMORY (摘自官网)

Memory存储引擎将表的数据存放在内存中。

每个MEMORY表实际对应一个磁盘文件,格式是.frm,该文件中只存储表的结构,而其数据文件,都是存储在内存中,这样有利于数据的快速处理,提高整个表的效率。

MEMORY类型的表访问非常地快,因为他的数据是存放在内存中的,并且默认使用HASH索引,但是服务一旦关闭,表中的数据就会丢失。

2.2.4、MERGE(摘自官网)

MERGE存储引擎是一组MyISAM表的组合,这些MyISAM表必须结构完全相同,MERGE表本身并没有存储数据,对MERGE类型的表可以进行查询、更新、删除操作,这些操作实际上是对内部的MyISAM表进行的。

对于MERGE类型表的插入操作,是通过INSERT_METHOD子句定插入的表,可以有3个不同的值,使用FIRST或LAST值使得插入操作被相应地作用在第一或者最后一个表上,不定义这个子句或者定义为NO,表示不能对这个MERGE表执行插入操作。

可以对MERGE表进行DROP操作,但是这个操作只是删除MERGE表的定义,对内部的表是没有任何影响的。

1).创建3个测试表payment_2006,payment2007,paymentall,其中payment_all是前两个表的MERGE表:

create table order_1990(
	order_id int, 
	order_money double(10,2), 
	order_address varchar(50), 
	primary key (order_id)
)engine=myisam default charset=utf8;
create table order_1991(
	order_id int, 
	order_money double(10,2), 
	order_address varchar(50), 
	primary key (order_id)
)engine=myisam default charset=utf8;
create table order_all(
	order_id int, 
	order_money double(10,2), 
	order_address varchar(50), 
	primary key(order_id)
)engine=merge union=(order_1990,order_1991) INSERT_METHOD=LAST default charset=utf8;

2).分别向两张表中插入记录

insert into order_1990 values(1,100.0,'北京');
insert into order_1990 values(2,100.0,'上海');
insert into order_1991 values(10,200.0,'北京');
insert into order_1991 values(11,200.0,'上海');

3).查询3张表中的数据。

order_1990中的数据:

order_1991中的数据:

order_all中的数据:

2.3、存储引擎的选择

在选择存储引擎时,应该根据应用系统的特点选择合适的存储引擎。对于复杂的应用系统,还可以根据实际情况选择多种存储引擎进行组合。

以下是几种常用的存储引擎的使用环境:

(1)·InnoDB:

是Mysql的默认存储引擎,用于事务处理应用程序,支持外键。

如果应用对事务的完整性有比较高的要求,在并发条件下要求数据的一致性,数据操作除了插入和查询意外,还包含很多的更新、删除操作,那么InnoDB存储引擎是比较合适的选择。

InnoDB存储引擎除了有效的降低由于删除和更新导致的锁定,还可以确保事务的完整提交和回滚,对于类似于计费系统或者财务系统等对数据准确性要求比较高的系统,InnoDB是最合适的选择。

(2)MyISAM:

如果应用是以读操作和插入操作为主,只有很少的更新和删除操作,并且对事务的完整性、并发性要求不是很高,那么选择这个存储引擎是非常合适的。

(3)MEMORY:

将所有数据保存在RAM中,在需要快速定位记录和其他类似数据环境下,可以提供几块的访问。

MEMORY的缺陷就是对表的大小有限制,太大的表无法缓存在内存中,其次是要确保表的数据可以恢复,数据库异常终止后表中的数据是可以恢复的。

MEMORY表通常用于更新不太频繁的小表,用以快速得到访问结果。

(4)MERGE:

用于将一系列等同的MyISAM表以逻辑方式组合在一起,并作为一个对象引用他们。

MERGE表的优点在于可以突破对单个MyISAM表的大小限制,并且通过将不同的表分布在多个磁盘上,可以有效的改善MERGE表的访问效率。

这对于存储诸如数据仓储等VLDB环境十分合适。

 

3、优化SQL步骤

在应用的的开发过程中,由于初期数据量小,开发人员写SQL语句时更重视功能上的实现。

但是当应用系统正式上线后,随着生产数据量的急剧增长,很多SQL语句开始逐渐显露出性能问题,对生产的影响也越来越大,此时这些有问题的SQL语句就成为整个系统性能的瓶颈。因此必须要对它们进行优化,

当面对一个有SQL性能问题的数据库时,应该从何处入手来进行系统的分析,使得能够尽快定位问题SQL并尽快解决问题。

3.1、查看SQL执行频率

MySQL 客户端连接成功后,通过 show[session l global] status 命令可以提供服务器状态信息。

show[session l global] status 可以根据需要加上参数“session"或者“global"来显示session级(当前连接)的计结果和global级(自数据库上次启动至今)的统计结果。如果不写,默认使用参数是“session"。

下面的命令显示了当前 session中所有统计参数的值:(7个字符即匹配7个长度的操作名称)

show status like 'Com_______';

上述查询的是当前链接的status信息,而非整个数据库的status

查询全局的可以:

show global status like 'Com_______';

专门针对 InnoDB的查询

show global status like 'Innodb_rows_%';

Com_xxx表示每个xxx语句执行的次数

Com_***:这些参数对于所有存储引擎的表操作都会进行累计。

Innodb_***:这几个参数只是针对lnnoDB存储引擎的,累加的算法也略有不同。

3.2、定位低效率执行SQL

可以通过以下两种方式定位执行效率较低的SQL语句。

慢查询日志:

通过慢查询日志定位那些执行效率较低的SQL语句,用-log-slow-queries[=file_name]选项启动时,mysqld 写一个包含所有执行时间超过long_query_time秒的SQL语句的日志文件。

show processlist:

慢查询日志在查询结束以后才纪录,所以在应用反映执行效率出现问题的时候查询慢查询日志并不能定位问题,可以使用show processlist 命令查看当前MySQL在进行的线程,包括线程的状态、是否锁表等,可以实时地查看SQL的执行情况,同时对一些锁表操作进行优化。

1)id列,用户登录mysql时,系统分配的"connection_id",可以使用函数connection_id()查看

2)user列,显示当前用户。如果不是root,这个命令就只显示用户权限范围的sql语句)host列,显示这个语句是从哪个ip的哪个端口上发的,可以用来跟踪出现问题语句的用户

4)db列,显示这个进程目前连接的是哪个数据库

5)command列,显示当前连接的执行的命令,一般取值为休眠(sleep),查询(query),连接(connect)等

6)time列,显示这个状态持续的时间,单位是秒

7)state列,显示使用当前连接的sq1语句的状态,很重要的列。state描述的是语句执行中的某一个状态。一个sql语句,以查询为例,可能需要经过copying to tmp table、sorting result、sending data等状态才可以完成

8)info列,显示这个sql语句,是判断问题语句的一个重要依据

3.3、explain分析执行计划

通过以上步骤查询到效率低的SQL语句后,可以通过EXPLAIN或者DESC命令获取MySQL如何执行SELECT语句的信息,包括在SELECT语句执行过程中表如何连接和连接的顺序。

查询SQL语句的执行计划:

explain select * from tb_item where id=1;

explain select * from tb_item where title='阿尔卡特(oT-979)冰川白联通3G手机3';

eg:

CREATE TABLE t_role(
id varchar(32)NOT NULL, 
role_name varchar(255)DEFAULT NULL,
role_code varchar(255)DEFAULT NULL,
 description varchar(255)DEFAULT NULL, 
 PRIMARY KEY(id), UNIQUE KEY unique_role_name(role_name)
)ENGINE=InnoDB DEFAULT CHARSET=utf8;
CREATE TABLE t_user(
	id varchar(32)NOT NULL,
  username varchar(45)NOT NULL, 
	password varchar(96)NOT NULL, 
	name varchar(45)NOT NULL, 
	PRIMARY KEY(id), 
	UNIQUE KEY unique_user_username( username)
)ENGINE=InnoDB DEFAULT CHARSET=utf8;
CREATE TABLE user_role(
	id int(11)NOT NULL auto_increment,
	user_id varchar(32)DEFAULT NULL, 
	role_id varchar(32)DEFAULT NULL, 
	PRIMARY KEY(id), 
	KEY `fk_ur_user_id`(`user_id`),
	KEY `fk_ur-role_id` (`role_id`), 
	CONSTRAINT fk_ur_role_id FOREIGN KEY ( role_id ) REFERENCES t_role (id) ON DELETE NO ACTION ON UPDATE NO ACTION, 
	CONSTRAINT fk_ur_user_id FOREIGN KEY (user_id) REFERENCES t_user(id)ON DELETE NO ACTION ON UPDATE NO ACTION
)ENGINE=InnoDB DEFAULT CHARSET=utf8;
insert into t_user(id,username,password,name)
values('1','super','$2a$10STJ4Tmcdk.×4wv/tCqHW14.w70U3CC33ceVncD3SLmyMxMknstqkRe','超级管理员');

insert into t_user(id,username,password,name)
values('2','admin','$2a$10STJ4Tmcdk.×4wv/tCqHW14.w70U3CC33CeVncD3SLmyMXMknstqkRe','系统管理员');

insert into t_user(id,username,password,name)
values('3','itcast','$2a$10$8qmaHgUFUAmPR5pOuwhYwor 291WJYjHelU1Yn07k5ELF8zCrwOCui','test02');

insert into t_user(id,username,password,name)
values('4','stu1','$2a$10$pLtt2KDAFpwTWLjNsmTEi.oU1yozyIn9xkzik/y/spH5rftcpUMza','学生');

insert into t_user(id,username,password,name)
values('5','stu2','$2a$10$nxpKkYSez7uz2rQYUnwhR.z57km3yqkn3Hr/p1FR6ZKgc18u.Tvqm','学生2');

insert into t_user(id,username,password,name)
values('6','t1','$2a$10STJ4Tmcdk.X4wv/tcqHw14.w70u3CC33ceVncD3SLmyMXMknstqkRe','老师1');
INSERT INTO t_role(id, role_name, role_code,description)VALUES('5','学生', 'student', '学生');

INSERT INTO t_role(id, role_name, role_code, description)VALUES('7','老师', 'teacher', '老师');

INSERT INTO t_role(id, role_name, role_code, description)VALUES('8','教学管理员','teachmanager', '教学管理员');

INSERT INTO t_role(id, role_name, role_code, description)VALUES('9','管理员', 'admin','管理员');

INSERT INTO t_role(id, role_name, role_code, description)VALUES('10','超级管理员','super', '超级管理员');
INSERT INTO user_role(id,user_id,role_id)VALUES(NULL,'1','5'),(NULL,'1','7'),(NULL,'2','8'),(NULL,'3',
'9'),(NULL,'4','8'),(NULL,'5','10');

3.3.2、explain之id

id字段是select查询的序列号,是一组数字,表示的是查询中执行select子句或者是操作表的顺序。id情况有三种:

1)id相同表示加载表的顺序是从上到下。

explain select * from t_role r,t_user u,user_role ur where r.id=ur.role_id and u.id=ur.user_id;

2)id 不同id值越大,优先级越高,越先被执行。

EXPLAIN SELECT * FROM t_role WHERE id=(SELECT role_id FROM user_role WHERE uSer_id =(SELECT id FROM t_user
WHERE username='stu1'))

3)id有相同,也有不同,同时存在。id相同的可以认为是一组,从上往下顺序执行;在所有的组中,id的值越大,优先级越高,越先执行。

EXPLAIN SELECT * FROM t_role r,(SELECT * FROM user_role ur WHERE ur.user_id=2) a WHERE r.id=a.role_id;

3.3.3、explain 之select type

表示SELECT的类型,常见的取值,如下表所示:

3.3.4、explain 之table

展示这一行的数据是关于哪一张表的

3.3.5、explain 之 type

type显示的是访问类型,是较为重要的一个指标,可取值为:

结集值从最好到最坏以此是:

NULL  >  system  >  const  >  eq_ref  > ref  > fulltext  >  ref_or_null  > index_merge  > unique_subquery  >  index_subquery  >  range>index  >  ALL

一般来说,需要保证查询至少达到range级别,最好达到ref。

3.3.6、explain 之 key

possible_keys:显示可能应用在这张表的索引,一个或多个。

key:实际使用的索引,如果为NULL,则没有使用索引。

key_len:表示索引中使用的字节数,该值为索引字段最大可能长度,并非实际使用长度,在不损失精确性的前提下,长度越短越好

3.3.7、explain 之rows

扫描行的数量。

3.3.8、explain 之 extra

其他的额外的执行计划信息,在该列展示。

3.4、show profile分析SQL

Mysql从5.0.37版本开始增加了对 show profiles和show profile 语句的支持。

通过have_profiling参数,能够看到当前MySQL是否支持profile:select @@have_profiling;

默认profiling是关闭的,可以通过set语句在Session级别开启profiling:select @@profiling;

set profiling=1;//开启profiling开关;

通过profile,能够更清楚地了解SQL执行的过程。

show profiles;

如何才能精准的获取时间到底耗费在哪里?

show profile for query 5 ;

Sending data:

状态表示MySQL线程始访问数据行并把结果返回给客户端,而不仅仅是返回个客户端。由于在Sending data状态下,MySQL线程往往需要做大量的磁盘读取操作,所以经常是整各查询中耗时最长的状态。

在获取到最消耗时间的线程状态后,MySQL支持进一步选择all、cpu、block io、context switch、page faults等明细类型类查看MySQL在使用什么资源上耗费了过高的时间。

例如,选择查看CPU的耗费时间:

show profile cpu for query 6;

3.5、trace分析优化器执行计划

MySQL5.6提供了对SQL的跟踪trace,通过trace文件能够进一步了解为什么优化器选择A计划,而不是选择B计划。

打开trace,设置格式为JSON,并设置trace最大能够使用的内存大小,避免解析过程中因为默认内存过小而不能够完整展示。

SET optimizer_trace="enabled=on",end_markers_in_json=on; 
set optimizer_trace_max_mem_size=1000000;

执行SQL语句:

select* from tb_item where id<4;

最后,检查information_schema.optimizer_trace就可以知道MySQL是如何执行SQL的:

select * from information_schema.optimizer_trace\G;

 

4、索引的使用

索引是数据库优化最常用也是最重要的手段之一,通过索引通常可以解决大多数的MySQL的性能优化问题。

4.1、验证索引提升查询效率

(表结构tb_item中,一共存储了300万记录;)

A.根据ID查询

select * from tb_item where id=1999\G;

查询速度很快,接近0s,主要的原因是因为id为主键,有索引;

处理方案,针对title字段,创建索引:

create index idx_item_title on tb_item(title);

4.2、索引的使用 - 全值匹配

CREATE TABLE tb_seller (
	sellerid VARCHAR ( 100 ),
	name varchar ( 100 ),
	nickname varchar ( 50 ),
	PASSWORD VARCHAR ( 60 ),
	status varchar ( 1 ),
	address varchar ( 100 ),
	createtime datetime,
PRIMARY KEY ( sellerid ) 
) ENGINE = INNODB DEFAULT charset = utf8mb4;
insert into tb_seller(sellerid,name,nickname,password,status,address,createtime)
values('alibaba','阿里巴巴','阿里小店','e10adc3949ba59abbe56e057f20f883e','1','北京市', '2088-01-01 12:00:00');

insert into tb_seller(sellerid,name,nickname,password,status,address,createtime)
values('baidu','百度科技有限公司','百度小店','e10adc3949ba59abbe56e057f20f883e','1','北京市','2088-01-01 12:00:00');

insert into tb_seller(sellerid,name,nickname,password,status,address,createtime)
values('huawei','华为科技有限公司','华为小店','e10adc3949ba59abbe56e057f20f883e','0','北京市','2088-01-01 12:00:00');


insert into tb_seller (sellerid,name,nickname,password,status,address,createtime)
values('luoji','罗技科技有限公司','罗技小店','e10adc3949ba59abbe56e057f20f883e','1','北京市','2088-01-01 12:00:00');

insert into tb_seller (sellerid,name,nickname,password,status,address,createtime)
values('oppo','oPPo科技有限公司','OPPo官方旗舰店','e10adc3949ba59abbe56e057f20f883e','0','北京市','2088-01-01 12:00:00');

insert into tb_seller (sellerid,name,nickname,password,status,address,createtime)
values('ourpalm','掌趣科技股份有限公司','掌趣小店','e10adc3949ba59abbe56e057f20f883e','1','北京市','2088-01-01 12:00:00');

insert into tb_seller (sellerid,name,nickname,password,status,address,createtime)
values('qiandu','千度科技','千度小店','e10adc3949ba59abbe56e057f20f883e','2','北京市','2088-01-01 12:00:00');

insert into tb_seller (sellerid,name,nickname,password,status,address,createtime)
values('sina','新浪科技有限公司','新浪官方旗舰店','e10adc3949ba59abbe56e057f20f883e','1','北京市','2088-01-01 12:00:00');

insert into tb_seller (sellerid,name,nickname,password,status,address,createtime)
values('xiaomi','小米科技','小米官方旗舰店','e10adc3949ba59abbe56e057f20f883e','1','西安市','2088-01-01 12:00:00');

insert into tb_seller (sellerid,name,nickname,password,status,address,createtime)
values('yijia','宜家家居','宜家家居旗舰店','e10adc3949ba59abbe56e057f20f883e','1','北京市','2088-01-01 12:00:00');
create index idx_seller_name_sta_addr on tb_seller(name,status,address);

4.1.2、避免索引失效

1).全值匹配,对索引中所有列都指定具体值。

改情况下,索引生效,执行效率高。

explain select * from tb_seller where name='小米科技' and status='1' and address='北京市'

2).最左前缀法则(where 条件中的字段先后顺序没有关系)

如果索引了多列,要遵守最左前缀法则。指的是查询从索引的最左前列开始,并且不跳过索引中的列。

匹配最左前缀法则,走索引:

 

 违法最左前缀法则,索引失效:

(如果有三个字段组成的联合索引,只有1、3两个where条件,那么索引依然生效,但只会匹配最左索引,3是不会走索引的)

3).范围查询右边的列,不能使用索引。

根据前面的两个字段name,status 查询是走索引的,但是最后一个条件address 没有用到索引。

4).不要在索引列上进行运算操作,索引将失效。

5).字符串不加单引号,造成索引失效。

6).尽量使用覆盖索引,避免select *

尽量使用覆盖索引(只访问索引的查询(索引列完全包含查询列)),减/少select*。

select * 时 如果匹配了最左索引,extra 会出现 Using index condition   虽然使用了索引并用到name字段,但在返回数据时还需要进行索引回表查询数据

如果查询列,超出索引列,也会降低性能。

using index:使用覆盖索引的时候就会出现

using where:在查找使用索引的情况下,需要回表去查询所需的数据

using index condition:查找使用了索引,但是需要回表查询数据

using index;using where:查找使用了索引,但是需要的数据都在索引列中能找到,所以不需要回表查询数据

7).用or分割开的条件,如果or前的条件中的列有索引,而后面的列中没有索引,那么涉及的索引都不会被用到。

示例,name字段是索引列,而createtime不是索引列,中间是or进行连接是不走索引的:(也即全表扫描)

如果是 and 则会走索引

explain select * from tb_seller where name='小米' or createtime='2088-01-0112:00:00'

8).以%开头的Like模糊查询,索引失效。如果仅仅是尾部模糊匹配,索引不会失效。如果是头部模糊匹配,索引失效。

explain select * from tb_seller where name like '小米%'

explain select * from tb_seller where name like '%小米'

explain select * from tb_seller where name like '%小米%'

解决方案:使用覆盖索引(也即select 索引字段 from)

explain select sellerid,name,status,address from tb_seller where name like '%科技%'

9).如果MySQL评估使用索引比全表更慢,则不使用索引。

10).is NULL,is NOT NULL 有时索引失效。

由于数据表中的数据大多是非空的,所以会走全表扫描,这时候比走索引更快

如果数据基本是not null的,则查询 is nulll 时会走索引

11).in 走索引,not in索引失效。

12).单列索引和复合索引。尽量使用复合索引,而少使用单列索引。

创建复合索引

create index idx_name_sta_address on tb_seller(name,status,address);

就相当于创建了三个索引:
name 
name+status 
name+status+address

创建单列索引

只有单列的索引时,MySQL会选择辨识度最高的索引列

create index idx_seller_name on tb_se1ler(name); 
create index idx_seller_status on tb_seller(status); 
create index idx_seller_address on tb_seller(address);

数据库会选择一个最优的索引来使用,并不会使用全部索引。

4.3、查看索引使用情况

show status like 'Handler_read%'; 

show global status like 'Handler_read%';

(1)Handler_read_first:索引中第一条被读的次数。如果较高,表示服务器正执行大量全索引扫描(这个值越低越好)。

(2)Handler_read_key:如果索引正在工作,这个值代表一个行被索引值读的次数,如果值越低,表示索引得到的性能改善不高,因为索引不经常使用(这个值越高越好)

(3)Handler_read_next:按照键顺序读下一行的请求数。如果你用范围约束或如果执行索引扫描来查询索引列,该值增加。

(4)Handler_read_prev:按照键顺序读前一行的请求数。该读方法主要用于优化ORDER BY...DESC。

(5)Handler_read_rnd:根据固定位置读一行的请求数。如果你正执行大量查询并需要对结果进行排序该值较高。可能使用了大量需要MySQL扫描整个表的查询或你的连接没有正确使用键。这个值较高,意味着运行效率低,应该建立索引来补救。

(6)Handler_read_rnd_next:在数据文件中读下一行的请求数。如果你正进行大量的表扫描,该值较高。通常说明你的表索引不正确或写入的查询没有利用索引。

 

5、SQL优化

5.1、大批量插入数据

CREATE TABLE tb_user_2(
id int(11)NOT NULL AUTO_INCREMENT,
username varchar(45) NOT NULL,
password varchar(96) NOT NULL,
name varchar(45)NOT NULL,
birthday datetime DEFAULT NULL,
sex char(1)DEFAULT NULL,
email varchar(45)DEFAULT NULL,
phone varchar(45)DEFAULT NULL,
qq varchar(32)DEFAULT NULL,
status varchar(32)NOT NULL COMMENT '用户状态',
create_time datetime NOT NULL,
update_time datetime DEFAULT NULL,
PRIMARY KEY(id),UNIQUE KEY unique_user_username (username)
)ENGINE=InnoDB DEFAULT CHARSET=utf8

当使用  load  命令导入数据的时候,适当的设置可以提高导入的效率。

对于InnoDB类型的表,有以下几种方式可以提高导入的效率:

1)主键顺序插入

因为InnoDB类型的表会按照主键的顺序保存的,所以将导入的数据按照主键的顺序排列,可以有效的提高导入数据的效率。

如果InnoDB表没有主键,那么系统会自动默认创建一个内部列作为主键,所以如果可以给表创建一个主键,将可以利用这点,来提高导入数据的效率。

脚本文件介绍:
sq11.1og---->主键有序
sq12.1og---->主键无序

插入ID顺序排列数据:

load data local infile '/root/sqll. log' into table "tb user 1' fields terminated by ',' lines terminated by '\n';

插入ID无序排列数据:

load data local infile '/root/sql2. log' into table "tb user 2' fields terminated by ',' lines terminated by '\n';

2)关闭唯一性校验

在导入数据前执行 SET UNIQUE_CHECKS=0,关闭唯一性校验,在导入结束后执行SETUNIQUE_CHECKS=1,恢复唯一性校验,可以提高导入的效率。

3.)手动提交事务

如果应用使用自动提交的方式,建议在导入前执行 SET AUTOCOMMIT0,关闭自动提交,导入结束后再执行 SET AUTOCOMMIT=1,打开自动提交,也可以提高导入的效率。

5.2、优化insert语句

当进行数据的insert操作的时候,可以考虑采用以下几种优化方案。

(1)尽量使用多个值表的insert语句

如果需要同时对一张表插入很多行数据时,应该尽量使用多个值表的insert语句,这种方式将大大的缩减客户端与数据库之间的连接、关闭等消耗。使得效率比分开执行的单个insert语句快。

示例,原始方式为:

insert into tb_test values(1,'Tom');

insert into tb_test values(2,'Cat'); 

insert into tb_test values(3,'Jerry');

优化后的方案为:

insert into tb_test values(1,'Tom'),(2,'cat'),(3,'Jerry');

(2)在事务中进行数据插入。

start transaction; 

insert into tb_test values(1,'Tom');

insert into tb_test values(2,'Cat'); 

insert into tb_test values(3,'Jerry'); 

commit;

(3)数据有序插入

insert into tb_test values(1,'Tom');

insert into tb_test values(2,'Cat'); 

insert into tb_test values(3,'Jerry'); 

insert into tb_test values(4,'Tim'); 

insert into tb_test values(5,'Rose);

5.3、优化order by语句

CREATE TABLE emp (
	id int ( 11 ) NOT NULL AUTO_INCREMENT,
	NAME VARCHAR ( 100 ) NOT NULL,
	age INT ( 3 ) NOT NULL,
	salary INT ( 11 ) DEFAULT NULL,
PRIMARY KEY ( id ) 
) ENGINE = INNODB DEFAULT CHARSET = utf8mb4
insert into emp(id,name,age,salary)values('1','Tom','25','2300');

insert into emp(id,name,age,salary)values('2','Jerry','30','3500'); 

insert into emp(id,name,age,salary)values('3','Luci','25','2800'); 

insert into emp(id,name,age,salary)values('4','Jay','36','3500'); 

insert into emp(id,name,age,salary)values('5','Tom2','21','2200'); 

insert into emp(id,name,age,salary)values('6','Jerry2','31','3300'); 

insert into emp(id,name,age,salary)values('7','Luci2','26','2700');

 insert into emp(id,name,age,salary)values('8','Jay2','33','3500'); 
 
 insert into emp(id,name,age,salary)values('9','Tom','23','2400'); 
 
 insert into emp(id,name,age,salary)values('10','Jerry3','32','3100');

 insert into emp(id,name,age,salary)values('11','Luci3','26','2900'); 
 
 insert into emp(id,name,age,salary)values('12','Jay3','37','4500'); 
 create index idxemp_age_salary on emp(age,salary);

5.3.2、两种排序方式

1).第一种是通过对返回数据进行排序,也就是通常说的 filesort 排序,所有不是通过索引直接返回排序结果的排序都叫FileSort排序。

2).第二种通过有序索引顺序扫描直接返回有序数据,这种情况即为using index,不需要额外排序,操作效率高。

EXPLAIN select id from emp ORDER BY age DESC

(3)多字段排序

explain select id,age,salary from emp order by age,salary;

explain select id,age,salary from emp order by age asc,salary desc;

了解了MySQL的排序方式,优化目标就清晰了:

尽量减少额外的排序,通过索引直接返回有序数据。

where条件和Order by使用相同的索引,并且Order By的顺序和索引顺序相同,Order by的字段都是升序,或者都是降序。

否则肯定需要额外的操作,这样就会出现FileSort。

5.3.3 、Filesort的优化

通过创建合适的索引,能够减少Filesort的出现,但是在某些情况下,条件限制不能让Filesort消失,那就需要加快Filesort的排序操作。对于Filesort,MySQL 有两种排序算法:

1)两次扫描算法:MySQL4.1之前,使用该方式排序。首先根据条件取出排序字段和行指针信息,然后在排序区sort buffer中排序,如果sort buffer不够,则在临时表temporary table中存储排序结果。完成排序之后,再根据行指针回表读取记录,该操作可能会导致大量随机1/O操作。

2)一次扫描算法:一次性取出满足条件的所有字段,然后在排序区 sort buffer中排序后直接输出结果集。排序时内存开销较大,但是排序效率比两次扫描算法要高。

MySQL 通过比较系统变量max_length_for_sort_data的大小和Query语句取出的字段总大小,来判定是否那种排序算法,如果max_length_for_sort_data 更大,那么使用第二种优化之后的算法;否则使用第一种。

可以适当提高sort_buffer_size和max_length_for_sort_data系统变量,来增大排序区的大小,提高排序的效率。

5.4、优化group by语句

由于GROUPBY实际上也同样会进行排序操作,而且与ORDER BY相比,GROUPBY主要只是多了排序之后的分组操作。当然,如果在分组的时候还使用了其他的一些聚合函数,那么还需要一些聚合函数的计算。所以,在GROUPBY的实现过程中,与ORDER一样也可以利用到索引

如果查询包含group by 但是用户想要避免排序结果的消耗,则可以执行order by null 禁止排序。如下:

drop index idx_emp_age_salary on emp;


explain select age,count(*)from emp group by age;

explain select age,count(*) from emp group by age order by null;

第一个SQL语句需要进行"filesort",而第二个SQL由于order by nul 不需要进行“filesort",而上文提过Filesort往往非常耗时

通过创建索引:

create index idx_emp_age_salary on emp(age,salary);

5.5、优化嵌套查询

Mysql4.1版本之后,开始支持SQL的子查询。

这个技术可以使用SELECT语句来创建一个单列的查询结果,然后把这个结果作为过滤条件用在另一个查询中。使用子查询可以一次性的完成很多逻辑上需要多个步骤才能完成的SQL操作,同时也可以避免事务或者表锁死,并且写起来也很容易。

但是,有些情况下,子查询是可以被更高效的连接(JOIN)替代。

查找有角色的所有的用户信息:

explain select * from t_user where id in (select user_id from user_role);

explain select * from t_user u, user_role ur where u. id=ur. user_id;

尽量使用多表查询,用以替代子查询

5.6、优化OR条件

对于包含OR的查询子句,如果要利用索引,则OR之间的每个条件列都必须用到索引,而且不能使用到复合素引;如果没有索引,则应该考虑增加索引。

获取emp表中的所有的索引:

explain select * from emp where id=1 or age=30;

建议使用union 替换or

type显示的是访问类型,是较为重要的一个指标,结果值从好到坏依次是:

UNION 语句的type值为ref,OR语句的type值为range,可以看到这是一个很明显的差距

UNION 语句的ref值为const,OR语句的type值为null,const 表示是常量值引用,非常快

这两项的差距就说明了UNION要优于OR。

5.7、优化分页查询

一般分页查询时,通过创建覆盖索引能够比较好地提高性能。一个常见又非常头疼的问题就是limit 2000000,10,此时需要MySQL排序前2000010记录,仅仅返回2000000-2000010的记录,其他记录丢弃,查询排序的代价非常大。

5.7.1、优化思路一

在索引上完成排序分页操作,最后根据主键关联回原表查询所需要的其他列内容。

explain select * from tb_item t,(select id from tb_item order by id limit 2000000,10)a where t. id=a. id;

5.7.2、优化思路二

该方案适用于主键自增的表,可以把Limit 查询转换成某个位置的查询。

5.8、使用SQL提示

SQL提示,是优化数据库的一个重要手段,简单来说,就是在SQL语句中加入一些人为的提示来达到优化操作的目的。

5.8.1 USE INDEX

在查询语句中表名的后面,添加use index来提供希望MySQL去参考的索引列表,就可以让MySQL不再考虑其他可用的索引。

create index idx_seller_name on tb_seller(name);

5.8.2、 IGNORE INDEX

如果用户只是单纯的想让MySQL忽略一个或者多个索引,则可以使用ignore index作为hint。

explain select * from tb_seller ignore index(idx_seller_name)where name= '小米科技';

5.8.3 、FORCE INDEX

为强制MySQL使用一个特定的索引,可在查询中使用force index作为hint。

create index idx_seller_address on tb_seller(address);

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章