跳转至

索引

一、概述

MySQL官方对索引的定义为:索引(index)是帮助MySQL高效获取数据的数据结构(有序)。在数据之外,数据库系统还维护者满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据, 这样就可以在这些数据结构上实现高级查找算法,这种数据结构就是索引。如下面的==示意图==所示 :

1555902055367

左边是数据表,一共有两列七条记录,最左边的是数据记录的物理地址(注意逻辑上相邻的记录在磁盘上也并不是一定物理相邻的)。为了加快Col2的查找,可以维护一个右边所示的二叉查找树,每个节点分别包含索引键值和一个指向对应数据记录物理地址的指针,这样就可以运用二叉查找快速获取到相应数据。

一般来说索引本身也很大,不可能全部存储在内存中,因此索引往往以索引文件的形式存储在磁盘上。索引是数据库中用来提高性能的最常用的工具。

二、索引作用

1. 优势

  1. 类似于书籍的目录索引,提高数据检索的效率,降低数据库的IO成本。
  2. 通过索引列对数据进行排序,降低数据排序的成本,降低CPU的消耗。

2. 劣势

  1. 实际上索引也是一张表,该表中保存了主键与索引字段,并指向实体类的记录,所以索引列也是要占用空间的。

  2. 虽然索引大大提高了查询效率,同时却也降低更新表的速度,如对表进行INSERT、UPDATE、DELETE。因为更新表时,MySQL 不仅要保存数据,还要保存一下索引文件每次更新添加了索引列的字段,都会调整因为更新所带来的键值变化后的索引信息。

三、索引结构

索引是在MySQL的存储引擎层中实现的,而不是在服务器层实现的。所以每种存储引擎的索引都不一定完全相同,也不是所有的存储引擎都支持所有的索引类型的。MySQL目前提供了以下4种索引:

  • BTREE 索引 : 最常见的索引类型,大部分索引都支持 B 树索引。

  • HASH 索引:只有Memory引擎支持 , 使用场景简单 。

  • R-tree 索引(空间索引):空间索引是MyISAM引擎的一个特殊索引类型,主要用于地理空间数据类型,通常使用较少,不做特别介绍。
  • Full-text (全文索引) :全文索引也是MyISAM的一个特殊索引类型,主要用于全文索引,InnoDB从Mysql5.6版本开始支持全文索引。

MyISAM、InnoDB、Memory三种存储引擎对各种索引类型的支持
| 索引 | InnoDB引擎 | MyISAM引擎 | Memory引擎 | | ----------- | --------------- | ---------- | ---------- | | BTREE索引 | 支持 | 支持 | 支持 | | HASH 索引 | 不支持 | 不支持 | 支持 | | R-tree 索引 | 不支持 | 支持 | 不支持 | | Full-text | 5.6版本之后支持 | 支持 | 不支持 |

我们平常所说的索引,如果没有特别指明,都是指B+树(多路搜索树,并不一定是二叉的)结构组织的索引。其中聚集索引、复合索引、前缀索引、唯一索引默认都是使用 B+tree 索引,统称为 索引。

1. BTREE 结构

BTree又叫多路平衡搜索树,一颗m叉的BTree特性如下:

  • 树中每个节点最多包含m个孩子。
  • 除根节点与叶子节点外,每个节点至少有[ceil(m/2)]个孩子。
  • 若根节点不是叶子节点,则至少有两个孩子。
  • 所有的叶子节点都在同一层。
  • 每个非叶子节点由n个key与n+1个指针组成,其中[ceil(m/2)-1] <= n <= m-1

以5叉BTree为例,key的数量:公式推导[ceil(m/2)-1] <= n <= m-1。所以 2 <= n <=4 。当n>4时,中间节点分裂到父节点,两边节点分裂。

插入 C N G A H E K Q M F W L T Z D P R X Y S 数据为例。

演变过程如下:

1). 插入前4个字母 C N G A

1555944126588

2). 插入H,n>4,中间元素G字母向上分裂到新的节点

1555944549825

3). 插入E,K,Q不需要分裂

1555944596893

4). 插入M,中间元素M字母向上分裂到父节点G

1555944652560

5). 插入F,W,L,T不需要分裂

1555944686928

6). 插入Z,中间元素T向上分裂到父节点中

1555944713486

7). 插入D,中间元素D向上分裂到父节点中。然后插入P,R,X,Y不需要分裂

1555944749984

8). 最后插入S,NPQR节点n>5,中间节点Q向上分裂,但分裂后父节点DGMT的n>5,中间节点M向上分裂

1555944848294

到此,该BTREE树就已经构建完成了, BTREE树 和 二叉树 相比, 查询数据的效率更高, 因为对于相同的数据量来说,BTREE的层级结构比二叉树小,因此搜索速度快。

2. B+TREE 结构

B+Tree为BTree的变种,B+Tree与BTree的区别为:

1). n叉B+Tree最多含有n个key,而BTree最多含有n-1个key。

2). B+Tree的叶子节点保存所有的key信息,依key大小顺序排列。

3). 所有的非叶子节点都可以看作是key的索引部分。

1555906287178

由于B+Tree只有叶子节点保存key信息,查询任何key都要从root走到叶子。所以B+Tree的查询效率更加稳定。

3. MySQL中的B+Tree

MySql索引数据结构对经典的B+Tree进行了优化。在原B+Tree的基础上,增加一个指向相邻叶子节点的链表指针,就形成了带有顺序指针的B+Tree,提高区间访问的性能。

MySQL中的 B+Tree 索引结构示意图:

1555906287178

四、索引的种类

1. 聚簇索引

2. 辅助索引(二级索引)

辅助索引和聚簇索引的区别

  1. 聚簇索引只能有一个,非空唯一,一般是主键
  2. 辅助索引可以有多个,是配合聚簇索引使用的
  3. 聚簇索引叶节点就是磁盘数据行存储的数据页
  4. MySQL根据聚簇索引组织存储结构,数据存储时就是按照聚簇索引的顺序进行存储数据
  5. 辅助索引只会提取索引键值进行自动排序生成B树

2.1 辅助索引的分类

2.1.1 普通索引

基本索引类型,允许在定义索引的列中插入重复值和空值,其作用只是加快数据的访问速度。

2.1.2 唯一索引

索引列的值必须唯一,可以允许有空值,可以减少查询索引列操作的时间,尤其是对比较庞大的数据表

2.1.3 单列索引

一个索引只包含单个列,一个表可以有多个单列索引

2.1.4 组合索引

在表的多个字段上组个创建索引,只有在查询条件中使用了这些字段的左边字段时,索引才会被使用

五、索引语法

1. 创建索引

1.1 创建表的时候创建索引

语法规则

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
CREATE TABLE 表名(字段名 数据类型 [完整性约束条件],
[UNIQUE | FULLTEXT | SPATIAL ] INDEX | KEY
[别名] (字段名 [(长度)] [ASC | DESC ] )
);

UNIQUE:唯一性索引
FULLTEXT:全文索引
SPATIAL:空间索引
INDEX|KEY :作用相同,用来执行创建索引
长度:指定索引的长度
ASC | DESC  升序或降序的索引值存储
1.1.1 创建普通索引
1
2
3
4
5
6
CREATE TABLE accounts(
            id int PRIMARY KEY AUTO_INCREMENT,
            username VARCHAR(20),
            password VARCHAR(20),
            INDEX(username)
            );
1.1.2 创建唯一索引
1
2
3
4
5
6
CREATE TABLE accounts(
            id int PRIMARY KEY AUTO_INCREMENT,
            username VARCHAR(20),
            password VARCHAR(20),
            UNIQUE INDEX(username)
            );
1.1.3 创建单列索引
1
2
3
4
5
6
CREATE TABLE accounts(
            id int PRIMARY KEY AUTO_INCREMENT,
            username VARCHAR(20),
            password VARCHAR(20),
            UNIQUE INDEX user(username)
            );
1.1.4 创建组合索引
1
2
3
4
5
6
CREATE TABLE accounts(
username VARCHAR(20),
email VARCHAR(50),
password VARCHAR(20),
INDEX user(username,email)
);

1.2 在已经存在的表上创建索引

1.2.1 使用ALTER TABLE语句创建索引

语法规则

1
ALTER TABLE 表名 ADD [UNIQUE|FULLTEXT|SPATIAL] [INDEX|KEY] [索引名] (字段名[(长度)] [ASC|DESC])

例:

1
ALTER TABLE accounts ADD INDEX user (username);
1.2.2 使用CREATE INDEX创建索引

语法规则

1
CREATE [UNIQUE|FULLTEXT|SPATIAL] INDEX 索引名 ON 表名 (字段名 [(长度)] [ASC|DESC])
1
CREATE UNIQUE INDEX user on accounts (username);

2. 删除索引

2.1 使用ALTER TABLE删除索引

语法规则

1
ALTER TABLE 表名 DROP INDEX 索引名;

2.2 使用DROP INDEX语句删除索引

1
DROP INDEX 索引名 ON 表名;

3. 查看索引

1
SHOW INDEX FROM city;

六、 索引建立原则

索引的设计可以遵循一些已有的原则,创建索引的时候请尽量考虑符合这些原则,便于提升索引的使用效率,更高效的使用索引。

  • 对查询频次较高,且数据量比较大的表建立索引。

  • 索引字段的选择,最佳候选列应当从where子句的条件中提取,如果where子句中的组合比较多,那么应当挑选最常用、过滤效果最好的列的组合。

  • 使用唯一索引,区分度越高,使用索引的效率越高。

  • 索引可以有效的提升查询数据的效率,但索引数量不是多多益善,索引越多,维护索引的代价自然也就水涨船高。对于插入、更新、删除等DML操作比较频繁的表来说,索引过多,会引入相当高的维护代价,降低DML操作的效率,增加相应操作的时间消耗。另外索引过多的话,MySQL也会犯选择困难病,虽然最终仍然会找到一个可用的索引,但无疑提高了选择的代价。

  • 使用短索引,索引创建之后也是使用硬盘来存储的,因此提升索引访问的I/O效率,也可以提升总体的访问效率。假如构成索引的字段总长度比较短,那么在给定大小的存储块内可以存储更多的索引值,相应的可以有效的提升MySQL访问索引的I/O效率。

  • 利用最左前缀,N个列组合而成的组合索引,那么相当于是创建了N个索引,如果查询时where子句中使用了组成该索引的前几个字段,那么这条查询SQL可以利用组合索引来提升查询效率。

    1
    2
    3
    4
    5
    6
    7
    -- 创建复合索引:
        CREATE INDEX idx_name_email_status ON tb_seller(NAME,email,STATUS);
    
    -- 就相当于
    --  对name 创建索引 ;
    --  对name , email 创建了索引 ;
    --  对name , email, status 创建了索引 ;