MySQL数据库支持多种索引,例如B树索引、哈希索引、全文索引等,本文着重讲解下B树索引。(推荐:《mysql教程》)
索引原理&本质
MySQL官方解释:索引是为MySQL提高获取数据效率的数据结构,为了快速查询数据。索引是满足某种特定查找算法的数据结构,而这些数据结构会以某种方式指向数据,从而实现高效查找数据。
B+树
MySQL一般以B+树作为其索引结构,那么B+树有什么特点呢?
树度为n的话,每个节点指针上限为2n+1
非叶子节点不存储数据,只存储指针索引;叶子节点存储所有数据,不存储指针
在经典B+树基础上增加了顺序访问指针,每个叶子节点都有指向相邻下一个叶子节点的指针,如图所示。主要为了提高区间访问的性能,例如要找key为20到50的所有数据,只要按着顺序访问路线一次性访问所有数据节点。
带顺序访问的B+树简图
局部性原理和磁盘预读
那么为什么数据库系统普遍使用B+树作为索引结构,而不选例如红黑树其他结构呢?
首先要先来介绍下局部性原理和磁盘预读的概念。
一般来说,索引本身较大,不会全部存储在内存中,会以索引文件的形式存储在磁盘上。所以索引查找数据过程中就会产生磁盘IO操作,而磁盘IO相对于内存存取非常缓慢,因此索引结构要尽量减少磁盘IO的存取次数。
为了减少磁盘IO,磁盘往往会进行数据预读,会从某位置开始,预先向后读取一定长度的数据放入内存,即局部性原理。因为磁盘顺序读取的效率较高,不需要寻道时间,因此可以提高IO效率。
预读长度一般为页的整数倍,主存和磁盘以页作为单位交换数据。当需要读取的数据不在内存时,触发缺页中断,系统会向磁盘发出读取磁盘数据的请求,磁盘找到数据的起始位置并向后连续读取一页或几页数据载入内存,然后中断返回,系统继续运行。而一般数据库系统设计时会将B+树节点的大小设置为一页,这样每个节点的载入只需要一次IO。