Mysql索引最佳实践笔记0524

#mysql5.7 innodb默认存储引擎

一、关于索引
二、最佳实践
三、避坑实践

一、关于索引
   1.索引的作用
          -提高查询效率
          -数据分组、排序
          -避免回表查询
          -优化聚集查询
          -用于多表join关联查询
          -利用唯一性约束、保证数据唯一性
          -innodb行锁实现

    #索引的“作用”(副作用)
                -增加io成本
                -增加磁盘空间
                -不适合的索引,或索引过多,都不是好事

    

    #索引类型
          -BTREE (B+ tree或B-tree),INNODB &MYISAM
          -Fractal TREE,TokuDB
          -HASH(用于内存的存储引擎),HEAP,NDB,INNODB AHI
          -RTEE
          -FULLTEXT
    #针对b+tree索引

    #聚集索引

            -一种特殊的索引,其key值顺序决定了表数据行的物理顺序(相对)顺序
            -每张表只能建一个聚集索引,除了tokudb引擎
            -innodb中,聚集索引即表,表即聚集索引(innodb存储了整行的数据)
            -myisam没有聚集索引的概念

      #聚集索引优先选择列
                   -int、bigint
                   -数据连续(单调顺序)递增、自增

      #不建议的聚集索引类型
                  -频繁的修改列
                  -新增数据太过随机或离散
                  -uuid、字符串、随机数。不建议设置聚集索引

      #主键索引(具体的索引列)
                  -由一个列或多个列组成
                  -用于唯一表示表中的某一条记录&外键约束
                  -主键值不能重复,也不能包含null

      #主键选择建议:
                  -对业务透明,无意义,免受业务变化的影响
                  -几乎不修改和删除
                  -自增int、bigint最佳
      #innodb聚集索引选择次序原则
                  1.显示声明的主键
                  2.第一个not nullable的唯一索引
                  3.上述两者都没,则选择内置rowid作为聚集索引(实例级,6bytes
      #全局rowID
            rowid作为聚集索引缺点:
                        1)整个实例来分配的rowid
                        2)不是每个表单独分配的rowid
                        3)rowid是全局的rowid,每个表的rowid都是跳跃的

      #innodb主键特点:
                -索引定义时,不管有无显式包含主键,实际都会存储主键值;
                -在5.6.9以后,优化器异能自动识别索引末尾的主键值(index Extensions)
                -,在这之前则需要显式加上主键才可以被识别;

                -where c1=? and pk=?
                -where ci=? order by pk(主键列)

      #辅助索引
                -又称为非聚集索引,或者二级索引,俗称普通索引
                -当通过innodb辅助索引查找数据时,辅助索引会通过页级的指针找到主键索引的主键,
                -然后通过该主键索引找到相应的行数据

                ex:c1=>(c1.pk)=>pk=>row data

      #聚集索引
            ex:
              create table x(
              id int(10) unsigned not null auto_increment,
              uid int(10) unsiged not null default ‘0’, #uid为辅助索引
              user varchar(20) not null default ‘‘,
              passwd varchar(40) not null default ‘‘,
              primary key(id), #id为聚集索引
              unique key uid(uid),#唯一的辅助索引
              )ENGINE=Innodb
              --------------------------------------------

            以下视图是开了,innodb—monitor内部结构显示的信息
                   TABLE:....
            COLUMNS:...
                uid:...
               user:...
             DB_ROW_ID:...
          DB_ROLL_PTR:...
             INDEX:name PRIMARY,id 54,fields 1/6,uniq 1,tyep 3 #聚集索引选择主键为聚集索引,总共6个列,显示定义一个列
             root page 3,appr.key vals 0,leaf pages 1,size pages 1
             FILEDS:id DB_TRX_ID DB_ROLL_PTR uid user passwd #聚集索引后面跟着两个隐藏列分别为:DB_TRX_ID事物ID,DB_ROLL_PTR回滚指针,还有其他的功能列
             INDEX:name uid.id 55,fields 1/2,uniq 2,type 2 #辅助索引,总共2个类,定义了一个列。实际存储为两个列。辅助索引总是跟着主键的值,才能根据uid找到主键的值。
              root page 4,appr.key vals 0,leaf pages 1,size pages 1
             FIELDS:uid id

    #innodb索引图

                    [ ]
                  +---+---+ internal nodes
                  |    |   |
                 [     ] [    ]  [   ]

              -------------------------------------------

              [3 ]       [ ]        [99 ]        [ ]       [4700]
                                      --> [TID] --> [ ] --> [TID] --> [ ] --> [TID ] -->      inndb clustered
                                             [RP ]       [ ]       [RP ]        [ ]       [RP ]              indexleaf nodes
                                           【93 】   【 】   【8 】     【 】    【13 】

                                      [ ]Primary key columns (col1)
          [TID]Transaction ID
          [RP ]Rollback Pointer
          【 】Non-Pk columns(col2)

      #联合索引
            -多列组成,所以也叫多列索引
            -适合where条件中的多列组合
            -有时候,还可以用于避免回表(覆盖索引)
            -MySQL还不支持多列不同排序规则(MySQL8.0起支持)
            nnodb_table_monitor
            -联合索引建议:
                    -where条件中,经常同时出现的列放在联合索引中
                    -把选择性(过滤性、基数)大的列放在联合索引的最左边
                ex:
                  a=? and b=? and c=?
                  a>? and b=? and c=?
                  建议:(b,c,a)
      #部分索引
            - 部分索引的原因
                    -char/varchar太长全部做索引的话,效率太差,存在浪费
                    -或者blob/text类型不能整列作为索引列,因此需要使用前缀索引
            -部分说要选择建议
                    -统计平均值
                    -满足80%~90%覆盖度就够
            -缺点
                    -无法利用前缀索引完成排序
              ex:
                  username varchar(50)
                  统计平均长度
                  selelct avg(length(username)) from tt;
                  50*3=150
                  username(18) 18*3=54
                  *3-表示utf8以三个字节表示的
      #覆盖索引
            -通过索引数据结构,即可直接返回数据,不需要回表
            -执行计划中,Extra列会显示关键字using index


      #innodb索引特点
                - 索引最大长度767bytes
                -启用innodb_large_prefix,增加到3072bytes,只针对DYNAMIC、COMPRESSED格式管用
                ex:
                  show table status like ‘x1‘\G
                  --------------1.row---------------
                        Name:x1
                        Engine:innodb
                         Version:10
                     Row_format:Dynamic
                        Rows:14
                   Avg_row_length:1170


              -对于REDUNDANT、COMPACT格式,最大索引长度还是767bytes
              -MyISAM表索引最大长度是1000bytes
              -最大排序长度默认是1024(max_sort_length)

        #索引统计
              -show index from table
              -select * from information_sechma.statistics
              -mysql.innodb_index_stats

              -innodb_stats_auto_recalc
                -默认启用,当修改数据量>10%,自动更新统计信息
              -innodb_stats_persistent
                -统计信息持久化存储,默认启用
              -innodb_stats_persistent_sample_pages
                -统计信息持久化存储时,每次采集20个page
            ex:
              随机采集,不连续。五个索引,采集100page。每个表,每个分区,每个索引采集20个page

              -inoodb_stats_on_metadata
                -默认禁用,访问meta data时更新统计信息

              -innodb_stats_persistent=0
                -统计信息不持久化,每次动态采集,存储在内存中,重启实效(需要新统计),不推荐
              -innodb_stats_transient_sample_pages
                -动态采集page,默认8个
              -每个表设定统计模式
                -create/alter table ...stats_persistent=1,stats_auto_recalc=1,
                  stats_sample_pages=200;
                -参考:细说ANALZE TABLE

      #EXPLAIN之type
                -all
                  -全表扫描,最糟糕的情况
                -index
                  -全索引扫描,大部分情况下,一样糟糕

      #EXPLAIN之key_len
                -正常的等于索引列字节长度
                -字符串类型需要同时考虑字符集因素
                -若允许null,再+1
                -变长类型(varchar),在+2
                -key_len只计算利用索引完成数据过滤时索引长度
                -不包括用于GROUP BY/ORDER BY 的索引长度

              ex:
                -int 4 bigint 8
                -index:(int_col1,bigint_col2)
                -where int_col1=? order by bigint_col2 #key_len 长度为4,不是4+8=12。key_len不包括order by后面的长度
    #EXPLAIN之extra
              -Using filesort
                -没有办法利用现有索引进行排序,需要额外排序
                -建议:根据排序需要,创建相应合适的索引
              -Using index
                -利用覆盖索引,无需回表即可取得结果数据
              -Using temporary
            -需要用临时表存储结果集,通常是因为group by的列上没有索引。也有可能是因为同时有group by和order by,但group by和order by的列又不一样

      #查看索引利用率
              -查看每个索引使用情况
              #select index_name,rows_selected,rows_updated,
              rows_deleted from schema_index_statistics where
              table_schema=’world’ and table_name=’city’;
              +---------------+----------------+----------------+--------------+
              |index_name     | rows_selected| rows_updated | rows_deleted |
              | PRIMARY     |            33131 |                      0 |                     0 |
              | CountryCode |                103 |        0 |        0 |
               |+---------------|----------------+-----------------+--------------+

              #mysql 5.7 默认启用p_s

      #查看冗余索引

            #select * from schema_redundant_indexes where
            table_schema=’test’ and table_name=’tutf8’\G
            *******************1.row***********************
                table_schema:test
                 table_name:t1
           redundant_index_name:c2_2
            redundant_index_columns:c2
        redundant_index_non_unique:1
            dominant_index_name:c2
            doinant_index_columns:c2
          dominant_index_non_unique:1
                 subpart_exists:1
                  sql_drop_index:ALTER TABLE ‘test’.’t1’ DROP INDEX ‘c2_2’


                ex:
                  index1:c1
                  index2:c1,c2
                  index1是index2的冗余索引
                    #冗余索引不一定可以删除,特殊场景视情况分析

              -index k1(a,b,c)
              -index k2(a,b)
              -一般认为,k2是k1的冗余索引
              -但下面的sql则只有k2才管用
                  - where a=? and b=? and pk=?;
                  -where a=? and b=? order by pk;

      #查看无用索引
              #select * from schema_unused_indexes
                where object_schema=’test’ and object_name=’t1’;
                  +------------------+------------------+-------------+
                  | object_schema   | objdect_name | index_name |
                  +------------------+------------------+--------------+
                  | test        |        t1 |      k1 |
                  +------------------+-------------------+-------------+

      #索引为何不可用
              -通过索引扫描的记录数超过20%~30%,可能会变成全表扫描
              -联合索引中,第一个查询条件不是最左索引列
              -模糊查询条件列最左以通配符%开始
              -HEAP表使用HASH索引时,使用范围检索或者ORDER BY
              -多表关联时,排序字段不属于驱动表,无法利用索引完成排序
              -JOIN查询时,关联列数据类型(字符集)不一定也会导致索引不可用

      #类型隐式转换
              #desc select * from t1 where u2=123\G
              *****************1.row***************
                      id:1
                  select_type:SIMPLE
                      table:t1
                    partitions:NULL
                      type:ALL
                  possible_keys:u2
                        key:NULL
                      key_len:NULL
                        ref:NULL
                      rows:102176
                     filtered:10.00
                      Extra:Using where
              #us=123 出现隐式转换无法利用到索引,视为ASCII
              us=’123’ 可以利用索引,支持字符串

      #MYSQL 5.6/5.7
      #desc select * from t1 where gmt_create between date_add(now(),interval - 1 minute)
        and date_add(now(),interval 15 minute)\G
        **************1.row**********************
                    id:1
              select_type:SIMPLE
                        table:t1
                      type:ALL
          possible_keys:ind_gmt_create
                           key:NULL
                        rows:2849555
                        Extra:Using where

      |Warning | 1739 | Cannot use range access on index ‘index_gmt_create’
        due to type or collation conversion on field ‘gmt_create’

        #gmt_create 日期时间会出现隐式转换,在底层被修改为int类型

二、索引最佳实践
        -mysqld进程cpu占用长期较高时,99.99%时因为索引不当导致
        #top 执行时:
              %CPU 362.3 121.7
              COMMAND mysqld
              这种现象基本都是用不到索引,高频度列用不到索引


-mysql内用户线程状态经常看到Sending data,也基本上是因为索引不当导致
#mysqladmin pr|grep -v Sleep
+----+-------+--------------+--------+-----------+-------+-------------+------------+
| id | user | host | db | command | time | state | info |
+-----+-------+--------------|+-----+|---------+-------+-------------+--------------|
| 25 | x | 10.x.8519 | db | Query | 68 |Sending data | select ...|
| 26 | x | 10.x.8520 | db | Query | 65 |Sending data | select ...|
| 28 | x | 10.x.8522 | db | Query | 130 |Sending data | select ...|
| 27 | x | 10.x.8521 | db | Query | 167 |Sending data | select ...|
| 36 | x | 10.x.8727 | db | Query | 174 |Sending data | select ...|
+|-----+------+---------------|------|-----------|------|---+-------+---|----------+-|

三、避坑实践
-所有主要列都创建单独索引
-长varchar列创建索引
-基数低的列单独创建索引,或者放在联合索引的最左边
-mysql不支持位图索引

#相关参数优化
-sort-buffer-size/join-buffer-size/read-rnd-buffer-size,4~8MB为宜
-optimizer_swich=”index_condition_pushdown=on,mrr=on,mrr_cost_based=off,batched_key_access=on”
-tmp-table-size=max-heap-table-size,100MB左右为宜
-log-queries-not-using-indexes& log_throttle_queries_not_using_indexes



#MySQL8.0+新变化
-倒叙索引 #(a asc,b desc)
-不可见索引 #不常用索引

#附资料
-由浅入深理解innodb的索引实现
-mysql索引值聚集索引
-B+ 树索引和哈希索引的区别
-10分钟让你明白mysql是如何利用索引的
-老斯基带你解锁mysql8.0索引新姿势
-mysql排序内部原理探秘
-index extensions特性介绍
-细说ANALZE TABLE
-解读EXPLAIN执行计划中的key_len
-innblock|innodb page 观察利器
-听说join的列类型一定要一样
-UPDATE能走索引还会锁全表吗
-索引、提交频率对innodb表写入速度的影响
-为什么innodb表要建议自增列做主键
-典型性索引引发CPU负载飙升问题
-UPDATE时主键冲突引发的思考
-单节点可用方案http://github.com/zhishutech/

上一篇:[编织消息框架][JAVA核心技术]cglib动态代理


下一篇:20165234 《Java程序设计》实验一 Java开发环境的熟悉