高性能计算-探究循环分块优化cache miss(13)(接2-1)

1. 目标:分析循环分块优化技术,并分析cache 命中情况

假设每个cacheline可以存储b个数据元素。

2. 源代码分析

for( int i=0;i<N;i++)
{
	for(int j=0;j<M;j++)
	{
		A[i] += B[j];
	}
}

cache miss分析:

对A总访问次数为 NM,每次访存加载一个cacheline 可以加载b个元素,并且连续访问,该cacheline所有元素在依次被访问前不会被替换掉,共需访存加载cacheline N/b次,每次加载都有一次miss,所以A共有N/b次miss;对B共访问 NM次,当M足够大时,cache无法装载整个数组B,内层一次循环需访存M/b次,N个循环共访存加载cacaheline NM/b次,每加载一次cacheline有一次miss,所以B在全部循环中 miss NM/b。总共 N/b + NM/b次 miss。

3. 循环分块优化

原理:源码中对B的访问miss过高,B cacheline被反复加载,考虑提高B cacheline 加载一次的利用效率,可考虑每加载一次,完成相应所有A元素的访问,假设L1 cache可以满足 A所有元素 cacheline 遍历和 若干组 B cacheline 的计算需求;加载 B cacheline 组的数量不应太大,假设里面包含了 T 个元素应有 T=nb , T,b << M,N。保证访问B[T-1]时,B[0]仍在 cache 中。

代码思路:对高miss 数据的访问索引分块,作为最外层循环控制变量,并在最内层循环控制块内循环。

for(int j=0;j<M;j+=T)
{
	for(int i=0;i<N;i++)
	{
		for(int t=0;t<T;t++)
			A[i] += B[i]; 
	}
}

cache miss分析:

A元素索引i的访问在内2层循环,每次循环共访问N次,每次访问一个cacheline有一个misss,所以每次循环有N/b个不命中,由于j是分块访问,共有 M/b个循环,所以A元素miss为 N/b *(M/T);B元素的访问最内层循环每次循环有 T/b个miss,T的取值为b的倍数并且不能太大,当访问B[T-1]时B[0]仍在cache中,对于第二层i的遍历,此时B[j]元素都在cache中,不影响第三层B元素 miss 数量,共有 M/T 次循环,所有B元素miss为 T/b *(M/T) = M/b。总共 MN/bT + M/b 次 miss。

4. 对比总结

分块前后AB全部miss比为(N/b+MN/b)/ (MN/bT + M/b) ,当MN足够大时,计算极限得 T。

分块后 A的miss增加,B的miss减少,总misss数为原来的 1/T。

上一篇:准备阶段 Profiler性能分析工具的使用(一)


下一篇:初识ArkUI