快速范围判断：再来一种新写法

Home > 编程技术 > 快速范围判断：再来一种新写法

快速范围判断：再来一种新写法

June 10th, 2020 skywind Leave a comment Go to comments

C 语言的魔法数不胜数，我在《C 语言有什么奇技淫巧？》中过给快速范围判断的公式，将：

if (x >= minx && x <= maxx) ...

改做：

if (((x - minx) | (maxx - x)) >= 0) ...

能有一倍的性能提升，我也提到，如果你的数据 99% 都是超出范围的那继续用 && 最快。今天再给大家介绍另外一种新写法，它有更均衡的性能，并且在最坏的情况下，任然表现良好：

if ((unsigned)(x - minx) <= (unsigned)(maxx - minx)) ...

该公式在各种测试数据中能有更均衡的表现，类型安全狂们可以写作：

if (((unsigned)x - (unsigned)minx) <= ((unsigned)maxx - (unsigned)minx)) ...

利用单次无符号整数溢出来减少指令和分支，普通情况，这个公式性能照样快接近一倍：

链接：http://quick-bench.com/EbCR9psA3lUEhpn8bYLwVtJ-FWk

为什么说它综合性能最好呢？是不是只实用于某些特殊情况呢？普通情况如何？汇编指令有啥区别？理论依据是啥？是不是只有 x86 可以用，换个平台就不行呢？下面依次回答：

（点击 Read more 展开）

只适合批量范围判断吗？

有人担心编译器批量展开，提前计算 maxx-minx ，认为有新公式只适合批量判断，单次判断每次都要算 maxx – minx，就不一定快了，是这样的么？为了阻挡编译器批量展开，提前计算 maxx – minx，我们将新老判断方法写成单独函数：

int check_range1(int32_t x, int32_t y)
{
    return (x >= minx && x <= maxx && y >= miny && y <= maxy)? 1 : 0;
}

int check_range2(int32_t x, int32_t y)
{
    return (((uint32_t)(x - minx)) <= ((uint32_t)(maxx - minx)) &&
      ((uint32_t)(y - miny)) <= ((uint32_t)(maxy - miny)))? 1 : 0;
}

然后用函数指针传递给测试函数，编译器没法知道用的是哪一个了，照样很快：

链接：http://quick-bench.com/VCkWBddIhOuqaHgSeXbUwASdtaM

所以该算法同样适合单次判断的情况，但是如果确实是批量判断，该方法由于可以提前计算后半部分，的确可以拿到开头一次计算好，获得更好的性能加持。

范围只能写全局变量么？

有人觉得范围都是全局变量有点写死了，如果当作参数传进去会不会变慢呢？并不会：

链接：http://quick-bench.com/pRw8SHX52x98E6YuqiYKOZpEjqw

新例子中，定一个矩形 Rect 来表示 x 和 y 的范围，每次同 x, y 一起传递进去。

最坏情况有多坏？

如果 99% 的数据都是范围外的，比如我们把 rand() % N 改为 rand() 去掉后面的 %N 范围限制，或者收缩 min/max 范围，手工把所有数据做成范围外的：

链接：http://quick-bench.com/xWvh59BTMWuxENldScDnycQIesQ

嗯，这就是最坏情况，基本看不出区别来，去掉随机数，把 rand() 直接改为 i 结果也一样的。当然，新方法在最坏情况下比传统 && 还是有略微的差距的，慢了 0.2%，基本可以忽略，除此之外，基本都能快出一倍去。

各种数据范围表现如何？

我们分别改写 minx, maxx, miny, maxy 为不同范围：

百分之 0：minx=0, miny=0, maxx = 0, maxy = 0，所有样本都在范围外：

性能几乎相等：http://quick-bench.com/cVmpxgWkEslFoJxm8vC0sIoIpSg

百分之25：minx = 1000, miny = 5000, maxx = 3500, maxy = 7500 少量在范围内：

新方法快 40%：http://quick-bench.com/jqlNnQtL6DVLItufTEO17b-Todw

百分之 50：minx = 1000, miny = 4000, maxx = 6000, maxy = 9000 一半一半：

新方法快 30%：http://quick-bench.com/0o0Vy5jKK3h9R8FqHMmp43yu-DY

百分之 75%：minx = 1000, miny = 2000, maxx = 8500, maxy = 9500 大部分范围内：

新方法快 30%：http://quick-bench.com/C-UJWmH-CTve697O0Ovbd673cbA

百分之90：minx=100, miny=500, maxx=9100, maxy=9500 少量不在范围：

新方法快 10%：http://quick-bench.com/ueByR3TOtXibmItryTpsJzBRjZA

百分之百：minx=0, miny=0, maxx = 9999, maxy=9999, 所有数据都在范围内：

几乎相同：http://quick-bench.com/saRWQ2Xieh89EC5dRq8vMTLPJjY

总结一下：

0% 的数据在范围内：几乎相同，新算法略慢 0.2%
25% 的数据在范围内：新算法快 40%
50% 的数据在范围内：新算法快 30%
75% 的数据在范围内：新算法快 30%
90% 的数据在范围内：新算法快 10%
100% 的数据在范围内：几乎相同，新算法略快 0.04%

可以发现，除了最坏情况，请他所有数据范围都是新方法更快。补充一下，最后所有数据都在范围内时，由于 CPU 分支预测全中，所以看起来差不多。

为什么前面的测试新方法可以快一倍去，这里的测试只快 30%-40% 呢？很简单，额外开销不同，导致看起来优化看起来不一样，但快还是快，慢还是慢。

新快速范围判断和上一版的区别？

新版本公式用的指令数量和占用周期数比第一个版本更少，表现更平均，最坏情况没那么坏，最好情况也没第一个版本那么好，但大部分情况都比 && 快不少。

新方法为什么会快？

首先新方法生成的指令更少：

int range_check1(int v, int min, int max)
{
    return v >= min && v < max;
}

int range_check2(int v, int min, int max)
{
    return (unsigned) (v - min) < (max - min);
}

对于简单的调用求值， gcc -O3 生成的指令是：

range_check1(int, int, int):
    cmp edi, esi
    mov r8d, edx
    setge dl
    xor eax, eax
    cmp edi, r8d
    setl al
    and eax, edx
    ret
range_check2(int, int, int):
    sub edi, esi
    sub edx, esi
    xor eax, eax
    cmp edi, edx
    setb al
    ret

skylake 下面：

mov: latency=0-1cc, thoughput=0.25cc
add/sub/xor/and: latency=1cc, thoughput=0.25cc
cmp：latency=1cc, thoughput=0.5cc
setcc: latency=1cc, thoughput=1cc

延迟代表指令需要的执行周期，吞吐代表指令能够并行执行的情况，0.25cc 代表一个周期内允许四条该指令并行运行，可以看得出因为运算结果简单，现在的编译器都是直接条件指令 setxx 来进行运算的，但是任然是新方法的周期更短，并行程度更高。

你换个编译器，比如 vc，或者老的 gcc，没有优化到这里，条件跳转就出来了：

int range_check1(int,int,int) 
    cmp ecx, edx
    jl SHORT $LN3@range_chec
    cmp ecx, r8d
    jge SHORT $LN3@range_chec
    mov eax, 1
    ret 0
$LN3@range_chec:
    xor eax, eax
    ret 0

int range_check2(int,int,int) 
    xor eax, eax
    sub ecx, edx
    sub r8d, edx
    cmp ecx, r8d
    setb al
    ret 0

这种情况下，老方法几次条件跳转将会导致清空多级流水线，不管什么处理器都会非常慢。在这些老版本编译器，或者其他平台的编译器下面，新方法会快的更多。

新版编译器会生成条件指令 setxx 似乎可以有效的减分支，但是别高兴的太早，只要情况稍微复杂点，比如 if 里面多做点事情而不是直接返回，那么 setxx 就挂掉了。我们举个比较现实的例子，画点函数的范围判断：

void write_pixel(int x, int y, int c);

void draw_pixel1(int x, int min, int max)
{
    if (x >= min && x < max) {
        write_pixel(x, x, 0xffffff);
    }
}

void draw_pixel2(int x, int min, int max)
{
    if ((unsigned) (x - min) < (max - min)) {
        write_pixel(x, x, 0xffffff);
    }
}

为了分析简单，这里只用了一个变量 x ，判断范围合法后，会调用实际画点函数 write_pixel 来在内存里或者硬件 frame buffer 中写入实际的数值，最新 gcc -O3 下面（clang 类似）：

draw_pixel1(int, int, int):
    cmp edi, esi
    jl .L1
    cmp edi, edx
    jl .L10
.L1:
    ret
.L10:
    mov edx, 16777215
    mov esi, edi
    jmp write_pixel(int, int, int)

draw_pixel2(int, int, int):
    mov eax, edi
    sub edx, esi
    sub eax, esi
    cmp eax, edx
 jb .L13
    ret
.L13:
    mov edx, 16777215
    mov esi, edi
    jmp write_pixel(int, int, int)

这种情况下前面有 2 个分支，后者只有 1 个分支，虽然后面指令数量相同，但是你别比指令数量，加减只要 1 个周期，并且可以并行四条指令同时执行；而条件跳转 jl 即便命中也是2 个周期，并且不可并行执行，如果分支预测失败，多级流水线一刷新，就等死吧。

分支失效有多严重？

不管是 x86 还是 arm，现代 CPU 优化就几个主要方向：分支优化，缓存优化，并行优化，竞争优化。每条指令执行虽然有的只有 1-2 个周期，但这是指在执行单元里耗费的周期数，现在 CPU 都有多级流水线，如 skylake 就有 16 级流水线，每条指令要经过 16 个步骤，分别是：取指令，解码，分配队列位置，依赖分析，乱序处理，调度，等等一系列，最后才是执行和结果写回。没有分支时，每级流水线单周期可以并行处理多条指令，处理完立即交给下一级。但是分支预测如果失效，比如 16 级流水线清空一半，这代价是非常大的。

所以减分支，依然是局部优化的一个重要方向，你并不能什么都依赖编译器，某些分支编译器模式匹配上了可以帮你减，但是写高性能代码，任然需要把这个原则记熟。

其他平台还有效么？

同样有效，上面提到了，现代处理器的共性，这个写法在《ARM 优化手册》里提过：

可以等待编译器优化么？

你也可以给编译器提 BUG，但是你基本要等 1-2 年，才能等来一个新的稳定的 toolchain，在此之前，如果你有方法写出快竞争对手两倍的代码，不是很好么？再，比如你做游戏开发，你的代码一会要在 PC 上，一会要在 Playstation 上编译，你并不能决定你用什么编译器，甚至不少平台你用不了最新的编译器。

编译器的优化是模式匹配，代码的组合却是千变万化的，希望有限的模式匹配来覆盖变化无穷的实际代码是不现实的，归根结底还是掌握了解高性能开发的常用思路和方法。

热点路径用汇编优化呢？

有些人觉得 C 代码就老老实实写慢的代码，要快的时候针对不同平台用汇编写如何呢？这是个谬论，你完全不知道你的 C 代码可能被编译到什么平台，且不说大部分程序员写不了比编译器更快的汇编，即便能写，最有效的实践是，先针对通用的 CPU 共性先写出一份通用的足够高效的 C 代码，保证可以任何平台运行，再此基础上，挑选一些个热点路径，针对特定平台来写汇编优化代码。所以不管用不用汇编进行优化，写出足够高效的 C 代码是第一步。

快速范围判断代码不容易理解？

很多人觉得这类优化代码不容易理解，不够直观，宁愿提高可读性，首先，不是提倡你把所有 if 语句都要换掉，而是关键核心路径上使用一下即可，其次，如果你写熟练了，并不会难以理解，一眼看过去就知道干什么，就像熟悉正则表达式的人和不懂的人看同一个正则代码的区别。

最后，代码优化有两个方法，除了复杂变简单外还有简单变复杂，很多高度优化的代码本身就是很难理解的，比如我们映像里的 strlen 是：

size_t strlen(const char *p) {
    const char *s = p;
    while (*p) p++;
    return (size_t)(p - s);
}

很好理解，对吧，一看就懂，而实际 glibc 中，高度优化的 strlen 长这样：

size_t strlen (const char *str) {
    const char *char_ptr;
    const unsigned long int *longword_ptr;
    unsigned long int longword, himagic, lomagic;
    for (char_ptr = str; ((unsigned long int) char_ptr & (sizeof (longword) - 1)) != 0; ++char_ptr)
        if (*char_ptr == '\0')
            return char_ptr - str;
    longword_ptr = (unsigned long int *) char_ptr;
    himagic = 0x80808080L;
    lomagic = 0x01010101L;
    if (sizeof (longword) > 4) {
        himagic = ((himagic << 16) << 16) | himagic;
        lomagic = ((lomagic << 16) << 16) | lomagic;
    }
    for (;;) {
        longword = *longword_ptr++;
        if (((longword - lomagic) & ~longword & himagic) != 0) {
            const char *cp = (const char *) (longword_ptr - 1);
            if (cp[0] == 0) return cp - str;
            if (cp[1] == 0) return cp - str + 1;
            if (cp[2] == 0) return cp - str + 2;
            if (cp[3] == 0) return cp - str + 3;
            if (sizeof (longword) > 4) {
                if (cp[4] == 0) return cp - str + 4;
                if (cp[5] == 0) return cp - str + 5;
                if (cp[6] == 0) return cp - str + 6;
                if (cp[7] == 0) return cp - str + 7;
            }
        }
    }
}

可以一次性计算 8 个字节内有没有包含 0，平时你写性能不那么敏感的代码当然怎么清晰怎么来，但是你想写性能极致优化的代码，自然要考虑这些局部优化的手段。

全局优化 vs 局部优化？

全局优化强调的是先把程序清晰的写完，再考虑数据流，算法，结构等一系列宏观的东西，否则一开始陷入局部优化了最后可能发现不是重点，这没问题，我从来不否定全局优化的思路。

但是也不要忽视局部优化的两个意义：情况一，再你全局优化已经无能为力的情况下，算法和数据结构都没得弄了，对热点路径使用局部优化手段还能将你的程序性能推上一个新台阶。情况二，再你开发某些高性能 sdk 为其他程序提供支持，本身就没有全局概念的时候，或者你已经预感某函数未来可能会被非常频繁的调用，那么局部优化就是用来研究，在不管其他代码的情况下，如何将某一个函数的性能优化到极致，就像上面的 strlen 实现一样。

所以全局和局部优化两种思路同等有用，觉得只需要一种，并不需要另外一种的认识，都是不够全面的。

Skywind Inside

快速范围判断：再来一种新写法

只适合批量范围判断吗？

范围只能写全局变量么？

最坏情况有多坏？

各种数据范围表现如何？

新快速范围判断和上一版的区别？

新方法为什么会快？

分支失效有多严重？

其他平台还有效么？

可以等待编译器优化么？

热点路径用汇编优化呢？

快速范围判断代码不容易理解？

全局优化 vs 局部优化？

Categories

Recent Comments

Meta

Categories

Blogroll

Archives

Meta

Skywind Inside

快速范围判断：再来一种新写法

只适合批量范围判断吗？

范围只能写全局变量么？

最坏情况有多坏？

各种数据范围表现如何？

新快速范围判断和上一版的区别？

新方法为什么会快？

分支失效有多严重？

其他平台还有效么？

可以等待编译器优化么？

热点路径用汇编优化呢？

快速范围判断代码不容易理解？

全局优化 vs 局部优化？

Popular Posts

Tag Cloud

Categories

Recent Comments

Meta

Categories

Blogroll

Archives

Meta