Home > 编程技术 > Android Arm 编译优化选项评测

Android Arm 编译优化选项评测

用不同测试用例具体测试 softfp, armv7-a, cortax 等优化选项,看选项不同性能差别多大。首先设计下面几个测试用例,包含字符串处理、复杂逻辑、整数运算、浮点运算几个方面:

  • compress:进行 LZO/LZW 大规模压缩,测试搜索,字符串匹配,复杂分支等性能
  • resample:进行一系列整数 DSP 运算,包括 resample 和 fir low pass
  • int add:一亿次整数加法
  • int mul:一亿次整数乘法
  • int div:一亿次整数除法
  • float add:一亿次浮点加法
  • float mul:一亿次浮点乘法
  • float div:一亿次浮点除法
  • const div:一亿次整数除以常数255
  • matrix:若干次矩阵乘法运算,同时考察浮点数乘法加法
  • normalize:若干次矢量归一化运算,同时考察浮点数乘法,除法,加法,sqrt

其次对安卓的几个 gcc 的编译选项进行分别测试:

  • -mfloat-abi=softfp,如果有硬件浮点处理器将会使用硬件,如果没有会转移到软件模拟
  • -march=armv7-a,生成适合 armv7a 架构的代码
  • -mtune=cortex-9,代码生成按照 cortex-9 进行调优
  • –mfpu=neon,使用 neon 进行硬件浮点运算,决定 softfp 的硬件方式到底用这个
  • -mfpu=vfp,使用 vfp 进行硬件浮点运算,决定 softfp 的硬件方式用这个

测试硬件:

  • 桌面电脑:Intel® Core™ i5-2520M CPU @ 2.50GHz
  • 安卓手机:三星,双核 CPU 1.73GHz armv7-a cortex-9

结果如下:

Desktop PC -O2:
    compress : 120 ms
    resample : 290 ms
    int add  : 78 ms
    int mul  : 86 ms
    int div  : 459 ms
    float add: 76 ms
    float mul: 69 ms
    float div: 797 ms
    const div: 190 ms
    matrix   : 166 ms
    normalize: 177 ms

samsung -O2:
    compress : 577 ms
    resample : 576 ms
    int add  : 291 ms
    int mul  : 332 ms
    int div  : 2267 ms
    float add: 3080 ms
    float mul: 1792 ms
    float div: 7103 ms
    const div: 779 ms
    matrix   : 9280 ms
    normalize: 5721 ms

samsung -O2, -mfloat-abi=softfp:
    compress : 540 ms
    resample : 558 ms
    int add  : 291 ms
    int mul  : 333 ms
    int div  : 2268 ms
    float add: 266 ms
    float mul: 270 ms
    float div: 986 ms
    const div: 780 ms
    matrix   : 301 ms
    normalize: 702 ms

samsung -O2, -mfloat-abi=softfp, -march=armv7-a:
    compress : 497 ms
    resample : 489 ms
    int add  : 537 ms
    int mul  : 331 ms
    int div  : 2342 ms
    float add: 266 ms
    float mul: 270 ms
    float div: 986 ms
    const div: 703 ms
    matrix   : 371 ms
    normalize: 701 ms

samsung -O2, -mfloat-abi=softfp, -march=armv7-a, -mtune=cortex-a9:
    compress : 493 ms
    resample : 517 ms
    int add  : 626 ms
    int mul  : 408 ms
    int div  : 2381 ms
    float add: 266 ms
    float mul: 271 ms
    float div: 987 ms
    const div: 703 ms
    matrix   : 302 ms
    normalize: 701 ms

samsung -O2, -mfloat-abi=softfp, -march=armv7-a, -mtune=cortex-a9, -mfpu=neon:
    compress : 498 ms
    resample : 474 ms
    int add  : 514 ms
    int mul  : 330 ms
    int div  : 2511 ms
    float add: 267 ms
    float mul: 269 ms
    float div: 987 ms
    const div: 711 ms
    matrix   : 302 ms
    normalize: 672 ms

samsung -O2, -mfloat-abi=softfp, -march=armv7-a, -mtune=cortex-a9, -mfpu=vfpv4:
    compress : 738 ms
    resample : 616 ms
    int add  : 590 ms
    int mul  : 360 ms
    int div  : 2458 ms
    float add: 270 ms
    float mul: 274 ms
    float div: 996 ms
    const div: 718 ms
    matrix   : 306 ms
    normalize: 687 ms

 

同PC的各项性能比较,手机上的执行时间除以PC的时间

image

 

结果分析:

换了几款手机,测试结果差别不大(各个项目比例区别不大),

主流手机中,浮点数加减乘除皆快过整数加减乘除,很多库的定点数编译选项应该关闭了

最重要的编译选项是 –mfloat-abi=softfp,加上后浮点性能从默认软件模拟方式提升十倍。

增加:-march=armv7-a 计算压缩有 8%-10%左右提高,但是整数加法性能明显下降。

-mtune=cortex-a9 提高基本看不出来

Categories: 编程技术 Tags:
  1. October 28th, 2015 at 14:03 | #1

    。。。。。。。。。。

  2. embooster
    December 17th, 2015 at 20:14 | #2

    测试工具是哪个?

  3. December 22nd, 2015 at 15:10 | #3

    @embooster
    测试工具是ndk,写点小代码测试。

  1. No trackbacks yet.

Wordpress Social Share Plugin powered by Ultimatelysocial