Change 16-bit swizzle from vector to C arrays #190

sterrettm2 · Mar 27, 2025

This gives around a 4x speedup for int16_t and uint16_t, and a small speedup for _Float16.

Benchmark                                                                 Time             CPU      Time Old      Time New       CPU Old       CPU New
------------------------------------------------------------------------------------------------------------------------------------------------------
[simdsort/random_10m/ vs. simdsort/random_10m/]uint64_t                -0.0050         -0.0050      76843507      76455793      76842001      76455226
[simdsort/random_10m/ vs. simdsort/random_10m/]int64_t                 -0.0032         -0.0031      77150199      76902515      77140564      76900428
[simdsort/random_10m/ vs. simdsort/random_10m/]uint32_t                -0.0044         -0.0044      31186978      31048516      31183252      31044913
[simdsort/random_10m/ vs. simdsort/random_10m/]int32_t                 -0.0044         -0.0043      31110415      30974272      31107703      30973732
[simdsort/random_10m/ vs. simdsort/random_10m/]uint16_t                -0.7547         -0.7548     113662270      27878061     113660292      27874788
[simdsort/random_10m/ vs. simdsort/random_10m/]int16_t                 -0.7572         -0.7572     114264023      27737899     114252418      27735801
[simdsort/random_10m/ vs. simdsort/random_10m/]float                   -0.0045         -0.0045      30462857      30326576      30462539      30325958
[simdsort/random_10m/ vs. simdsort/random_10m/]double                  -0.0078         -0.0079      63941783      63443562      63939974      63432449
[simdsort/random_10m/ vs. simdsort/random_10m/]_Float16                -0.1168         -0.1168      77634297      68570359      77623152      68554958
OVERALL_GEOMEAN                                                        -0.2814         -0.2815             0             0             0             0

r-devulap

LGTM. Thanks for fixing it!

Pulls in 2 major changes: (1) Fixes a performance regression on 16-bit dtype sorting (see intel/x86-simd-sort#190) (2) Adds openmp support for quicksort which speeds up sorting arrays > 100,000 by up to 3x. See: intel/x86-simd-sort#179

Change 16-bit swizzle from vector to C arrays

dc80d20

r-devulap approved these changes Mar 27, 2025

View reviewed changes

r-devulap merged commit 9fd995b into intel:main Mar 27, 2025
11 checks passed

r-devulap mentioned this pull request Apr 1, 2025

ENH: Use openmp on x86-simd-sort to speed up np.sort and np.argsort numpy/numpy#28619

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Change 16-bit swizzle from vector to C arrays #190

Change 16-bit swizzle from vector to C arrays #190

Uh oh!

sterrettm2 commented Mar 27, 2025

Uh oh!

r-devulap left a comment

Uh oh!

Uh oh!

Uh oh!

Search code, repositories, users, issues, pull requests...

Change 16-bit swizzle from vector to C arrays #190

Change 16-bit swizzle from vector to C arrays #190

Uh oh!

Conversation

sterrettm2 commented Mar 27, 2025

Uh oh!

r-devulap left a comment

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Uh oh!