[X86] Remove extra MOV after widening atomic load #138635

jofrn · May 6, 2025

This change adds patterns to optimize out an extra MOV
present after widening the atomic load.

Stack:

⚠️ Part of a stack created by spr. Do not merge manually using the UI - doing so may have unexpected results.

llvmbot · May 6, 2025

@llvm/pr-subscribers-backend-x86

Author: None (jofrn)

Changes

This change adds patterns to optimize out an extra MOV
present after widening the atomic load.

Stack:

#120716
#125432
#120640
#138635 ⬅
#120598
#120387
#120386
#120385
#120384

⚠️ Part of a stack created by spr. Do not merge manually using the UI - doing so may have unexpected results.

Full diff: https://github.com/llvm/llvm-project/pull/138635.diff

2 Files Affected:

(modified) llvm/lib/Target/X86/X86InstrCompiler.td (+7)
(modified) llvm/test/CodeGen/X86/atomic-load-store.ll (+23-20)

diff --git a/llvm/lib/Target/X86/X86InstrCompiler.td b/llvm/lib/Target/X86/X86InstrCompiler.td
index 167e27eddd71e..8ad8a0a6194d6 100644
--- a/llvm/lib/Target/X86/X86InstrCompiler.td
+++ b/llvm/lib/Target/X86/X86InstrCompiler.td
@@ -1200,6 +1200,13 @@ def : Pat<(i16 (atomic_load_nonext_16 addr:$src)), (MOV16rm addr:$src)>;
 def : Pat<(i32 (atomic_load_nonext_32 addr:$src)), (MOV32rm addr:$src)>;
 def : Pat<(i64 (atomic_load_nonext_64 addr:$src)), (MOV64rm addr:$src)>;
 
+def : Pat<(v4i32 (scalar_to_vector (i32 (anyext (i16 (atomic_load_16 addr:$src)))))),
+           (MOVDI2PDIrm addr:$src)>;   // load atomic <2 x i8>
+def : Pat<(v4i32 (scalar_to_vector (i32 (atomic_load_32 addr:$src)))),
+           (MOVDI2PDIrm addr:$src)>;   // load atomic <2 x i16>
+def : Pat<(v2i64 (scalar_to_vector (i64 (atomic_load_64 addr:$src)))),
+           (MOV64toPQIrm  addr:$src)>; // load atomic <2 x i32,float>
+
 // Floating point loads/stores.
 def : Pat<(atomic_store_32 (i32 (bitconvert (f32 FR32:$src))), addr:$dst),
           (MOVSSmr addr:$dst, FR32:$src)>, Requires<[UseSSE1]>;
diff --git a/llvm/test/CodeGen/X86/atomic-load-store.ll b/llvm/test/CodeGen/X86/atomic-load-store.ll
index 9ee8b4fc5ac7f..935d058a52f8f 100644
--- a/llvm/test/CodeGen/X86/atomic-load-store.ll
+++ b/llvm/test/CodeGen/X86/atomic-load-store.ll
@@ -149,8 +149,7 @@ define <1 x i64> @atomic_vec1_i64_align(ptr %x) nounwind {
 define <2 x i8> @atomic_vec2_i8(ptr %x) {
 ; CHECK3-LABEL: atomic_vec2_i8:
 ; CHECK3:       ## %bb.0:
-; CHECK3-NEXT:    movzwl (%rdi), %eax
-; CHECK3-NEXT:    movd %eax, %xmm0
+; CHECK3-NEXT:    movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
 ; CHECK3-NEXT:    retq
 ;
 ; CHECK0-LABEL: atomic_vec2_i8:
@@ -165,11 +164,15 @@ define <2 x i8> @atomic_vec2_i8(ptr %x) {
 }
 
 define <2 x i16> @atomic_vec2_i16(ptr %x) {
-; CHECK-LABEL: atomic_vec2_i16:
-; CHECK:       ## %bb.0:
-; CHECK-NEXT:    movl (%rdi), %eax
-; CHECK-NEXT:    movd %eax, %xmm0
-; CHECK-NEXT:    retq
+; CHECK3-LABEL: atomic_vec2_i16:
+; CHECK3:       ## %bb.0:
+; CHECK3-NEXT:    movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
+; CHECK3-NEXT:    retq
+;
+; CHECK0-LABEL: atomic_vec2_i16:
+; CHECK0:       ## %bb.0:
+; CHECK0-NEXT:    movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
+; CHECK0-NEXT:    retq
   %ret = load atomic <2 x i16>, ptr %x acquire, align 4
   ret <2 x i16> %ret
 }
@@ -177,8 +180,7 @@ define <2 x i16> @atomic_vec2_i16(ptr %x) {
 define <2 x ptr addrspace(270)> @atomic_vec2_ptr270(ptr %x) {
 ; CHECK-LABEL: atomic_vec2_ptr270:
 ; CHECK:       ## %bb.0:
-; CHECK-NEXT:    movq (%rdi), %rax
-; CHECK-NEXT:    movq %rax, %xmm0
+; CHECK-NEXT:    movq (%rdi), %xmm0
 ; CHECK-NEXT:    retq
   %ret = load atomic <2 x ptr addrspace(270)>, ptr %x acquire, align 8
   ret <2 x ptr addrspace(270)> %ret
@@ -187,8 +189,7 @@ define <2 x ptr addrspace(270)> @atomic_vec2_ptr270(ptr %x) {
 define <2 x i32> @atomic_vec2_i32_align(ptr %x) {
 ; CHECK-LABEL: atomic_vec2_i32_align:
 ; CHECK:       ## %bb.0:
-; CHECK-NEXT:    movq (%rdi), %rax
-; CHECK-NEXT:    movq %rax, %xmm0
+; CHECK-NEXT:    movq (%rdi), %xmm0
 ; CHECK-NEXT:    retq
   %ret = load atomic <2 x i32>, ptr %x acquire, align 8
   ret <2 x i32> %ret
@@ -197,8 +198,7 @@ define <2 x i32> @atomic_vec2_i32_align(ptr %x) {
 define <2 x float> @atomic_vec2_float_align(ptr %x) {
 ; CHECK-LABEL: atomic_vec2_float_align:
 ; CHECK:       ## %bb.0:
-; CHECK-NEXT:    movq (%rdi), %rax
-; CHECK-NEXT:    movq %rax, %xmm0
+; CHECK-NEXT:    movq (%rdi), %xmm0
 ; CHECK-NEXT:    retq
   %ret = load atomic <2 x float>, ptr %x acquire, align 8
   ret <2 x float> %ret
@@ -354,11 +354,15 @@ define <2 x i32> @atomic_vec2_i32(ptr %x) nounwind {
 }
 
 define <4 x i8> @atomic_vec4_i8(ptr %x) nounwind {
-; CHECK-LABEL: atomic_vec4_i8:
-; CHECK:       ## %bb.0:
-; CHECK-NEXT:    movl (%rdi), %eax
-; CHECK-NEXT:    movd %eax, %xmm0
-; CHECK-NEXT:    retq
+; CHECK3-LABEL: atomic_vec4_i8:
+; CHECK3:       ## %bb.0:
+; CHECK3-NEXT:    movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
+; CHECK3-NEXT:    retq
+;
+; CHECK0-LABEL: atomic_vec4_i8:
+; CHECK0:       ## %bb.0:
+; CHECK0-NEXT:    movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
+; CHECK0-NEXT:    retq
   %ret = load atomic <4 x i8>, ptr %x acquire, align 4
   ret <4 x i8> %ret
 }
@@ -366,8 +370,7 @@ define <4 x i8> @atomic_vec4_i8(ptr %x) nounwind {
 define <4 x i16> @atomic_vec4_i16(ptr %x) nounwind {
 ; CHECK-LABEL: atomic_vec4_i16:
 ; CHECK:       ## %bb.0:
-; CHECK-NEXT:    movq (%rdi), %rax
-; CHECK-NEXT:    movq %rax, %xmm0
+; CHECK-NEXT:    movq (%rdi), %xmm0
 ; CHECK-NEXT:    retq
   %ret = load atomic <4 x i16>, ptr %x acquire, align 8
   ret <4 x i16> %ret

RKSimon · May 6, 2025

llvm/lib/Target/X86/X86InstrCompiler.td

@@ -1200,6 +1200,13 @@ def : Pat<(i16 (atomic_load_nonext_16 addr:$src)), (MOV16rm addr:$src)>;
 def : Pat<(i32 (atomic_load_nonext_32 addr:$src)), (MOV32rm addr:$src)>;
 def : Pat<(i64 (atomic_load_nonext_64 addr:$src)), (MOV64rm addr:$src)>;

+def : Pat<(v4i32 (scalar_to_vector (i32 (anyext (i16 (atomic_load_16 addr:$src)))))),
+           (MOVDI2PDIrm addr:$src)>;   // load atomic <2 x i8>


this will dereference 32-bits

Switched it to a zext and now it dereferences 16 bits in the asm. Thanks.

Next thing is to add SSE/AVX handling - I've added better test coverage at d27d0c7

Without loss of generality, do we not need the v2 in --check-prefixes=CHECK,CHECKv2-O0 due to divergence of asm?

llvm-project/llvm/test/CodeGen/X86/atomic-load-store.ll

Line 7 in d27d0c7

; RUN: llc < %s -mtriple=x86_64-- -verify-machineinstrs -O0 -mcpu=x86-64-v2 | FileCheck %s --check-prefixes=CHECK,CHECK-O0

Yes, you'll have to add extra check-prefixes - base + v2 can share CHECK-SSE-O* and v3/4 can share a CHECK-AVX-O* prefixes

Ok. Thanks!

Since you've made the commits in already, I'll interleave the SSE/AVX updates throughout the series rather than making a new PR.

…ctor atomic memory operations Help #138635 where we need to ensure correct SSE/AVX load instructions

This change adds patterns to optimize out an extra MOV present after widening the atomic load. commit-id:45989503

llvmbot added the backend:X86 label May 6, 2025

jofrn force-pushed the users/jofrn/spr/main/45989503 branch from 4383732 to 0fcd430 Compare May 6, 2025 15:04

jofrn force-pushed the users/jofrn/spr/main/2894ccd1 branch from 0b8a020 to 561e379 Compare May 6, 2025 15:04

RKSimon reviewed May 6, 2025

View reviewed changes

jofrn force-pushed the users/jofrn/spr/main/2894ccd1 branch from 561e379 to 99a560f Compare May 7, 2025 12:53

jofrn force-pushed the users/jofrn/spr/main/45989503 branch 2 times, most recently from 5b5d948 to 939a68f Compare May 8, 2025 01:53

jofrn force-pushed the users/jofrn/spr/main/2894ccd1 branch from 99a560f to 45d0296 Compare May 8, 2025 01:53

jofrn force-pushed the users/jofrn/spr/main/45989503 branch from 939a68f to b6c4b48 Compare May 8, 2025 23:38

jofrn force-pushed the users/jofrn/spr/main/2894ccd1 branch from e961155 to c46962c Compare May 9, 2025 12:53

jofrn force-pushed the users/jofrn/spr/main/45989503 branch 3 times, most recently from 7e560d9 to e8dc4c2 Compare May 9, 2025 20:03

jofrn force-pushed the users/jofrn/spr/main/2894ccd1 branch from 7fc4840 to 2ad7651 Compare May 9, 2025 20:03

jofrn force-pushed the users/jofrn/spr/main/45989503 branch 3 times, most recently from e5413e4 to 6312f8c Compare May 12, 2025 05:34

RKSimon added a commit that referenced this pull request May 12, 2025

[X86] atomic-load-store.ll - add SSE/AVX level coverage for future ve…

d27d0c7

…ctor atomic memory operations Help #138635 where we need to ensure correct SSE/AVX load instructions

jofrn force-pushed the users/jofrn/spr/main/45989503 branch from 6312f8c to 109bc60 Compare May 27, 2025 17:34

jofrn changed the base branch from users/jofrn/spr/main/2894ccd1 to main June 1, 2025 20:46

jofrn force-pushed the users/jofrn/spr/main/45989503 branch from 109bc60 to 21475ae Compare June 1, 2025 20:46

jofrn mentioned this pull request Jun 1, 2025

[X86] Cast atomic vectors in IR to support floats #142320

Open

jofrn changed the base branch from main to users/jofrn/spr/main/2894ccd1 June 1, 2025 20:46

[X86] Remove extra MOV after widening atomic load

b2b23bf

This change adds patterns to optimize out an extra MOV present after widening the atomic load. commit-id:45989503

jofrn force-pushed the users/jofrn/spr/main/2894ccd1 branch from c315792 to 768b1a9 Compare June 2, 2025 04:15

jofrn force-pushed the users/jofrn/spr/main/45989503 branch from 21475ae to b2b23bf Compare June 2, 2025 04:15

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[X86] Remove extra MOV after widening atomic load #138635

[X86] Remove extra MOV after widening atomic load #138635

jofrn commented May 6, 2025 •

edited

Loading

Uh oh!

llvmbot commented May 6, 2025

Uh oh!

RKSimon May 6, 2025

Uh oh!

jofrn May 11, 2025 •

edited

Loading

Uh oh!

RKSimon May 12, 2025

Uh oh!

jofrn May 13, 2025

Uh oh!

RKSimon May 14, 2025

Uh oh!

jofrn May 14, 2025

Uh oh!

Uh oh!

Search code, repositories, users, issues, pull requests...

[X86] Remove extra MOV after widening atomic load #138635

Are you sure you want to change the base?

[X86] Remove extra MOV after widening atomic load #138635

Conversation

jofrn commented May 6, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

llvmbot commented May 6, 2025

Uh oh!

RKSimon May 6, 2025

Choose a reason for hiding this comment

Uh oh!

jofrn May 11, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Choose a reason for hiding this comment

Uh oh!

RKSimon May 12, 2025

Choose a reason for hiding this comment

Uh oh!

jofrn May 13, 2025

Choose a reason for hiding this comment

Uh oh!

RKSimon May 14, 2025

Choose a reason for hiding this comment

Uh oh!

jofrn May 14, 2025

Choose a reason for hiding this comment

Uh oh!

Uh oh!

jofrn commented May 6, 2025 •

edited

Loading

jofrn May 11, 2025 •

edited

Loading