Move fast function calls to extern table for Metal.

mcourteaux · mcourteaux · commit 6cebc5618902 · 2025-06-01T15:30:37.000+02:00
diff --git a/.gitignore b/.gitignore
@@ -240,6 +240,9 @@ xcuserdata
 # NeoVim + clangd
 .cache
 
+# CCLS
+.ccls-cache
+
 # Emacs
 tags
 TAGS
diff --git a/src/CodeGen_Metal_Dev.cpp b/src/CodeGen_Metal_Dev.cpp
@@ -89,6 +89,13 @@ class CodeGen_Metal_Dev : public CodeGen_GPU_Dev {
             alias("is_inf", "isinf");
             alias("is_finite", "isfinite");
 
+            alias("fast_sin", "fast::sin");
+            alias("fast_cos", "fast::cos");
+            alias("fast_tan", "fast::tan");
+            alias("fast_exp", "fast::exp");
+            alias("fast_log", "fast::log");
+            alias("fast_pow", "fast::pow");
+            alias("fast_tanh", "fast::tanh");
             alias("fast_inverse_sqrt", "fast::rsqrt");
 #undef alias
         }
@@ -837,14 +844,6 @@ void CodeGen_Metal_Dev::init_module() {
                << "constexpr float neg_inf_f32() { return float_from_bits(0xff800000); }\n"
                << "constexpr float inf_f32() { return float_from_bits(0x7f800000); }\n"
                << "float fast_inverse_f32(float x) { return 1.0f / x; }\n"
-               << "#define fast_sin_f32 fast::sin \n"
-               << "#define fast_cos_f32 fast::cos \n"
-               << "#define fast_tan_f32 fast::tan \n"
-               << "#define fast_exp_f32 fast::exp \n"
-               << "#define fast_log_f32 fast::log \n"
-               << "#define fast_pow_f32 fast::pow \n"
-               << "#define fast_tanh_f32 fast::tanh \n"
-               << "#define fast_inverse_sqrt_f16 rsqrt\n"
                << "constexpr half half_from_bits(unsigned short x) {return as_type<half>(x);}\n"
                << "constexpr half nan_f16() { return half_from_bits(32767); }\n"
                << "constexpr half neg_inf_f16() { return half_from_bits(64512); }\n"
diff --git a/test/correctness/fast_function_approximations.cpp b/test/correctness/fast_function_approximations.cpp
@@ -479,7 +479,10 @@ int main(int argc, char **argv) {
                 ref_func_gpu(i) = ftt.make_reference(arg_x, arg_y);
                 ref_func_gpu.never_partition_all();
                 // also vectorize to make sure that works on GPU as well...
-                ref_func_gpu.gpu_tile(i, io, ii, 256, TailStrategy::ShiftInwards).vectorize(ii, 2);
+                ref_func_gpu
+                    .gpu_tile(i, io, ii, 512, TailStrategy::ShiftInwards)
+                    .vectorize(ii, 4);
+                // TODO(mcourteaux): When vector legalization lowering pass is in, increase vectorize for testing purposes!
                 ref_func_gpu.realize(out_approx);
                 out_approx.copy_to_host();
 
@@ -519,8 +522,11 @@ int main(int argc, char **argv) {
                 approx_func.align_bounds(i, 8);
                 if (target.has_gpu_feature()) {
                     Var io, ii;
-                    approx_func.never_partition_all();
-                    approx_func.gpu_tile(i, io, ii, 256, TailStrategy::ShiftInwards);
+                    approx_func
+                        .never_partition_all()
+                        .gpu_tile(i, io, ii, 256, TailStrategy::ShiftInwards)
+                        .vectorize(ii, 4);
+                    // TODO(mcourteaux): When vector legalization lowering pass is in, increase vectorize for testing.
                 } else {
                     approx_func.vectorize(i, 8);
                 }
diff --git a/test/performance/fast_function_approximations.cpp b/test/performance/fast_function_approximations.cpp
@@ -179,7 +179,7 @@ int main(int argc, char **argv) {
     std::function<void(Func &)> schedule = [&](Func &f) {
         if (target.has_gpu_feature()) {
             f.never_partition_all();
-            f.gpu_tile(x, y, xo, yo, xi, yi, 16, 16, TailStrategy::ShiftInwards);
+            f.gpu_tile(x, y, xo, yo, xi, yi, 64, 16, TailStrategy::ShiftInwards).vectorize(xi, 4);
         } else {
             f.vectorize(x, 8);
         }

Original file line number	Diff line number	Diff line change
`@@ -179,7 +179,7 @@ int main(int argc, char **argv) {`
`179`	`179`	`std::function<void(Func &)> schedule = [&](Func &f) {`
`180`	`180`	`if (target.has_gpu_feature()) {`
`181`	`181`	`f.never_partition_all();`
`182`		`- f.gpu_tile(x, y, xo, yo, xi, yi, 16, 16, TailStrategy::ShiftInwards);`
	`182`	`+ f.gpu_tile(x, y, xo, yo, xi, yi, 64, 16, TailStrategy::ShiftInwards).vectorize(xi, 4);`
`183`	`183`	`} else {`
`184`	`184`	`f.vectorize(x, 8);`
`185`	`185`	`}`