arrayfire
diff --git a/‎src/backend/common/dispatch.hpp
Copy file name to clipboardExpand all lines: src/backend/common/dispatch.hpp
+72Lines changed: 72 additions & 0 deletions b/‎src/backend/common/dispatch.hpp
Copy file name to clipboardExpand all lines: src/backend/common/dispatch.hpp
+72Lines changed: 72 additions & 0 deletions
diff --git a/‎src/backend/cuda/Array.cpp
Copy file name to clipboardExpand all lines: src/backend/cuda/Array.cpp
+1-1Lines changed: 1 addition & 1 deletion b/‎src/backend/cuda/Array.cpp
Copy file name to clipboardExpand all lines: src/backend/cuda/Array.cpp
+1-1Lines changed: 1 addition & 1 deletion
diff --git a/‎src/backend/cuda/CMakeLists.txt
Copy file name to clipboardExpand all lines: src/backend/cuda/CMakeLists.txt
-2Lines changed: 0 additions & 2 deletions b/‎src/backend/cuda/CMakeLists.txt
Copy file name to clipboardExpand all lines: src/backend/cuda/CMakeLists.txt
-2Lines changed: 0 additions & 2 deletions
diff --git a/‎src/backend/cuda/copy.cpp
Copy file name to clipboardExpand all lines: src/backend/cuda/copy.cpp
+38-51Lines changed: 38 additions & 51 deletions b/‎src/backend/cuda/copy.cpp
Copy file name to clipboardExpand all lines: src/backend/cuda/copy.cpp
+38-51Lines changed: 38 additions & 51 deletions
@@ -9,6 +9,8 @@
 
 #pragma once
 
+#include <af/defines.h>
+#include <algorithm>
 #include <cmath>
 
 #define divup(a, b) (((a) + (b)-1) / (b))
@@ -42,3 +44,73 @@ inline T greatestPrimeFactor(T n) {
 
     return v;
 }
+
+// For OPENCL, the dimensions of local are returned
+// usage: cl::NDRange local = bestBlockSize<cl::NDRange>(dims, WG)
+// For CUDA, the dimensions of 1 block are returned
+// usage: dim3 block = bestBlockSize<dim3>(dims, 32);
+// The parameter dims can have any type as long as it is convertable to unsigned
+
+// Remark: The bestBlockSize is only best for independent element operations, as
+// are: copying, scaling, math on independent elements, ...
+// Since vector dimensions can be returned, it is NOT USABLE FOR BLOCK
+// OPERATIONS, as are: matmul, etc.
+template<typename Tout, typename Tin>
+Tout bestBlockSize(const Tin dims[4], unsigned warp) {
+    const unsigned d0         = static_cast<unsigned>(dims[0]);
+    const unsigned d1         = static_cast<unsigned>(dims[1]);
+    const unsigned d2         = static_cast<unsigned>(dims[2]);
+    const unsigned OCC        = 3;
+    const unsigned elements   = d0 * d1;
+    const unsigned minThreads = warp / 4;  // quarter wave
+    const unsigned maxThreads =
+        std::min(warp * 4, divup(elements * warp, 16384U) * minThreads);
+
+    const unsigned threads0 =
+#ifdef AF_OPENCL
+        (d0 < warp) ? d0 :
+#endif
+        (d1 == 1) ? warp * 4
+        : (maxThreads >= 128) && (!(d0 & (128 - 1)) || (d0 > OCC * (128 - 1)))
+            ? 128
+        : (maxThreads >= 64) && (!(d0 & (64 - 1)) || (d0 > OCC * (64 - 1)))
+            ? 64
+            : warp;
+
+    const unsigned threads1 =
+        (threads0 <= maxThreads / 128) &&
+                (!(d1 & (128 - 1)) || (d1 > OCC * (128 - 1)))
+            ? 128
+        : (threads0 <= maxThreads / 64) &&
+                (!(d1 & (64 - 1)) || (d1 > OCC * (64 - 1)))
+            ? 64
+        : (threads0 <= maxThreads / 32) &&
+                (!(d1 & (32 - 1)) || (d1 > OCC * (32 - 1)))
+            ? 32
+        : (threads0 <= maxThreads / 16) &&
+                (!(d1 & (16 - 1)) || (d1 > OCC * (16 - 1)))
+            ? 16
+        : (threads0 <= maxThreads / 8) &&
+                (!(d1 & (8 - 1)) || (d1 > OCC * (8 - 1)))
+            ? 8
+        : (threads0 <= maxThreads / 4) &&
+                (!(d1 & (4 - 1)) || (d1 > OCC * (4 - 1)))
+            ? 4
+        : (threads0 <= maxThreads / 2) &&
+                (!(d1 & (2 - 1)) || (d1 > OCC * (2 - 1)))
+            ? 2
+            : 1;
+
+    const unsigned threads01 = threads0 * threads1;
+    if (d2 == 1 || threads01 * 2 > maxThreads) return Tout(threads0, threads1);
+
+    const unsigned threads2 =
+        (threads01 <= maxThreads / 64) && !(d2 & (64 - 1))   ? 64
+        : (threads01 <= maxThreads / 32) && !(d2 & (32 - 1)) ? 32
+        : (threads01 <= maxThreads / 16) && !(d2 & (16 - 1)) ? 16
+        : (threads01 <= maxThreads / 8) && !(d2 & (8 - 1))   ? 8
+        : (threads01 <= maxThreads / 4) && !(d2 & (4 - 1))   ? 4
+        : (threads01 <= maxThreads / 2) && !(d2 & (2 - 1))   ? 2
+                                                             : 1;
+    return Tout(threads0, threads1, threads2);
+}
@@ -265,7 +265,7 @@ kJITHeuristics passesJitHeuristics(Node *root_node) {
         // The size of the parameters without any extra arguments from the
         // JIT tree. This includes one output Param object and 4 integers.
         constexpr size_t base_param_size =
-            sizeof(Param<T>) + (4 * sizeof(uint));
+            sizeof(Param<T>) + 4 * sizeof(int) + 4 * sizeof(char);
 
         // extra padding for safety to avoid failure during compilation
         constexpr size_t jit_padding_size = 256;  //@umar dontfix!
 
@@ -187,7 +187,6 @@ set(nvrtc_src
   ${CMAKE_CURRENT_SOURCE_DIR}/kernel/index.cuh
   ${CMAKE_CURRENT_SOURCE_DIR}/kernel/iota.cuh
   ${CMAKE_CURRENT_SOURCE_DIR}/kernel/ireduce.cuh
-  ${CMAKE_CURRENT_SOURCE_DIR}/kernel/join.cuh
   ${CMAKE_CURRENT_SOURCE_DIR}/kernel/lookup.cuh
   ${CMAKE_CURRENT_SOURCE_DIR}/kernel/lu_split.cuh
   ${CMAKE_CURRENT_SOURCE_DIR}/kernel/match_template.cuh
@@ -432,7 +431,6 @@ cuda_add_library(afcuda
     kernel/interp.hpp
     kernel/iota.hpp
     kernel/ireduce.hpp
-    kernel/join.hpp
     kernel/lookup.hpp
     kernel/lu_split.hpp
     kernel/match_template.hpp
 
@@ -22,87 +22,74 @@ using common::is_complex;
 namespace cuda {
 
 template<typename T>
-void copyData(T *dst, const Array<T> &src) {
-    if (src.elements() == 0) { return; }
-
-    // FIXME: Merge this with copyArray
-    src.eval();
-
-    Array<T> out = src;
-    const T *ptr = NULL;
-
-    if (src.isLinear() ||  // No offsets, No strides
-        src.ndims() == 1   // Simple offset, no strides.
-    ) {
-        // A.get() gets data with offsets
-        ptr = src.get();
-    } else {
-        // FIXME: Think about implementing eval
-        out = copyArray(src);
-        ptr = out.get();
+void copyData(T *data, const Array<T> &src) {
+    if (src.elements() > 0) {
+        Array<T> lin = src.isReady() && src.isLinear() ? src : copyArray(src);
+        // out is now guaranteed linear
+        auto stream = cuda::getActiveStream();
+        CUDA_CHECK(cudaMemcpyAsync(data, lin.get(), lin.elements() * sizeof(T),
+                                   cudaMemcpyDeviceToHost, stream));
+        CUDA_CHECK(cudaStreamSynchronize(stream));
     }
-
-    auto stream = cuda::getActiveStream();
-    CUDA_CHECK(cudaMemcpyAsync(dst, ptr, src.elements() * sizeof(T),
-                               cudaMemcpyDeviceToHost, stream));
-    CUDA_CHECK(cudaStreamSynchronize(stream));
 }
 
 template<typename T>
 Array<T> copyArray(const Array<T> &src) {
     Array<T> out = createEmptyArray<T>(src.dims());
-    if (src.elements() == 0) { return out; }
-
-    if (src.isLinear()) {
-        CUDA_CHECK(
-            cudaMemcpyAsync(out.get(), src.get(), src.elements() * sizeof(T),
-                            cudaMemcpyDeviceToDevice, cuda::getActiveStream()));
-    } else {
+    if (src.isReady()) {
         kernel::memcopy<T>(out, src, src.ndims());
+    } else {
+        Param<T> info(out.get(), src.dims().dims, src.strides().dims);
+        evalNodes(info, src.getNode().get());
     }
     return out;
 }
 
 template<typename T>
-void multiply_inplace(Array<T> &in, double val) {
-    kernel::copy<T, T>(in, in, in.ndims(), scalar<T>(0), val);
+void multiply_inplace(Array<T> &src, double norm) {
+    kernel::copy<T, T>(src, src, src.ndims(), scalar<T>(0), norm);
 }
 
 template<typename inType, typename outType>
 struct copyWrapper {
-    void operator()(Array<outType> &out, Array<inType> const &in) {
-        kernel::copy<inType, outType>(out, in, in.ndims(), scalar<outType>(0),
-                                      1);
+    void operator()(Array<outType> &dst, Array<inType> const &src) {
+        kernel::copy<inType, outType>(dst, src, src.ndims(), scalar<outType>(0),
+                                      1.0);
     }
 };
 
 template<typename T>
 struct copyWrapper<T, T> {
-    void operator()(Array<T> &out, Array<T> const &in) {
-        if (out.isLinear() && in.isLinear() &&
-            out.elements() == in.elements()) {
-            CUDA_CHECK(cudaMemcpyAsync(
-                out.get(), in.get(), in.elements() * sizeof(T),
-                cudaMemcpyDeviceToDevice, cuda::getActiveStream()));
+    void operator()(Array<T> &dst, Array<T> const &src) {
+        if (dst.isLinear() && src.isLinear() &&
+            dst.elements() == src.elements()) {
+            if (src.isReady()) {
+                CUDA_CHECK(cudaMemcpyAsync(
+                    dst.get(), src.get(), src.elements() * sizeof(T),
+                    cudaMemcpyDeviceToDevice, cuda::getActiveStream()));
+            } else {
+                Param<T> info(dst.get(), src.dims().dims, dst.strides().dims);
+                evalNodes(info, src.getNode().get());
+            }
         } else {
-            kernel::copy<T, T>(out, in, in.ndims(), scalar<T>(0), 1);
+            kernel::copy<T, T>(dst, src, src.ndims(), scalar<T>(0), 1.0);
         }
     }
 };
 
 template<typename inType, typename outType>
-void copyArray(Array<outType> &out, Array<inType> const &in) {
+void copyArray(Array<outType> &dst, Array<inType> const &src) {
     static_assert(!(is_complex<inType>::value && !is_complex<outType>::value),
                   "Cannot copy from complex value to a non complex value");
-    ARG_ASSERT(1, (in.ndims() == out.dims().ndims()));
+    ARG_ASSERT(1, (src.ndims() == dst.ndims()));
     copyWrapper<inType, outType> copyFn;
-    copyFn(out, in);
+    copyFn(dst, src);
 }
 
-#define INSTANTIATE(T)                                       \
-    template void copyData<T>(T * dst, const Array<T> &src); \
-    template Array<T> copyArray<T>(const Array<T> &src);     \
-    template void multiply_inplace<T>(Array<T> & in, double norm);
+#define INSTANTIATE(T)                                        \
+    template void copyData<T>(T * data, const Array<T> &src); \
+    template Array<T> copyArray<T>(const Array<T> &src);      \
+    template void multiply_inplace<T>(Array<T> & src, double norm);
 
 INSTANTIATE(float)
 INSTANTIATE(double)
@@ -168,9 +155,9 @@ INSTANTIATE_COPY_ARRAY_COMPLEX(cfloat)
 INSTANTIATE_COPY_ARRAY_COMPLEX(cdouble)
 
 template<typename T>
-T getScalar(const Array<T> &in) {
+T getScalar(const Array<T> &src) {
     T retVal{};
-    CUDA_CHECK(cudaMemcpyAsync(&retVal, in.get(), sizeof(T),
+    CUDA_CHECK(cudaMemcpyAsync(&retVal, src.get(), sizeof(T),
                                cudaMemcpyDeviceToHost,
                                cuda::getActiveStream()));
     CUDA_CHECK(cudaStreamSynchronize(cuda::getActiveStream()));