35#include <hip/hip_runtime.h>
65 const dim3 nblcks(((*m)+1024 - 1)/ 1024, 1, 1);
69 (
real *)
a, (
real *) b, (
int *) mask, *n, *m);
82 const dim3 nblcks(((*m)+1024 - 1)/ 1024, 1, 1);
86 (
real *)
a, (
real *) b, (
int *) mask, *n, *m);
98 const dim3 nblcks(((*m)+1024 - 1)/ 1024, 1, 1);
102 (
real *)
a, (
real *) b, (
int *) mask, *n, *m);
137 const dim3 nblcks(((*n)+1024 - 1)/ 1024, 1, 1);
152 const dim3 nblcks(((*n)+1024 - 1)/ 1024, 1, 1);
166 const dim3 nblcks(((*n)+1024 - 1)/ 1024, 1, 1);
181 const dim3 nblcks(((*n)+1024 - 1)/ 1024, 1, 1);
195 const dim3 nblcks(((*n)+1024 - 1)/ 1024, 1, 1);
211 const dim3 nblcks(((*n)+1024 - 1)/ 1024, 1, 1);
223 void hip_add4(
void *
a,
void *b,
void *c,
void *d,
int *n) {
226 const dim3 nblcks(((*n)+1024 - 1)/ 1024, 1, 1);
223 void hip_add4(
void *
a,
void *b,
void *c,
void *d,
int *n) {
…}
242 const dim3 nblcks(((*n)+1024 - 1)/ 1024, 1, 1);
259 const dim3 nblcks(((*n)+1024 - 1)/ 1024, 1, 1);
276 const dim3 nblcks(((*n)+1024 - 1)/ 1024, 1, 1);
293 const dim3 nblcks(((*n)+1024 - 1)/ 1024, 1, 1);
309 const dim3 nblcks(((*n)+1024 - 1)/ 1024, 1, 1);
324 const dim3 nblcks(((*n)+1024 - 1)/ 1024, 1, 1);
339 const dim3 nblcks(((*n)+1024 - 1)/ 1024, 1, 1);
354 const dim3 nblcks(((*n)+1024 - 1)/ 1024, 1, 1);
369 const dim3 nblcks(((*n)+1024 - 1)/ 1024, 1, 1);
384 const dim3 nblcks(((*n)+1024 - 1)/ 1024, 1, 1);
399 const dim3 nblcks(((*n)+1024 - 1)/ 1024, 1, 1);
414 const dim3 nblcks(((*n)+1024 - 1)/ 1024, 1, 1);
429 const dim3 nblcks(((*n)+1024 - 1)/ 1024, 1, 1);
442 void *v1,
void *v2,
void *v3,
int *n) {
445 const dim3 nblcks(((*n)+1024 - 1)/ 1024, 1, 1);
459 void *v1,
void *v2,
void *v3,
460 void *w1,
void *w2,
void *
w3,
int *n) {
463 const dim3 nblcks(((*n)+1024 - 1)/ 1024, 1, 1);
488 const dim3 nblcks(((*n)+1024 - 1)/ 1024, 1, 1);
489 const int nb = ((*n) + 1024 - 1)/ 1024;
526 const dim3 nblcks(((*n)+1024 - 1)/ 1024, 1, 1);
527 const int nb = ((*n) + 1024 - 1)/ 1024;
575 const int nt = 1024/
pow2;
580 const int nb = ((*n) + nt - 1)/nt;
628 const dim3 nblcks(((*n)+1024 - 1)/ 1024, 1, 1);
644 const dim3 nblcks(((*n)+1024 - 1)/ 1024, 1, 1);
659 const dim3 nblcks(((*n)+1024 - 1)/ 1024, 1, 1);
660 const int nb = ((*n) + 1024 - 1)/ 1024;
704 const dim3 nblcks(((*n)+1024 - 1)/ 1024, 1, 1);
705 const int nb = ((*n) + 1024 - 1)/ 1024;
750 const dim3 nblcks(((*n)+1024 - 1)/ 1024, 1, 1);
__global__ void T *__restrict__ T *__restrict__ const T *__restrict__ const T *__restrict__ const T *__restrict__ w
__global__ void T *__restrict__ T *__restrict__ const T *__restrict__ u
__global__ void T *__restrict__ T *__restrict__ const T *__restrict__ const T *__restrict__ v
__global__ void const T *__restrict__ x
__global__ void const T *__restrict__ const T *__restrict__ const T *__restrict__ const T *__restrict__ const T *__restrict__ const T *__restrict__ const T *__restrict__ const T *__restrict__ w3
__global__ void dirichlet_apply_scalar_kernel(const int *__restrict__ msk, T *__restrict__ x, const T g, const int m)
void device_mpi_allreduce(void *buf_d, void *buf, int count, int nbytes, int op)
void device_nccl_allreduce(void *sbuf_d, void *rbuf_d, int count, int nbytes, int op, void *stream)
void hip_vdot3(void *dot, void *u1, void *u2, void *u3, void *v1, void *v2, void *v3, int *n)
void hip_vcross(void *u1, void *u2, void *u3, void *v1, void *v2, void *v3, void *w1, void *w2, void *w3, int *n)
void hip_cmult2(void *a, void *b, real *c, int *n)
real hip_glsc3(void *a, void *b, void *c, int *n)
void hip_cfill_mask(void *a, real *c, int *size, void *mask, int *mask_size)
void hip_invcol2(void *a, void *b, int *n)
void hip_cadd2(void *a, void *b, real *c, int *n)
void hip_masked_red_copy(void *a, void *b, void *mask, int *n, int *m)
void hip_invcol1(void *a, int *n)
void hip_add3s2(void *a, void *b, void *c, real *c1, real *c2, int *n)
void hip_subcol3(void *a, void *b, void *c, int *n)
void hip_col3(void *a, void *b, void *c, int *n)
real hip_glsc2(void *a, void *b, int *n)
void hip_masked_copy(void *a, void *b, void *mask, int *n, int *m)
void hip_copy(void *a, void *b, int *n)
void hip_add2(void *a, void *b, int *n)
real hip_vlsc3(void *u, void *v, void *w, int *n)
void hip_add3(void *a, void *b, void *c, int *n)
void hip_addsqr2s2(void *a, void *b, real *c1, int *n)
void hip_add2s2(void *a, void *b, real *c1, int *n)
void hip_rzero(void *a, int *n)
void hip_sub2(void *a, void *b, int *n)
void hip_cadd(void *a, real *c, int *n)
real hip_glsum(void *a, int *n)
void hip_addcol3(void *a, void *b, void *c, int *n)
void hip_cfill(void *a, real *c, int *n)
void hip_absval(void *a, int *n)
void hip_col2(void *a, void *b, int *n)
void hip_glsc3_many(real *h, void *w, void *v, void *mult, int *j, int *n)
void hip_sub3(void *a, void *b, void *c, int *n)
void hip_add4(void *a, void *b, void *c, void *d, int *n)
void hip_cmult(void *a, real *c, int *n)
void hip_masked_atomic_reduction(void *a, void *b, void *mask, int *n, int *m)
void hip_add2s2_many(void *x, void **p, void *alpha, int *j, int *n)
void hip_addcol4(void *a, void *b, void *c, void *d, int *n)
void hip_add2s1(void *a, void *b, real *c1, int *n)