
gust.linalg.cuda.map_kernels_double_32.ptx Maven / Gradle / Ivy
The newest version!
.version 1.4
.target sm_13
//-----------------------------------------------------------
// Options:
//-----------------------------------------------------------
// Target:ptx, ISA:sm_13, Endian:little, Pointer Size:32
// -O3 (Optimization level)
// -g0 (Debug level)
// -m2 (Report advisories)
//-----------------------------------------------------------
.entry vec_set (
.param .u32 __cudaparm_vec_set_n,
.param .u32 __cudaparm_vec_set_result,
.param .f64 __cudaparm_vec_set_value)
{
.reg .u16 %rh<4>;
.reg .u32 %r<9>;
.reg .f64 %fd<3>;
.reg .pred %p<3>;
.loc 15 3 0
$LDWbegin_vec_set:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_set_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_0_1026;
.loc 15 8 0
ld.param.f64 %fd1, [__cudaparm_vec_set_value];
ld.param.u32 %r5, [__cudaparm_vec_set_result];
mul.lo.u32 %r6, %r3, 8;
add.u32 %r7, %r5, %r6;
st.global.f64 [%r7+0], %fd1;
$Lt_0_1026:
.loc 15 10 0
exit;
$LDWend_vec_set:
} // vec_set
.entry vec_add (
.param .u32 __cudaparm_vec_add_n,
.param .u32 __cudaparm_vec_add_result,
.param .u32 __cudaparm_vec_add_x,
.param .u32 __cudaparm_vec_add_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<13>;
.reg .f64 %fd<5>;
.reg .pred %p<3>;
.loc 15 16 0
$LDWbegin_vec_add:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_add_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_1_1026;
.loc 15 21 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_add_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
ld.param.u32 %r8, [__cudaparm_vec_add_y];
add.u32 %r9, %r8, %r5;
ld.global.f64 %fd2, [%r9+0];
add.f64 %fd3, %fd1, %fd2;
ld.param.u32 %r10, [__cudaparm_vec_add_result];
add.u32 %r11, %r10, %r5;
st.global.f64 [%r11+0], %fd3;
$Lt_1_1026:
.loc 15 23 0
exit;
$LDWend_vec_add:
} // vec_add
.entry vec_sub (
.param .u32 __cudaparm_vec_sub_n,
.param .u32 __cudaparm_vec_sub_result,
.param .u32 __cudaparm_vec_sub_x,
.param .u32 __cudaparm_vec_sub_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<13>;
.reg .f64 %fd<5>;
.reg .pred %p<3>;
.loc 15 27 0
$LDWbegin_vec_sub:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_sub_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_2_1026;
.loc 15 32 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_sub_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
ld.param.u32 %r8, [__cudaparm_vec_sub_y];
add.u32 %r9, %r8, %r5;
ld.global.f64 %fd2, [%r9+0];
sub.f64 %fd3, %fd1, %fd2;
ld.param.u32 %r10, [__cudaparm_vec_sub_result];
add.u32 %r11, %r10, %r5;
st.global.f64 [%r11+0], %fd3;
$Lt_2_1026:
.loc 15 34 0
exit;
$LDWend_vec_sub:
} // vec_sub
.entry vec_mul (
.param .u32 __cudaparm_vec_mul_n,
.param .u32 __cudaparm_vec_mul_result,
.param .u32 __cudaparm_vec_mul_x,
.param .u32 __cudaparm_vec_mul_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<13>;
.reg .f64 %fd<5>;
.reg .pred %p<3>;
.loc 15 38 0
$LDWbegin_vec_mul:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_mul_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_3_1026;
.loc 15 43 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_mul_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
ld.param.u32 %r8, [__cudaparm_vec_mul_y];
add.u32 %r9, %r8, %r5;
ld.global.f64 %fd2, [%r9+0];
mul.f64 %fd3, %fd1, %fd2;
ld.param.u32 %r10, [__cudaparm_vec_mul_result];
add.u32 %r11, %r10, %r5;
st.global.f64 [%r11+0], %fd3;
$Lt_3_1026:
.loc 15 45 0
exit;
$LDWend_vec_mul:
} // vec_mul
.entry vec_div (
.param .u32 __cudaparm_vec_div_n,
.param .u32 __cudaparm_vec_div_result,
.param .u32 __cudaparm_vec_div_x,
.param .u32 __cudaparm_vec_div_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<13>;
.reg .f64 %fd<5>;
.reg .pred %p<3>;
.loc 15 49 0
$LDWbegin_vec_div:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_div_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_4_1026;
.loc 15 54 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_div_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
ld.param.u32 %r8, [__cudaparm_vec_div_y];
add.u32 %r9, %r8, %r5;
ld.global.f64 %fd2, [%r9+0];
div.rn.f64 %fd3, %fd1, %fd2;
ld.param.u32 %r10, [__cudaparm_vec_div_result];
add.u32 %r11, %r10, %r5;
st.global.f64 [%r11+0], %fd3;
$Lt_4_1026:
.loc 15 56 0
exit;
$LDWend_vec_div:
} // vec_div
.entry vec_negate (
.param .u32 __cudaparm_vec_negate_n,
.param .u32 __cudaparm_vec_negate_result,
.param .u32 __cudaparm_vec_negate_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<11>;
.reg .f64 %fd<4>;
.reg .pred %p<3>;
.loc 15 59 0
$LDWbegin_vec_negate:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_negate_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_5_1026;
.loc 15 64 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_negate_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
neg.f64 %fd2, %fd1;
ld.param.u32 %r8, [__cudaparm_vec_negate_result];
add.u32 %r9, %r8, %r5;
st.global.f64 [%r9+0], %fd2;
$Lt_5_1026:
.loc 15 66 0
exit;
$LDWend_vec_negate:
} // vec_negate
.entry vec_addScalar (
.param .u32 __cudaparm_vec_addScalar_n,
.param .u32 __cudaparm_vec_addScalar_result,
.param .u32 __cudaparm_vec_addScalar_x,
.param .f64 __cudaparm_vec_addScalar_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<11>;
.reg .f64 %fd<5>;
.reg .pred %p<3>;
.loc 15 74 0
$LDWbegin_vec_addScalar:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_addScalar_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_6_1026;
.loc 15 79 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_addScalar_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
ld.param.f64 %fd2, [__cudaparm_vec_addScalar_y];
add.f64 %fd3, %fd1, %fd2;
ld.param.u32 %r8, [__cudaparm_vec_addScalar_result];
add.u32 %r9, %r8, %r5;
st.global.f64 [%r9+0], %fd3;
$Lt_6_1026:
.loc 15 81 0
exit;
$LDWend_vec_addScalar:
} // vec_addScalar
.entry vec_subScalar (
.param .u32 __cudaparm_vec_subScalar_n,
.param .u32 __cudaparm_vec_subScalar_result,
.param .u32 __cudaparm_vec_subScalar_x,
.param .f64 __cudaparm_vec_subScalar_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<11>;
.reg .f64 %fd<5>;
.reg .pred %p<3>;
.loc 15 85 0
$LDWbegin_vec_subScalar:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_subScalar_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_7_1026;
.loc 15 90 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_subScalar_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
ld.param.f64 %fd2, [__cudaparm_vec_subScalar_y];
sub.f64 %fd3, %fd1, %fd2;
ld.param.u32 %r8, [__cudaparm_vec_subScalar_result];
add.u32 %r9, %r8, %r5;
st.global.f64 [%r9+0], %fd3;
$Lt_7_1026:
.loc 15 92 0
exit;
$LDWend_vec_subScalar:
} // vec_subScalar
.entry vec_mulScalar (
.param .u32 __cudaparm_vec_mulScalar_n,
.param .u32 __cudaparm_vec_mulScalar_result,
.param .u32 __cudaparm_vec_mulScalar_x,
.param .f64 __cudaparm_vec_mulScalar_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<11>;
.reg .f64 %fd<5>;
.reg .pred %p<3>;
.loc 15 96 0
$LDWbegin_vec_mulScalar:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_mulScalar_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_8_1026;
.loc 15 101 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_mulScalar_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
ld.param.f64 %fd2, [__cudaparm_vec_mulScalar_y];
mul.f64 %fd3, %fd1, %fd2;
ld.param.u32 %r8, [__cudaparm_vec_mulScalar_result];
add.u32 %r9, %r8, %r5;
st.global.f64 [%r9+0], %fd3;
$Lt_8_1026:
.loc 15 103 0
exit;
$LDWend_vec_mulScalar:
} // vec_mulScalar
.entry vec_divScalar (
.param .u32 __cudaparm_vec_divScalar_n,
.param .u32 __cudaparm_vec_divScalar_result,
.param .u32 __cudaparm_vec_divScalar_x,
.param .f64 __cudaparm_vec_divScalar_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<11>;
.reg .f64 %fd<5>;
.reg .pred %p<3>;
.loc 15 107 0
$LDWbegin_vec_divScalar:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_divScalar_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_9_1026;
.loc 15 112 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_divScalar_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
ld.param.f64 %fd2, [__cudaparm_vec_divScalar_y];
div.rn.f64 %fd3, %fd1, %fd2;
ld.param.u32 %r8, [__cudaparm_vec_divScalar_result];
add.u32 %r9, %r8, %r5;
st.global.f64 [%r9+0], %fd3;
$Lt_9_1026:
.loc 15 114 0
exit;
$LDWend_vec_divScalar:
} // vec_divScalar
.entry vec_scalarAdd (
.param .u32 __cudaparm_vec_scalarAdd_n,
.param .u32 __cudaparm_vec_scalarAdd_result,
.param .f64 __cudaparm_vec_scalarAdd_x,
.param .u32 __cudaparm_vec_scalarAdd_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<11>;
.reg .f64 %fd<5>;
.reg .pred %p<3>;
.loc 15 120 0
$LDWbegin_vec_scalarAdd:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_scalarAdd_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_10_1026;
.loc 15 125 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_scalarAdd_y];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
ld.param.f64 %fd2, [__cudaparm_vec_scalarAdd_x];
add.f64 %fd3, %fd1, %fd2;
ld.param.u32 %r8, [__cudaparm_vec_scalarAdd_result];
add.u32 %r9, %r8, %r5;
st.global.f64 [%r9+0], %fd3;
$Lt_10_1026:
.loc 15 127 0
exit;
$LDWend_vec_scalarAdd:
} // vec_scalarAdd
.entry vec_scalarSub (
.param .u32 __cudaparm_vec_scalarSub_n,
.param .u32 __cudaparm_vec_scalarSub_result,
.param .f64 __cudaparm_vec_scalarSub_x,
.param .u32 __cudaparm_vec_scalarSub_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<11>;
.reg .f64 %fd<5>;
.reg .pred %p<3>;
.loc 15 131 0
$LDWbegin_vec_scalarSub:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_scalarSub_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_11_1026;
.loc 15 136 0
mul.lo.u32 %r5, %r3, 8;
ld.param.f64 %fd1, [__cudaparm_vec_scalarSub_x];
ld.param.u32 %r6, [__cudaparm_vec_scalarSub_y];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd2, [%r7+0];
sub.f64 %fd3, %fd1, %fd2;
ld.param.u32 %r8, [__cudaparm_vec_scalarSub_result];
add.u32 %r9, %r8, %r5;
st.global.f64 [%r9+0], %fd3;
$Lt_11_1026:
.loc 15 138 0
exit;
$LDWend_vec_scalarSub:
} // vec_scalarSub
.entry vec_scalarMul (
.param .u32 __cudaparm_vec_scalarMul_n,
.param .u32 __cudaparm_vec_scalarMul_result,
.param .f64 __cudaparm_vec_scalarMul_x,
.param .u32 __cudaparm_vec_scalarMul_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<11>;
.reg .f64 %fd<5>;
.reg .pred %p<3>;
.loc 15 142 0
$LDWbegin_vec_scalarMul:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_scalarMul_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_12_1026;
.loc 15 147 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_scalarMul_y];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
ld.param.f64 %fd2, [__cudaparm_vec_scalarMul_x];
mul.f64 %fd3, %fd1, %fd2;
ld.param.u32 %r8, [__cudaparm_vec_scalarMul_result];
add.u32 %r9, %r8, %r5;
st.global.f64 [%r9+0], %fd3;
$Lt_12_1026:
.loc 15 149 0
exit;
$LDWend_vec_scalarMul:
} // vec_scalarMul
.entry vec_scalarDiv (
.param .u32 __cudaparm_vec_scalarDiv_n,
.param .u32 __cudaparm_vec_scalarDiv_result,
.param .f64 __cudaparm_vec_scalarDiv_x,
.param .u32 __cudaparm_vec_scalarDiv_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<11>;
.reg .f64 %fd<5>;
.reg .pred %p<3>;
.loc 15 153 0
$LDWbegin_vec_scalarDiv:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_scalarDiv_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_13_1026;
.loc 15 158 0
mul.lo.u32 %r5, %r3, 8;
ld.param.f64 %fd1, [__cudaparm_vec_scalarDiv_x];
ld.param.u32 %r6, [__cudaparm_vec_scalarDiv_y];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd2, [%r7+0];
div.rn.f64 %fd3, %fd1, %fd2;
ld.param.u32 %r8, [__cudaparm_vec_scalarDiv_result];
add.u32 %r9, %r8, %r5;
st.global.f64 [%r9+0], %fd3;
$Lt_13_1026:
.loc 15 160 0
exit;
$LDWend_vec_scalarDiv:
} // vec_scalarDiv
.entry vec_lt (
.param .u32 __cudaparm_vec_lt_n,
.param .u32 __cudaparm_vec_lt_result,
.param .u32 __cudaparm_vec_lt_x,
.param .u32 __cudaparm_vec_lt_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<13>;
.reg .f64 %fd<7>;
.reg .pred %p<4>;
.loc 15 173 0
$LDWbegin_vec_lt:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_lt_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_14_1794;
.loc 15 178 0
mul.lo.u32 %r5, %r3, 8;
mov.f64 %fd1, 0d3ff0000000000000; // 1
mov.f64 %fd2, 0d0000000000000000; // 0
ld.param.u32 %r6, [__cudaparm_vec_lt_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd3, [%r7+0];
ld.param.u32 %r8, [__cudaparm_vec_lt_y];
add.u32 %r9, %r8, %r5;
ld.global.f64 %fd4, [%r9+0];
setp.lt.f64 %p2, %fd3, %fd4;
selp.f64 %fd5, %fd1, %fd2, %p2;
ld.param.u32 %r10, [__cudaparm_vec_lt_result];
add.u32 %r11, %r10, %r5;
st.global.f64 [%r11+0], %fd5;
$Lt_14_1794:
.loc 15 180 0
exit;
$LDWend_vec_lt:
} // vec_lt
.entry vec_lte (
.param .u32 __cudaparm_vec_lte_n,
.param .u32 __cudaparm_vec_lte_result,
.param .u32 __cudaparm_vec_lte_x,
.param .u32 __cudaparm_vec_lte_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<13>;
.reg .f64 %fd<7>;
.reg .pred %p<4>;
.loc 15 184 0
$LDWbegin_vec_lte:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_lte_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_15_1794;
.loc 15 189 0
mul.lo.u32 %r5, %r3, 8;
mov.f64 %fd1, 0d3ff0000000000000; // 1
mov.f64 %fd2, 0d0000000000000000; // 0
ld.param.u32 %r6, [__cudaparm_vec_lte_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd3, [%r7+0];
ld.param.u32 %r8, [__cudaparm_vec_lte_y];
add.u32 %r9, %r8, %r5;
ld.global.f64 %fd4, [%r9+0];
setp.le.f64 %p2, %fd3, %fd4;
selp.f64 %fd5, %fd1, %fd2, %p2;
ld.param.u32 %r10, [__cudaparm_vec_lte_result];
add.u32 %r11, %r10, %r5;
st.global.f64 [%r11+0], %fd5;
$Lt_15_1794:
.loc 15 191 0
exit;
$LDWend_vec_lte:
} // vec_lte
.entry vec_eq (
.param .u32 __cudaparm_vec_eq_n,
.param .u32 __cudaparm_vec_eq_result,
.param .u32 __cudaparm_vec_eq_x,
.param .u32 __cudaparm_vec_eq_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<13>;
.reg .f64 %fd<7>;
.reg .pred %p<4>;
.loc 15 195 0
$LDWbegin_vec_eq:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_eq_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_16_1794;
.loc 15 200 0
mul.lo.u32 %r5, %r3, 8;
mov.f64 %fd1, 0d3ff0000000000000; // 1
mov.f64 %fd2, 0d0000000000000000; // 0
ld.param.u32 %r6, [__cudaparm_vec_eq_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd3, [%r7+0];
ld.param.u32 %r8, [__cudaparm_vec_eq_y];
add.u32 %r9, %r8, %r5;
ld.global.f64 %fd4, [%r9+0];
setp.eq.f64 %p2, %fd3, %fd4;
selp.f64 %fd5, %fd1, %fd2, %p2;
ld.param.u32 %r10, [__cudaparm_vec_eq_result];
add.u32 %r11, %r10, %r5;
st.global.f64 [%r11+0], %fd5;
$Lt_16_1794:
.loc 15 202 0
exit;
$LDWend_vec_eq:
} // vec_eq
.entry vec_gte (
.param .u32 __cudaparm_vec_gte_n,
.param .u32 __cudaparm_vec_gte_result,
.param .u32 __cudaparm_vec_gte_x,
.param .u32 __cudaparm_vec_gte_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<13>;
.reg .f64 %fd<7>;
.reg .pred %p<4>;
.loc 15 206 0
$LDWbegin_vec_gte:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_gte_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_17_1794;
.loc 15 211 0
mul.lo.u32 %r5, %r3, 8;
mov.f64 %fd1, 0d3ff0000000000000; // 1
mov.f64 %fd2, 0d0000000000000000; // 0
ld.param.u32 %r6, [__cudaparm_vec_gte_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd3, [%r7+0];
ld.param.u32 %r8, [__cudaparm_vec_gte_y];
add.u32 %r9, %r8, %r5;
ld.global.f64 %fd4, [%r9+0];
setp.ge.f64 %p2, %fd3, %fd4;
selp.f64 %fd5, %fd1, %fd2, %p2;
ld.param.u32 %r10, [__cudaparm_vec_gte_result];
add.u32 %r11, %r10, %r5;
st.global.f64 [%r11+0], %fd5;
$Lt_17_1794:
.loc 15 213 0
exit;
$LDWend_vec_gte:
} // vec_gte
.entry vec_gt (
.param .u32 __cudaparm_vec_gt_n,
.param .u32 __cudaparm_vec_gt_result,
.param .u32 __cudaparm_vec_gt_x,
.param .u32 __cudaparm_vec_gt_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<13>;
.reg .f64 %fd<7>;
.reg .pred %p<4>;
.loc 15 217 0
$LDWbegin_vec_gt:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_gt_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_18_1794;
.loc 15 222 0
mul.lo.u32 %r5, %r3, 8;
mov.f64 %fd1, 0d3ff0000000000000; // 1
mov.f64 %fd2, 0d0000000000000000; // 0
ld.param.u32 %r6, [__cudaparm_vec_gt_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd3, [%r7+0];
ld.param.u32 %r8, [__cudaparm_vec_gt_y];
add.u32 %r9, %r8, %r5;
ld.global.f64 %fd4, [%r9+0];
setp.gt.f64 %p2, %fd3, %fd4;
selp.f64 %fd5, %fd1, %fd2, %p2;
ld.param.u32 %r10, [__cudaparm_vec_gt_result];
add.u32 %r11, %r10, %r5;
st.global.f64 [%r11+0], %fd5;
$Lt_18_1794:
.loc 15 224 0
exit;
$LDWend_vec_gt:
} // vec_gt
.entry vec_ne (
.param .u32 __cudaparm_vec_ne_n,
.param .u32 __cudaparm_vec_ne_result,
.param .u32 __cudaparm_vec_ne_x,
.param .u32 __cudaparm_vec_ne_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<13>;
.reg .f64 %fd<7>;
.reg .pred %p<4>;
.loc 15 229 0
$LDWbegin_vec_ne:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_ne_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_19_1794;
.loc 15 234 0
mul.lo.u32 %r5, %r3, 8;
mov.f64 %fd1, 0d3ff0000000000000; // 1
mov.f64 %fd2, 0d0000000000000000; // 0
ld.param.u32 %r6, [__cudaparm_vec_ne_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd3, [%r7+0];
ld.param.u32 %r8, [__cudaparm_vec_ne_y];
add.u32 %r9, %r8, %r5;
ld.global.f64 %fd4, [%r9+0];
setp.ne.f64 %p2, %fd3, %fd4;
selp.f64 %fd5, %fd1, %fd2, %p2;
ld.param.u32 %r10, [__cudaparm_vec_ne_result];
add.u32 %r11, %r10, %r5;
st.global.f64 [%r11+0], %fd5;
$Lt_19_1794:
.loc 15 236 0
exit;
$LDWend_vec_ne:
} // vec_ne
.entry vec_ltScalar (
.param .u32 __cudaparm_vec_ltScalar_n,
.param .u32 __cudaparm_vec_ltScalar_result,
.param .u32 __cudaparm_vec_ltScalar_x,
.param .f64 __cudaparm_vec_ltScalar_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<11>;
.reg .f64 %fd<7>;
.reg .pred %p<4>;
.loc 15 244 0
$LDWbegin_vec_ltScalar:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_ltScalar_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_20_1794;
.loc 15 249 0
mul.lo.u32 %r5, %r3, 8;
mov.f64 %fd1, 0d3ff0000000000000; // 1
mov.f64 %fd2, 0d0000000000000000; // 0
ld.param.u32 %r6, [__cudaparm_vec_ltScalar_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd3, [%r7+0];
ld.param.f64 %fd4, [__cudaparm_vec_ltScalar_y];
setp.lt.f64 %p2, %fd3, %fd4;
selp.f64 %fd5, %fd1, %fd2, %p2;
ld.param.u32 %r8, [__cudaparm_vec_ltScalar_result];
add.u32 %r9, %r8, %r5;
st.global.f64 [%r9+0], %fd5;
$Lt_20_1794:
.loc 15 251 0
exit;
$LDWend_vec_ltScalar:
} // vec_ltScalar
.entry vec_lteScalar (
.param .u32 __cudaparm_vec_lteScalar_n,
.param .u32 __cudaparm_vec_lteScalar_result,
.param .u32 __cudaparm_vec_lteScalar_x,
.param .f64 __cudaparm_vec_lteScalar_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<11>;
.reg .f64 %fd<7>;
.reg .pred %p<4>;
.loc 15 255 0
$LDWbegin_vec_lteScalar:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_lteScalar_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_21_1794;
.loc 15 260 0
mul.lo.u32 %r5, %r3, 8;
mov.f64 %fd1, 0d3ff0000000000000; // 1
mov.f64 %fd2, 0d0000000000000000; // 0
ld.param.u32 %r6, [__cudaparm_vec_lteScalar_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd3, [%r7+0];
ld.param.f64 %fd4, [__cudaparm_vec_lteScalar_y];
setp.le.f64 %p2, %fd3, %fd4;
selp.f64 %fd5, %fd1, %fd2, %p2;
ld.param.u32 %r8, [__cudaparm_vec_lteScalar_result];
add.u32 %r9, %r8, %r5;
st.global.f64 [%r9+0], %fd5;
$Lt_21_1794:
.loc 15 262 0
exit;
$LDWend_vec_lteScalar:
} // vec_lteScalar
.entry vec_eqScalar (
.param .u32 __cudaparm_vec_eqScalar_n,
.param .u32 __cudaparm_vec_eqScalar_result,
.param .u32 __cudaparm_vec_eqScalar_x,
.param .f64 __cudaparm_vec_eqScalar_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<11>;
.reg .f64 %fd<7>;
.reg .pred %p<4>;
.loc 15 266 0
$LDWbegin_vec_eqScalar:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_eqScalar_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_22_1794;
.loc 15 271 0
mul.lo.u32 %r5, %r3, 8;
mov.f64 %fd1, 0d3ff0000000000000; // 1
mov.f64 %fd2, 0d0000000000000000; // 0
ld.param.u32 %r6, [__cudaparm_vec_eqScalar_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd3, [%r7+0];
ld.param.f64 %fd4, [__cudaparm_vec_eqScalar_y];
setp.eq.f64 %p2, %fd3, %fd4;
selp.f64 %fd5, %fd1, %fd2, %p2;
ld.param.u32 %r8, [__cudaparm_vec_eqScalar_result];
add.u32 %r9, %r8, %r5;
st.global.f64 [%r9+0], %fd5;
$Lt_22_1794:
.loc 15 273 0
exit;
$LDWend_vec_eqScalar:
} // vec_eqScalar
.entry vec_gteScalar (
.param .u32 __cudaparm_vec_gteScalar_n,
.param .u32 __cudaparm_vec_gteScalar_result,
.param .u32 __cudaparm_vec_gteScalar_x,
.param .f64 __cudaparm_vec_gteScalar_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<11>;
.reg .f64 %fd<7>;
.reg .pred %p<4>;
.loc 15 277 0
$LDWbegin_vec_gteScalar:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_gteScalar_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_23_1794;
.loc 15 282 0
mul.lo.u32 %r5, %r3, 8;
mov.f64 %fd1, 0d3ff0000000000000; // 1
mov.f64 %fd2, 0d0000000000000000; // 0
ld.param.u32 %r6, [__cudaparm_vec_gteScalar_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd3, [%r7+0];
ld.param.f64 %fd4, [__cudaparm_vec_gteScalar_y];
setp.ge.f64 %p2, %fd3, %fd4;
selp.f64 %fd5, %fd1, %fd2, %p2;
ld.param.u32 %r8, [__cudaparm_vec_gteScalar_result];
add.u32 %r9, %r8, %r5;
st.global.f64 [%r9+0], %fd5;
$Lt_23_1794:
.loc 15 284 0
exit;
$LDWend_vec_gteScalar:
} // vec_gteScalar
.entry vec_gtScalar (
.param .u32 __cudaparm_vec_gtScalar_n,
.param .u32 __cudaparm_vec_gtScalar_result,
.param .u32 __cudaparm_vec_gtScalar_x,
.param .f64 __cudaparm_vec_gtScalar_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<11>;
.reg .f64 %fd<7>;
.reg .pred %p<4>;
.loc 15 288 0
$LDWbegin_vec_gtScalar:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_gtScalar_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_24_1794;
.loc 15 293 0
mul.lo.u32 %r5, %r3, 8;
mov.f64 %fd1, 0d3ff0000000000000; // 1
mov.f64 %fd2, 0d0000000000000000; // 0
ld.param.u32 %r6, [__cudaparm_vec_gtScalar_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd3, [%r7+0];
ld.param.f64 %fd4, [__cudaparm_vec_gtScalar_y];
setp.gt.f64 %p2, %fd3, %fd4;
selp.f64 %fd5, %fd1, %fd2, %p2;
ld.param.u32 %r8, [__cudaparm_vec_gtScalar_result];
add.u32 %r9, %r8, %r5;
st.global.f64 [%r9+0], %fd5;
$Lt_24_1794:
.loc 15 295 0
exit;
$LDWend_vec_gtScalar:
} // vec_gtScalar
.entry vec_neScalar (
.param .u32 __cudaparm_vec_neScalar_n,
.param .u32 __cudaparm_vec_neScalar_result,
.param .u32 __cudaparm_vec_neScalar_x,
.param .f64 __cudaparm_vec_neScalar_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<11>;
.reg .f64 %fd<7>;
.reg .pred %p<4>;
.loc 15 299 0
$LDWbegin_vec_neScalar:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_neScalar_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_25_1794;
.loc 15 304 0
mul.lo.u32 %r5, %r3, 8;
mov.f64 %fd1, 0d3ff0000000000000; // 1
mov.f64 %fd2, 0d0000000000000000; // 0
ld.param.u32 %r6, [__cudaparm_vec_neScalar_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd3, [%r7+0];
ld.param.f64 %fd4, [__cudaparm_vec_neScalar_y];
setp.ne.f64 %p2, %fd3, %fd4;
selp.f64 %fd5, %fd1, %fd2, %p2;
ld.param.u32 %r8, [__cudaparm_vec_neScalar_result];
add.u32 %r9, %r8, %r5;
st.global.f64 [%r9+0], %fd5;
$Lt_25_1794:
.loc 15 306 0
exit;
$LDWend_vec_neScalar:
} // vec_neScalar
.entry vec_acos (
.param .u32 __cudaparm_vec_acos_n,
.param .u32 __cudaparm_vec_acos_result,
.param .u32 __cudaparm_vec_acos_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<13>;
.reg .f32 %f<46>;
.reg .f64 %fd<4>;
.reg .pred %p<5>;
.loc 15 323 0
$LDWbegin_vec_acos:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_acos_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_26_3330;
.loc 15 328 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_acos_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
.loc 17 8429 0
abs.f32 %f2, %f1;
mov.f32 %f3, 0f3f11eb85; // 0.57
setp.gt.f32 %p2, %f2, %f3;
mov.f32 %f4, 0f3f800000; // 1
sub.f32 %f5, %f4, %f2;
mov.f32 %f6, 0f3f000000; // 0.5
mul.f32 %f7, %f5, %f6;
sqrt.approx.f32 %f8, %f7;
selp.f32 %f9, %f8, %f2, %p2;
mul.f32 %f10, %f9, %f9;
mov.f32 %f11, 0f3d53f941; // 0.0517514
mov.f32 %f12, %f11;
mov.f32 %f13, %f10;
mov.f32 %f14, 0f3c94d2e9; // 0.018167
mov.f32 %f15, %f14;
mad.f32 %f16, %f12, %f13, %f15;
mov.f32 %f17, %f16;
mov.f32 %f18, %f17;
mov.f32 %f19, %f10;
mov.f32 %f20, 0f3d3f841f; // 0.0467569
mov.f32 %f21, %f20;
mad.f32 %f22, %f18, %f19, %f21;
mov.f32 %f17, %f22;
mov.f32 %f23, %f17;
mov.f32 %f24, %f10;
mov.f32 %f25, 0f3d994929; // 0.0748466
mov.f32 %f26, %f25;
mad.f32 %f27, %f23, %f24, %f26;
mov.f32 %f17, %f27;
mov.f32 %f28, %f17;
mov.f32 %f29, %f10;
mov.f32 %f30, 0f3e2aab94; // 0.16667
mov.f32 %f31, %f30;
mad.f32 %f32, %f28, %f29, %f31;
mov.f32 %f17, %f32;
mul.f32 %f33, %f10, %f17;
mov.f32 %f34, %f33;
mov.f32 %f35, %f9;
mov.f32 %f36, %f9;
mad.f32 %f37, %f34, %f35, %f36;
mov.f32 %f17, %f37;
.loc 15 328 0
add.f32 %f38, %f17, %f17;
mov.f32 %f39, 0f3fc90fdb; // 1.5708
sub.f32 %f40, %f39, %f17;
selp.f32 %f41, %f38, %f40, %p2;
mov.f32 %f42, 0f40490fdb; // 3.14159
sub.f32 %f43, %f42, %f41;
mov.b32 %r8, %f1;
mov.s32 %r9, 0;
setp.lt.s32 %p3, %r8, %r9;
selp.f32 %f44, %f43, %f41, %p3;
cvt.f64.f32 %fd2, %f44;
ld.param.u32 %r10, [__cudaparm_vec_acos_result];
add.u32 %r11, %r10, %r5;
st.global.f64 [%r11+0], %fd2;
$Lt_26_3330:
.loc 15 330 0
exit;
$LDWend_vec_acos:
} // vec_acos
.entry vec_acosh (
.param .u32 __cudaparm_vec_acosh_n,
.param .u32 __cudaparm_vec_acosh_result,
.param .u32 __cudaparm_vec_acosh_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<39>;
.reg .f32 %f<132>;
.reg .f64 %fd<4>;
.reg .pred %p<9>;
.loc 15 335 0
$LDWbegin_vec_acosh:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_acosh_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_27_6402;
.loc 15 340 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_acosh_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
mov.f32 %f2, 0fbf800000; // -1
add.f32 %f3, %f1, %f2;
abs.f32 %f4, %f3;
mov.f32 %f5, 0f4b000000; // 8.38861e+006
setp.gt.f32 %p2, %f4, %f5;
@!%p2 bra $Lt_27_7170;
.loc 17 9400 0
mov.f32 %f6, 0f00000000; // 0
set.gt.u32.f32 %r8, %f1, %f6;
neg.s32 %r9, %r8;
mov.f32 %f7, 0f7f800000; // 1.#INF
set.lt.u32.f32 %r10, %f1, %f7;
neg.s32 %r11, %r10;
and.b32 %r12, %r9, %r11;
mov.u32 %r13, 0;
setp.eq.s32 %p3, %r12, %r13;
@%p3 bra $Lt_27_7682;
.loc 17 8512 0
mov.b32 %r14, %f1;
and.b32 %r15, %r14, -2139095041;
or.b32 %r16, %r15, 1065353216;
mov.b32 %f8, %r16;
mov.f32 %f9, %f8;
.loc 17 8513 0
shr.u32 %r17, %r14, 23;
sub.u32 %r18, %r17, 127;
mov.f32 %f10, 0f3fb504f3; // 1.41421
setp.gt.f32 %p4, %f8, %f10;
@!%p4 bra $Lt_27_7938;
.loc 17 8515 0
mov.f32 %f11, 0f3f000000; // 0.5
mul.f32 %f9, %f8, %f11;
.loc 17 8516 0
add.s32 %r18, %r18, 1;
$Lt_27_7938:
.loc 17 8429 0
mov.f32 %f12, 0fbf800000; // -1
add.f32 %f13, %f9, %f12;
mov.f32 %f14, 0f3f800000; // 1
add.f32 %f15, %f9, %f14;
neg.f32 %f16, %f13;
div.approx.f32 %f17, %f13, %f15;
mul.rn.f32 %f18, %f16, %f17;
add.rn.f32 %f19, %f13, %f18;
mul.f32 %f20, %f19, %f19;
mov.f32 %f21, 0f3b2063c3; // 0.00244735
mov.f32 %f22, %f21;
mov.f32 %f23, %f20;
mov.f32 %f24, 0f3c4c4be0; // 0.0124693
mov.f32 %f25, %f24;
mad.f32 %f26, %f22, %f23, %f25;
mov.f32 %f27, %f26;
mov.f32 %f28, %f27;
mov.f32 %f29, %f20;
mov.f32 %f30, 0f3daaab50; // 0.0833346
mov.f32 %f31, %f30;
mad.f32 %f32, %f28, %f29, %f31;
mov.f32 %f33, %f32;
mul.f32 %f34, %f20, %f33;
mov.f32 %f35, %f34;
mov.f32 %f36, %f19;
mov.f32 %f37, %f18;
mad.f32 %f38, %f35, %f36, %f37;
mov.f32 %f39, %f38;
cvt.rn.f32.s32 %f40, %r18;
mov.f32 %f41, %f40;
mov.f32 %f42, 0f3f317218; // 0.693147
mov.f32 %f43, %f42;
add.f32 %f44, %f13, %f39;
mov.f32 %f45, %f44;
mad.f32 %f46, %f41, %f43, %f45;
mov.f32 %f47, %f46;
.loc 17 8523 0
mov.f32 %f48, %f47;
bra.uni $Lt_27_7426;
$Lt_27_7682:
.loc 17 8526 0
lg2.approx.f32 %f49, %f1;
mov.f32 %f50, 0f3f317218; // 0.693147
mul.f32 %f48, %f49, %f50;
$Lt_27_7426:
.loc 17 9400 0
mov.f32 %f51, 0f3f317218; // 0.693147
add.f32 %f52, %f48, %f51;
bra.uni $Lt_27_6914;
$Lt_27_7170:
.loc 17 9403 0
mul.rz.f32 %f53, %f1, %f3;
add.rn.f32 %f54, %f53, %f3;
sqrt.approx.f32 %f55, %f54;
add.f32 %f56, %f3, %f55;
mov.f32 %f57, 0fbec9ba5e; // -0.394
set.ge.u32.f32 %r19, %f56, %f57;
neg.s32 %r20, %r19;
mov.f32 %f58, 0f3f266666; // 0.65
set.le.u32.f32 %r21, %f56, %f58;
neg.s32 %r22, %r21;
and.b32 %r23, %r20, %r22;
mov.u32 %r24, 0;
setp.eq.s32 %p5, %r23, %r24;
@%p5 bra $Lt_27_8706;
.loc 17 9385 0
neg.f32 %f59, %f56;
mov.f32 %f60, 0f40000000; // 2
add.f32 %f61, %f56, %f60;
div.approx.f32 %f62, %f56, %f61;
mul.rn.f32 %f63, %f59, %f62;
.loc 17 8429 0
add.rn.f32 %f64, %f56, %f63;
mul.f32 %f65, %f64, %f64;
mov.f32 %f66, 0f3b2063c3; // 0.00244735
mov.f32 %f67, %f66;
mov.f32 %f68, %f65;
mov.f32 %f69, 0f3c4c4be0; // 0.0124693
mov.f32 %f70, %f69;
mad.f32 %f71, %f67, %f68, %f70;
mov.f32 %f72, %f71;
mov.f32 %f73, %f72;
mov.f32 %f74, %f65;
mov.f32 %f75, 0f3daaab50; // 0.0833346
mov.f32 %f76, %f75;
mad.f32 %f77, %f73, %f74, %f76;
mov.f32 %f78, %f77;
mul.f32 %f79, %f65, %f78;
mov.f32 %f80, %f79;
mov.f32 %f81, %f64;
mov.f32 %f82, %f63;
mad.f32 %f83, %f80, %f81, %f82;
mov.f32 %f84, %f83;
.loc 17 9386 0
add.f32 %f63, %f56, %f84;
bra.uni $Lt_27_8450;
$Lt_27_8706:
.loc 17 9388 0
mov.f32 %f85, 0f3f800000; // 1
add.f32 %f86, %f56, %f85;
mov.f32 %f87, 0f00000000; // 0
set.gt.u32.f32 %r25, %f86, %f87;
neg.s32 %r26, %r25;
mov.f32 %f88, 0f7f800000; // 1.#INF
set.lt.u32.f32 %r27, %f86, %f88;
neg.s32 %r28, %r27;
and.b32 %r29, %r26, %r28;
mov.u32 %r30, 0;
setp.eq.s32 %p6, %r29, %r30;
@%p6 bra $Lt_27_9218;
.loc 17 8512 0
mov.b32 %r31, %f86;
and.b32 %r32, %r31, -2139095041;
or.b32 %r33, %r32, 1065353216;
mov.b32 %f89, %r33;
.loc 17 8513 0
shr.u32 %r34, %r31, 23;
sub.u32 %r35, %r34, 127;
mov.f32 %f90, 0f3fb504f3; // 1.41421
setp.gt.f32 %p7, %f89, %f90;
@!%p7 bra $Lt_27_9474;
.loc 17 8515 0
mov.f32 %f91, 0f3f000000; // 0.5
mul.f32 %f89, %f89, %f91;
.loc 17 8516 0
add.s32 %r35, %r35, 1;
$Lt_27_9474:
.loc 17 8429 0
mov.f32 %f92, 0fbf800000; // -1
add.f32 %f93, %f89, %f92;
mov.f32 %f94, 0f3f800000; // 1
add.f32 %f95, %f89, %f94;
neg.f32 %f96, %f93;
div.approx.f32 %f97, %f93, %f95;
mul.rn.f32 %f98, %f96, %f97;
add.rn.f32 %f99, %f93, %f98;
mul.f32 %f100, %f99, %f99;
mov.f32 %f101, 0f3b2063c3; // 0.00244735
mov.f32 %f102, %f101;
mov.f32 %f103, %f100;
mov.f32 %f104, 0f3c4c4be0; // 0.0124693
mov.f32 %f105, %f104;
mad.f32 %f106, %f102, %f103, %f105;
mov.f32 %f107, %f106;
mov.f32 %f108, %f107;
mov.f32 %f109, %f100;
mov.f32 %f110, 0f3daaab50; // 0.0833346
mov.f32 %f111, %f110;
mad.f32 %f112, %f108, %f109, %f111;
mov.f32 %f113, %f112;
mul.f32 %f114, %f100, %f113;
mov.f32 %f115, %f114;
mov.f32 %f116, %f99;
mov.f32 %f117, %f98;
mad.f32 %f118, %f115, %f116, %f117;
mov.f32 %f119, %f118;
cvt.rn.f32.s32 %f120, %r35;
mov.f32 %f121, %f120;
mov.f32 %f122, 0f3f317218; // 0.693147
mov.f32 %f123, %f122;
add.f32 %f124, %f93, %f119;
mov.f32 %f125, %f124;
mad.f32 %f126, %f121, %f123, %f125;
mov.f32 %f127, %f126;
.loc 17 8523 0
mov.f32 %f128, %f127;
bra.uni $Lt_27_8962;
$Lt_27_9218:
.loc 17 8526 0
lg2.approx.f32 %f129, %f86;
mov.f32 %f130, 0f3f317218; // 0.693147
mul.f32 %f128, %f129, %f130;
$Lt_27_8962:
.loc 17 9388 0
mov.f32 %f63, %f128;
$Lt_27_8450:
.loc 17 9403 0
mov.f32 %f52, %f63;
$Lt_27_6914:
.loc 15 340 0
cvt.f64.f32 %fd2, %f52;
ld.param.u32 %r36, [__cudaparm_vec_acosh_result];
add.u32 %r37, %r36, %r5;
st.global.f64 [%r37+0], %fd2;
$Lt_27_6402:
.loc 15 342 0
exit;
$LDWend_vec_acosh:
} // vec_acosh
.entry vec_asin (
.param .u32 __cudaparm_vec_asin_n,
.param .u32 __cudaparm_vec_asin_result,
.param .u32 __cudaparm_vec_asin_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<15>;
.reg .f32 %f<49>;
.reg .f64 %fd<4>;
.reg .pred %p<5>;
.loc 15 347 0
$LDWbegin_vec_asin:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_asin_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_28_3330;
.loc 15 352 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_asin_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
.loc 17 8429 0
abs.f32 %f2, %f1;
mov.f32 %f3, 0f3f11eb85; // 0.57
setp.gt.f32 %p2, %f2, %f3;
mov.f32 %f4, 0f3f800000; // 1
sub.f32 %f5, %f4, %f2;
mov.f32 %f6, 0f3f000000; // 0.5
mul.f32 %f7, %f5, %f6;
sqrt.approx.f32 %f8, %f7;
selp.f32 %f9, %f8, %f2, %p2;
mul.f32 %f10, %f9, %f9;
mov.f32 %f11, 0f3d53f941; // 0.0517514
mov.f32 %f12, %f11;
mov.f32 %f13, %f10;
mov.f32 %f14, 0f3c94d2e9; // 0.018167
mov.f32 %f15, %f14;
mad.f32 %f16, %f12, %f13, %f15;
mov.f32 %f17, %f16;
mov.f32 %f18, %f17;
mov.f32 %f19, %f10;
mov.f32 %f20, 0f3d3f841f; // 0.0467569
mov.f32 %f21, %f20;
mad.f32 %f22, %f18, %f19, %f21;
mov.f32 %f17, %f22;
mov.f32 %f23, %f17;
mov.f32 %f24, %f10;
mov.f32 %f25, 0f3d994929; // 0.0748466
mov.f32 %f26, %f25;
mad.f32 %f27, %f23, %f24, %f26;
mov.f32 %f17, %f27;
mov.f32 %f28, %f17;
mov.f32 %f29, %f10;
mov.f32 %f30, 0f3e2aab94; // 0.16667
mov.f32 %f31, %f30;
mad.f32 %f32, %f28, %f29, %f31;
mov.f32 %f17, %f32;
mul.f32 %f33, %f10, %f17;
mov.f32 %f34, %f33;
mov.f32 %f35, %f9;
mov.f32 %f36, %f9;
mad.f32 %f37, %f34, %f35, %f36;
mov.f32 %f17, %f37;
mov.f32 %f38, 0fc0000000; // -2
mov.f32 %f39, %f38;
mov.f32 %f40, %f17;
mov.f32 %f41, 0f3fc90fdb; // 1.5708
mov.f32 %f42, %f41;
mad.f32 %f43, %f39, %f40, %f42;
mov.f32 %f44, %f43;
.loc 17 9331 0
selp.f32 %f45, %f44, %f17, %p2;
mov.f32 %f46, %f45;
mov.f32 %f47, 0f7f800000; // 1.#INF
setp.le.f32 %p3, %f45, %f47;
@!%p3 bra $Lt_28_3842;
.loc 17 9338 0
mov.b32 %r8, %f45;
mov.b32 %r9, %f1;
and.b32 %r10, %r9, -2147483648;
or.b32 %r11, %r8, %r10;
mov.b32 %f46, %r11;
$Lt_28_3842:
.loc 15 352 0
cvt.f64.f32 %fd2, %f46;
ld.param.u32 %r12, [__cudaparm_vec_asin_result];
add.u32 %r13, %r12, %r5;
st.global.f64 [%r13+0], %fd2;
$Lt_28_3330:
.loc 15 354 0
exit;
$LDWend_vec_asin:
} // vec_asin
.entry vec_asinh (
.param .u32 __cudaparm_vec_asinh_n,
.param .u32 __cudaparm_vec_asinh_result,
.param .u32 __cudaparm_vec_asinh_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<32>;
.reg .f32 %f<104>;
.reg .f64 %fd<4>;
.reg .pred %p<8>;
.loc 15 359 0
$LDWbegin_vec_asinh:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_asinh_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_29_5378;
.loc 15 364 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_asinh_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
abs.f32 %f2, %f1;
mov.f32 %f3, 0f7e800000; // 8.50706e+037
setp.gt.f32 %p2, %f2, %f3;
@!%p2 bra $Lt_29_6146;
.loc 17 9414 0
mov.f32 %f4, 0f3f317218; // 0.693147
lg2.approx.f32 %f5, %f2;
mov.f32 %f6, 0f3f317218; // 0.693147
mul.f32 %f7, %f5, %f6;
add.rn.f32 %f8, %f4, %f7;
bra.uni $Lt_29_5890;
$Lt_29_6146:
.loc 17 8429 0
rcp.approx.f32 %f9, %f2;
mov.f32 %f10, %f9;
mov.f32 %f11, %f9;
mov.f32 %f12, 0f3f800000; // 1
mov.f32 %f13, %f12;
mad.f32 %f14, %f10, %f11, %f13;
mov.f32 %f15, %f14;
.loc 17 8437 0
sqrt.approx.f32 %f16, %f15;
add.f32 %f17, %f9, %f16;
mov.f32 %f18, %f17;
rcp.approx.ftz.f32 %f19,%f18;
mov.f32 %f20, %f19;
.loc 17 8429 0
mov.f32 %f21, %f2;
mov.f32 %f22, %f20;
mov.f32 %f23, %f2;
mad.f32 %f24, %f21, %f22, %f23;
mov.f32 %f25, %f24;
.loc 17 9419 0
mov.f32 %f26, 0fbec9ba5e; // -0.394
set.ge.u32.f32 %r8, %f25, %f26;
neg.s32 %r9, %r8;
mov.f32 %f27, 0f3f266666; // 0.65
set.le.u32.f32 %r10, %f25, %f27;
neg.s32 %r11, %r10;
and.b32 %r12, %r9, %r11;
mov.u32 %r13, 0;
setp.eq.s32 %p3, %r12, %r13;
@%p3 bra $Lt_29_6658;
.loc 17 8429 0
neg.f32 %f28, %f25;
mov.f32 %f29, 0f40000000; // 2
add.f32 %f30, %f25, %f29;
div.approx.f32 %f31, %f25, %f30;
mul.rn.f32 %f32, %f28, %f31;
add.rn.f32 %f33, %f25, %f32;
mul.f32 %f34, %f33, %f33;
mov.f32 %f35, 0f3b2063c3; // 0.00244735
mov.f32 %f36, %f35;
mov.f32 %f37, %f34;
mov.f32 %f38, 0f3c4c4be0; // 0.0124693
mov.f32 %f39, %f38;
mad.f32 %f40, %f36, %f37, %f39;
mov.f32 %f41, %f40;
mov.f32 %f42, %f41;
mov.f32 %f43, %f34;
mov.f32 %f44, 0f3daaab50; // 0.0833346
mov.f32 %f45, %f44;
mad.f32 %f46, %f42, %f43, %f45;
mov.f32 %f47, %f46;
mul.f32 %f48, %f34, %f47;
mov.f32 %f49, %f48;
mov.f32 %f50, %f33;
mov.f32 %f51, %f32;
mad.f32 %f52, %f49, %f50, %f51;
mov.f32 %f53, %f52;
.loc 17 9386 0
add.f32 %f54, %f25, %f53;
bra.uni $Lt_29_6402;
$Lt_29_6658:
.loc 17 9388 0
mov.f32 %f55, 0f3f800000; // 1
add.f32 %f56, %f25, %f55;
mov.f32 %f57, 0f00000000; // 0
set.gt.u32.f32 %r14, %f56, %f57;
neg.s32 %r15, %r14;
mov.f32 %f58, 0f7f800000; // 1.#INF
set.lt.u32.f32 %r16, %f56, %f58;
neg.s32 %r17, %r16;
and.b32 %r18, %r15, %r17;
mov.u32 %r19, 0;
setp.eq.s32 %p4, %r18, %r19;
@%p4 bra $Lt_29_7170;
.loc 17 8512 0
mov.b32 %r20, %f56;
and.b32 %r21, %r20, -2139095041;
or.b32 %r22, %r21, 1065353216;
mov.b32 %f59, %r22;
mov.f32 %f60, %f59;
.loc 17 8513 0
shr.u32 %r23, %r20, 23;
sub.u32 %r24, %r23, 127;
mov.f32 %f61, 0f3fb504f3; // 1.41421
setp.gt.f32 %p5, %f59, %f61;
@!%p5 bra $Lt_29_7426;
.loc 17 8515 0
mov.f32 %f62, 0f3f000000; // 0.5
mul.f32 %f60, %f59, %f62;
.loc 17 8516 0
add.s32 %r24, %r24, 1;
$Lt_29_7426:
.loc 17 8429 0
mov.f32 %f63, 0fbf800000; // -1
add.f32 %f64, %f60, %f63;
mov.f32 %f65, 0f3f800000; // 1
add.f32 %f66, %f60, %f65;
neg.f32 %f67, %f64;
div.approx.f32 %f68, %f64, %f66;
mul.rn.f32 %f69, %f67, %f68;
add.rn.f32 %f70, %f64, %f69;
mul.f32 %f71, %f70, %f70;
mov.f32 %f72, 0f3b2063c3; // 0.00244735
mov.f32 %f73, %f72;
mov.f32 %f74, %f71;
mov.f32 %f75, 0f3c4c4be0; // 0.0124693
mov.f32 %f76, %f75;
mad.f32 %f77, %f73, %f74, %f76;
mov.f32 %f78, %f77;
mov.f32 %f79, %f78;
mov.f32 %f80, %f71;
mov.f32 %f81, 0f3daaab50; // 0.0833346
mov.f32 %f82, %f81;
mad.f32 %f83, %f79, %f80, %f82;
mov.f32 %f84, %f83;
mul.f32 %f85, %f71, %f84;
mov.f32 %f86, %f85;
mov.f32 %f87, %f70;
mov.f32 %f88, %f69;
mad.f32 %f89, %f86, %f87, %f88;
mov.f32 %f90, %f89;
cvt.rn.f32.s32 %f91, %r24;
mov.f32 %f92, %f91;
mov.f32 %f93, 0f3f317218; // 0.693147
mov.f32 %f94, %f93;
add.f32 %f95, %f64, %f90;
mov.f32 %f96, %f95;
mad.f32 %f97, %f92, %f94, %f96;
mov.f32 %f98, %f97;
.loc 17 8523 0
mov.f32 %f99, %f98;
bra.uni $Lt_29_6914;
$Lt_29_7170:
.loc 17 8526 0
lg2.approx.f32 %f100, %f56;
mov.f32 %f101, 0f3f317218; // 0.693147
mul.f32 %f99, %f100, %f101;
$Lt_29_6914:
.loc 17 9388 0
mov.f32 %f54, %f99;
$Lt_29_6402:
.loc 17 9419 0
mov.f32 %f8, %f54;
$Lt_29_5890:
mov.f32 %f102, 0f7f800000; // 1.#INF
setp.le.f32 %p6, %f2, %f102;
@!%p6 bra $Lt_29_7938;
.loc 17 9422 0
mov.b32 %r25, %f8;
mov.b32 %r26, %f1;
and.b32 %r27, %r26, -2147483648;
or.b32 %r28, %r25, %r27;
mov.b32 %f8, %r28;
$Lt_29_7938:
.loc 15 364 0
cvt.f64.f32 %fd2, %f8;
ld.param.u32 %r29, [__cudaparm_vec_asinh_result];
add.u32 %r30, %r29, %r5;
st.global.f64 [%r30+0], %fd2;
$Lt_29_5378:
.loc 15 366 0
exit;
$LDWend_vec_asinh:
} // vec_asinh
.entry vec_atan (
.param .u32 __cudaparm_vec_atan_n,
.param .u32 __cudaparm_vec_atan_result,
.param .u32 __cudaparm_vec_atan_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<15>;
.reg .f32 %f<43>;
.reg .f64 %fd<4>;
.reg .pred %p<5>;
.loc 15 371 0
$LDWbegin_vec_atan:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_atan_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_30_3330;
.loc 15 376 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_atan_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
.loc 17 8429 0
abs.f32 %f2, %f1;
mov.f32 %f3, 0f3f800000; // 1
setp.gt.f32 %p2, %f2, %f3;
rcp.approx.f32 %f4, %f2;
selp.f32 %f5, %f4, %f2, %p2;
mul.rn.f32 %f6, %f5, %f5;
mov.f32 %f7, %f6;
mov.f32 %f8, 0fbf52c7ea; // -0.823363
mov.f32 %f9, %f8;
mov.f32 %f10, 0fc0b59883; // -5.67487
mov.f32 %f11, %f10;
mad.f32 %f12, %f7, %f9, %f11;
mov.f32 %f13, %f12;
mov.f32 %f14, %f13;
mov.f32 %f15, %f6;
mov.f32 %f16, 0fc0d21907; // -6.56556
mov.f32 %f17, %f16;
mad.f32 %f18, %f14, %f15, %f17;
mov.f32 %f13, %f18;
.loc 17 8469 0
mul.f32 %f19, %f6, %f13;
mul.f32 %f20, %f5, %f19;
.loc 17 8429 0
mov.f32 %f21, 0f41355dc0; // 11.3354
add.f32 %f22, %f6, %f21;
mov.f32 %f23, %f22;
mov.f32 %f24, %f6;
mov.f32 %f25, 0f41e6bd60; // 28.8425
mov.f32 %f26, %f25;
mad.f32 %f27, %f23, %f24, %f26;
mov.f32 %f13, %f27;
mov.f32 %f28, %f13;
mov.f32 %f29, %f6;
mov.f32 %f30, 0f419d92c8; // 19.6967
mov.f32 %f31, %f30;
mad.f32 %f32, %f28, %f29, %f31;
mov.f32 %f13, %f32;
mov.f32 %f33, %f20;
rcp.approx.f32 %f34, %f13;
mov.f32 %f35, %f34;
mov.f32 %f36, %f5;
mad.f32 %f37, %f33, %f35, %f36;
mov.f32 %f13, %f37;
.loc 17 9297 0
mov.f32 %f38, 0f3fc90fdb; // 1.5708
sub.f32 %f39, %f38, %f13;
selp.f32 %f40, %f39, %f13, %p2;
mov.f32 %f41, 0f7f800000; // 1.#INF
setp.le.f32 %p3, %f2, %f41;
@!%p3 bra $Lt_30_3842;
.loc 17 9303 0
mov.b32 %r8, %f40;
mov.b32 %r9, %f1;
and.b32 %r10, %r9, -2147483648;
or.b32 %r11, %r8, %r10;
mov.b32 %f40, %r11;
$Lt_30_3842:
.loc 15 376 0
cvt.f64.f32 %fd2, %f40;
ld.param.u32 %r12, [__cudaparm_vec_atan_result];
add.u32 %r13, %r12, %r5;
st.global.f64 [%r13+0], %fd2;
$Lt_30_3330:
.loc 15 378 0
exit;
$LDWend_vec_atan:
} // vec_atan
.entry vec_atanh (
.param .u32 __cudaparm_vec_atanh_n,
.param .u32 __cudaparm_vec_atanh_result,
.param .u32 __cudaparm_vec_atanh_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<32>;
.reg .f32 %f<89>;
.reg .f64 %fd<4>;
.reg .pred %p<7>;
.loc 15 383 0
$LDWbegin_vec_atanh:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_atanh_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_31_4610;
.loc 15 388 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_atanh_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
.loc 17 9433 0
abs.f32 %f2, %f1;
add.f32 %f3, %f2, %f2;
mov.f32 %f4, 0f3f800000; // 1
sub.f32 %f5, %f4, %f2;
div.approx.f32 %f6, %f3, %f5;
mov.f32 %f7, 0fbec9ba5e; // -0.394
set.ge.u32.f32 %r8, %f6, %f7;
neg.s32 %r9, %r8;
mov.f32 %f8, 0f3f266666; // 0.65
set.le.u32.f32 %r10, %f6, %f8;
neg.s32 %r11, %r10;
and.b32 %r12, %r9, %r11;
mov.u32 %r13, 0;
setp.eq.s32 %p2, %r12, %r13;
@%p2 bra $Lt_31_5378;
.loc 17 8447 0
neg.f32 %f9, %f6;
mov.f32 %f10, 0f40000000; // 2
add.f32 %f11, %f6, %f10;
div.approx.f32 %f12, %f6, %f11;
mul.rn.f32 %f13, %f9, %f12;
add.rn.f32 %f14, %f6, %f13;
mul.f32 %f15, %f14, %f14;
.loc 17 8429 0
mov.f32 %f16, 0f3b2063c3; // 0.00244735
mov.f32 %f17, %f16;
mov.f32 %f18, %f15;
mov.f32 %f19, 0f3c4c4be0; // 0.0124693
mov.f32 %f20, %f19;
mad.f32 %f21, %f17, %f18, %f20;
mov.f32 %f22, %f21;
mov.f32 %f23, %f22;
mov.f32 %f24, %f15;
mov.f32 %f25, 0f3daaab50; // 0.0833346
mov.f32 %f26, %f25;
mad.f32 %f27, %f23, %f24, %f26;
mov.f32 %f28, %f27;
mul.f32 %f29, %f15, %f28;
mov.f32 %f30, %f29;
mov.f32 %f31, %f14;
mov.f32 %f32, %f13;
mad.f32 %f33, %f30, %f31, %f32;
mov.f32 %f34, %f33;
.loc 17 9386 0
add.f32 %f35, %f6, %f34;
bra.uni $Lt_31_5122;
$Lt_31_5378:
.loc 17 9388 0
mov.f32 %f36, 0f3f800000; // 1
add.f32 %f37, %f6, %f36;
mov.f32 %f38, 0f00000000; // 0
set.gt.u32.f32 %r14, %f37, %f38;
neg.s32 %r15, %r14;
mov.f32 %f39, 0f7f800000; // 1.#INF
set.lt.u32.f32 %r16, %f37, %f39;
neg.s32 %r17, %r16;
and.b32 %r18, %r15, %r17;
mov.u32 %r19, 0;
setp.eq.s32 %p3, %r18, %r19;
@%p3 bra $Lt_31_5890;
.loc 17 8512 0
mov.b32 %r20, %f37;
and.b32 %r21, %r20, -2139095041;
or.b32 %r22, %r21, 1065353216;
mov.b32 %f40, %r22;
mov.f32 %f41, %f40;
.loc 17 8513 0
shr.u32 %r23, %r20, 23;
sub.u32 %r24, %r23, 127;
mov.f32 %f42, 0f3fb504f3; // 1.41421
setp.gt.f32 %p4, %f40, %f42;
@!%p4 bra $Lt_31_6146;
.loc 17 8515 0
mov.f32 %f43, 0f3f000000; // 0.5
mul.f32 %f41, %f40, %f43;
.loc 17 8516 0
add.s32 %r24, %r24, 1;
$Lt_31_6146:
.loc 17 8429 0
mov.f32 %f44, 0fbf800000; // -1
add.f32 %f45, %f41, %f44;
mov.f32 %f46, 0f3f800000; // 1
add.f32 %f47, %f41, %f46;
neg.f32 %f48, %f45;
div.approx.f32 %f49, %f45, %f47;
mul.rn.f32 %f50, %f48, %f49;
add.rn.f32 %f51, %f45, %f50;
mul.f32 %f52, %f51, %f51;
mov.f32 %f53, 0f3b2063c3; // 0.00244735
mov.f32 %f54, %f53;
mov.f32 %f55, %f52;
mov.f32 %f56, 0f3c4c4be0; // 0.0124693
mov.f32 %f57, %f56;
mad.f32 %f58, %f54, %f55, %f57;
mov.f32 %f59, %f58;
mov.f32 %f60, %f59;
mov.f32 %f61, %f52;
mov.f32 %f62, 0f3daaab50; // 0.0833346
mov.f32 %f63, %f62;
mad.f32 %f64, %f60, %f61, %f63;
mov.f32 %f65, %f64;
mul.f32 %f66, %f52, %f65;
mov.f32 %f67, %f66;
mov.f32 %f68, %f51;
mov.f32 %f69, %f50;
mad.f32 %f70, %f67, %f68, %f69;
mov.f32 %f71, %f70;
cvt.rn.f32.s32 %f72, %r24;
mov.f32 %f73, %f72;
mov.f32 %f74, 0f3f317218; // 0.693147
mov.f32 %f75, %f74;
add.f32 %f76, %f45, %f71;
mov.f32 %f77, %f76;
mad.f32 %f78, %f73, %f75, %f77;
mov.f32 %f79, %f78;
.loc 17 8523 0
mov.f32 %f80, %f79;
bra.uni $Lt_31_5634;
$Lt_31_5890:
.loc 17 8526 0
lg2.approx.f32 %f81, %f37;
mov.f32 %f82, 0f3f317218; // 0.693147
mul.f32 %f80, %f81, %f82;
$Lt_31_5634:
.loc 17 9388 0
mov.f32 %f35, %f80;
$Lt_31_5122:
.loc 17 9433 0
mov.f32 %f83, 0f3f000000; // 0.5
mul.f32 %f84, %f35, %f83;
mov.f32 %f85, %f84;
abs.f32 %f86, %f84;
mov.f32 %f87, 0f7f800000; // 1.#INF
setp.le.f32 %p5, %f86, %f87;
@!%p5 bra $Lt_31_6658;
.loc 17 9435 0
mov.b32 %r25, %f84;
mov.b32 %r26, %f1;
and.b32 %r27, %r26, -2147483648;
or.b32 %r28, %r25, %r27;
mov.b32 %f85, %r28;
$Lt_31_6658:
.loc 15 388 0
cvt.f64.f32 %fd2, %f85;
ld.param.u32 %r29, [__cudaparm_vec_atanh_result];
add.u32 %r30, %r29, %r5;
st.global.f64 [%r30+0], %fd2;
$Lt_31_4610:
.loc 15 390 0
exit;
$LDWend_vec_atanh:
} // vec_atanh
.entry vec_cbrt (
.param .u32 __cudaparm_vec_cbrt_n,
.param .u32 __cudaparm_vec_cbrt_result,
.param .u32 __cudaparm_vec_cbrt_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<13>;
.reg .f32 %f<28>;
.reg .f64 %fd<4>;
.reg .pred %p<5>;
.loc 15 395 0
$LDWbegin_vec_cbrt:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_cbrt_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_32_2562;
.loc 15 400 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_cbrt_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
.loc 17 8437 0
abs.f32 %f2, %f1;
lg2.approx.f32 %f3, %f2;
mov.f32 %f4, 0f3eaaaaab; // 0.333333
mul.f32 %f5, %f3, %f4;
ex2.approx.f32 %f6, %f5;
mul.f32 %f7, %f6, %f6;
mov.f32 %f8, %f7;
rcp.approx.ftz.f32 %f9,%f8;
mov.f32 %f10, %f9;
.loc 17 8429 0
mov.f32 %f11, %f10;
neg.f32 %f12, %f2;
mov.f32 %f13, %f12;
mov.f32 %f14, %f6;
mad.f32 %f15, %f11, %f13, %f14;
mov.f32 %f16, %f15;
mov.f32 %f17, %f16;
mov.f32 %f18, 0fbeaaaaab; // -0.333333
mov.f32 %f19, %f18;
mov.f32 %f20, %f6;
mad.f32 %f21, %f17, %f19, %f20;
mov.f32 %f22, %f21;
.loc 15 400 0
add.f32 %f23, %f1, %f1;
neg.f32 %f24, %f22;
mov.b32 %r8, %f1;
mov.s32 %r9, 0;
setp.lt.s32 %p2, %r8, %r9;
selp.f32 %f25, %f24, %f22, %p2;
setp.eq.f32 %p3, %f23, %f1;
selp.f32 %f26, %f23, %f25, %p3;
cvt.f64.f32 %fd2, %f26;
ld.param.u32 %r10, [__cudaparm_vec_cbrt_result];
add.u32 %r11, %r10, %r5;
st.global.f64 [%r11+0], %fd2;
$Lt_32_2562:
.loc 15 402 0
exit;
$LDWend_vec_cbrt:
} // vec_cbrt
.entry vec_ceil (
.param .u32 __cudaparm_vec_ceil_n,
.param .u32 __cudaparm_vec_ceil_result,
.param .u32 __cudaparm_vec_ceil_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<11>;
.reg .f32 %f<4>;
.reg .f64 %fd<4>;
.reg .pred %p<3>;
.loc 15 407 0
$LDWbegin_vec_ceil:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_ceil_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_33_1026;
.loc 15 412 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_ceil_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
cvt.rpi.f32.f32 %f2, %f1;
cvt.f64.f32 %fd2, %f2;
ld.param.u32 %r8, [__cudaparm_vec_ceil_result];
add.u32 %r9, %r8, %r5;
st.global.f64 [%r9+0], %fd2;
$Lt_33_1026:
.loc 15 414 0
exit;
$LDWend_vec_ceil:
} // vec_ceil
.const .align 4 .b8 __cudart_i2opi_f[24] = {65,144,67,60,153,149,98,219,192,221,52,245,209,87,39,252,41,21,68,78,110,131,249,162};
.entry vec_cos (
.param .u32 __cudaparm_vec_cos_n,
.param .u32 __cudaparm_vec_cos_result,
.param .u32 __cudaparm_vec_cos_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<93>;
.reg .f32 %f<91>;
.reg .f64 %fd<5>;
.reg .pred %p<14>;
.local .align 4 .b8 __cuda___cuda_result_16620[28];
.loc 15 419 0
$LDWbegin_vec_cos:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_cos_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_34_10242;
.loc 17 9013 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_cos_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
.loc 17 8970 0
abs.f64 %fd2, %fd1;
cvt.rn.f32.f64 %f2, %fd2;
mov.f32 %f3, 0f7f800000; // 1.#INF
setp.eq.f32 %p2, %f2, %f3;
@!%p2 bra $Lt_34_10754;
.loc 17 8971 0
mov.f32 %f4, 0f00000000; // 0
mul.rn.f32 %f1, %f1, %f4;
$Lt_34_10754:
.loc 17 8726 0
mov.f32 %f5, 0f3f22f983; // 0.63662
mul.f32 %f6, %f1, %f5;
cvt.rni.s32.f32 %r8, %f6;
mov.s32 %r9, %r8;
.loc 17 8429 0
cvt.rn.f32.s32 %f7, %r8;
neg.f32 %f8, %f7;
mov.f32 %f9, %f8;
mov.f32 %f10, 0f3fc90000; // 1.57031
mov.f32 %f11, %f10;
mov.f32 %f12, %f1;
mad.f32 %f13, %f9, %f11, %f12;
mov.f32 %f14, %f13;
mov.f32 %f15, %f8;
mov.f32 %f16, 0f39fd8000; // 0.000483513
mov.f32 %f17, %f16;
mov.f32 %f18, %f14;
mad.f32 %f19, %f15, %f17, %f18;
mov.f32 %f20, %f19;
mov.f32 %f21, %f8;
mov.f32 %f22, 0f34a88000; // 3.13856e-007
mov.f32 %f23, %f22;
mov.f32 %f24, %f20;
mad.f32 %f25, %f21, %f23, %f24;
mov.f32 %f26, %f25;
mov.f32 %f27, %f8;
mov.f32 %f28, 0f2e85a309; // 6.0771e-011
mov.f32 %f29, %f28;
mov.f32 %f30, %f26;
mad.f32 %f31, %f27, %f29, %f30;
mov.f32 %f32, %f31;
.loc 17 8737 0
mov.f32 %f33, %f32;
abs.f32 %f34, %f1;
mov.f32 %f35, 0f473ba700; // 48039
setp.gt.f32 %p3, %f34, %f35;
@!%p3 bra $Lt_34_11266;
.loc 17 8740 0
mov.u32 %r10, __cudart_i2opi_f;
.loc 17 8658 0
mov.b32 %r11, %f1;
and.b32 %r12, %r11, -2147483648;
mov.s32 %r13, %r12;
.loc 17 24 0
shl.b32 %r14, %r11, 8;
mov.s32 %r15, %r10;
add.u32 %r16, %r10, 24;
mov.u32 %r17, __cuda___cuda_result_16620;
or.b32 %r18, %r14, -2147483648;
mov.u32 %r19, 0;
$Lt_34_12290:
// Loop body line 24, nesting depth: 1, iterations: 6
.loc 17 8674 0
ld.const.u32 %r20, [%r15+0];
mul.lo.u32 %r21, %r18, %r20;
add.u32 %r22, %r21, %r19;
.loc 17 8675 0
set.gt.u32.u32 %r23, %r21, %r22;
neg.s32 %r24, %r23;
mul.hi.u32 %r25, %r20, %r18;
add.u32 %r19, %r24, %r25;
.loc 17 8676 0
st.local.u32 [%r17+0], %r22;
add.u32 %r17, %r17, 4;
add.u32 %r15, %r15, 4;
setp.ne.u32 %p4, %r15, %r16;
@%p4 bra $Lt_34_12290;
.loc 17 8678 0
st.local.u32 [__cuda___cuda_result_16620+24], %r19;
.loc 17 8683 0
shl.b32 %r26, %r11, 1;
shr.u32 %r27, %r26, 24;
sub.u32 %r28, %r27, 128;
shr.u32 %r29, %r28, 5;
mov.s32 %r30, 4;
sub.s32 %r31, %r30, %r29;
mul.lo.u32 %r32, %r31, 4;
mov.u32 %r33, __cuda___cuda_result_16620;
add.u32 %r34, %r32, %r33;
ld.local.u32 %r19, [%r34+8];
.loc 17 8684 0
ld.local.u32 %r35, [%r34+4];
and.b32 %r36, %r28, 31;
mov.u32 %r37, 0;
setp.eq.u32 %p5, %r36, %r37;
@%p5 bra $Lt_34_12802;
.loc 17 8687 0
mov.s32 %r38, 32;
sub.s32 %r39, %r38, %r36;
shr.u32 %r40, %r35, %r39;
shl.b32 %r41, %r19, %r36;
add.u32 %r19, %r40, %r41;
.loc 17 8688 0
ld.local.u32 %r42, [%r34+0];
shr.u32 %r43, %r42, %r39;
shl.b32 %r44, %r35, %r36;
add.u32 %r35, %r43, %r44;
$Lt_34_12802:
.loc 17 8690 0
shr.u32 %r45, %r19, 30;
.loc 17 8692 0
shr.u32 %r46, %r35, 30;
shl.b32 %r47, %r19, 2;
add.u32 %r19, %r46, %r47;
.loc 17 8693 0
shl.b32 %r35, %r35, 2;
.loc 17 8695 0
shr.u32 %r48, %r19, 31;
add.u32 %r49, %r45, %r48;
.loc 17 8690 0
neg.s32 %r50, %r49;
mov.u32 %r51, 0;
setp.ne.u32 %p6, %r12, %r51;
selp.s32 %r52, %r50, %r49, %p6;
.loc 17 8697 0
mov.s32 %r9, %r52;
mov.u32 %r53, 0;
setp.eq.u32 %p7, %r48, %r53;
@%p7 bra $Lt_34_13314;
.loc 17 8701 0
neg.s32 %r35, %r35;
.loc 17 8703 0
mov.u32 %r54, 0;
set.eq.u32.u32 %r55, %r35, %r54;
neg.s32 %r56, %r55;
not.b32 %r57, %r19;
add.u32 %r19, %r56, %r57;
.loc 17 8704 0
xor.b32 %r13, %r12, -2147483648;
$Lt_34_13314:
.loc 17 8707 0
mov.u32 %r58, 0;
setp.eq.s32 %p8, %r19, %r58;
@%p8 bra $Lt_34_14082;
.loc 19 4479 0
cvt.rz.f32.u32 %f36, %r19;
mov.b32 %r59, %f36;
shr.s32 %r60, %r59, 23;
mov.s32 %r61, 158;
sub.s32 %r62, %r61, %r60;
bra.uni $Lt_34_13826;
$Lt_34_14082:
mov.s32 %r62, 32;
$Lt_34_13826:
.loc 17 8707 0
mov.s32 %r63, %r62;
mov.s32 %r64, %r63;
.loc 19 4479 0
mov.s32 %r65, 32;
sub.s32 %r66, %r65, %r63;
shr.u32 %r67, %r35, %r66;
shl.b32 %r68, %r19, %r63;
add.u32 %r69, %r67, %r68;
mov.u32 %r70, 0;
setp.ne.u32 %p9, %r63, %r70;
selp.u32 %r71, %r69, %r19, %p9;
.loc 17 8711 0
mul.lo.u32 %r35, %r71, -921707870;
.loc 17 8712 0
mov.u32 %r72, -921707870;
mul.hi.u32 %r19, %r71, %r72;
mov.u32 %r73, 0;
setp.le.s32 %p10, %r19, %r73;
@%p10 bra $Lt_34_14338;
.loc 17 8714 0
shr.u32 %r74, %r35, 31;
shl.b32 %r75, %r19, 1;
add.u32 %r19, %r74, %r75;
.loc 17 8715 0
add.u32 %r64, %r63, 1;
$Lt_34_14338:
.loc 17 8740 0
add.u32 %r76, %r19, 1;
shr.u32 %r77, %r76, 7;
add.u32 %r78, %r77, 1;
shr.u32 %r79, %r78, 1;
mov.s32 %r80, 126;
sub.s32 %r81, %r80, %r64;
shl.b32 %r82, %r81, 23;
add.u32 %r83, %r79, %r82;
or.b32 %r84, %r13, %r83;
mov.b32 %f33, %r84;
$Lt_34_11266:
.loc 17 8975 0
add.s32 %r85, %r9, 1;
mul.f32 %f37, %f33, %f33;
and.b32 %r86, %r85, 1;
mov.u32 %r87, 0;
setp.eq.s32 %p11, %r86, %r87;
@%p11 bra $Lt_34_15106;
.loc 17 8429 0
mov.f32 %f38, 0f37ccf5ce; // 2.44332e-005
mov.f32 %f39, %f38;
mov.f32 %f40, %f37;
mov.f32 %f41, 0fbab6061a; // -0.00138873
mov.f32 %f42, %f41;
mad.f32 %f43, %f39, %f40, %f42;
mov.f32 %f44, %f43;
mov.f32 %f45, %f44;
mov.f32 %f46, %f37;
mov.f32 %f47, 0f3d2aaaa5; // 0.0416666
mov.f32 %f48, %f47;
mad.f32 %f49, %f45, %f46, %f48;
mov.f32 %f50, %f49;
mov.f32 %f51, %f50;
mov.f32 %f52, %f37;
mov.f32 %f53, 0fbf000000; // -0.5
mov.f32 %f54, %f53;
mad.f32 %f55, %f51, %f52, %f54;
mov.f32 %f56, %f55;
mov.f32 %f57, %f56;
mov.f32 %f58, %f37;
mov.f32 %f59, 0f3f800000; // 1
mov.f32 %f60, %f59;
mad.f32 %f61, %f57, %f58, %f60;
mov.f32 %f62, %f61;
.loc 17 8936 0
mov.f32 %f63, %f62;
bra.uni $Lt_34_14850;
$Lt_34_15106:
.loc 17 8429 0
mov.f32 %f64, 0fb94ca1f9; // -0.000195153
mov.f32 %f65, %f64;
mov.f32 %f66, %f37;
mov.f32 %f67, 0f3c08839e; // 0.00833216
mov.f32 %f68, %f67;
mad.f32 %f69, %f65, %f66, %f68;
mov.f32 %f70, %f69;
mov.f32 %f71, %f70;
mov.f32 %f72, %f37;
mov.f32 %f73, 0fbe2aaaa3; // -0.166667
mov.f32 %f74, %f73;
mad.f32 %f75, %f71, %f72, %f74;
mov.f32 %f76, %f75;
mul.f32 %f77, %f37, %f76;
mov.f32 %f78, %f77;
mov.f32 %f79, %f33;
mov.f32 %f80, %f33;
mad.f32 %f81, %f78, %f79, %f80;
mov.f32 %f82, %f81;
.loc 17 8938 0
mov.f32 %f63, %f82;
$Lt_34_14850:
and.b32 %r88, %r85, 2;
mov.u32 %r89, 0;
setp.eq.s32 %p12, %r88, %r89;
@%p12 bra $Lt_34_15362;
.loc 17 8429 0
mov.f32 %f83, %f63;
mov.f32 %f84, 0fbf800000; // -1
mov.f32 %f85, %f84;
mov.f32 %f86, 0f00000000; // 0
mov.f32 %f87, %f86;
mad.f32 %f88, %f83, %f85, %f87;
mov.f32 %f89, %f88;
.loc 17 8941 0
mov.f32 %f63, %f89;
$Lt_34_15362:
.loc 15 424 0
cvt.f64.f32 %fd3, %f63;
ld.param.u32 %r90, [__cudaparm_vec_cos_result];
add.u32 %r91, %r90, %r5;
st.global.f64 [%r91+0], %fd3;
$Lt_34_10242:
.loc 15 426 0
exit;
$LDWend_vec_cos:
} // vec_cos
.entry vec_cosh (
.param .u32 __cudaparm_vec_cosh_n,
.param .u32 __cudaparm_vec_cosh_result,
.param .u32 __cudaparm_vec_cosh_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<11>;
.reg .f32 %f<36>;
.reg .f64 %fd<5>;
.reg .pred %p<4>;
.loc 15 431 0
$LDWbegin_vec_cosh:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_cosh_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_35_1794;
.loc 17 9191 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_cosh_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
abs.f64 %fd2, %fd1;
cvt.rn.f32.f64 %f1, %fd2;
.loc 17 8429 0
mov.f32 %f2, 0f3fb8aa3b; // 1.4427
mul.f32 %f3, %f1, %f2;
cvt.rzi.f32.f32 %f4, %f3;
mov.f32 %f5, %f4;
mov.f32 %f6, 0fbf317200; // -0.693146
mov.f32 %f7, %f6;
mov.f32 %f8, %f1;
mad.f32 %f9, %f5, %f7, %f8;
mov.f32 %f10, %f9;
mov.f32 %f11, %f4;
mov.f32 %f12, 0fb5bfbe8e; // -1.42861e-006
mov.f32 %f13, %f12;
mov.f32 %f14, %f10;
mad.f32 %f15, %f11, %f13, %f14;
mov.f32 %f16, %f15;
mov.f32 %f17, 0f3fb8aa3b; // 1.4427
mul.f32 %f18, %f16, %f17;
ex2.approx.f32 %f19, %f18;
mov.f32 %f20, 0fc0000000; // -2
add.f32 %f21, %f4, %f20;
ex2.approx.f32 %f22, %f21;
mul.f32 %f23, %f19, %f22;
mov.f32 %f24, 0f40000000; // 2
mov.f32 %f25, %f24;
mov.f32 %f26, %f23;
mov.f32 %f27, 0f3e000000; // 0.125
div.approx.f32 %f28, %f27, %f23;
mov.f32 %f29, %f28;
mad.f32 %f30, %f25, %f26, %f29;
mov.f32 %f31, %f30;
.loc 15 436 0
mov.f32 %f32, 0f7f800000; // 1.#INF
mov.f32 %f33, 0f42b40000; // 90
setp.ge.f32 %p2, %f1, %f33;
selp.f32 %f34, %f32, %f31, %p2;
cvt.f64.f32 %fd3, %f34;
ld.param.u32 %r8, [__cudaparm_vec_cosh_result];
add.u32 %r9, %r8, %r5;
st.global.f64 [%r9+0], %fd3;
$Lt_35_1794:
.loc 15 438 0
exit;
$LDWend_vec_cosh:
} // vec_cosh
.entry vec_cospi (
.param .u32 __cudaparm_vec_cospi_n,
.param .u32 __cudaparm_vec_cospi_result,
.param .u32 __cudaparm_vec_cospi_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<17>;
.reg .f32 %f<70>;
.reg .f64 %fd<4>;
.reg .pred %p<6>;
.loc 15 443 0
$LDWbegin_vec_cospi:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_cospi_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_36_3330;
.loc 15 448 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_cospi_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
abs.f32 %f2, %f1;
mov.f32 %f3, 0f4b800000; // 1.67772e+007
setp.gt.f32 %p2, %f2, %f3;
@!%p2 bra $Lt_36_3842;
.loc 17 9083 0
mov.f32 %f4, 0f00000000; // 0
mul.rn.f32 %f1, %f1, %f4;
$Lt_36_3842:
.loc 17 8429 0
add.f32 %f5, %f1, %f1;
cvt.rni.f32.f32 %f6, %f5;
neg.f32 %f7, %f6;
mov.f32 %f8, %f7;
mov.f32 %f9, 0f3f000000; // 0.5
mov.f32 %f10, %f9;
mov.f32 %f11, %f1;
mad.f32 %f12, %f8, %f10, %f11;
mov.f32 %f13, %f12;
.loc 17 9094 0
mov.f32 %f14, 0f40490fdb; // 3.14159
mul.f32 %f15, %f13, %f14;
mul.f32 %f16, %f15, %f15;
cvt.rzi.s32.f32 %r8, %f6;
add.s32 %r9, %r8, 1;
and.b32 %r10, %r9, 1;
mov.u32 %r11, 0;
setp.eq.s32 %p3, %r10, %r11;
@%p3 bra $Lt_36_4610;
.loc 17 8429 0
mov.f32 %f17, 0f37ccf5ce; // 2.44332e-005
mov.f32 %f18, %f17;
mov.f32 %f19, %f16;
mov.f32 %f20, 0fbab6061a; // -0.00138873
mov.f32 %f21, %f20;
mad.f32 %f22, %f18, %f19, %f21;
mov.f32 %f23, %f22;
mov.f32 %f24, %f23;
mov.f32 %f25, %f16;
mov.f32 %f26, 0f3d2aaaa5; // 0.0416666
mov.f32 %f27, %f26;
mad.f32 %f28, %f24, %f25, %f27;
mov.f32 %f29, %f28;
mov.f32 %f30, %f29;
mov.f32 %f31, %f16;
mov.f32 %f32, 0fbf000000; // -0.5
mov.f32 %f33, %f32;
mad.f32 %f34, %f30, %f31, %f33;
mov.f32 %f35, %f34;
mov.f32 %f36, %f35;
mov.f32 %f37, %f16;
mov.f32 %f38, 0f3f800000; // 1
mov.f32 %f39, %f38;
mad.f32 %f40, %f36, %f37, %f39;
mov.f32 %f41, %f40;
.loc 17 8936 0
mov.f32 %f42, %f41;
bra.uni $Lt_36_4354;
$Lt_36_4610:
.loc 17 8429 0
mov.f32 %f43, 0fb94ca1f9; // -0.000195153
mov.f32 %f44, %f43;
mov.f32 %f45, %f16;
mov.f32 %f46, 0f3c08839e; // 0.00833216
mov.f32 %f47, %f46;
mad.f32 %f48, %f44, %f45, %f47;
mov.f32 %f49, %f48;
mov.f32 %f50, %f49;
mov.f32 %f51, %f16;
mov.f32 %f52, 0fbe2aaaa3; // -0.166667
mov.f32 %f53, %f52;
mad.f32 %f54, %f50, %f51, %f53;
mov.f32 %f55, %f54;
mul.f32 %f56, %f16, %f55;
mov.f32 %f57, %f56;
mov.f32 %f58, %f15;
mov.f32 %f59, %f15;
mad.f32 %f60, %f57, %f58, %f59;
mov.f32 %f61, %f60;
.loc 17 8938 0
mov.f32 %f42, %f61;
$Lt_36_4354:
and.b32 %r12, %r9, 2;
mov.u32 %r13, 0;
setp.eq.s32 %p4, %r12, %r13;
@%p4 bra $Lt_36_4866;
.loc 17 8429 0
mov.f32 %f62, %f42;
mov.f32 %f63, 0fbf800000; // -1
mov.f32 %f64, %f63;
mov.f32 %f65, 0f00000000; // 0
mov.f32 %f66, %f65;
mad.f32 %f67, %f62, %f64, %f66;
mov.f32 %f68, %f67;
.loc 17 8941 0
mov.f32 %f42, %f68;
$Lt_36_4866:
.loc 15 448 0
cvt.f64.f32 %fd2, %f42;
ld.param.u32 %r14, [__cudaparm_vec_cospi_result];
add.u32 %r15, %r14, %r5;
st.global.f64 [%r15+0], %fd2;
$Lt_36_3330:
.loc 15 450 0
exit;
$LDWend_vec_cospi:
} // vec_cospi
.entry vec_erfc (
.param .u32 __cudaparm_vec_erfc_n,
.param .u32 __cudaparm_vec_erfc_result,
.param .u32 __cudaparm_vec_erfc_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<17>;
.reg .f32 %f<188>;
.reg .f64 %fd<4>;
.reg .pred %p<7>;
.loc 15 455 0
$LDWbegin_vec_erfc:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_erfc_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_37_4098;
.loc 15 460 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_erfc_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
mov.f32 %f2, 0f3f5020c5; // 0.813
setp.le.f32 %p2, %f1, %f2;
@!%p2 bra $Lt_37_4866;
.loc 17 10098 0
abs.f32 %f3, %f1;
mul.f32 %f4, %f1, %f1;
mov.f32 %f5, 0f3f800000; // 1
setp.ge.f32 %p3, %f3, %f5;
@!%p3 bra $Lt_37_5378;
.loc 17 8429 0
mov.f32 %f6, %f3;
mov.f32 %f7, 0f3ea7ba05; // 0.327591
mov.f32 %f8, %f7;
mov.f32 %f9, 0f3f800000; // 1
mov.f32 %f10, %f9;
mad.f32 %f11, %f6, %f8, %f10;
mov.f32 %f12, %f11;
.loc 17 9924 0
rcp.approx.f32 %f13, %f12;
mov.f32 %f14, %f13;
.loc 17 8429 0
mov.f32 %f15, 0f3f87dc22; // 1.06141
mov.f32 %f16, %f15;
mov.f32 %f17, %f13;
mov.f32 %f18, 0fbfba00e3; // -1.45315
mov.f32 %f19, %f18;
mad.f32 %f20, %f16, %f17, %f19;
mov.f32 %f12, %f20;
mov.f32 %f21, %f12;
mov.f32 %f22, %f14;
mov.f32 %f23, 0f3fb5f0e3; // 1.42141
mov.f32 %f24, %f23;
mad.f32 %f25, %f21, %f22, %f24;
mov.f32 %f12, %f25;
mov.f32 %f26, %f12;
mov.f32 %f27, %f14;
mov.f32 %f28, 0fbe91a98e; // -0.284497
mov.f32 %f29, %f28;
mad.f32 %f30, %f26, %f27, %f29;
mov.f32 %f12, %f30;
mov.f32 %f31, %f12;
mov.f32 %f32, %f14;
mov.f32 %f33, 0f3e827906; // 0.25483
mov.f32 %f34, %f33;
mad.f32 %f35, %f31, %f32, %f34;
mov.f32 %f12, %f35;
neg.f32 %f36, %f4;
mov.f32 %f37, 0f3fb8aa3b; // 1.4427
mul.f32 %f38, %f36, %f37;
cvt.rzi.f32.f32 %f39, %f38;
mov.f32 %f40, %f39;
mov.f32 %f41, 0fbf317200; // -0.693146
mov.f32 %f42, %f41;
mov.f32 %f43, %f36;
mad.f32 %f44, %f40, %f42, %f43;
mov.f32 %f45, %f44;
mov.f32 %f46, %f39;
mov.f32 %f47, 0fb5bfbe8e; // -1.42861e-006
mov.f32 %f48, %f47;
mov.f32 %f49, %f45;
mad.f32 %f50, %f46, %f48, %f49;
mov.f32 %f51, %f50;
ex2.approx.f32 %f52, %f39;
mov.f32 %f53, 0f3fb8aa3b; // 1.4427
mul.f32 %f54, %f51, %f53;
ex2.approx.f32 %f55, %f54;
mul.f32 %f56, %f52, %f55;
neg.f32 %f57, %f56;
mov.f32 %f58, %f57;
mul.f32 %f59, %f13, %f12;
mov.f32 %f60, %f59;
mov.f32 %f61, 0f3f800000; // 1
mov.f32 %f62, %f61;
mad.f32 %f63, %f58, %f60, %f62;
mov.f32 %f12, %f63;
.loc 17 9936 0
mov.f32 %f64, 0f3f800000; // 1
mov.f32 %f65, 0f40b00000; // 5.5
setp.ge.f32 %p4, %f3, %f65;
selp.f32 %f66, %f64, %f12, %p4;
mov.b32 %r8, %f66;
mov.b32 %r9, %f1;
and.b32 %r10, %r9, -2147483648;
or.b32 %r11, %r8, %r10;
mov.b32 %f67, %r11;
bra.uni $Lt_37_5122;
$Lt_37_5378:
.loc 17 8429 0
mov.f32 %f68, 0fba1268fb; // -0.00055851
mov.f32 %f69, %f68;
mov.f32 %f70, %f4;
mov.f32 %f71, 0f3ba0c9f8; // 0.00490689
mov.f32 %f72, %f71;
mad.f32 %f73, %f69, %f70, %f72;
mov.f32 %f12, %f73;
mov.f32 %f74, %f12;
mov.f32 %f75, %f4;
mov.f32 %f76, 0fbcdabfd4; // -0.0267028
mov.f32 %f77, %f76;
mad.f32 %f78, %f74, %f75, %f77;
mov.f32 %f12, %f78;
mov.f32 %f79, %f12;
mov.f32 %f80, %f4;
mov.f32 %f81, 0f3de70331; // 0.112799
mov.f32 %f82, %f81;
mad.f32 %f83, %f79, %f80, %f82;
mov.f32 %f12, %f83;
mov.f32 %f84, %f12;
mov.f32 %f85, %f4;
mov.f32 %f86, 0fbec09330; // -0.376123
mov.f32 %f87, %f86;
mad.f32 %f88, %f84, %f85, %f87;
mov.f32 %f12, %f88;
mov.f32 %f89, %f12;
mov.f32 %f90, %f4;
mov.f32 %f91, 0f3f906eba; // 1.12838
mov.f32 %f92, %f91;
mad.f32 %f93, %f89, %f90, %f92;
mov.f32 %f12, %f93;
.loc 17 9945 0
mul.f32 %f67, %f1, %f12;
$Lt_37_5122:
.loc 17 10098 0
mov.f32 %f94, 0f3f800000; // 1
sub.f32 %f95, %f94, %f67;
bra.uni $Lt_37_4610;
$Lt_37_4866:
.loc 17 8437 0
mov.f32 %f96, %f1;
rcp.approx.ftz.f32 %f97,%f96;
mov.f32 %f98, %f97;
.loc 17 8429 0
mov.f32 %f99, 0fbf7fc509; // -0.9991
mov.f32 %f100, %f99;
mov.f32 %f101, %f98;
mov.f32 %f102, 0fbe85acdf; // -0.261085
mov.f32 %f103, %f102;
mad.f32 %f104, %f100, %f101, %f103;
mov.f32 %f105, %f104;
mov.f32 %f106, %f105;
mov.f32 %f107, %f98;
mov.f32 %f108, 0f3dff301b; // 0.124603
mov.f32 %f109, %f108;
mad.f32 %f110, %f106, %f107, %f109;
mov.f32 %f105, %f110;
mov.f32 %f111, %f105;
mov.f32 %f112, %f98;
mov.f32 %f113, 0f3e079e1d; // 0.132439
mov.f32 %f114, %f113;
mad.f32 %f115, %f111, %f112, %f114;
mov.f32 %f105, %f115;
mov.f32 %f116, %f105;
mov.f32 %f117, %f98;
mov.f32 %f118, 0f3d091fcf; // 0.0334776
mov.f32 %f119, %f118;
mad.f32 %f120, %f116, %f117, %f119;
mov.f32 %f121, %f120;
mov.f32 %f122, 0f401045e9; // 2.25427
add.f32 %f123, %f98, %f122;
mov.f32 %f124, %f123;
mov.f32 %f125, %f98;
mov.f32 %f126, 0f4009b13f; // 2.15144
mov.f32 %f127, %f126;
mad.f32 %f128, %f124, %f125, %f127;
mov.f32 %f105, %f128;
mov.f32 %f129, %f105;
mov.f32 %f130, %f98;
mov.f32 %f131, 0f3f83a2f6; // 1.02841
mov.f32 %f132, %f131;
mad.f32 %f133, %f129, %f130, %f132;
mov.f32 %f105, %f133;
mov.f32 %f134, %f105;
mov.f32 %f135, %f98;
mov.f32 %f136, 0f3e859a52; // 0.260943
mov.f32 %f137, %f136;
mad.f32 %f138, %f134, %f135, %f137;
mov.f32 %f105, %f138;
mov.f32 %f139, %f105;
mov.f32 %f140, %f98;
mov.f32 %f141, 0fb6860e0b; // -3.99515e-006
mov.f32 %f142, %f141;
mad.f32 %f143, %f139, %f140, %f142;
mov.f32 %f105, %f143;
.loc 17 10076 0
div.approx.f32 %f144, %f121, %f105;
.loc 17 8429 0
mov.b32 %r12, %f1;
and.b32 %r13, %r12, -4096;
mov.b32 %f145, %r13;
mul.f32 %f146, %f145, %f145;
neg.f32 %f147, %f146;
mov.f32 %f148, 0f3fb8aa3b; // 1.4427
mul.f32 %f149, %f147, %f148;
cvt.rzi.f32.f32 %f150, %f149;
mov.f32 %f151, %f150;
mov.f32 %f152, 0fbf317200; // -0.693146
mov.f32 %f153, %f152;
mov.f32 %f154, %f147;
mad.f32 %f155, %f151, %f153, %f154;
mov.f32 %f156, %f155;
mov.f32 %f157, %f150;
mov.f32 %f158, 0fb5bfbe8e; // -1.42861e-006
mov.f32 %f159, %f158;
mov.f32 %f160, %f156;
mad.f32 %f161, %f157, %f159, %f160;
mov.f32 %f162, %f161;
mul.f32 %f163, %f98, %f144;
mov.f32 %f164, %f163;
mov.f32 %f165, %f98;
mov.f32 %f166, %f98;
mad.f32 %f167, %f164, %f165, %f166;
mov.f32 %f168, %f167;
.loc 17 10112 0
ex2.approx.f32 %f169, %f150;
mov.f32 %f170, 0f3fb8aa3b; // 1.4427
mul.f32 %f171, %f162, %f170;
ex2.approx.f32 %f172, %f171;
mul.f32 %f173, %f169, %f172;
add.f32 %f174, %f145, %f1;
sub.f32 %f175, %f1, %f145;
mul.f32 %f176, %f174, %f175;
neg.f32 %f177, %f176;
mov.f32 %f178, 0f3fb8aa3b; // 1.4427
mul.f32 %f179, %f177, %f178;
ex2.approx.f32 %f180, %f179;
mov.f32 %f181, 0f3f000000; // 0.5
mul.f32 %f182, %f180, %f181;
mul.f32 %f183, %f173, %f182;
mul.f32 %f184, %f168, %f183;
.loc 17 10100 0
mov.f32 %f185, 0f00000000; // 0
mov.f32 %f186, 0f4120e148; // 10.055
setp.gt.f32 %p5, %f1, %f186;
selp.f32 %f95, %f185, %f184, %p5;
$Lt_37_4610:
.loc 15 460 0
cvt.f64.f32 %fd2, %f95;
ld.param.u32 %r14, [__cudaparm_vec_erfc_result];
add.u32 %r15, %r14, %r5;
st.global.f64 [%r15+0], %fd2;
$Lt_37_4098:
.loc 15 462 0
exit;
$LDWend_vec_erfc:
} // vec_erfc
.entry vec_erfcinv (
.param .u32 __cudaparm_vec_erfcinv_n,
.param .u32 __cudaparm_vec_erfcinv_result,
.param .u32 __cudaparm_vec_erfcinv_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<17>;
.reg .f32 %f<115>;
.reg .f64 %fd<4>;
.reg .pred %p<5>;
.loc 15 467 0
$LDWbegin_vec_erfcinv:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_erfcinv_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_38_3586;
.loc 15 472 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_erfcinv_y];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
neg.f32 %f2, %f1;
mov.f32 %f3, 0f3b5ed289; // 0.0034
set.ge.u32.f32 %r8, %f1, %f3;
neg.s32 %r9, %r8;
mov.f32 %f4, 0f3fff9097; // 1.9966
set.le.u32.f32 %r10, %f1, %f4;
neg.s32 %r11, %r10;
and.b32 %r12, %r9, %r11;
mov.u32 %r13, 0;
setp.eq.s32 %p2, %r12, %r13;
@%p2 bra $Lt_38_4354;
.loc 17 8429 0
mov.f32 %f5, 0f40000000; // 2
add.rn.f32 %f6, %f5, %f2;
mul.rn.f32 %f7, %f6, %f1;
lg2.approx.f32 %f8, %f7;
neg.f32 %f9, %f8;
mov.f32 %f10, 0faf8a6370; // -2.51727e-010
mov.f32 %f11, %f10;
mov.f32 %f12, %f9;
mov.f32 %f13, 0f3221f645; // 9.42743e-009
mov.f32 %f14, %f13;
mad.f32 %f15, %f11, %f12, %f14;
mov.f32 %f16, %f15;
mov.f32 %f17, %f16;
mov.f32 %f18, %f9;
mov.f32 %f19, 0fb4016fda; // -1.20548e-007
mov.f32 %f20, %f19;
mad.f32 %f21, %f17, %f18, %f20;
mov.f32 %f16, %f21;
mov.f32 %f22, %f16;
mov.f32 %f23, %f9;
mov.f32 %f24, 0f3468f846; // 2.1697e-007
mov.f32 %f25, %f24;
mad.f32 %f26, %f22, %f23, %f25;
mov.f32 %f16, %f26;
mov.f32 %f27, %f16;
mov.f32 %f28, %f9;
mov.f32 %f29, 0f370742aa; // 8.06215e-006
mov.f32 %f30, %f29;
mad.f32 %f31, %f27, %f28, %f30;
mov.f32 %f16, %f31;
mov.f32 %f32, %f16;
mov.f32 %f33, %f9;
mov.f32 %f34, 0fb804db4d; // -3.16755e-005
mov.f32 %f35, %f34;
mad.f32 %f36, %f32, %f33, %f35;
mov.f32 %f16, %f36;
mov.f32 %f37, %f16;
mov.f32 %f38, %f9;
mov.f32 %f39, 0fba4afea1; // -0.000774363
mov.f32 %f40, %f39;
mad.f32 %f41, %f37, %f38, %f40;
mov.f32 %f16, %f41;
mov.f32 %f42, %f16;
mov.f32 %f43, %f9;
mov.f32 %f44, 0f3bb5c027; // 0.00554659
mov.f32 %f45, %f44;
mad.f32 %f46, %f42, %f43, %f45;
mov.f32 %f16, %f46;
mov.f32 %f47, %f16;
mov.f32 %f48, %f9;
mov.f32 %f49, 0f3e24ae0f; // 0.16082
mov.f32 %f50, %f49;
mad.f32 %f51, %f47, %f48, %f50;
mov.f32 %f16, %f51;
mov.f32 %f52, %f16;
mov.f32 %f53, %f9;
mov.f32 %f54, 0f3f62dfc4; // 0.886227
mov.f32 %f55, %f54;
mad.f32 %f56, %f52, %f53, %f55;
mov.f32 %f16, %f56;
.loc 17 10211 0
mov.f32 %f57, 0f3f800000; // 1
add.rn.f32 %f58, %f57, %f2;
mul.rn.f32 %f59, %f58, %f16;
bra.uni $Lt_38_4098;
$Lt_38_4354:
.loc 17 8429 0
mov.f32 %f60, 0f3f800000; // 1
setp.gt.f32 %p3, %f1, %f60;
mov.f32 %f61, 0f40000000; // 2
add.rn.f32 %f62, %f61, %f2;
selp.f32 %f63, %f62, %f1, %p3;
lg2.approx.f32 %f64, %f63;
neg.f32 %f65, %f64;
rsqrt.approx.f32 %f66, %f65;
mov.f32 %f67, 0fc27c73f1; // -63.1132
mov.f32 %f68, %f67;
mov.f32 %f69, %f66;
mov.f32 %f70, 0f42fef829; // 127.485
mov.f32 %f71, %f70;
mad.f32 %f72, %f68, %f69, %f71;
mov.f32 %f73, %f72;
mov.f32 %f74, %f73;
mov.f32 %f75, %f66;
mov.f32 %f76, 0fc2e4361c; // -114.106
mov.f32 %f77, %f76;
mad.f32 %f78, %f74, %f75, %f77;
mov.f32 %f73, %f78;
mov.f32 %f79, %f73;
mov.f32 %f80, %f66;
mov.f32 %f81, 0f42714d9b; // 60.3258
mov.f32 %f82, %f81;
mad.f32 %f83, %f79, %f80, %f82;
mov.f32 %f73, %f83;
mov.f32 %f84, %f73;
mov.f32 %f85, %f66;
mov.f32 %f86, 0fc1ae51b3; // -21.7899
mov.f32 %f87, %f86;
mad.f32 %f88, %f84, %f85, %f87;
mov.f32 %f73, %f88;
mov.f32 %f89, %f73;
mov.f32 %f90, %f66;
mov.f32 %f91, 0f40cef504; // 6.46741
mov.f32 %f92, %f91;
mad.f32 %f93, %f89, %f90, %f92;
mov.f32 %f73, %f93;
mov.f32 %f94, %f73;
mov.f32 %f95, %f66;
mov.f32 %f96, 0fbfea9e05; // -1.83295
mov.f32 %f97, %f96;
mad.f32 %f98, %f94, %f95, %f97;
mov.f32 %f73, %f98;
mov.f32 %f99, %f73;
mov.f32 %f100, %f66;
mov.f32 %f101, 0fbcf871f4; // -0.0303278
mov.f32 %f102, %f101;
mad.f32 %f103, %f99, %f100, %f102;
mov.f32 %f73, %f103;
mov.f32 %f104, %f73;
mov.f32 %f105, %f66;
mov.f32 %f106, 0f3f553775; // 0.832877
mov.f32 %f107, %f106;
mad.f32 %f108, %f104, %f105, %f107;
mov.f32 %f73, %f108;
.loc 17 8437 0
mov.f32 %f109, %f66;
rcp.approx.ftz.f32 %f110,%f109;
mov.f32 %f111, %f110;
.loc 17 10216 0
mul.rn.f32 %f112, %f73, %f111;
neg.f32 %f113, %f112;
selp.f32 %f59, %f113, %f112, %p3;
$Lt_38_4098:
.loc 15 472 0
cvt.f64.f32 %fd2, %f59;
ld.param.u32 %r14, [__cudaparm_vec_erfcinv_result];
add.u32 %r15, %r14, %r5;
st.global.f64 [%r15+0], %fd2;
$Lt_38_3586:
.loc 15 474 0
exit;
$LDWend_vec_erfcinv:
} // vec_erfcinv
.entry vec_erfcx (
.param .u32 __cudaparm_vec_erfcx_n,
.param .u32 __cudaparm_vec_erfcx_result,
.param .u32 __cudaparm_vec_erfcx_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<13>;
.reg .f32 %f<171>;
.reg .f64 %fd<4>;
.reg .pred %p<9>;
.loc 15 479 0
$LDWbegin_vec_erfcx:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_erfcx_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_39_5634;
.loc 15 484 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_erfcx_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
abs.f32 %f2, %f1;
mov.f32 %f3, 0f4120e148; // 10.055
setp.lt.f32 %p2, %f2, %f3;
@!%p2 bra $Lt_39_6402;
mov.f32 %f4, 0f3f5020c5; // 0.813
setp.le.f32 %p3, %f2, %f4;
@!%p3 bra $Lt_39_6914;
.loc 17 8429 0
mov.f32 %f5, 0f3c2d0a8f; // 0.0105616
mov.f32 %f6, %f5;
mov.f32 %f7, %f2;
mov.f32 %f8, 0fbd606a09; // -0.0547886
mov.f32 %f9, %f8;
mad.f32 %f10, %f6, %f7, %f9;
mov.f32 %f11, %f10;
mov.f32 %f12, %f11;
mov.f32 %f13, %f2;
mov.f32 %f14, 0f3e176f6c; // 0.147886
mov.f32 %f15, %f14;
mad.f32 %f16, %f12, %f13, %f15;
mov.f32 %f11, %f16;
mov.f32 %f17, %f11;
mov.f32 %f18, %f2;
mov.f32 %f19, 0fbe96a3e8; // -0.294219
mov.f32 %f20, %f19;
mad.f32 %f21, %f17, %f18, %f20;
mov.f32 %f11, %f21;
mov.f32 %f22, %f11;
mov.f32 %f23, %f2;
mov.f32 %f24, 0f3eff50b0; // 0.498662
mov.f32 %f25, %f24;
mad.f32 %f26, %f22, %f23, %f25;
mov.f32 %f11, %f26;
mov.f32 %f27, %f11;
mov.f32 %f28, %f2;
mov.f32 %f29, 0fbf408ad0; // -0.752118
mov.f32 %f30, %f29;
mad.f32 %f31, %f27, %f28, %f30;
mov.f32 %f11, %f31;
mov.f32 %f32, %f11;
mov.f32 %f33, %f2;
mov.f32 %f34, 0f3f7fffa8; // 0.999995
mov.f32 %f35, %f34;
mad.f32 %f36, %f32, %f33, %f35;
mov.f32 %f11, %f36;
mov.f32 %f37, %f11;
mov.f32 %f38, %f2;
mov.f32 %f39, 0fbf906eba; // -1.12838
mov.f32 %f40, %f39;
mad.f32 %f41, %f37, %f38, %f40;
mov.f32 %f11, %f41;
mov.f32 %f42, %f11;
mov.f32 %f43, %f2;
mov.f32 %f44, 0f3f800000; // 1
mov.f32 %f45, %f44;
mad.f32 %f46, %f42, %f43, %f45;
mov.f32 %f11, %f46;
.loc 17 10164 0
mov.f32 %f47, %f11;
bra.uni $Lt_39_6146;
$Lt_39_6914:
.loc 17 8437 0
mov.f32 %f48, %f2;
rcp.approx.ftz.f32 %f49,%f48;
mov.f32 %f50, %f49;
.loc 17 8429 0
mov.f32 %f51, 0fbf7fc509; // -0.9991
mov.f32 %f52, %f51;
mov.f32 %f53, %f50;
mov.f32 %f54, 0fbe85acdf; // -0.261085
mov.f32 %f55, %f54;
mad.f32 %f56, %f52, %f53, %f55;
mov.f32 %f57, %f56;
mov.f32 %f58, %f57;
mov.f32 %f59, %f50;
mov.f32 %f60, 0f3dff301b; // 0.124603
mov.f32 %f61, %f60;
mad.f32 %f62, %f58, %f59, %f61;
mov.f32 %f57, %f62;
mov.f32 %f63, %f57;
mov.f32 %f64, %f50;
mov.f32 %f65, 0f3e079e1d; // 0.132439
mov.f32 %f66, %f65;
mad.f32 %f67, %f63, %f64, %f66;
mov.f32 %f57, %f67;
mov.f32 %f68, %f57;
mov.f32 %f69, %f50;
mov.f32 %f70, 0f3d091fcf; // 0.0334776
mov.f32 %f71, %f70;
mad.f32 %f72, %f68, %f69, %f71;
mov.f32 %f73, %f72;
mov.f32 %f74, 0f401045e9; // 2.25427
add.f32 %f75, %f50, %f74;
mov.f32 %f76, %f75;
mov.f32 %f77, %f50;
mov.f32 %f78, 0f4009b13f; // 2.15144
mov.f32 %f79, %f78;
mad.f32 %f80, %f76, %f77, %f79;
mov.f32 %f57, %f80;
mov.f32 %f81, %f57;
mov.f32 %f82, %f50;
mov.f32 %f83, 0f3f83a2f6; // 1.02841
mov.f32 %f84, %f83;
mad.f32 %f85, %f81, %f82, %f84;
mov.f32 %f57, %f85;
mov.f32 %f86, %f57;
mov.f32 %f87, %f50;
mov.f32 %f88, 0f3e859a52; // 0.260943
mov.f32 %f89, %f88;
mad.f32 %f90, %f86, %f87, %f89;
mov.f32 %f57, %f90;
mov.f32 %f91, %f57;
mov.f32 %f92, %f50;
mov.f32 %f93, 0fb6860e0b; // -3.99515e-006
mov.f32 %f94, %f93;
mad.f32 %f95, %f91, %f92, %f94;
mov.f32 %f57, %f95;
.loc 17 10076 0
div.approx.f32 %f96, %f73, %f57;
.loc 17 8429 0
mov.f32 %f97, %f96;
mov.f32 %f98, %f50;
mov.f32 %f99, 0f3f800000; // 1
mov.f32 %f100, %f99;
mad.f32 %f101, %f97, %f98, %f100;
mov.f32 %f11, %f101;
.loc 17 10169 0
mul.f32 %f102, %f11, %f50;
mov.f32 %f103, 0f3f000000; // 0.5
mul.f32 %f47, %f102, %f103;
bra.uni $Lt_39_6146;
$Lt_39_6402:
.loc 17 8437 0
mov.f32 %f104, %f2;
rcp.approx.ftz.f32 %f105,%f104;
mov.f32 %f106, %f105;
.loc 17 8429 0
mul.f32 %f107, %f106, %f106;
mov.f32 %f108, 0f40d20000; // 6.5625
mov.f32 %f109, %f108;
mov.f32 %f110, %f107;
mov.f32 %f111, 0fbff00000; // -1.875
mov.f32 %f112, %f111;
mad.f32 %f113, %f109, %f110, %f112;
mov.f32 %f11, %f113;
mov.f32 %f114, %f11;
mov.f32 %f115, %f107;
mov.f32 %f116, 0f3f400000; // 0.75
mov.f32 %f117, %f116;
mad.f32 %f118, %f114, %f115, %f117;
mov.f32 %f11, %f118;
mov.f32 %f119, %f11;
mov.f32 %f120, %f107;
mov.f32 %f121, 0fbf000000; // -0.5
mov.f32 %f122, %f121;
mad.f32 %f123, %f119, %f120, %f122;
mov.f32 %f11, %f123;
mov.f32 %f124, %f11;
mov.f32 %f125, %f107;
mov.f32 %f126, 0f3f800000; // 1
mov.f32 %f127, %f126;
mad.f32 %f128, %f124, %f125, %f127;
mov.f32 %f11, %f128;
.loc 17 10181 0
mov.f32 %f129, 0f3f106ebb; // 0.56419
mul.f32 %f130, %f106, %f129;
mul.f32 %f47, %f11, %f130;
$Lt_39_6146:
mov.f32 %f131, 0f00000000; // 0
setp.le.f32 %p4, %f1, %f131;
@!%p4 bra $Lt_39_7170;
.loc 17 8429 0
mov.b32 %r8, %f2;
and.b32 %r9, %r8, -4096;
mov.b32 %f132, %r9;
mul.f32 %f133, %f132, %f132;
mov.f32 %f134, 0f3fb8aa3b; // 1.4427
mul.f32 %f135, %f133, %f134;
cvt.rzi.f32.f32 %f136, %f135;
mov.f32 %f137, %f136;
mov.f32 %f138, 0fbf317200; // -0.693146
mov.f32 %f139, %f138;
mov.f32 %f140, %f133;
mad.f32 %f141, %f137, %f139, %f140;
mov.f32 %f142, %f141;
mov.f32 %f143, %f136;
mov.f32 %f144, 0fb5bfbe8e; // -1.42861e-006
mov.f32 %f145, %f144;
mov.f32 %f146, %f142;
mad.f32 %f147, %f143, %f145, %f146;
mov.f32 %f148, %f147;
.loc 17 8782 0
mov.f32 %f149, 0f7f800000; // 1.#INF
mov.f32 %f150, 0f00000000; // 0
ex2.approx.f32 %f151, %f136;
mov.f32 %f152, 0f3fb8aa3b; // 1.4427
mul.f32 %f153, %f148, %f152;
ex2.approx.f32 %f154, %f153;
mul.f32 %f155, %f151, %f154;
mov.f32 %f156, 0fc2d20000; // -105
setp.lt.f32 %p5, %f133, %f156;
selp.f32 %f157, %f150, %f155, %p5;
mov.f32 %f158, 0f42d20000; // 105
setp.gt.f32 %p6, %f133, %f158;
selp.f32 %f159, %f149, %f157, %p6;
.loc 17 10193 0
add.f32 %f160, %f2, %f132;
sub.f32 %f161, %f2, %f132;
mul.f32 %f162, %f160, %f161;
mov.f32 %f163, 0f3fb8aa3b; // 1.4427
mul.f32 %f164, %f162, %f163;
ex2.approx.f32 %f165, %f164;
mul.rn.f32 %f166, %f159, %f165;
add.f32 %f167, %f166, %f166;
.loc 17 10194 0
sub.f32 %f168, %f167, %f47;
.loc 17 8783 0
mov.f32 %f169, 0f7f800000; // 1.#INF
setp.eq.f32 %p7, %f159, %f169;
selp.f32 %f47, %f159, %f168, %p7;
$Lt_39_7170:
.loc 15 484 0
cvt.f64.f32 %fd2, %f47;
ld.param.u32 %r10, [__cudaparm_vec_erfcx_result];
add.u32 %r11, %r10, %r5;
st.global.f64 [%r11+0], %fd2;
$Lt_39_5634:
.loc 15 486 0
exit;
$LDWend_vec_erfcx:
} // vec_erfcx
.entry vec_erf (
.param .u32 __cudaparm_vec_erf_n,
.param .u32 __cudaparm_vec_erf_result,
.param .u32 __cudaparm_vec_erf_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<15>;
.reg .f32 %f<93>;
.reg .f64 %fd<4>;
.reg .pred %p<5>;
.loc 15 491 0
$LDWbegin_vec_erf:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_erf_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_40_2562;
.loc 15 496 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_erf_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
abs.f32 %f2, %f1;
mul.f32 %f3, %f1, %f1;
mov.f32 %f4, 0f3f800000; // 1
setp.ge.f32 %p2, %f2, %f4;
@!%p2 bra $Lt_40_3330;
.loc 17 8429 0
mov.f32 %f5, %f2;
mov.f32 %f6, 0f3ea7ba05; // 0.327591
mov.f32 %f7, %f6;
mov.f32 %f8, 0f3f800000; // 1
mov.f32 %f9, %f8;
mad.f32 %f10, %f5, %f7, %f9;
mov.f32 %f11, %f10;
.loc 17 9924 0
rcp.approx.f32 %f12, %f11;
mov.f32 %f13, %f12;
.loc 17 8429 0
mov.f32 %f14, 0f3f87dc22; // 1.06141
mov.f32 %f15, %f14;
mov.f32 %f16, %f12;
mov.f32 %f17, 0fbfba00e3; // -1.45315
mov.f32 %f18, %f17;
mad.f32 %f19, %f15, %f16, %f18;
mov.f32 %f11, %f19;
mov.f32 %f20, %f11;
mov.f32 %f21, %f13;
mov.f32 %f22, 0f3fb5f0e3; // 1.42141
mov.f32 %f23, %f22;
mad.f32 %f24, %f20, %f21, %f23;
mov.f32 %f11, %f24;
mov.f32 %f25, %f11;
mov.f32 %f26, %f13;
mov.f32 %f27, 0fbe91a98e; // -0.284497
mov.f32 %f28, %f27;
mad.f32 %f29, %f25, %f26, %f28;
mov.f32 %f11, %f29;
mov.f32 %f30, %f11;
mov.f32 %f31, %f13;
mov.f32 %f32, 0f3e827906; // 0.25483
mov.f32 %f33, %f32;
mad.f32 %f34, %f30, %f31, %f33;
mov.f32 %f11, %f34;
neg.f32 %f35, %f3;
mov.f32 %f36, 0f3fb8aa3b; // 1.4427
mul.f32 %f37, %f35, %f36;
cvt.rzi.f32.f32 %f38, %f37;
mov.f32 %f39, %f38;
mov.f32 %f40, 0fbf317200; // -0.693146
mov.f32 %f41, %f40;
mov.f32 %f42, %f35;
mad.f32 %f43, %f39, %f41, %f42;
mov.f32 %f44, %f43;
mov.f32 %f45, %f38;
mov.f32 %f46, 0fb5bfbe8e; // -1.42861e-006
mov.f32 %f47, %f46;
mov.f32 %f48, %f44;
mad.f32 %f49, %f45, %f47, %f48;
mov.f32 %f50, %f49;
ex2.approx.f32 %f51, %f38;
mov.f32 %f52, 0f3fb8aa3b; // 1.4427
mul.f32 %f53, %f50, %f52;
ex2.approx.f32 %f54, %f53;
mul.f32 %f55, %f51, %f54;
neg.f32 %f56, %f55;
mov.f32 %f57, %f56;
mul.f32 %f58, %f12, %f11;
mov.f32 %f59, %f58;
mov.f32 %f60, 0f3f800000; // 1
mov.f32 %f61, %f60;
mad.f32 %f62, %f57, %f59, %f61;
mov.f32 %f11, %f62;
.loc 17 9936 0
mov.f32 %f63, 0f3f800000; // 1
mov.f32 %f64, 0f40b00000; // 5.5
setp.ge.f32 %p3, %f2, %f64;
selp.f32 %f65, %f63, %f11, %p3;
mov.b32 %r8, %f65;
mov.b32 %r9, %f1;
and.b32 %r10, %r9, -2147483648;
or.b32 %r11, %r8, %r10;
mov.b32 %f1, %r11;
bra.uni $Lt_40_3074;
$Lt_40_3330:
.loc 17 8429 0
mov.f32 %f66, 0fba1268fb; // -0.00055851
mov.f32 %f67, %f66;
mov.f32 %f68, %f3;
mov.f32 %f69, 0f3ba0c9f8; // 0.00490689
mov.f32 %f70, %f69;
mad.f32 %f71, %f67, %f68, %f70;
mov.f32 %f11, %f71;
mov.f32 %f72, %f11;
mov.f32 %f73, %f3;
mov.f32 %f74, 0fbcdabfd4; // -0.0267028
mov.f32 %f75, %f74;
mad.f32 %f76, %f72, %f73, %f75;
mov.f32 %f11, %f76;
mov.f32 %f77, %f11;
mov.f32 %f78, %f3;
mov.f32 %f79, 0f3de70331; // 0.112799
mov.f32 %f80, %f79;
mad.f32 %f81, %f77, %f78, %f80;
mov.f32 %f11, %f81;
mov.f32 %f82, %f11;
mov.f32 %f83, %f3;
mov.f32 %f84, 0fbec09330; // -0.376123
mov.f32 %f85, %f84;
mad.f32 %f86, %f82, %f83, %f85;
mov.f32 %f11, %f86;
mov.f32 %f87, %f11;
mov.f32 %f88, %f3;
mov.f32 %f89, 0f3f906eba; // 1.12838
mov.f32 %f90, %f89;
mad.f32 %f91, %f87, %f88, %f90;
mov.f32 %f11, %f91;
.loc 17 9945 0
mul.f32 %f1, %f1, %f11;
$Lt_40_3074:
.loc 15 496 0
cvt.f64.f32 %fd2, %f1;
ld.param.u32 %r12, [__cudaparm_vec_erf_result];
add.u32 %r13, %r12, %r5;
st.global.f64 [%r13+0], %fd2;
$Lt_40_2562:
.loc 15 498 0
exit;
$LDWend_vec_erf:
} // vec_erf
.entry vec_erfinv (
.param .u32 __cudaparm_vec_erfinv_n,
.param .u32 __cudaparm_vec_erfinv_result,
.param .u32 __cudaparm_vec_erfinv_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<11>;
.reg .f32 %f<91>;
.reg .f64 %fd<4>;
.reg .pred %p<5>;
.loc 15 503 0
$LDWbegin_vec_erfinv:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_erfinv_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_41_2562;
.loc 15 508 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_erfinv_y];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
.loc 17 9995 0
mov.f32 %f2, 0f3f800000; // 1
add.f32 %f3, %f1, %f2;
mov.f32 %f4, 0f3f800000; // 1
sub.f32 %f5, %f4, %f1;
mul.f32 %f6, %f3, %f5;
lg2.approx.f32 %f7, %f6;
neg.f32 %f8, %f7;
mov.f32 %f9, 0f41033333; // 8.2
setp.gt.f32 %p2, %f8, %f9;
@!%p2 bra $Lt_41_3330;
.loc 17 8429 0
rsqrt.approx.f32 %f10, %f8;
mov.f32 %f11, 0fbf1704a1; // -0.589914
mov.f32 %f12, %f11;
mov.f32 %f13, %f10;
mov.f32 %f14, 0fbf29baa5; // -0.663004
mov.f32 %f15, %f14;
mad.f32 %f16, %f12, %f13, %f15;
mov.f32 %f17, %f16;
mov.f32 %f18, %f17;
mov.f32 %f19, %f10;
mov.f32 %f20, 0f3fcc6adc; // 1.59701
mov.f32 %f21, %f20;
mad.f32 %f22, %f18, %f19, %f21;
mov.f32 %f17, %f22;
mov.f32 %f23, %f17;
mov.f32 %f24, %f10;
mov.f32 %f25, 0fbf2cdaed; // -0.675216
mov.f32 %f26, %f25;
mad.f32 %f27, %f23, %f24, %f26;
mov.f32 %f17, %f27;
mov.f32 %f28, %f17;
mov.f32 %f29, %f10;
mov.f32 %f30, 0fbdc30537; // -0.0952248
mov.f32 %f31, %f30;
mad.f32 %f32, %f28, %f29, %f31;
mov.f32 %f17, %f32;
mov.f32 %f33, %f17;
mov.f32 %f34, %f10;
mov.f32 %f35, 0f3f55d9b9; // 0.835353
mov.f32 %f36, %f35;
mad.f32 %f37, %f33, %f34, %f36;
mov.f32 %f17, %f37;
.loc 17 9997 0
rcp.approx.f32 %f38, %f10;
mul.f32 %f39, %f38, %f17;
neg.f32 %f40, %f39;
mov.f32 %f41, 0f00000000; // 0
setp.lt.f32 %p3, %f1, %f41;
selp.f32 %f42, %f40, %f39, %p3;
bra.uni $Lt_41_3074;
$Lt_41_3330:
.loc 17 8429 0
mov.f32 %f43, 0faf8a6370; // -2.51727e-010
mov.f32 %f44, %f43;
mov.f32 %f45, %f8;
mov.f32 %f46, 0f3221f645; // 9.42743e-009
mov.f32 %f47, %f46;
mad.f32 %f48, %f44, %f45, %f47;
mov.f32 %f49, %f48;
mov.f32 %f50, %f49;
mov.f32 %f51, %f8;
mov.f32 %f52, 0fb4016fda; // -1.20548e-007
mov.f32 %f53, %f52;
mad.f32 %f54, %f50, %f51, %f53;
mov.f32 %f49, %f54;
mov.f32 %f55, %f49;
mov.f32 %f56, %f8;
mov.f32 %f57, 0f3468f846; // 2.1697e-007
mov.f32 %f58, %f57;
mad.f32 %f59, %f55, %f56, %f58;
mov.f32 %f49, %f59;
mov.f32 %f60, %f49;
mov.f32 %f61, %f8;
mov.f32 %f62, 0f370742aa; // 8.06215e-006
mov.f32 %f63, %f62;
mad.f32 %f64, %f60, %f61, %f63;
mov.f32 %f49, %f64;
mov.f32 %f65, %f49;
mov.f32 %f66, %f8;
mov.f32 %f67, 0fb804db4d; // -3.16755e-005
mov.f32 %f68, %f67;
mad.f32 %f69, %f65, %f66, %f68;
mov.f32 %f49, %f69;
mov.f32 %f70, %f49;
mov.f32 %f71, %f8;
mov.f32 %f72, 0fba4afea1; // -0.000774363
mov.f32 %f73, %f72;
mad.f32 %f74, %f70, %f71, %f73;
mov.f32 %f49, %f74;
mov.f32 %f75, %f49;
mov.f32 %f76, %f8;
mov.f32 %f77, 0f3bb5c027; // 0.00554659
mov.f32 %f78, %f77;
mad.f32 %f79, %f75, %f76, %f78;
mov.f32 %f49, %f79;
mov.f32 %f80, %f49;
mov.f32 %f81, %f8;
mov.f32 %f82, 0f3e24ae0f; // 0.16082
mov.f32 %f83, %f82;
mad.f32 %f84, %f80, %f81, %f83;
mov.f32 %f49, %f84;
mov.f32 %f85, %f49;
mov.f32 %f86, %f8;
mov.f32 %f87, 0f3f62dfc4; // 0.886227
mov.f32 %f88, %f87;
mad.f32 %f89, %f85, %f86, %f88;
mov.f32 %f49, %f89;
.loc 17 10008 0
mul.f32 %f42, %f1, %f49;
$Lt_41_3074:
.loc 15 508 0
cvt.f64.f32 %fd2, %f42;
ld.param.u32 %r8, [__cudaparm_vec_erfinv_result];
add.u32 %r9, %r8, %r5;
st.global.f64 [%r9+0], %fd2;
$Lt_41_2562:
.loc 15 510 0
exit;
$LDWend_vec_erfinv:
} // vec_erfinv
.entry vec_exp10 (
.param .u32 __cudaparm_vec_exp10_n,
.param .u32 __cudaparm_vec_exp10_result,
.param .u32 __cudaparm_vec_exp10_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<11>;
.reg .f32 %f<29>;
.reg .f64 %fd<4>;
.reg .pred %p<5>;
.loc 15 515 0
$LDWbegin_vec_exp10:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_exp10_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_42_2562;
.loc 15 520 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_exp10_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
.loc 17 8429 0
mov.f32 %f2, 0f40549a78; // 3.32193
mul.f32 %f3, %f1, %f2;
cvt.rzi.f32.f32 %f4, %f3;
mov.f32 %f5, %f4;
mov.f32 %f6, 0fbe9a2080; // -0.301029
mov.f32 %f7, %f6;
mov.f32 %f8, %f1;
mad.f32 %f9, %f5, %f7, %f8;
mov.f32 %f10, %f9;
mov.f32 %f11, %f4;
mov.f32 %f12, 0fb55427de; // -7.90342e-007
mov.f32 %f13, %f12;
mov.f32 %f14, %f10;
mad.f32 %f15, %f11, %f13, %f14;
mov.f32 %f16, %f15;
.loc 15 520 0
mov.f32 %f17, 0f7f800000; // 1.#INF
mov.f32 %f18, 0f00000000; // 0
ex2.approx.f32 %f19, %f4;
mov.f32 %f20, 0f40549a78; // 3.32193
mul.f32 %f21, %f16, %f20;
ex2.approx.f32 %f22, %f21;
mul.f32 %f23, %f19, %f22;
mov.f32 %f24, 0fc2380000; // -46
setp.lt.f32 %p2, %f1, %f24;
selp.f32 %f25, %f18, %f23, %p2;
mov.f32 %f26, 0f42380000; // 46
setp.gt.f32 %p3, %f1, %f26;
selp.f32 %f27, %f17, %f25, %p3;
cvt.f64.f32 %fd2, %f27;
ld.param.u32 %r8, [__cudaparm_vec_exp10_result];
add.u32 %r9, %r8, %r5;
st.global.f64 [%r9+0], %fd2;
$Lt_42_2562:
.loc 15 522 0
exit;
$LDWend_vec_exp10:
} // vec_exp10
.entry vec_exp2 (
.param .u32 __cudaparm_vec_exp2_n,
.param .u32 __cudaparm_vec_exp2_result,
.param .u32 __cudaparm_vec_exp2_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<11>;
.reg .f32 %f<4>;
.reg .f64 %fd<4>;
.reg .pred %p<3>;
.loc 15 527 0
$LDWbegin_vec_exp2:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_exp2_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_43_1026;
.loc 15 532 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_exp2_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
ex2.approx.f32 %f2, %f1;
cvt.f64.f32 %fd2, %f2;
ld.param.u32 %r8, [__cudaparm_vec_exp2_result];
add.u32 %r9, %r8, %r5;
st.global.f64 [%r9+0], %fd2;
$Lt_43_1026:
.loc 15 534 0
exit;
$LDWend_vec_exp2:
} // vec_exp2
.entry vec_exp (
.param .u32 __cudaparm_vec_exp_n,
.param .u32 __cudaparm_vec_exp_result,
.param .u32 __cudaparm_vec_exp_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<11>;
.reg .f32 %f<29>;
.reg .f64 %fd<4>;
.reg .pred %p<5>;
.loc 15 539 0
$LDWbegin_vec_exp:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_exp_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_44_2562;
.loc 15 544 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_exp_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
.loc 17 8429 0
mov.f32 %f2, 0f3fb8aa3b; // 1.4427
mul.f32 %f3, %f1, %f2;
cvt.rzi.f32.f32 %f4, %f3;
mov.f32 %f5, %f4;
mov.f32 %f6, 0fbf317200; // -0.693146
mov.f32 %f7, %f6;
mov.f32 %f8, %f1;
mad.f32 %f9, %f5, %f7, %f8;
mov.f32 %f10, %f9;
mov.f32 %f11, %f4;
mov.f32 %f12, 0fb5bfbe8e; // -1.42861e-006
mov.f32 %f13, %f12;
mov.f32 %f14, %f10;
mad.f32 %f15, %f11, %f13, %f14;
mov.f32 %f16, %f15;
.loc 15 544 0
mov.f32 %f17, 0f7f800000; // 1.#INF
mov.f32 %f18, 0f00000000; // 0
ex2.approx.f32 %f19, %f4;
mov.f32 %f20, 0f3fb8aa3b; // 1.4427
mul.f32 %f21, %f16, %f20;
ex2.approx.f32 %f22, %f21;
mul.f32 %f23, %f19, %f22;
mov.f32 %f24, 0fc2d20000; // -105
setp.lt.f32 %p2, %f1, %f24;
selp.f32 %f25, %f18, %f23, %p2;
mov.f32 %f26, 0f42d20000; // 105
setp.gt.f32 %p3, %f1, %f26;
selp.f32 %f27, %f17, %f25, %p3;
cvt.f64.f32 %fd2, %f27;
ld.param.u32 %r8, [__cudaparm_vec_exp_result];
add.u32 %r9, %r8, %r5;
st.global.f64 [%r9+0], %fd2;
$Lt_44_2562:
.loc 15 546 0
exit;
$LDWend_vec_exp:
} // vec_exp
.entry vec_expm1 (
.param .u32 __cudaparm_vec_expm1_n,
.param .u32 __cudaparm_vec_expm1_result,
.param .u32 __cudaparm_vec_expm1_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<13>;
.reg .f32 %f<69>;
.reg .f64 %fd<4>;
.reg .pred %p<8>;
.loc 15 551 0
$LDWbegin_vec_expm1:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_expm1_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_45_5634;
.loc 15 556 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_expm1_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
.loc 17 8429 0
abs.f32 %f2, %f1;
mov.f32 %f3, 0f3fb8aa3b; // 1.4427
mul.f32 %f4, %f1, %f3;
mov.f32 %f5, 0f3ed1eb85; // 0.41
setp.lt.f32 %p2, %f2, %f5;
cvt.rni.f32.f32 %f6, %f4;
mov.f32 %f7, 0f00000000; // 0
selp.f32 %f8, %f7, %f6, %p2;
neg.f32 %f9, %f8;
mov.f32 %f10, %f9;
mov.f32 %f11, 0f3f317200; // 0.693146
mov.f32 %f12, %f11;
mov.f32 %f13, %f1;
mad.f32 %f14, %f10, %f12, %f13;
mov.f32 %f15, %f14;
mov.f32 %f16, %f9;
mov.f32 %f17, 0f35bfbe8e; // 1.42861e-006
mov.f32 %f18, %f17;
mov.f32 %f19, %f15;
mad.f32 %f20, %f16, %f18, %f19;
mov.f32 %f15, %f20;
.loc 17 9450 0
mov.f32 %f21, %f15;
.loc 17 8429 0
mov.f32 %f22, 0f3ab5ebe6; // 0.00138795
mov.f32 %f23, %f22;
mov.f32 %f24, %f15;
mov.f32 %f25, 0f3c095663; // 0.00838241
mov.f32 %f26, %f25;
mad.f32 %f27, %f23, %f24, %f26;
mov.f32 %f15, %f27;
mov.f32 %f28, %f15;
mov.f32 %f29, %f21;
mov.f32 %f30, 0f3d2aabe3; // 0.0416678
mov.f32 %f31, %f30;
mad.f32 %f32, %f28, %f29, %f31;
mov.f32 %f15, %f32;
mov.f32 %f33, %f15;
mov.f32 %f34, %f21;
mov.f32 %f35, 0f3e2aa9f6; // 0.166664
mov.f32 %f36, %f35;
mad.f32 %f37, %f33, %f34, %f36;
mov.f32 %f15, %f37;
mov.f32 %f38, %f15;
mov.f32 %f39, %f21;
mov.f32 %f40, 0f3efffffe; // 0.5
mov.f32 %f41, %f40;
mad.f32 %f42, %f38, %f39, %f41;
mov.f32 %f15, %f42;
mul.f32 %f43, %f15, %f21;
mov.f32 %f44, %f43;
mov.f32 %f45, %f21;
mov.f32 %f46, %f21;
mad.f32 %f47, %f44, %f45, %f46;
mov.f32 %f15, %f47;
mov.f32 %f48, 0f43000000; // 128
setp.eq.f32 %p3, %f8, %f48;
mov.f32 %f49, 0fbf800000; // -1
add.f32 %f50, %f8, %f49;
selp.f32 %f51, %f50, %f8, %p3;
ex2.approx.f32 %f52, %f51;
mov.f32 %f53, %f15;
mov.f32 %f54, %f52;
mov.f32 %f55, 0fbf800000; // -1
add.f32 %f56, %f52, %f55;
mov.f32 %f57, %f56;
mad.f32 %f58, %f53, %f54, %f57;
mov.f32 %f15, %f58;
.loc 17 9468 0
mov.f32 %f59, 0fbf800000; // -1
mov.f32 %f60, 0f7f800000; // 1.#INF
add.f32 %f61, %f15, %f15;
selp.f32 %f62, %f61, %f15, %p3;
mov.f32 %f63, 0f43000000; // 128
setp.gt.f32 %p4, %f51, %f63;
selp.f32 %f64, %f60, %f62, %p4;
mov.f32 %f65, 0fc1c80000; // -25
setp.lt.f32 %p5, %f51, %f65;
selp.f32 %f66, %f59, %f64, %p5;
mov.f32 %f67, 0f00000000; // 0
setp.eq.f32 %p6, %f1, %f67;
@!%p6 bra $Lt_45_6146;
.loc 17 9471 0
mov.b32 %r8, %f1;
and.b32 %r9, %r8, -2147483648;
mov.b32 %f66, %r9;
$Lt_45_6146:
.loc 15 556 0
cvt.f64.f32 %fd2, %f66;
ld.param.u32 %r10, [__cudaparm_vec_expm1_result];
add.u32 %r11, %r10, %r5;
st.global.f64 [%r11+0], %fd2;
$Lt_45_5634:
.loc 15 558 0
exit;
$LDWend_vec_expm1:
} // vec_expm1
.entry vec_fabs (
.param .u32 __cudaparm_vec_fabs_n,
.param .u32 __cudaparm_vec_fabs_result,
.param .u32 __cudaparm_vec_fabs_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<11>;
.reg .f32 %f<3>;
.reg .f64 %fd<5>;
.reg .pred %p<3>;
.loc 15 563 0
$LDWbegin_vec_fabs:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_fabs_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_46_1026;
.loc 15 568 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_fabs_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
abs.f64 %fd2, %fd1;
cvt.rn.f32.f64 %f1, %fd2;
cvt.f64.f32 %fd3, %f1;
ld.param.u32 %r8, [__cudaparm_vec_fabs_result];
add.u32 %r9, %r8, %r5;
st.global.f64 [%r9+0], %fd3;
$Lt_46_1026:
.loc 15 570 0
exit;
$LDWend_vec_fabs:
} // vec_fabs
.entry vec_floor (
.param .u32 __cudaparm_vec_floor_n,
.param .u32 __cudaparm_vec_floor_result,
.param .u32 __cudaparm_vec_floor_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<11>;
.reg .f32 %f<4>;
.reg .f64 %fd<4>;
.reg .pred %p<3>;
.loc 15 575 0
$LDWbegin_vec_floor:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_floor_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_47_1026;
.loc 15 580 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_floor_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
cvt.rmi.f32.f32 %f2, %f1;
cvt.f64.f32 %fd2, %f2;
ld.param.u32 %r8, [__cudaparm_vec_floor_result];
add.u32 %r9, %r8, %r5;
st.global.f64 [%r9+0], %fd2;
$Lt_47_1026:
.loc 15 582 0
exit;
$LDWend_vec_floor:
} // vec_floor
.entry vec_j0 (
.param .u32 __cudaparm_vec_j0_n,
.param .u32 __cudaparm_vec_j0_result,
.param .u32 __cudaparm_vec_j0_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<169>;
.reg .f32 %f<264>;
.reg .f64 %fd<4>;
.reg .pred %p<24>;
.local .align 4 .b8 __cuda___cuda_result_16816[28];
.local .align 4 .b8 __cuda___cuda_result_44844[28];
.loc 15 587 0
$LDWbegin_vec_j0:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_j0_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_48_18690;
.loc 15 592 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_j0_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
abs.f32 %f2, %f1;
mov.f32 %f3, 0f41000000; // 8
setp.le.f32 %p2, %f2, %f3;
@!%p2 bra $Lt_48_19458;
.loc 17 8429 0
mov.f32 %f4, 0fc019e8a9; // -2.40483
add.f32 %f5, %f2, %f4;
mov.f32 %f6, 0fb3e971b3; // -1.08706e-007
add.f32 %f7, %f5, %f6;
mov.f32 %f8, 0fa6b3b8e7; // -1.24707e-015
mov.f32 %f9, %f8;
mov.f32 %f10, %f7;
mov.f32 %f11, 0fa9aca9b3; // -7.66777e-014
mov.f32 %f12, %f11;
mad.f32 %f13, %f9, %f10, %f12;
mov.f32 %f14, %f13;
mov.f32 %f15, %f14;
mov.f32 %f16, %f7;
mov.f32 %f17, 0f2c3f0e18; // 2.71506e-012
mov.f32 %f18, %f17;
mad.f32 %f19, %f15, %f16, %f18;
mov.f32 %f14, %f19;
mov.f32 %f20, %f14;
mov.f32 %f21, %f7;
mov.f32 %f22, 0facd41781; // -6.02801e-012
mov.f32 %f23, %f22;
mad.f32 %f24, %f20, %f21, %f23;
mov.f32 %f14, %f24;
mov.f32 %f25, %f14;
mov.f32 %f26, %f7;
mov.f32 %f27, 0fafe90f38; // -4.23933e-010
mov.f32 %f28, %f27;
mad.f32 %f29, %f25, %f26, %f28;
mov.f32 %f14, %f29;
mov.f32 %f30, %f14;
mov.f32 %f31, %f7;
mov.f32 %f32, 0f3020305b; // 5.82764e-010
mov.f32 %f33, %f32;
mad.f32 %f34, %f30, %f31, %f33;
mov.f32 %f14, %f34;
mov.f32 %f35, %f14;
mov.f32 %f36, %f7;
mov.f32 %f37, 0f33797143; // 5.80778e-008
mov.f32 %f38, %f37;
mad.f32 %f39, %f35, %f36, %f38;
mov.f32 %f14, %f39;
mov.f32 %f40, %f14;
mov.f32 %f41, %f7;
mov.f32 %f42, 0f30f76f85; // 1.80033e-009
mov.f32 %f43, %f42;
mad.f32 %f44, %f40, %f41, %f43;
mov.f32 %f14, %f44;
mov.f32 %f45, %f14;
mov.f32 %f46, %f7;
mov.f32 %f47, 0fb6b6dfc6; // -5.45007e-006
mov.f32 %f48, %f47;
mad.f32 %f49, %f45, %f46, %f48;
mov.f32 %f14, %f49;
mov.f32 %f50, %f14;
mov.f32 %f51, %f7;
mov.f32 %f52, 0fb6f665c9; // -7.34322e-006
mov.f32 %f53, %f52;
mad.f32 %f54, %f50, %f51, %f53;
mov.f32 %f14, %f54;
mov.f32 %f55, %f14;
mov.f32 %f56, %f7;
mov.f32 %f57, 0f399e2deb; // 0.000301703
mov.f32 %f58, %f57;
mad.f32 %f59, %f55, %f56, %f58;
mov.f32 %f14, %f59;
mov.f32 %f60, %f14;
mov.f32 %f61, %f7;
mov.f32 %f62, 0f3a4ae334; // 0.000773954
mov.f32 %f63, %f62;
mad.f32 %f64, %f60, %f61, %f63;
mov.f32 %f14, %f64;
mov.f32 %f65, %f14;
mov.f32 %f66, %f7;
mov.f32 %f67, 0fbbeeaa1b; // -0.00728346
mov.f32 %f68, %f67;
mad.f32 %f69, %f65, %f66, %f68;
mov.f32 %f14, %f69;
mov.f32 %f70, %f14;
mov.f32 %f71, %f7;
mov.f32 %f72, 0fbcda7747; // -0.0266682
mov.f32 %f73, %f72;
mad.f32 %f74, %f70, %f71, %f73;
mov.f32 %f14, %f74;
.loc 17 9562 0
mov.f32 %f75, 0fc10a75ab; // -8.65373
add.f32 %f76, %f2, %f75;
mov.f32 %f77, 0fb4cccded; // -3.81478e-007
add.f32 %f78, %f76, %f77;
mov.f32 %f79, 0fc0b0a47b; // -5.52008
add.f32 %f80, %f2, %f79;
mov.f32 %f81, 0f339a7a37; // 7.19341e-008
add.f32 %f82, %f80, %f81;
mul.f32 %f83, %f7, %f14;
mul.f32 %f84, %f82, %f83;
mul.f32 %f85, %f78, %f84;
bra.uni $Lt_48_19202;
$Lt_48_19458:
.loc 17 9563 0
mov.f32 %f86, 0f7f800000; // 1.#INF
setp.eq.f32 %p3, %f2, %f86;
@%p3 bra $Lt_48_19970;
.loc 17 8437 0
mov.f32 %f87, %f2;
rcp.approx.ftz.f32 %f88,%f87;
mov.f32 %f89, %f88;
.loc 17 8429 0
mul.f32 %f90, %f89, %f89;
mov.f32 %f91, 0f4056fe93; // 3.35929
mov.f32 %f92, %f91;
mov.f32 %f93, %f90;
mov.f32 %f94, 0fbf03b7c2; // -0.514523
mov.f32 %f95, %f94;
mad.f32 %f96, %f92, %f93, %f95;
mov.f32 %f14, %f96;
mov.f32 %f97, %f14;
mov.f32 %f98, %f90;
mov.f32 %f99, 0f3dd3b3f3; // 0.103371
mov.f32 %f100, %f99;
mad.f32 %f101, %f97, %f98, %f100;
mov.f32 %f14, %f101;
mov.f32 %f102, %f14;
mov.f32 %f103, %f90;
mov.f32 %f104, 0fbd7fffb6; // -0.0624997
mov.f32 %f105, %f104;
mad.f32 %f106, %f102, %f103, %f105;
mov.f32 %f14, %f106;
mov.f32 %f107, %f14;
mov.f32 %f108, %f90;
mov.f32 %f109, 0f3f800000; // 1
mov.f32 %f110, %f109;
mad.f32 %f111, %f107, %f108, %f110;
mov.f32 %f112, %f111;
mov.f32 %f113, 0f3f91e009; // 1.13965
mov.f32 %f114, %f113;
mov.f32 %f115, %f90;
mov.f32 %f116, 0fbe52412d; // -0.205327
mov.f32 %f117, %f116;
mad.f32 %f118, %f114, %f115, %f117;
mov.f32 %f14, %f118;
mov.f32 %f119, %f14;
mov.f32 %f120, %f90;
mov.f32 %f121, 0f3d854ed1; // 0.0650917
mov.f32 %f122, %f121;
mad.f32 %f123, %f119, %f120, %f122;
mov.f32 %f14, %f123;
mov.f32 %f124, %f14;
mov.f32 %f125, %f90;
mov.f32 %f126, 0fbdffffff; // -0.125
mov.f32 %f127, %f126;
mad.f32 %f128, %f124, %f125, %f127;
mov.f32 %f14, %f128;
mov.f32 %f129, %f14;
mov.f32 %f130, %f89;
mov.f32 %f131, %f2;
mad.f32 %f132, %f129, %f130, %f131;
mov.f32 %f14, %f132;
.loc 17 8726 0
mov.f32 %f133, 0f3f22f983; // 0.63662
mul.f32 %f134, %f14, %f133;
cvt.rni.s32.f32 %r8, %f134;
mov.s32 %r9, %r8;
.loc 17 8429 0
cvt.rn.f32.s32 %f135, %r8;
neg.f32 %f136, %f135;
mov.f32 %f137, %f136;
mov.f32 %f138, 0f3fc90000; // 1.57031
mov.f32 %f139, %f138;
mov.f32 %f140, %f14;
mad.f32 %f141, %f137, %f139, %f140;
mov.f32 %f142, %f141;
mov.f32 %f143, %f136;
mov.f32 %f144, 0f39fd8000; // 0.000483513
mov.f32 %f145, %f144;
mov.f32 %f146, %f142;
mad.f32 %f147, %f143, %f145, %f146;
mov.f32 %f148, %f147;
mov.f32 %f149, %f136;
mov.f32 %f150, 0f34a88000; // 3.13856e-007
mov.f32 %f151, %f150;
mov.f32 %f152, %f148;
mad.f32 %f153, %f149, %f151, %f152;
mov.f32 %f154, %f153;
mov.f32 %f155, %f136;
mov.f32 %f156, 0f2e85a309; // 6.0771e-011
mov.f32 %f157, %f156;
mov.f32 %f158, %f154;
mad.f32 %f159, %f155, %f157, %f158;
mov.f32 %f160, %f159;
.loc 17 8737 0
mov.f32 %f161, %f160;
abs.f32 %f162, %f14;
mov.f32 %f163, 0f473ba700; // 48039
setp.gt.f32 %p4, %f162, %f163;
@!%p4 bra $Lt_48_20226;
.loc 17 8740 0
mov.u32 %r10, __cudart_i2opi_f;
.loc 17 8658 0
mov.b32 %r11, %f14;
and.b32 %r12, %r11, -2147483648;
mov.s32 %r13, %r12;
.loc 17 24 0
shl.b32 %r14, %r11, 8;
mov.s32 %r15, %r10;
add.u32 %r16, %r10, 24;
mov.u32 %r17, __cuda___cuda_result_16816;
or.b32 %r18, %r14, -2147483648;
mov.u32 %r19, 0;
$Lt_48_21250:
// Loop body line 24, nesting depth: 1, iterations: 6
.loc 17 8674 0
ld.const.u32 %r20, [%r15+0];
mul.lo.u32 %r21, %r18, %r20;
add.u32 %r22, %r21, %r19;
.loc 17 8675 0
set.gt.u32.u32 %r23, %r21, %r22;
neg.s32 %r24, %r23;
mul.hi.u32 %r25, %r20, %r18;
add.u32 %r19, %r24, %r25;
.loc 17 8676 0
st.local.u32 [%r17+0], %r22;
add.u32 %r17, %r17, 4;
add.u32 %r15, %r15, 4;
setp.ne.u32 %p5, %r15, %r16;
@%p5 bra $Lt_48_21250;
.loc 17 8678 0
st.local.u32 [__cuda___cuda_result_16816+24], %r19;
.loc 17 8683 0
shl.b32 %r26, %r11, 1;
shr.u32 %r27, %r26, 24;
sub.u32 %r28, %r27, 128;
shr.u32 %r29, %r28, 5;
mov.s32 %r30, 4;
sub.s32 %r31, %r30, %r29;
mul.lo.u32 %r32, %r31, 4;
mov.u32 %r33, __cuda___cuda_result_16816;
add.u32 %r34, %r32, %r33;
ld.local.u32 %r19, [%r34+8];
.loc 17 8684 0
ld.local.u32 %r35, [%r34+4];
and.b32 %r36, %r28, 31;
mov.u32 %r37, 0;
setp.eq.u32 %p6, %r36, %r37;
@%p6 bra $Lt_48_21762;
.loc 17 8687 0
mov.s32 %r38, 32;
sub.s32 %r39, %r38, %r36;
shr.u32 %r40, %r35, %r39;
shl.b32 %r41, %r19, %r36;
add.u32 %r19, %r40, %r41;
.loc 17 8688 0
ld.local.u32 %r42, [%r34+0];
shr.u32 %r43, %r42, %r39;
shl.b32 %r44, %r35, %r36;
add.u32 %r35, %r43, %r44;
$Lt_48_21762:
.loc 17 8690 0
shr.u32 %r45, %r19, 30;
.loc 17 8692 0
shr.u32 %r46, %r35, 30;
shl.b32 %r47, %r19, 2;
add.u32 %r19, %r46, %r47;
.loc 17 8693 0
shl.b32 %r35, %r35, 2;
.loc 17 8695 0
shr.u32 %r48, %r19, 31;
add.u32 %r49, %r45, %r48;
.loc 17 8690 0
neg.s32 %r50, %r49;
mov.u32 %r51, 0;
setp.ne.u32 %p7, %r12, %r51;
selp.s32 %r52, %r50, %r49, %p7;
.loc 17 8697 0
mov.s32 %r9, %r52;
mov.u32 %r53, 0;
setp.eq.u32 %p8, %r48, %r53;
@%p8 bra $Lt_48_22274;
.loc 17 8701 0
neg.s32 %r35, %r35;
.loc 17 8703 0
mov.u32 %r54, 0;
set.eq.u32.u32 %r55, %r35, %r54;
neg.s32 %r56, %r55;
not.b32 %r57, %r19;
add.u32 %r19, %r56, %r57;
.loc 17 8704 0
xor.b32 %r13, %r12, -2147483648;
$Lt_48_22274:
.loc 17 8707 0
mov.u32 %r58, 0;
setp.eq.s32 %p9, %r19, %r58;
@%p9 bra $Lt_48_23042;
.loc 19 4479 0
cvt.rz.f32.u32 %f164, %r19;
mov.b32 %r59, %f164;
shr.s32 %r60, %r59, 23;
mov.s32 %r61, 158;
sub.s32 %r62, %r61, %r60;
bra.uni $Lt_48_22786;
$Lt_48_23042:
mov.s32 %r62, 32;
$Lt_48_22786:
.loc 17 8707 0
mov.s32 %r63, %r62;
mov.s32 %r64, %r63;
.loc 19 4479 0
mov.s32 %r65, 32;
sub.s32 %r66, %r65, %r63;
shr.u32 %r67, %r35, %r66;
shl.b32 %r68, %r19, %r63;
add.u32 %r69, %r67, %r68;
mov.u32 %r70, 0;
setp.ne.u32 %p10, %r63, %r70;
selp.u32 %r71, %r69, %r19, %p10;
.loc 17 8711 0
mul.lo.u32 %r35, %r71, -921707870;
.loc 17 8712 0
mov.u32 %r72, -921707870;
mul.hi.u32 %r19, %r71, %r72;
mov.u32 %r73, 0;
setp.le.s32 %p11, %r19, %r73;
@%p11 bra $Lt_48_23298;
.loc 17 8714 0
shr.u32 %r74, %r35, 31;
shl.b32 %r75, %r19, 1;
add.u32 %r19, %r74, %r75;
.loc 17 8715 0
add.u32 %r64, %r63, 1;
$Lt_48_23298:
.loc 17 8740 0
add.u32 %r76, %r19, 1;
shr.u32 %r77, %r76, 7;
add.u32 %r78, %r77, 1;
shr.u32 %r79, %r78, 1;
mov.s32 %r80, 126;
sub.s32 %r81, %r80, %r64;
shl.b32 %r82, %r81, 23;
add.u32 %r83, %r79, %r82;
or.b32 %r84, %r13, %r83;
mov.b32 %f161, %r84;
$Lt_48_20226:
.loc 17 8990 0
mov.u32 %r10, __cudart_i2opi_f;
mov.f32 %f165, 0fbf490fdb; // -0.785398
add.f32 %f166, %f161, %f165;
and.b32 %r85, %r9, 3;
cvt.rn.f32.s32 %f167, %r85;
mov.f32 %f168, 0f3fc90fdb; // 1.5708
mad.f32 %f169, %f167, %f168, %f166;
mov.f32 %f170, %f169;
.loc 17 8970 0
abs.f32 %f171, %f169;
mov.f32 %f172, 0f7f800000; // 1.#INF
setp.eq.f32 %p12, %f171, %f172;
@!%p12 bra $Lt_48_23810;
.loc 17 8971 0
mov.f32 %f173, 0f00000000; // 0
mul.rn.f32 %f170, %f169, %f173;
$Lt_48_23810:
.loc 17 8726 0
mov.f32 %f174, 0f3f22f983; // 0.63662
mul.f32 %f175, %f170, %f174;
cvt.rni.s32.f32 %r86, %f175;
mov.s32 %r87, %r86;
.loc 17 8429 0
cvt.rn.f32.s32 %f176, %r86;
neg.f32 %f177, %f176;
mov.f32 %f178, %f177;
mov.f32 %f179, 0f3fc90000; // 1.57031
mov.f32 %f180, %f179;
mov.f32 %f181, %f170;
mad.f32 %f182, %f178, %f180, %f181;
mov.f32 %f183, %f182;
mov.f32 %f184, %f177;
mov.f32 %f185, 0f39fd8000; // 0.000483513
mov.f32 %f186, %f185;
mov.f32 %f187, %f183;
mad.f32 %f188, %f184, %f186, %f187;
mov.f32 %f189, %f188;
mov.f32 %f190, %f177;
mov.f32 %f191, 0f34a88000; // 3.13856e-007
mov.f32 %f192, %f191;
mov.f32 %f193, %f189;
mad.f32 %f194, %f190, %f192, %f193;
mov.f32 %f195, %f194;
mov.f32 %f196, %f177;
mov.f32 %f197, 0f2e85a309; // 6.0771e-011
mov.f32 %f198, %f197;
mov.f32 %f199, %f195;
mad.f32 %f200, %f196, %f198, %f199;
mov.f32 %f201, %f200;
.loc 17 8737 0
mov.f32 %f202, %f201;
abs.f32 %f203, %f170;
mov.f32 %f204, 0f473ba700; // 48039
setp.gt.f32 %p13, %f203, %f204;
@!%p13 bra $Lt_48_24322;
.loc 17 8658 0
mov.b32 %r88, %f170;
and.b32 %r89, %r88, -2147483648;
mov.s32 %r90, %r89;
.loc 17 24 0
shl.b32 %r91, %r88, 8;
mov.s32 %r92, %r10;
add.u32 %r16, %r10, 24;
mov.u32 %r93, __cuda___cuda_result_44844;
or.b32 %r94, %r91, -2147483648;
mov.u32 %r95, 0;
$Lt_48_25346:
// Loop body line 24, nesting depth: 1, iterations: 6
.loc 17 8674 0
ld.const.u32 %r96, [%r92+0];
mul.lo.u32 %r97, %r94, %r96;
add.u32 %r98, %r97, %r95;
.loc 17 8675 0
set.gt.u32.u32 %r99, %r97, %r98;
neg.s32 %r100, %r99;
mul.hi.u32 %r101, %r96, %r94;
add.u32 %r95, %r100, %r101;
.loc 17 8676 0
st.local.u32 [%r93+0], %r98;
add.u32 %r93, %r93, 4;
add.u32 %r92, %r92, 4;
setp.ne.u32 %p14, %r92, %r16;
@%p14 bra $Lt_48_25346;
.loc 17 8678 0
st.local.u32 [__cuda___cuda_result_44844+24], %r95;
.loc 17 8683 0
shl.b32 %r102, %r88, 1;
shr.u32 %r103, %r102, 24;
sub.u32 %r104, %r103, 128;
shr.u32 %r105, %r104, 5;
mov.s32 %r106, 4;
sub.s32 %r107, %r106, %r105;
mul.lo.u32 %r108, %r107, 4;
mov.u32 %r109, __cuda___cuda_result_44844;
add.u32 %r110, %r108, %r109;
ld.local.u32 %r95, [%r110+8];
.loc 17 8684 0
ld.local.u32 %r111, [%r110+4];
and.b32 %r112, %r104, 31;
mov.u32 %r113, 0;
setp.eq.u32 %p15, %r112, %r113;
@%p15 bra $Lt_48_25858;
.loc 17 8687 0
mov.s32 %r114, 32;
sub.s32 %r115, %r114, %r112;
shr.u32 %r116, %r111, %r115;
shl.b32 %r117, %r95, %r112;
add.u32 %r95, %r116, %r117;
.loc 17 8688 0
ld.local.u32 %r118, [%r110+0];
shr.u32 %r119, %r118, %r115;
shl.b32 %r120, %r111, %r112;
add.u32 %r111, %r119, %r120;
$Lt_48_25858:
.loc 17 8690 0
shr.u32 %r121, %r95, 30;
.loc 17 8692 0
shr.u32 %r122, %r111, 30;
shl.b32 %r123, %r95, 2;
add.u32 %r95, %r122, %r123;
.loc 17 8693 0
shl.b32 %r111, %r111, 2;
.loc 17 8695 0
shr.u32 %r124, %r95, 31;
add.u32 %r125, %r121, %r124;
.loc 17 8690 0
neg.s32 %r126, %r125;
mov.u32 %r127, 0;
setp.ne.u32 %p16, %r89, %r127;
selp.s32 %r128, %r126, %r125, %p16;
.loc 17 8697 0
mov.s32 %r87, %r128;
mov.u32 %r129, 0;
setp.eq.u32 %p17, %r124, %r129;
@%p17 bra $Lt_48_26370;
.loc 17 8701 0
neg.s32 %r111, %r111;
.loc 17 8703 0
mov.u32 %r130, 0;
set.eq.u32.u32 %r131, %r111, %r130;
neg.s32 %r132, %r131;
not.b32 %r133, %r95;
add.u32 %r95, %r132, %r133;
.loc 17 8704 0
xor.b32 %r90, %r89, -2147483648;
$Lt_48_26370:
.loc 17 8707 0
mov.u32 %r134, 0;
setp.eq.s32 %p18, %r95, %r134;
@%p18 bra $Lt_48_27138;
.loc 19 4479 0
cvt.rz.f32.u32 %f205, %r95;
mov.b32 %r135, %f205;
shr.s32 %r136, %r135, 23;
mov.s32 %r137, 158;
sub.s32 %r138, %r137, %r136;
bra.uni $Lt_48_26882;
$Lt_48_27138:
mov.s32 %r138, 32;
$Lt_48_26882:
.loc 17 8707 0
mov.s32 %r139, %r138;
mov.s32 %r140, %r139;
.loc 19 4479 0
mov.s32 %r141, 32;
sub.s32 %r142, %r141, %r139;
shr.u32 %r143, %r111, %r142;
shl.b32 %r144, %r95, %r139;
add.u32 %r145, %r143, %r144;
mov.u32 %r146, 0;
setp.ne.u32 %p19, %r139, %r146;
selp.u32 %r147, %r145, %r95, %p19;
.loc 17 8711 0
mul.lo.u32 %r111, %r147, -921707870;
.loc 17 8712 0
mov.u32 %r148, -921707870;
mul.hi.u32 %r95, %r147, %r148;
mov.u32 %r149, 0;
setp.le.s32 %p20, %r95, %r149;
@%p20 bra $Lt_48_27394;
.loc 17 8714 0
shr.u32 %r150, %r111, 31;
shl.b32 %r151, %r95, 1;
add.u32 %r95, %r150, %r151;
.loc 17 8715 0
add.u32 %r140, %r139, 1;
$Lt_48_27394:
.loc 17 8740 0
add.u32 %r152, %r95, 1;
shr.u32 %r153, %r152, 7;
add.u32 %r154, %r153, 1;
shr.u32 %r155, %r154, 1;
mov.s32 %r156, 126;
sub.s32 %r157, %r156, %r140;
shl.b32 %r158, %r157, 23;
add.u32 %r159, %r155, %r158;
or.b32 %r160, %r90, %r159;
mov.b32 %f202, %r160;
$Lt_48_24322:
.loc 17 8975 0
add.s32 %r161, %r87, 1;
mul.f32 %f206, %f202, %f202;
and.b32 %r162, %r161, 1;
mov.u32 %r163, 0;
setp.eq.s32 %p21, %r162, %r163;
@%p21 bra $Lt_48_28162;
.loc 17 8429 0
mov.f32 %f207, 0f37ccf5ce; // 2.44332e-005
mov.f32 %f208, %f207;
mov.f32 %f209, %f206;
mov.f32 %f210, 0fbab6061a; // -0.00138873
mov.f32 %f211, %f210;
mad.f32 %f212, %f208, %f209, %f211;
mov.f32 %f213, %f212;
mov.f32 %f214, %f213;
mov.f32 %f215, %f206;
mov.f32 %f216, 0f3d2aaaa5; // 0.0416666
mov.f32 %f217, %f216;
mad.f32 %f218, %f214, %f215, %f217;
mov.f32 %f219, %f218;
mov.f32 %f220, %f219;
mov.f32 %f221, %f206;
mov.f32 %f222, 0fbf000000; // -0.5
mov.f32 %f223, %f222;
mad.f32 %f224, %f220, %f221, %f223;
mov.f32 %f225, %f224;
mov.f32 %f226, %f225;
mov.f32 %f227, %f206;
mov.f32 %f228, 0f3f800000; // 1
mov.f32 %f229, %f228;
mad.f32 %f230, %f226, %f227, %f229;
mov.f32 %f231, %f230;
.loc 17 8936 0
mov.f32 %f232, %f231;
bra.uni $Lt_48_27906;
$Lt_48_28162:
.loc 17 8429 0
mov.f32 %f233, 0fb94ca1f9; // -0.000195153
mov.f32 %f234, %f233;
mov.f32 %f235, %f206;
mov.f32 %f236, 0f3c08839e; // 0.00833216
mov.f32 %f237, %f236;
mad.f32 %f238, %f234, %f235, %f237;
mov.f32 %f239, %f238;
mov.f32 %f240, %f239;
mov.f32 %f241, %f206;
mov.f32 %f242, 0fbe2aaaa3; // -0.166667
mov.f32 %f243, %f242;
mad.f32 %f244, %f240, %f241, %f243;
mov.f32 %f245, %f244;
mul.f32 %f246, %f206, %f245;
mov.f32 %f247, %f246;
mov.f32 %f248, %f202;
mov.f32 %f249, %f202;
mad.f32 %f250, %f247, %f248, %f249;
mov.f32 %f251, %f250;
.loc 17 8938 0
mov.f32 %f232, %f251;
$Lt_48_27906:
and.b32 %r164, %r161, 2;
mov.u32 %r165, 0;
setp.eq.s32 %p22, %r164, %r165;
@%p22 bra $Lt_48_28418;
.loc 17 8429 0
mov.f32 %f252, %f232;
mov.f32 %f253, 0fbf800000; // -1
mov.f32 %f254, %f253;
mov.f32 %f255, 0f00000000; // 0
mov.f32 %f256, %f255;
mad.f32 %f257, %f252, %f254, %f256;
mov.f32 %f258, %f257;
.loc 17 8941 0
mov.f32 %f232, %f258;
$Lt_48_28418:
.loc 17 9581 0
rsqrt.approx.f32 %f259, %f2;
mov.f32 %f260, 0f3f4c422a; // 0.797885
mul.f32 %f261, %f259, %f260;
mul.f32 %f262, %f112, %f261;
mul.f32 %f85, %f232, %f262;
bra.uni $Lt_48_19714;
$Lt_48_19970:
.loc 17 9584 0
mov.f32 %f85, 0f00000000; // 0
$Lt_48_19714:
$Lt_48_19202:
.loc 15 592 0
cvt.f64.f32 %fd2, %f85;
ld.param.u32 %r166, [__cudaparm_vec_j0_result];
add.u32 %r167, %r166, %r5;
st.global.f64 [%r167+0], %fd2;
$Lt_48_18690:
.loc 15 594 0
exit;
$LDWend_vec_j0:
} // vec_j0
.entry vec_j1 (
.param .u32 __cudaparm_vec_j1_n,
.param .u32 __cudaparm_vec_j1_result,
.param .u32 __cudaparm_vec_j1_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<174>;
.reg .f32 %f<258>;
.reg .f64 %fd<4>;
.reg .pred %p<26>;
.local .align 4 .b8 __cuda___cuda_result_16884[28];
.local .align 4 .b8 __cuda___cuda_result_44912[28];
.loc 15 599 0
$LDWbegin_vec_j1:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_j1_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_49_20226;
.loc 15 604 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_j1_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
abs.f32 %f2, %f1;
mov.f32 %f3, 0f40fb3333; // 7.85
setp.le.f32 %p2, %f2, %f3;
@!%p2 bra $Lt_49_20994;
.loc 17 8429 0
mov.f32 %f4, 0fc0753aac; // -3.83171
add.f32 %f5, %f2, %f4;
mov.f32 %f6, 0f33a5090f; // 7.68506e-008
add.f32 %f7, %f5, %f6;
mov.f32 %f8, 0f29af3463; // 7.78065e-014
mov.f32 %f9, %f8;
mov.f32 %f10, %f7;
mov.f32 %f11, 0f2b81bf42; // 9.21909e-013
mov.f32 %f12, %f11;
mad.f32 %f13, %f9, %f10, %f12;
mov.f32 %f14, %f13;
mov.f32 %f15, %f14;
mov.f32 %f16, %f7;
mov.f32 %f17, 0fade21ec1; // -2.57069e-011
mov.f32 %f18, %f17;
mad.f32 %f19, %f15, %f16, %f18;
mov.f32 %f14, %f19;
mov.f32 %f20, %f14;
mov.f32 %f21, %f7;
mov.f32 %f22, 0faf5ddeff; // -2.01791e-010
mov.f32 %f23, %f22;
mad.f32 %f24, %f20, %f21, %f23;
mov.f32 %f14, %f24;
mov.f32 %f25, %f14;
mov.f32 %f26, %f7;
mov.f32 %f27, 0f319b0c9d; // 4.51253e-009
mov.f32 %f28, %f27;
mad.f32 %f29, %f25, %f26, %f28;
mov.f32 %f14, %f29;
mov.f32 %f30, %f14;
mov.f32 %f31, %f7;
mov.f32 %f32, 0f32e81173; // 2.70163e-008
mov.f32 %f33, %f32;
mad.f32 %f34, %f30, %f31, %f33;
mov.f32 %f14, %f34;
mov.f32 %f35, %f14;
mov.f32 %f36, %f7;
mov.f32 %f37, 0fb50f8dc8; // -5.3478e-007
mov.f32 %f38, %f37;
mad.f32 %f39, %f35, %f36, %f38;
mov.f32 %f14, %f39;
mov.f32 %f40, %f14;
mov.f32 %f41, %f7;
mov.f32 %f42, 0fb61e653d; // -2.36028e-006
mov.f32 %f43, %f42;
mad.f32 %f44, %f40, %f41, %f43;
mov.f32 %f14, %f44;
mov.f32 %f45, %f14;
mov.f32 %f46, %f7;
mov.f32 %f47, 0f382cd9c5; // 4.12108e-005
mov.f32 %f48, %f47;
mad.f32 %f49, %f45, %f46, %f48;
mov.f32 %f14, %f49;
mov.f32 %f50, %f14;
mov.f32 %f51, %f7;
mov.f32 %f52, 0f38f9eb10; // 0.00011917
mov.f32 %f53, %f52;
mad.f32 %f54, %f50, %f51, %f53;
mov.f32 %f14, %f54;
mov.f32 %f55, %f14;
mov.f32 %f56, %f7;
mov.f32 %f57, 0fbaeceb9c; // -0.00180756
mov.f32 %f58, %f57;
mad.f32 %f59, %f55, %f56, %f58;
mov.f32 %f14, %f59;
mov.f32 %f60, %f14;
mov.f32 %f61, %f7;
mov.f32 %f62, 0fbb276ffd; // -0.00255489
mov.f32 %f63, %f62;
mad.f32 %f64, %f60, %f61, %f63;
mov.f32 %f14, %f64;
mov.f32 %f65, %f14;
mov.f32 %f66, %f7;
mov.f32 %f67, 0f3d073993; // 0.0330139
mov.f32 %f68, %f67;
mad.f32 %f69, %f65, %f66, %f68;
mov.f32 %f14, %f69;
.loc 17 9616 0
mov.f32 %f70, 0fc0e07fb0; // -7.01559
add.f32 %f71, %f2, %f70;
mov.f32 %f72, 0f3444b8db; // 1.83212e-007
add.f32 %f73, %f71, %f72;
mul.f32 %f74, %f14, %f73;
mul.f32 %f75, %f7, %f74;
mul.f32 %f76, %f2, %f75;
bra.uni $Lt_49_20738;
$Lt_49_20994:
.loc 17 9617 0
mov.f32 %f77, 0f7f800000; // 1.#INF
setp.eq.f32 %p3, %f2, %f77;
@%p3 bra $Lt_49_21506;
.loc 17 8437 0
mov.f32 %f78, %f2;
rcp.approx.ftz.f32 %f79,%f78;
mov.f32 %f80, %f79;
.loc 17 8429 0
mul.f32 %f81, %f80, %f80;
mov.f32 %f82, 0fc082cb37; // -4.08731
mov.f32 %f83, %f82;
mov.f32 %f84, %f81;
mov.f32 %f85, 0f3f3ff7e9; // 0.749877
mov.f32 %f86, %f85;
mad.f32 %f87, %f83, %f84, %f86;
mov.f32 %f14, %f87;
mov.f32 %f88, %f14;
mov.f32 %f89, %f81;
mov.f32 %f90, 0fbe458bae; // -0.192916
mov.f32 %f91, %f90;
mad.f32 %f92, %f88, %f89, %f91;
mov.f32 %f14, %f92;
mov.f32 %f93, %f14;
mov.f32 %f94, %f81;
mov.f32 %f95, 0f3e3fff8b; // 0.187498
mov.f32 %f96, %f95;
mad.f32 %f97, %f93, %f94, %f96;
mov.f32 %f14, %f97;
mov.f32 %f98, %f14;
mov.f32 %f99, %f81;
mov.f32 %f100, 0f3f800000; // 1
mov.f32 %f101, %f100;
mad.f32 %f102, %f98, %f99, %f101;
mov.f32 %f103, %f102;
mov.f32 %f104, 0fbfca3ba2; // -1.57994
mov.f32 %f105, %f104;
mov.f32 %f106, %f81;
mov.f32 %f107, 0f3eb914ad; // 0.361486
mov.f32 %f108, %f107;
mad.f32 %f109, %f105, %f106, %f108;
mov.f32 %f14, %f109;
mov.f32 %f110, %f14;
mov.f32 %f111, %f81;
mov.f32 %f112, 0fbe27f2ec; // -0.164013
mov.f32 %f113, %f112;
mad.f32 %f114, %f110, %f111, %f113;
mov.f32 %f14, %f114;
mov.f32 %f115, %f14;
mov.f32 %f116, %f81;
mov.f32 %f117, 0f3ebffffd; // 0.375
mov.f32 %f118, %f117;
mad.f32 %f119, %f115, %f116, %f118;
mov.f32 %f14, %f119;
mov.f32 %f120, %f14;
mov.f32 %f121, %f80;
mov.f32 %f122, %f2;
mad.f32 %f123, %f120, %f121, %f122;
mov.f32 %f14, %f123;
.loc 17 8726 0
mov.f32 %f124, 0f3f22f983; // 0.63662
mul.f32 %f125, %f14, %f124;
cvt.rni.s32.f32 %r8, %f125;
mov.s32 %r9, %r8;
.loc 17 8429 0
cvt.rn.f32.s32 %f126, %r8;
neg.f32 %f127, %f126;
mov.f32 %f128, %f127;
mov.f32 %f129, 0f3fc90000; // 1.57031
mov.f32 %f130, %f129;
mov.f32 %f131, %f14;
mad.f32 %f132, %f128, %f130, %f131;
mov.f32 %f133, %f132;
mov.f32 %f134, %f127;
mov.f32 %f135, 0f39fd8000; // 0.000483513
mov.f32 %f136, %f135;
mov.f32 %f137, %f133;
mad.f32 %f138, %f134, %f136, %f137;
mov.f32 %f139, %f138;
mov.f32 %f140, %f127;
mov.f32 %f141, 0f34a88000; // 3.13856e-007
mov.f32 %f142, %f141;
mov.f32 %f143, %f139;
mad.f32 %f144, %f140, %f142, %f143;
mov.f32 %f145, %f144;
mov.f32 %f146, %f127;
mov.f32 %f147, 0f2e85a309; // 6.0771e-011
mov.f32 %f148, %f147;
mov.f32 %f149, %f145;
mad.f32 %f150, %f146, %f148, %f149;
mov.f32 %f151, %f150;
.loc 17 8737 0
mov.f32 %f152, %f151;
abs.f32 %f153, %f14;
mov.f32 %f154, 0f473ba700; // 48039
setp.gt.f32 %p4, %f153, %f154;
@!%p4 bra $Lt_49_21762;
.loc 17 8740 0
mov.u32 %r10, __cudart_i2opi_f;
.loc 17 8658 0
mov.b32 %r11, %f14;
and.b32 %r12, %r11, -2147483648;
mov.s32 %r13, %r12;
.loc 17 24 0
shl.b32 %r14, %r11, 8;
mov.s32 %r15, %r10;
add.u32 %r16, %r10, 24;
mov.u32 %r17, __cuda___cuda_result_16884;
or.b32 %r18, %r14, -2147483648;
mov.u32 %r19, 0;
$Lt_49_22786:
// Loop body line 24, nesting depth: 1, iterations: 6
.loc 17 8674 0
ld.const.u32 %r20, [%r15+0];
mul.lo.u32 %r21, %r18, %r20;
add.u32 %r22, %r21, %r19;
.loc 17 8675 0
set.gt.u32.u32 %r23, %r21, %r22;
neg.s32 %r24, %r23;
mul.hi.u32 %r25, %r20, %r18;
add.u32 %r19, %r24, %r25;
.loc 17 8676 0
st.local.u32 [%r17+0], %r22;
add.u32 %r17, %r17, 4;
add.u32 %r15, %r15, 4;
setp.ne.u32 %p5, %r15, %r16;
@%p5 bra $Lt_49_22786;
.loc 17 8678 0
st.local.u32 [__cuda___cuda_result_16884+24], %r19;
.loc 17 8683 0
shl.b32 %r26, %r11, 1;
shr.u32 %r27, %r26, 24;
sub.u32 %r28, %r27, 128;
shr.u32 %r29, %r28, 5;
mov.s32 %r30, 4;
sub.s32 %r31, %r30, %r29;
mul.lo.u32 %r32, %r31, 4;
mov.u32 %r33, __cuda___cuda_result_16884;
add.u32 %r34, %r32, %r33;
ld.local.u32 %r19, [%r34+8];
.loc 17 8684 0
ld.local.u32 %r35, [%r34+4];
and.b32 %r36, %r28, 31;
mov.u32 %r37, 0;
setp.eq.u32 %p6, %r36, %r37;
@%p6 bra $Lt_49_23298;
.loc 17 8687 0
mov.s32 %r38, 32;
sub.s32 %r39, %r38, %r36;
shr.u32 %r40, %r35, %r39;
shl.b32 %r41, %r19, %r36;
add.u32 %r19, %r40, %r41;
.loc 17 8688 0
ld.local.u32 %r42, [%r34+0];
shr.u32 %r43, %r42, %r39;
shl.b32 %r44, %r35, %r36;
add.u32 %r35, %r43, %r44;
$Lt_49_23298:
.loc 17 8690 0
shr.u32 %r45, %r19, 30;
.loc 17 8692 0
shr.u32 %r46, %r35, 30;
shl.b32 %r47, %r19, 2;
add.u32 %r19, %r46, %r47;
.loc 17 8693 0
shl.b32 %r35, %r35, 2;
.loc 17 8695 0
shr.u32 %r48, %r19, 31;
add.u32 %r49, %r45, %r48;
.loc 17 8690 0
neg.s32 %r50, %r49;
mov.u32 %r51, 0;
setp.ne.u32 %p7, %r12, %r51;
selp.s32 %r52, %r50, %r49, %p7;
.loc 17 8697 0
mov.s32 %r9, %r52;
mov.u32 %r53, 0;
setp.eq.u32 %p8, %r48, %r53;
@%p8 bra $Lt_49_23810;
.loc 17 8701 0
neg.s32 %r35, %r35;
.loc 17 8703 0
mov.u32 %r54, 0;
set.eq.u32.u32 %r55, %r35, %r54;
neg.s32 %r56, %r55;
not.b32 %r57, %r19;
add.u32 %r19, %r56, %r57;
.loc 17 8704 0
xor.b32 %r13, %r12, -2147483648;
$Lt_49_23810:
.loc 17 8707 0
mov.u32 %r58, 0;
setp.eq.s32 %p9, %r19, %r58;
@%p9 bra $Lt_49_24578;
.loc 19 4479 0
cvt.rz.f32.u32 %f155, %r19;
mov.b32 %r59, %f155;
shr.s32 %r60, %r59, 23;
mov.s32 %r61, 158;
sub.s32 %r62, %r61, %r60;
bra.uni $Lt_49_24322;
$Lt_49_24578:
mov.s32 %r62, 32;
$Lt_49_24322:
.loc 17 8707 0
mov.s32 %r63, %r62;
mov.s32 %r64, %r63;
.loc 19 4479 0
mov.s32 %r65, 32;
sub.s32 %r66, %r65, %r63;
shr.u32 %r67, %r35, %r66;
shl.b32 %r68, %r19, %r63;
add.u32 %r69, %r67, %r68;
mov.u32 %r70, 0;
setp.ne.u32 %p10, %r63, %r70;
selp.u32 %r71, %r69, %r19, %p10;
.loc 17 8711 0
mul.lo.u32 %r35, %r71, -921707870;
.loc 17 8712 0
mov.u32 %r72, -921707870;
mul.hi.u32 %r19, %r71, %r72;
mov.u32 %r73, 0;
setp.le.s32 %p11, %r19, %r73;
@%p11 bra $Lt_49_24834;
.loc 17 8714 0
shr.u32 %r74, %r35, 31;
shl.b32 %r75, %r19, 1;
add.u32 %r19, %r74, %r75;
.loc 17 8715 0
add.u32 %r64, %r63, 1;
$Lt_49_24834:
.loc 17 8740 0
add.u32 %r76, %r19, 1;
shr.u32 %r77, %r76, 7;
add.u32 %r78, %r77, 1;
shr.u32 %r79, %r78, 1;
mov.s32 %r80, 126;
sub.s32 %r81, %r80, %r64;
shl.b32 %r82, %r81, 23;
add.u32 %r83, %r79, %r82;
or.b32 %r84, %r13, %r83;
mov.b32 %f152, %r84;
$Lt_49_21762:
.loc 17 8990 0
mov.u32 %r10, __cudart_i2opi_f;
mov.f32 %f156, 0fc016cbe4; // -2.35619
add.f32 %f157, %f152, %f156;
and.b32 %r85, %r9, 3;
cvt.rn.f32.s32 %f158, %r85;
mov.f32 %f159, 0f3fc90fdb; // 1.5708
mad.f32 %f160, %f158, %f159, %f157;
mov.f32 %f161, %f160;
.loc 17 8970 0
abs.f32 %f162, %f160;
mov.f32 %f163, 0f7f800000; // 1.#INF
setp.eq.f32 %p12, %f162, %f163;
@!%p12 bra $Lt_49_25346;
.loc 17 8971 0
mov.f32 %f164, 0f00000000; // 0
mul.rn.f32 %f161, %f160, %f164;
$Lt_49_25346:
.loc 17 8726 0
mov.f32 %f165, 0f3f22f983; // 0.63662
mul.f32 %f166, %f161, %f165;
cvt.rni.s32.f32 %r86, %f166;
mov.s32 %r87, %r86;
.loc 17 8429 0
cvt.rn.f32.s32 %f167, %r86;
neg.f32 %f168, %f167;
mov.f32 %f169, %f168;
mov.f32 %f170, 0f3fc90000; // 1.57031
mov.f32 %f171, %f170;
mov.f32 %f172, %f161;
mad.f32 %f173, %f169, %f171, %f172;
mov.f32 %f174, %f173;
mov.f32 %f175, %f168;
mov.f32 %f176, 0f39fd8000; // 0.000483513
mov.f32 %f177, %f176;
mov.f32 %f178, %f174;
mad.f32 %f179, %f175, %f177, %f178;
mov.f32 %f180, %f179;
mov.f32 %f181, %f168;
mov.f32 %f182, 0f34a88000; // 3.13856e-007
mov.f32 %f183, %f182;
mov.f32 %f184, %f180;
mad.f32 %f185, %f181, %f183, %f184;
mov.f32 %f186, %f185;
mov.f32 %f187, %f168;
mov.f32 %f188, 0f2e85a309; // 6.0771e-011
mov.f32 %f189, %f188;
mov.f32 %f190, %f186;
mad.f32 %f191, %f187, %f189, %f190;
mov.f32 %f192, %f191;
.loc 17 8737 0
mov.f32 %f193, %f192;
abs.f32 %f194, %f161;
mov.f32 %f195, 0f473ba700; // 48039
setp.gt.f32 %p13, %f194, %f195;
@!%p13 bra $Lt_49_25858;
.loc 17 8658 0
mov.b32 %r88, %f161;
and.b32 %r89, %r88, -2147483648;
mov.s32 %r90, %r89;
.loc 17 24 0
shl.b32 %r91, %r88, 8;
mov.s32 %r92, %r10;
add.u32 %r16, %r10, 24;
mov.u32 %r93, __cuda___cuda_result_44912;
or.b32 %r94, %r91, -2147483648;
mov.u32 %r95, 0;
$Lt_49_26882:
// Loop body line 24, nesting depth: 1, iterations: 6
.loc 17 8674 0
ld.const.u32 %r96, [%r92+0];
mul.lo.u32 %r97, %r94, %r96;
add.u32 %r98, %r97, %r95;
.loc 17 8675 0
set.gt.u32.u32 %r99, %r97, %r98;
neg.s32 %r100, %r99;
mul.hi.u32 %r101, %r96, %r94;
add.u32 %r95, %r100, %r101;
.loc 17 8676 0
st.local.u32 [%r93+0], %r98;
add.u32 %r93, %r93, 4;
add.u32 %r92, %r92, 4;
setp.ne.u32 %p14, %r92, %r16;
@%p14 bra $Lt_49_26882;
.loc 17 8678 0
st.local.u32 [__cuda___cuda_result_44912+24], %r95;
.loc 17 8683 0
shl.b32 %r102, %r88, 1;
shr.u32 %r103, %r102, 24;
sub.u32 %r104, %r103, 128;
shr.u32 %r105, %r104, 5;
mov.s32 %r106, 4;
sub.s32 %r107, %r106, %r105;
mul.lo.u32 %r108, %r107, 4;
mov.u32 %r109, __cuda___cuda_result_44912;
add.u32 %r110, %r108, %r109;
ld.local.u32 %r95, [%r110+8];
.loc 17 8684 0
ld.local.u32 %r111, [%r110+4];
and.b32 %r112, %r104, 31;
mov.u32 %r113, 0;
setp.eq.u32 %p15, %r112, %r113;
@%p15 bra $Lt_49_27394;
.loc 17 8687 0
mov.s32 %r114, 32;
sub.s32 %r115, %r114, %r112;
shr.u32 %r116, %r111, %r115;
shl.b32 %r117, %r95, %r112;
add.u32 %r95, %r116, %r117;
.loc 17 8688 0
ld.local.u32 %r118, [%r110+0];
shr.u32 %r119, %r118, %r115;
shl.b32 %r120, %r111, %r112;
add.u32 %r111, %r119, %r120;
$Lt_49_27394:
.loc 17 8690 0
shr.u32 %r121, %r95, 30;
.loc 17 8692 0
shr.u32 %r122, %r111, 30;
shl.b32 %r123, %r95, 2;
add.u32 %r95, %r122, %r123;
.loc 17 8693 0
shl.b32 %r111, %r111, 2;
.loc 17 8695 0
shr.u32 %r124, %r95, 31;
add.u32 %r125, %r121, %r124;
.loc 17 8690 0
neg.s32 %r126, %r125;
mov.u32 %r127, 0;
setp.ne.u32 %p16, %r89, %r127;
selp.s32 %r128, %r126, %r125, %p16;
.loc 17 8697 0
mov.s32 %r87, %r128;
mov.u32 %r129, 0;
setp.eq.u32 %p17, %r124, %r129;
@%p17 bra $Lt_49_27906;
.loc 17 8701 0
neg.s32 %r111, %r111;
.loc 17 8703 0
mov.u32 %r130, 0;
set.eq.u32.u32 %r131, %r111, %r130;
neg.s32 %r132, %r131;
not.b32 %r133, %r95;
add.u32 %r95, %r132, %r133;
.loc 17 8704 0
xor.b32 %r90, %r89, -2147483648;
$Lt_49_27906:
.loc 17 8707 0
mov.u32 %r134, 0;
setp.eq.s32 %p18, %r95, %r134;
@%p18 bra $Lt_49_28674;
.loc 19 4479 0
cvt.rz.f32.u32 %f196, %r95;
mov.b32 %r135, %f196;
shr.s32 %r136, %r135, 23;
mov.s32 %r137, 158;
sub.s32 %r138, %r137, %r136;
bra.uni $Lt_49_28418;
$Lt_49_28674:
mov.s32 %r138, 32;
$Lt_49_28418:
.loc 17 8707 0
mov.s32 %r139, %r138;
mov.s32 %r140, %r139;
.loc 19 4479 0
mov.s32 %r141, 32;
sub.s32 %r142, %r141, %r139;
shr.u32 %r143, %r111, %r142;
shl.b32 %r144, %r95, %r139;
add.u32 %r145, %r143, %r144;
mov.u32 %r146, 0;
setp.ne.u32 %p19, %r139, %r146;
selp.u32 %r147, %r145, %r95, %p19;
.loc 17 8711 0
mul.lo.u32 %r111, %r147, -921707870;
.loc 17 8712 0
mov.u32 %r148, -921707870;
mul.hi.u32 %r95, %r147, %r148;
mov.u32 %r149, 0;
setp.le.s32 %p20, %r95, %r149;
@%p20 bra $Lt_49_28930;
.loc 17 8714 0
shr.u32 %r150, %r111, 31;
shl.b32 %r151, %r95, 1;
add.u32 %r95, %r150, %r151;
.loc 17 8715 0
add.u32 %r140, %r139, 1;
$Lt_49_28930:
.loc 17 8740 0
add.u32 %r152, %r95, 1;
shr.u32 %r153, %r152, 7;
add.u32 %r154, %r153, 1;
shr.u32 %r155, %r154, 1;
mov.s32 %r156, 126;
sub.s32 %r157, %r156, %r140;
shl.b32 %r158, %r157, 23;
add.u32 %r159, %r155, %r158;
or.b32 %r160, %r90, %r159;
mov.b32 %f193, %r160;
$Lt_49_25858:
.loc 17 8975 0
add.s32 %r161, %r87, 1;
mul.f32 %f197, %f193, %f193;
and.b32 %r162, %r161, 1;
mov.u32 %r163, 0;
setp.eq.s32 %p21, %r162, %r163;
@%p21 bra $Lt_49_29698;
.loc 17 8429 0
mov.f32 %f198, 0f37ccf5ce; // 2.44332e-005
mov.f32 %f199, %f198;
mov.f32 %f200, %f197;
mov.f32 %f201, 0fbab6061a; // -0.00138873
mov.f32 %f202, %f201;
mad.f32 %f203, %f199, %f200, %f202;
mov.f32 %f204, %f203;
mov.f32 %f205, %f204;
mov.f32 %f206, %f197;
mov.f32 %f207, 0f3d2aaaa5; // 0.0416666
mov.f32 %f208, %f207;
mad.f32 %f209, %f205, %f206, %f208;
mov.f32 %f210, %f209;
mov.f32 %f211, %f210;
mov.f32 %f212, %f197;
mov.f32 %f213, 0fbf000000; // -0.5
mov.f32 %f214, %f213;
mad.f32 %f215, %f211, %f212, %f214;
mov.f32 %f216, %f215;
mov.f32 %f217, %f216;
mov.f32 %f218, %f197;
mov.f32 %f219, 0f3f800000; // 1
mov.f32 %f220, %f219;
mad.f32 %f221, %f217, %f218, %f220;
mov.f32 %f222, %f221;
.loc 17 8936 0
mov.f32 %f223, %f222;
bra.uni $Lt_49_29442;
$Lt_49_29698:
.loc 17 8429 0
mov.f32 %f224, 0fb94ca1f9; // -0.000195153
mov.f32 %f225, %f224;
mov.f32 %f226, %f197;
mov.f32 %f227, 0f3c08839e; // 0.00833216
mov.f32 %f228, %f227;
mad.f32 %f229, %f225, %f226, %f228;
mov.f32 %f230, %f229;
mov.f32 %f231, %f230;
mov.f32 %f232, %f197;
mov.f32 %f233, 0fbe2aaaa3; // -0.166667
mov.f32 %f234, %f233;
mad.f32 %f235, %f231, %f232, %f234;
mov.f32 %f236, %f235;
mul.f32 %f237, %f197, %f236;
mov.f32 %f238, %f237;
mov.f32 %f239, %f193;
mov.f32 %f240, %f193;
mad.f32 %f241, %f238, %f239, %f240;
mov.f32 %f242, %f241;
.loc 17 8938 0
mov.f32 %f223, %f242;
$Lt_49_29442:
and.b32 %r164, %r161, 2;
mov.u32 %r165, 0;
setp.eq.s32 %p22, %r164, %r165;
@%p22 bra $Lt_49_29954;
.loc 17 8429 0
mov.f32 %f243, %f223;
mov.f32 %f244, 0fbf800000; // -1
mov.f32 %f245, %f244;
mov.f32 %f246, 0f00000000; // 0
mov.f32 %f247, %f246;
mad.f32 %f248, %f243, %f245, %f247;
mov.f32 %f249, %f248;
.loc 17 8941 0
mov.f32 %f223, %f249;
$Lt_49_29954:
.loc 17 9631 0
rsqrt.approx.f32 %f250, %f2;
mov.f32 %f251, 0f3f4c422a; // 0.797885
mul.f32 %f252, %f250, %f251;
mul.f32 %f253, %f103, %f252;
mul.f32 %f76, %f223, %f253;
bra.uni $Lt_49_21250;
$Lt_49_21506:
.loc 17 9633 0
mov.f32 %f76, 0f00000000; // 0
$Lt_49_21250:
$Lt_49_20738:
.loc 17 9635 0
neg.f32 %f254, %f76;
mov.f32 %f255, 0f00000000; // 0
setp.lt.f32 %p23, %f1, %f255;
selp.f32 %f76, %f254, %f76, %p23;
mov.f32 %f256, 0f0da24260; // 1e-030
setp.lt.f32 %p24, %f2, %f256;
@!%p24 bra $Lt_49_30466;
.loc 17 9639 0
mov.b32 %r166, %f1;
and.b32 %r167, %r166, -2147483648;
mov.b32 %r168, %f76;
and.b32 %r169, %r168, 2147483647;
or.b32 %r170, %r167, %r169;
mov.b32 %f76, %r170;
$Lt_49_30466:
.loc 15 604 0
cvt.f64.f32 %fd2, %f76;
ld.param.u32 %r171, [__cudaparm_vec_j1_result];
add.u32 %r172, %r171, %r5;
st.global.f64 [%r172+0], %fd2;
$Lt_49_20226:
.loc 15 606 0
exit;
$LDWend_vec_j1:
} // vec_j1
.entry vec_lgamma (
.param .u32 __cudaparm_vec_lgamma_n,
.param .u32 __cudaparm_vec_lgamma_result,
.param .u32 __cudaparm_vec_lgamma_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<59>;
.reg .f32 %f<461>;
.reg .f64 %fd<4>;
.reg .pred %p<21>;
.loc 15 611 0
$LDWbegin_vec_lgamma:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_lgamma_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_50_16386;
.loc 15 616 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_lgamma_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
.loc 17 10276 0
abs.f32 %f2, %f1;
mov.f32 %f3, 0f40400000; // 3
setp.ge.f32 %p2, %f2, %f3;
@!%p2 bra $Lt_50_17154;
mov.f32 %f4, 0f40f9999a; // 7.8
setp.ge.f32 %p3, %f2, %f4;
@!%p3 bra $Lt_50_17666;
.loc 17 8437 0
mov.f32 %f5, %f2;
rcp.approx.ftz.f32 %f6,%f5;
mov.f32 %f7, %f6;
.loc 17 8429 0
mul.f32 %f8, %f7, %f7;
mov.f32 %f9, 0f3a4be755; // 0.000777831
mov.f32 %f10, %f9;
mov.f32 %f11, %f8;
mov.f32 %f12, 0fbb360953; // -0.00277766
mov.f32 %f13, %f12;
mad.f32 %f14, %f10, %f11, %f13;
mov.f32 %f15, %f14;
mov.f32 %f16, %f15;
mov.f32 %f17, %f8;
mov.f32 %f18, 0f3daaaaa3; // 0.0833333
mov.f32 %f19, %f18;
mad.f32 %f20, %f16, %f17, %f19;
mov.f32 %f15, %f20;
mov.f32 %f21, %f15;
mov.f32 %f22, %f7;
mov.f32 %f23, 0f3f6b3f8e; // 0.918939
mov.f32 %f24, %f23;
mad.f32 %f25, %f21, %f22, %f24;
mov.f32 %f15, %f25;
.loc 17 8816 0
mov.f32 %f26, 0f00000000; // 0
set.gt.u32.f32 %r8, %f2, %f26;
neg.s32 %r9, %r8;
mov.f32 %f27, 0f7f800000; // 1.#INF
set.lt.u32.f32 %r10, %f2, %f27;
neg.s32 %r11, %r10;
and.b32 %r12, %r9, %r11;
mov.u32 %r13, 0;
setp.eq.s32 %p4, %r12, %r13;
@%p4 bra $Lt_50_18178;
.loc 17 8512 0
mov.b32 %r14, %f2;
and.b32 %r15, %r14, -2139095041;
or.b32 %r16, %r15, 1065353216;
mov.b32 %f28, %r16;
mov.f32 %f29, %f28;
.loc 17 8513 0
shr.u32 %r17, %r14, 23;
sub.u32 %r18, %r17, 127;
mov.s32 %r19, %r18;
mov.f32 %f30, 0f3fb504f3; // 1.41421
setp.gt.f32 %p5, %f28, %f30;
@!%p5 bra $Lt_50_18434;
.loc 17 8515 0
mov.f32 %f31, 0f3f000000; // 0.5
mul.f32 %f29, %f28, %f31;
.loc 17 8516 0
add.s32 %r19, %r18, 1;
$Lt_50_18434:
.loc 17 8429 0
mov.f32 %f32, 0fbf800000; // -1
add.f32 %f33, %f29, %f32;
mov.f32 %f34, 0f3f800000; // 1
add.f32 %f35, %f29, %f34;
neg.f32 %f36, %f33;
div.approx.f32 %f37, %f33, %f35;
mul.rn.f32 %f38, %f36, %f37;
add.rn.f32 %f39, %f33, %f38;
mul.f32 %f40, %f39, %f39;
mov.f32 %f41, 0f3b2063c3; // 0.00244735
mov.f32 %f42, %f41;
mov.f32 %f43, %f40;
mov.f32 %f44, 0f3c4c4be0; // 0.0124693
mov.f32 %f45, %f44;
mad.f32 %f46, %f42, %f43, %f45;
mov.f32 %f47, %f46;
mov.f32 %f48, %f47;
mov.f32 %f49, %f40;
mov.f32 %f50, 0f3daaab50; // 0.0833346
mov.f32 %f51, %f50;
mad.f32 %f52, %f48, %f49, %f51;
mov.f32 %f47, %f52;
mul.f32 %f53, %f40, %f47;
mov.f32 %f54, %f53;
mov.f32 %f55, %f39;
mov.f32 %f56, %f38;
mad.f32 %f57, %f54, %f55, %f56;
mov.f32 %f47, %f57;
cvt.rn.f32.s32 %f58, %r19;
mov.f32 %f59, %f58;
mov.f32 %f60, 0f3f317218; // 0.693147
mov.f32 %f61, %f60;
add.f32 %f62, %f33, %f47;
mov.f32 %f63, %f62;
mad.f32 %f64, %f59, %f61, %f63;
mov.f32 %f65, %f64;
.loc 17 8523 0
mov.f32 %f66, %f65;
bra.uni $Lt_50_17922;
$Lt_50_18178:
.loc 17 8526 0
lg2.approx.f32 %f67, %f2;
mov.f32 %f68, 0f3f317218; // 0.693147
mul.f32 %f66, %f67, %f68;
$Lt_50_17922:
.loc 17 8528 0
mov.f32 %f69, 0f3f000000; // 0.5
mul.f32 %f70, %f66, %f69;
mov.f32 %f71, 0fbf000000; // -0.5
add.f32 %f72, %f2, %f71;
mul.rn.f32 %f73, %f70, %f72;
add.rn.f32 %f74, %f73, %f15;
sub.f32 %f75, %f73, %f2;
add.f32 %f76, %f74, %f75;
mov.f32 %f77, 0f7f800000; // 1.#INF
setp.eq.f32 %p6, %f2, %f77;
selp.f32 %f78, %f2, %f76, %p6;
bra.uni $Lt_50_19458;
$Lt_50_17666:
.loc 17 8429 0
mov.f32 %f79, 0fc0400000; // -3
add.f32 %f80, %f2, %f79;
mov.f32 %f81, 0fc43b38fb; // -748.89
mov.f32 %f82, %f81;
mov.f32 %f83, %f80;
mov.f32 %f84, 0fc640f6f8; // -12349.7
mov.f32 %f85, %f84;
mad.f32 %f86, %f82, %f83, %f85;
mov.f32 %f15, %f86;
mov.f32 %f87, %f15;
mov.f32 %f88, %f80;
mov.f32 %f89, 0fc7206560; // -41061.4
mov.f32 %f90, %f89;
mad.f32 %f91, %f87, %f88, %f90;
mov.f32 %f15, %f91;
mov.f32 %f92, %f15;
mov.f32 %f93, %f80;
mov.f32 %f94, 0fc73cb6aa; // -48310.7
mov.f32 %f95, %f94;
mad.f32 %f96, %f92, %f93, %f95;
mov.f32 %f15, %f96;
mov.f32 %f97, %f15;
mov.f32 %f98, %f80;
mov.f32 %f99, 0fc80bae5a; // -143033
mov.f32 %f100, %f99;
mad.f32 %f101, %f97, %f98, %f100;
mov.f32 %f15, %f101;
.loc 17 8831 0
mov.f32 %f102, %f15;
.loc 17 8429 0
mov.f32 %f103, 0fc381a020; // -259.251
add.f32 %f104, %f80, %f103;
mov.f32 %f105, %f104;
mov.f32 %f106, %f80;
mov.f32 %f107, 0fc62864b8; // -10777.2
mov.f32 %f108, %f107;
mad.f32 %f109, %f105, %f106, %f108;
mov.f32 %f15, %f109;
mov.f32 %f110, %f15;
mov.f32 %f111, %f80;
mov.f32 %f112, 0fc7b50686; // -92685
mov.f32 %f113, %f112;
mad.f32 %f114, %f110, %f111, %f113;
mov.f32 %f15, %f114;
mov.f32 %f115, %f15;
mov.f32 %f116, %f80;
mov.f32 %f117, 0fc8498465; // -206354
mov.f32 %f118, %f117;
mad.f32 %f119, %f115, %f116, %f118;
mov.f32 %f15, %f119;
.loc 17 8437 0
mov.f32 %f120, %f15;
rcp.approx.ftz.f32 %f121,%f120;
mov.f32 %f122, %f121;
.loc 17 8429 0
mov.f32 %f123, %f102;
mov.f32 %f124, %f122;
mov.f32 %f125, %f80;
mad.f32 %f126, %f123, %f124, %f125;
mov.f32 %f15, %f126;
.loc 17 8836 0
mov.f32 %f78, %f15;
bra.uni $Lt_50_19458;
$Lt_50_17154:
mov.f32 %f127, 0f3fc00000; // 1.5
setp.ge.f32 %p7, %f2, %f127;
@!%p7 bra $Lt_50_19202;
.loc 17 8429 0
mov.f32 %f128, 0fc0000000; // -2
add.f32 %f129, %f2, %f128;
mov.f32 %f130, 0f385007fa; // 4.95985e-005
mov.f32 %f131, %f130;
mov.f32 %f132, %f129;
mov.f32 %f133, 0fb967a002; // -0.000220895
mov.f32 %f134, %f133;
mad.f32 %f135, %f131, %f132, %f134;
mov.f32 %f15, %f135;
mov.f32 %f136, %f15;
mov.f32 %f137, %f129;
mov.f32 %f138, 0f3a0de6fc; // 0.000541314
mov.f32 %f139, %f138;
mad.f32 %f140, %f136, %f137, %f139;
mov.f32 %f15, %f140;
mov.f32 %f141, %f15;
mov.f32 %f142, %f129;
mov.f32 %f143, 0fba9de0e2; // -0.00120452
mov.f32 %f144, %f143;
mad.f32 %f145, %f141, %f142, %f144;
mov.f32 %f15, %f145;
mov.f32 %f146, %f15;
mov.f32 %f147, %f129;
mov.f32 %f148, 0f3b3d05b7; // 0.00288425
mov.f32 %f149, %f148;
mad.f32 %f150, %f146, %f147, %f149;
mov.f32 %f15, %f150;
mov.f32 %f151, %f15;
mov.f32 %f152, %f129;
mov.f32 %f153, 0fbbf1eb10; // -0.00738276
mov.f32 %f154, %f153;
mad.f32 %f155, %f151, %f152, %f154;
mov.f32 %f15, %f155;
mov.f32 %f156, %f15;
mov.f32 %f157, %f129;
mov.f32 %f158, 0f3ca89a28; // 0.0205813
mov.f32 %f159, %f158;
mad.f32 %f160, %f156, %f157, %f159;
mov.f32 %f15, %f160;
mov.f32 %f161, %f15;
mov.f32 %f162, %f129;
mov.f32 %f163, 0fbd89f01a; // -0.0673525
mov.f32 %f164, %f163;
mad.f32 %f165, %f161, %f162, %f164;
mov.f32 %f15, %f165;
mov.f32 %f166, %f15;
mov.f32 %f167, %f129;
mov.f32 %f168, 0f3ea51a66; // 0.322467
mov.f32 %f169, %f168;
mad.f32 %f170, %f166, %f167, %f169;
mov.f32 %f15, %f170;
mov.f32 %f171, %f15;
mov.f32 %f172, %f129;
mov.f32 %f173, 0f3ed87730; // 0.422784
mov.f32 %f174, %f173;
mad.f32 %f175, %f171, %f172, %f174;
mov.f32 %f15, %f175;
.loc 17 8850 0
mul.f32 %f78, %f129, %f15;
bra.uni $Lt_50_19458;
$Lt_50_19202:
mov.f32 %f176, 0f3f333333; // 0.7
setp.ge.f32 %p8, %f2, %f176;
@!%p8 bra $Lt_50_19714;
.loc 17 8429 0
mov.f32 %f177, 0f3f800000; // 1
sub.f32 %f178, %f177, %f2;
mov.f32 %f179, 0f3d3bef76; // 0.0458827
mov.f32 %f180, %f179;
mov.f32 %f181, %f178;
mov.f32 %f182, 0f3dd47577; // 0.10374
mov.f32 %f183, %f182;
mad.f32 %f184, %f180, %f181, %f183;
mov.f32 %f15, %f184;
mov.f32 %f185, %f15;
mov.f32 %f186, %f178;
mov.f32 %f187, 0f3dfb8079; // 0.122804
mov.f32 %f188, %f187;
mad.f32 %f189, %f185, %f186, %f188;
mov.f32 %f15, %f189;
mov.f32 %f190, %f15;
mov.f32 %f191, %f178;
mov.f32 %f192, 0f3e0295b5; // 0.127524
mov.f32 %f193, %f192;
mad.f32 %f194, %f190, %f191, %f193;
mov.f32 %f15, %f194;
mov.f32 %f195, %f15;
mov.f32 %f196, %f178;
mov.f32 %f197, 0f3e12a765; // 0.143217
mov.f32 %f198, %f197;
mad.f32 %f199, %f195, %f196, %f198;
mov.f32 %f15, %f199;
mov.f32 %f200, %f15;
mov.f32 %f201, %f178;
mov.f32 %f202, 0f3e2d6867; // 0.169344
mov.f32 %f203, %f202;
mad.f32 %f204, %f200, %f201, %f203;
mov.f32 %f15, %f204;
mov.f32 %f205, %f15;
mov.f32 %f206, %f178;
mov.f32 %f207, 0f3e5462bf; // 0.207408
mov.f32 %f208, %f207;
mad.f32 %f209, %f205, %f206, %f208;
mov.f32 %f15, %f209;
mov.f32 %f210, %f15;
mov.f32 %f211, %f178;
mov.f32 %f212, 0f3e8a8a72; // 0.270588
mov.f32 %f213, %f212;
mad.f32 %f214, %f210, %f211, %f213;
mov.f32 %f15, %f214;
mov.f32 %f215, %f15;
mov.f32 %f216, %f178;
mov.f32 %f217, 0f3ecd26a4; // 0.400685
mov.f32 %f218, %f217;
mad.f32 %f219, %f215, %f216, %f218;
mov.f32 %f15, %f219;
mov.f32 %f220, %f15;
mov.f32 %f221, %f178;
mov.f32 %f222, 0f3f528d32; // 0.822467
mov.f32 %f223, %f222;
mad.f32 %f224, %f220, %f221, %f223;
mov.f32 %f15, %f224;
mov.f32 %f225, %f15;
mov.f32 %f226, %f178;
mov.f32 %f227, 0f3f13c468; // 0.577216
mov.f32 %f228, %f227;
mad.f32 %f229, %f225, %f226, %f228;
mov.f32 %f15, %f229;
.loc 17 8864 0
mul.f32 %f78, %f178, %f15;
bra.uni $Lt_50_19458;
$Lt_50_19714:
.loc 17 8429 0
mov.f32 %f230, 0f3b6b1c86; // 0.00358752
mov.f32 %f231, %f230;
mov.f32 %f232, %f2;
mov.f32 %f233, 0fbbb34878; // -0.00547129
mov.f32 %f234, %f233;
mad.f32 %f235, %f231, %f232, %f234;
mov.f32 %f15, %f235;
mov.f32 %f236, %f15;
mov.f32 %f237, %f2;
mov.f32 %f238, 0fbd36caef; // -0.0446271
mov.f32 %f239, %f238;
mad.f32 %f240, %f236, %f237, %f239;
mov.f32 %f15, %f240;
mov.f32 %f241, %f15;
mov.f32 %f242, %f2;
mov.f32 %f243, 0f3e2b5555; // 0.167318
mov.f32 %f244, %f243;
mad.f32 %f245, %f241, %f242, %f244;
mov.f32 %f15, %f245;
mov.f32 %f246, %f15;
mov.f32 %f247, %f2;
mov.f32 %f248, 0fbd2c96c7; // -0.042136
mov.f32 %f249, %f248;
mad.f32 %f250, %f246, %f247, %f249;
mov.f32 %f15, %f250;
mov.f32 %f251, %f15;
mov.f32 %f252, %f2;
mov.f32 %f253, 0fbf27e6eb; // -0.655867
mov.f32 %f254, %f253;
mad.f32 %f255, %f251, %f252, %f254;
mov.f32 %f15, %f255;
mov.f32 %f256, %f15;
mov.f32 %f257, %f2;
mov.f32 %f258, 0f3f13c463; // 0.577215
mov.f32 %f259, %f258;
mad.f32 %f260, %f256, %f257, %f259;
mov.f32 %f15, %f260;
mul.f32 %f261, %f2, %f15;
mov.f32 %f262, %f261;
mov.f32 %f263, %f2;
mov.f32 %f264, %f2;
mad.f32 %f265, %f262, %f263, %f264;
mov.f32 %f15, %f265;
.loc 17 8875 0
mov.f32 %f266, 0f00000000; // 0
set.gt.u32.f32 %r20, %f15, %f266;
neg.s32 %r21, %r20;
mov.f32 %f267, 0f7f800000; // 1.#INF
set.lt.u32.f32 %r22, %f15, %f267;
neg.s32 %r23, %r22;
and.b32 %r24, %r21, %r23;
mov.u32 %r25, 0;
setp.eq.s32 %p9, %r24, %r25;
@%p9 bra $Lt_50_20226;
.loc 17 8512 0
mov.b32 %r26, %f15;
and.b32 %r27, %r26, -2139095041;
or.b32 %r28, %r27, 1065353216;
mov.b32 %f268, %r28;
mov.f32 %f29, %f268;
.loc 17 8513 0
shr.u32 %r29, %r26, 23;
sub.u32 %r19, %r29, 127;
mov.f32 %f269, 0f3fb504f3; // 1.41421
setp.gt.f32 %p10, %f268, %f269;
@!%p10 bra $Lt_50_20482;
.loc 17 8515 0
mov.f32 %f270, 0f3f000000; // 0.5
mul.f32 %f29, %f268, %f270;
.loc 17 8516 0
add.s32 %r19, %r19, 1;
$Lt_50_20482:
.loc 17 8429 0
mov.f32 %f271, 0fbf800000; // -1
add.f32 %f272, %f29, %f271;
mov.f32 %f273, 0f3f800000; // 1
add.f32 %f274, %f29, %f273;
neg.f32 %f275, %f272;
div.approx.f32 %f276, %f272, %f274;
mul.rn.f32 %f277, %f275, %f276;
add.rn.f32 %f278, %f272, %f277;
mul.f32 %f279, %f278, %f278;
mov.f32 %f280, 0f3b2063c3; // 0.00244735
mov.f32 %f281, %f280;
mov.f32 %f282, %f279;
mov.f32 %f283, 0f3c4c4be0; // 0.0124693
mov.f32 %f284, %f283;
mad.f32 %f285, %f281, %f282, %f284;
mov.f32 %f47, %f285;
mov.f32 %f286, %f47;
mov.f32 %f287, %f279;
mov.f32 %f288, 0f3daaab50; // 0.0833346
mov.f32 %f289, %f288;
mad.f32 %f290, %f286, %f287, %f289;
mov.f32 %f47, %f290;
mul.f32 %f291, %f279, %f47;
mov.f32 %f292, %f291;
mov.f32 %f293, %f278;
mov.f32 %f294, %f277;
mad.f32 %f295, %f292, %f293, %f294;
mov.f32 %f47, %f295;
cvt.rn.f32.s32 %f296, %r19;
mov.f32 %f297, %f296;
mov.f32 %f298, 0f3f317218; // 0.693147
mov.f32 %f299, %f298;
add.f32 %f300, %f272, %f47;
mov.f32 %f301, %f300;
mad.f32 %f302, %f297, %f299, %f301;
mov.f32 %f303, %f302;
.loc 17 8523 0
mov.f32 %f66, %f303;
bra.uni $Lt_50_19970;
$Lt_50_20226:
.loc 17 8526 0
lg2.approx.f32 %f304, %f15;
mov.f32 %f305, 0f3f317218; // 0.693147
mul.f32 %f66, %f304, %f305;
$Lt_50_19970:
.loc 17 8875 0
neg.f32 %f78, %f66;
$Lt_50_19458:
$Lt_50_18946:
$Lt_50_16898:
.loc 17 10276 0
mov.f32 %f306, 0f00000000; // 0
setp.ge.f32 %p11, %f1, %f306;
@!%p11 bra $Lt_50_20994;
.loc 17 10277 0
mov.f32 %f307, %f78;
bra.uni $LDWendi___internal_fast_rcpf_309_1;
$Lt_50_20994:
cvt.rmi.f32.f32 %f308, %f2;
setp.eq.f32 %p12, %f308, %f2;
@!%p12 bra $Lt_50_21506;
.loc 17 10280 0
mov.f32 %f307, 0f7f800000; // 1.#INF
bra.uni $LDWendi___internal_fast_rcpf_309_1;
$Lt_50_21506:
mov.f32 %f309, 0f1fec1e4a; // 1e-019
setp.lt.f32 %p13, %f2, %f309;
@!%p13 bra $Lt_50_22018;
.loc 17 10281 0
mov.f32 %f310, 0f00000000; // 0
set.gt.u32.f32 %r30, %f2, %f310;
neg.s32 %r31, %r30;
mov.f32 %f311, 0f7f800000; // 1.#INF
set.lt.u32.f32 %r32, %f2, %f311;
neg.s32 %r33, %r32;
and.b32 %r34, %r31, %r33;
mov.u32 %r35, 0;
setp.eq.s32 %p14, %r34, %r35;
@%p14 bra $Lt_50_22786;
.loc 17 8512 0
mov.b32 %r36, %f2;
and.b32 %r37, %r36, -2139095041;
or.b32 %r38, %r37, 1065353216;
mov.b32 %f28, %r38;
mov.f32 %f312, %f28;
.loc 17 8513 0
shr.u32 %r39, %r36, 23;
sub.u32 %r18, %r39, 127;
mov.s32 %r40, %r18;
mov.f32 %f313, 0f3fb504f3; // 1.41421
setp.gt.f32 %p15, %f28, %f313;
@!%p15 bra $Lt_50_23042;
.loc 17 8515 0
mov.f32 %f314, 0f3f000000; // 0.5
mul.f32 %f312, %f28, %f314;
.loc 17 8516 0
add.s32 %r40, %r18, 1;
$Lt_50_23042:
.loc 17 8429 0
mov.f32 %f315, 0fbf800000; // -1
add.f32 %f316, %f312, %f315;
mov.f32 %f317, 0f3f800000; // 1
add.f32 %f318, %f312, %f317;
neg.f32 %f319, %f316;
div.approx.f32 %f320, %f316, %f318;
mul.rn.f32 %f321, %f319, %f320;
add.rn.f32 %f322, %f316, %f321;
mul.f32 %f323, %f322, %f322;
mov.f32 %f324, 0f3b2063c3; // 0.00244735
mov.f32 %f325, %f324;
mov.f32 %f326, %f323;
mov.f32 %f327, 0f3c4c4be0; // 0.0124693
mov.f32 %f328, %f327;
mad.f32 %f329, %f325, %f326, %f328;
mov.f32 %f330, %f329;
mov.f32 %f331, %f330;
mov.f32 %f332, %f323;
mov.f32 %f333, 0f3daaab50; // 0.0833346
mov.f32 %f334, %f333;
mad.f32 %f335, %f331, %f332, %f334;
mov.f32 %f330, %f335;
mul.f32 %f336, %f323, %f330;
mov.f32 %f337, %f336;
mov.f32 %f338, %f322;
mov.f32 %f339, %f321;
mad.f32 %f340, %f337, %f338, %f339;
mov.f32 %f330, %f340;
cvt.rn.f32.s32 %f341, %r40;
mov.f32 %f342, %f341;
mov.f32 %f343, 0f3f317218; // 0.693147
mov.f32 %f344, %f343;
add.f32 %f345, %f316, %f330;
mov.f32 %f346, %f345;
mad.f32 %f347, %f342, %f344, %f346;
mov.f32 %f348, %f347;
.loc 17 8523 0
mov.f32 %f349, %f348;
bra.uni $Lt_50_22530;
$Lt_50_22786:
.loc 17 8526 0
lg2.approx.f32 %f350, %f2;
mov.f32 %f351, 0f3f317218; // 0.693147
mul.f32 %f349, %f350, %f351;
$Lt_50_22530:
.loc 17 10281 0
neg.f32 %f307, %f349;
bra.uni $LDWendi___internal_fast_rcpf_309_1;
$Lt_50_22018:
.loc 17 8429 0
add.f32 %f352, %f2, %f2;
cvt.rni.f32.f32 %f353, %f352;
neg.f32 %f354, %f353;
mov.f32 %f355, %f354;
mov.f32 %f356, 0f3f000000; // 0.5
mov.f32 %f357, %f356;
mov.f32 %f358, %f2;
mad.f32 %f359, %f355, %f357, %f358;
mov.f32 %f360, %f359;
.loc 17 10286 0
mov.f32 %f361, 0f40490fdb; // 3.14159
mul.f32 %f362, %f360, %f361;
mul.f32 %f363, %f362, %f362;
cvt.rzi.s32.f32 %r41, %f353;
and.b32 %r42, %r41, 1;
mov.u32 %r43, 0;
setp.eq.s32 %p16, %r42, %r43;
@%p16 bra $Lt_50_23810;
.loc 17 8429 0
mov.f32 %f364, 0f37ccf5ce; // 2.44332e-005
mov.f32 %f365, %f364;
mov.f32 %f366, %f363;
mov.f32 %f367, 0fbab6061a; // -0.00138873
mov.f32 %f368, %f367;
mad.f32 %f369, %f365, %f366, %f368;
mov.f32 %f370, %f369;
mov.f32 %f371, %f370;
mov.f32 %f372, %f363;
mov.f32 %f373, 0f3d2aaaa5; // 0.0416666
mov.f32 %f374, %f373;
mad.f32 %f375, %f371, %f372, %f374;
mov.f32 %f376, %f375;
mov.f32 %f377, %f376;
mov.f32 %f378, %f363;
mov.f32 %f379, 0fbf000000; // -0.5
mov.f32 %f380, %f379;
mad.f32 %f381, %f377, %f378, %f380;
mov.f32 %f382, %f381;
mov.f32 %f383, %f382;
mov.f32 %f384, %f363;
mov.f32 %f385, 0f3f800000; // 1
mov.f32 %f386, %f385;
mad.f32 %f387, %f383, %f384, %f386;
mov.f32 %f388, %f387;
.loc 17 8936 0
mov.f32 %f389, %f388;
bra.uni $Lt_50_23554;
$Lt_50_23810:
.loc 17 8429 0
mov.f32 %f390, 0fb94ca1f9; // -0.000195153
mov.f32 %f391, %f390;
mov.f32 %f392, %f363;
mov.f32 %f393, 0f3c08839e; // 0.00833216
mov.f32 %f394, %f393;
mad.f32 %f395, %f391, %f392, %f394;
mov.f32 %f396, %f395;
mov.f32 %f397, %f396;
mov.f32 %f398, %f363;
mov.f32 %f399, 0fbe2aaaa3; // -0.166667
mov.f32 %f400, %f399;
mad.f32 %f401, %f397, %f398, %f400;
mov.f32 %f402, %f401;
mul.f32 %f403, %f363, %f402;
mov.f32 %f404, %f403;
mov.f32 %f405, %f362;
mov.f32 %f406, %f362;
mad.f32 %f407, %f404, %f405, %f406;
mov.f32 %f408, %f407;
.loc 17 8938 0
mov.f32 %f389, %f408;
$Lt_50_23554:
and.b32 %r44, %r41, 2;
mov.u32 %r45, 0;
setp.eq.s32 %p17, %r44, %r45;
@%p17 bra $Lt_50_24066;
.loc 17 8429 0
mov.f32 %f409, %f389;
mov.f32 %f410, 0fbf800000; // -1
mov.f32 %f411, %f410;
mov.f32 %f412, 0f00000000; // 0
mov.f32 %f413, %f412;
mad.f32 %f414, %f409, %f411, %f413;
mov.f32 %f415, %f414;
.loc 17 8941 0
mov.f32 %f389, %f415;
$Lt_50_24066:
.loc 17 10288 0
abs.f32 %f416, %f389;
mul.f32 %f417, %f2, %f416;
mov.f32 %f418, 0f00000000; // 0
set.gt.u32.f32 %r46, %f417, %f418;
neg.s32 %r47, %r46;
mov.f32 %f419, 0f7f800000; // 1.#INF
set.lt.u32.f32 %r48, %f417, %f419;
neg.s32 %r49, %r48;
and.b32 %r50, %r47, %r49;
mov.u32 %r51, 0;
setp.eq.s32 %p18, %r50, %r51;
@%p18 bra $Lt_50_24834;
.loc 17 8512 0
mov.b32 %r52, %f417;
and.b32 %r53, %r52, -2139095041;
or.b32 %r54, %r53, 1065353216;
mov.b32 %f420, %r54;
mov.f32 %f312, %f420;
.loc 17 8513 0
shr.u32 %r55, %r52, 23;
sub.u32 %r40, %r55, 127;
mov.f32 %f421, 0f3fb504f3; // 1.41421
setp.gt.f32 %p19, %f420, %f421;
@!%p19 bra $Lt_50_25090;
.loc 17 8515 0
mov.f32 %f422, 0f3f000000; // 0.5
mul.f32 %f312, %f420, %f422;
.loc 17 8516 0
add.s32 %r40, %r40, 1;
$Lt_50_25090:
.loc 17 8429 0
mov.f32 %f423, 0fbf800000; // -1
add.f32 %f424, %f312, %f423;
mov.f32 %f425, 0f3f800000; // 1
add.f32 %f426, %f312, %f425;
neg.f32 %f427, %f424;
div.approx.f32 %f428, %f424, %f426;
mul.rn.f32 %f429, %f427, %f428;
add.rn.f32 %f430, %f424, %f429;
mul.f32 %f431, %f430, %f430;
mov.f32 %f432, 0f3b2063c3; // 0.00244735
mov.f32 %f433, %f432;
mov.f32 %f434, %f431;
mov.f32 %f435, 0f3c4c4be0; // 0.0124693
mov.f32 %f436, %f435;
mad.f32 %f437, %f433, %f434, %f436;
mov.f32 %f330, %f437;
mov.f32 %f438, %f330;
mov.f32 %f439, %f431;
mov.f32 %f440, 0f3daaab50; // 0.0833346
mov.f32 %f441, %f440;
mad.f32 %f442, %f438, %f439, %f441;
mov.f32 %f330, %f442;
mul.f32 %f443, %f431, %f330;
mov.f32 %f444, %f443;
mov.f32 %f445, %f430;
mov.f32 %f446, %f429;
mad.f32 %f447, %f444, %f445, %f446;
mov.f32 %f330, %f447;
cvt.rn.f32.s32 %f448, %r40;
mov.f32 %f449, %f448;
mov.f32 %f450, 0f3f317218; // 0.693147
mov.f32 %f451, %f450;
add.f32 %f452, %f424, %f330;
mov.f32 %f453, %f452;
mad.f32 %f454, %f449, %f451, %f453;
mov.f32 %f455, %f454;
.loc 17 8523 0
mov.f32 %f349, %f455;
bra.uni $Lt_50_24578;
$Lt_50_24834:
.loc 17 8526 0
lg2.approx.f32 %f456, %f417;
mov.f32 %f457, 0f3f317218; // 0.693147
mul.f32 %f349, %f456, %f457;
$Lt_50_24578:
.loc 17 10289 0
mov.f32 %f458, 0f3f928682; // 1.14473
sub.f32 %f459, %f458, %f349;
sub.f32 %f307, %f459, %f78;
$LDWendi___internal_fast_rcpf_309_1:
.loc 15 616 0
cvt.f64.f32 %fd2, %f307;
ld.param.u32 %r56, [__cudaparm_vec_lgamma_result];
add.u32 %r57, %r56, %r5;
st.global.f64 [%r57+0], %fd2;
$Lt_50_16386:
.loc 15 618 0
exit;
$LDWend_vec_lgamma:
} // vec_lgamma
.entry vec_log10 (
.param .u32 __cudaparm_vec_log10_n,
.param .u32 __cudaparm_vec_log10_result,
.param .u32 __cudaparm_vec_log10_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<22>;
.reg .f32 %f<50>;
.reg .f64 %fd<4>;
.reg .pred %p<5>;
.loc 15 623 0
$LDWbegin_vec_log10:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_log10_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_51_2818;
.loc 15 628 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_log10_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
.loc 17 9374 0
mov.f32 %f2, 0f00000000; // 0
set.gt.u32.f32 %r8, %f1, %f2;
neg.s32 %r9, %r8;
mov.f32 %f3, 0f7f800000; // 1.#INF
set.lt.u32.f32 %r10, %f1, %f3;
neg.s32 %r11, %r10;
and.b32 %r12, %r9, %r11;
mov.u32 %r13, 0;
setp.eq.s32 %p2, %r12, %r13;
@%p2 bra $Lt_51_3586;
.loc 17 8512 0
mov.b32 %r14, %f1;
and.b32 %r15, %r14, -2139095041;
or.b32 %r16, %r15, 1065353216;
mov.b32 %f4, %r16;
mov.f32 %f5, %f4;
.loc 17 8513 0
shr.u32 %r17, %r14, 23;
sub.u32 %r18, %r17, 127;
mov.f32 %f6, 0f3fb504f3; // 1.41421
setp.gt.f32 %p3, %f4, %f6;
@!%p3 bra $Lt_51_3842;
.loc 17 8515 0
mov.f32 %f7, 0f3f000000; // 0.5
mul.f32 %f5, %f4, %f7;
.loc 17 8516 0
add.s32 %r18, %r18, 1;
$Lt_51_3842:
.loc 17 8429 0
mov.f32 %f8, 0fbf800000; // -1
add.f32 %f9, %f5, %f8;
mov.f32 %f10, 0f3f800000; // 1
add.f32 %f11, %f5, %f10;
neg.f32 %f12, %f9;
div.approx.f32 %f13, %f9, %f11;
mul.rn.f32 %f14, %f12, %f13;
add.rn.f32 %f15, %f9, %f14;
mul.f32 %f16, %f15, %f15;
mov.f32 %f17, 0f3b2063c3; // 0.00244735
mov.f32 %f18, %f17;
mov.f32 %f19, %f16;
mov.f32 %f20, 0f3c4c4be0; // 0.0124693
mov.f32 %f21, %f20;
mad.f32 %f22, %f18, %f19, %f21;
mov.f32 %f23, %f22;
mov.f32 %f24, %f23;
mov.f32 %f25, %f16;
mov.f32 %f26, 0f3daaab50; // 0.0833346
mov.f32 %f27, %f26;
mad.f32 %f28, %f24, %f25, %f27;
mov.f32 %f29, %f28;
mul.f32 %f30, %f16, %f29;
mov.f32 %f31, %f30;
mov.f32 %f32, %f15;
mov.f32 %f33, %f14;
mad.f32 %f34, %f31, %f32, %f33;
mov.f32 %f35, %f34;
cvt.rn.f32.s32 %f36, %r18;
mov.f32 %f37, %f36;
mov.f32 %f38, 0f3f317218; // 0.693147
mov.f32 %f39, %f38;
add.f32 %f40, %f9, %f35;
mov.f32 %f41, %f40;
mad.f32 %f42, %f37, %f39, %f41;
mov.f32 %f43, %f42;
.loc 17 8523 0
mov.f32 %f44, %f43;
bra.uni $Lt_51_3330;
$Lt_51_3586:
.loc 17 8526 0
lg2.approx.f32 %f45, %f1;
mov.f32 %f46, 0f3f317218; // 0.693147
mul.f32 %f44, %f45, %f46;
$Lt_51_3330:
.loc 15 628 0
mov.f32 %f47, 0f3ede5bd9; // 0.434294
mul.f32 %f48, %f44, %f47;
cvt.f64.f32 %fd2, %f48;
ld.param.u32 %r19, [__cudaparm_vec_log10_result];
add.u32 %r20, %r19, %r5;
st.global.f64 [%r20+0], %fd2;
$Lt_51_2818:
.loc 15 630 0
exit;
$LDWend_vec_log10:
} // vec_log10
.entry vec_log1p (
.param .u32 __cudaparm_vec_log1p_n,
.param .u32 __cudaparm_vec_log1p_result,
.param .u32 __cudaparm_vec_log1p_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<28>;
.reg .f32 %f<79>;
.reg .f64 %fd<4>;
.reg .pred %p<6>;
.loc 15 635 0
$LDWbegin_vec_log1p:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_log1p_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_52_3842;
.loc 15 640 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_log1p_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
mov.f32 %f2, 0fbec9ba5e; // -0.394
set.ge.u32.f32 %r8, %f1, %f2;
neg.s32 %r9, %r8;
mov.f32 %f3, 0f3f266666; // 0.65
set.le.u32.f32 %r10, %f1, %f3;
neg.s32 %r11, %r10;
and.b32 %r12, %r9, %r11;
mov.u32 %r13, 0;
setp.eq.s32 %p2, %r12, %r13;
@%p2 bra $Lt_52_4610;
.loc 17 8429 0
neg.f32 %f4, %f1;
mov.f32 %f5, 0f40000000; // 2
add.f32 %f6, %f1, %f5;
div.approx.f32 %f7, %f1, %f6;
mul.rn.f32 %f8, %f4, %f7;
add.rn.f32 %f9, %f1, %f8;
mul.f32 %f10, %f9, %f9;
mov.f32 %f11, 0f3b2063c3; // 0.00244735
mov.f32 %f12, %f11;
mov.f32 %f13, %f10;
mov.f32 %f14, 0f3c4c4be0; // 0.0124693
mov.f32 %f15, %f14;
mad.f32 %f16, %f12, %f13, %f15;
mov.f32 %f17, %f16;
mov.f32 %f18, %f17;
mov.f32 %f19, %f10;
mov.f32 %f20, 0f3daaab50; // 0.0833346
mov.f32 %f21, %f20;
mad.f32 %f22, %f18, %f19, %f21;
mov.f32 %f23, %f22;
mul.f32 %f24, %f10, %f23;
mov.f32 %f25, %f24;
mov.f32 %f26, %f9;
mov.f32 %f27, %f8;
mad.f32 %f28, %f25, %f26, %f27;
mov.f32 %f29, %f28;
.loc 17 9386 0
add.f32 %f30, %f1, %f29;
bra.uni $Lt_52_4354;
$Lt_52_4610:
.loc 17 9388 0
mov.f32 %f31, 0f3f800000; // 1
add.f32 %f32, %f1, %f31;
mov.f32 %f33, 0f00000000; // 0
set.gt.u32.f32 %r14, %f32, %f33;
neg.s32 %r15, %r14;
mov.f32 %f34, 0f7f800000; // 1.#INF
set.lt.u32.f32 %r16, %f32, %f34;
neg.s32 %r17, %r16;
and.b32 %r18, %r15, %r17;
mov.u32 %r19, 0;
setp.eq.s32 %p3, %r18, %r19;
@%p3 bra $Lt_52_5122;
.loc 17 8512 0
mov.b32 %r20, %f32;
and.b32 %r21, %r20, -2139095041;
or.b32 %r22, %r21, 1065353216;
mov.b32 %f35, %r22;
mov.f32 %f36, %f35;
.loc 17 8513 0
shr.u32 %r23, %r20, 23;
sub.u32 %r24, %r23, 127;
mov.f32 %f37, 0f3fb504f3; // 1.41421
setp.gt.f32 %p4, %f35, %f37;
@!%p4 bra $Lt_52_5378;
.loc 17 8515 0
mov.f32 %f38, 0f3f000000; // 0.5
mul.f32 %f36, %f35, %f38;
.loc 17 8516 0
add.s32 %r24, %r24, 1;
$Lt_52_5378:
.loc 17 8429 0
mov.f32 %f39, 0fbf800000; // -1
add.f32 %f40, %f36, %f39;
mov.f32 %f41, 0f3f800000; // 1
add.f32 %f42, %f36, %f41;
neg.f32 %f43, %f40;
div.approx.f32 %f44, %f40, %f42;
mul.rn.f32 %f45, %f43, %f44;
add.rn.f32 %f46, %f40, %f45;
mul.f32 %f47, %f46, %f46;
mov.f32 %f48, 0f3b2063c3; // 0.00244735
mov.f32 %f49, %f48;
mov.f32 %f50, %f47;
mov.f32 %f51, 0f3c4c4be0; // 0.0124693
mov.f32 %f52, %f51;
mad.f32 %f53, %f49, %f50, %f52;
mov.f32 %f54, %f53;
mov.f32 %f55, %f54;
mov.f32 %f56, %f47;
mov.f32 %f57, 0f3daaab50; // 0.0833346
mov.f32 %f58, %f57;
mad.f32 %f59, %f55, %f56, %f58;
mov.f32 %f60, %f59;
mul.f32 %f61, %f47, %f60;
mov.f32 %f62, %f61;
mov.f32 %f63, %f46;
mov.f32 %f64, %f45;
mad.f32 %f65, %f62, %f63, %f64;
mov.f32 %f66, %f65;
cvt.rn.f32.s32 %f67, %r24;
mov.f32 %f68, %f67;
mov.f32 %f69, 0f3f317218; // 0.693147
mov.f32 %f70, %f69;
add.f32 %f71, %f40, %f66;
mov.f32 %f72, %f71;
mad.f32 %f73, %f68, %f70, %f72;
mov.f32 %f74, %f73;
.loc 17 8523 0
mov.f32 %f75, %f74;
bra.uni $Lt_52_4866;
$Lt_52_5122:
.loc 17 8526 0
lg2.approx.f32 %f76, %f32;
mov.f32 %f77, 0f3f317218; // 0.693147
mul.f32 %f75, %f76, %f77;
$Lt_52_4866:
.loc 17 9388 0
mov.f32 %f30, %f75;
$Lt_52_4354:
.loc 15 640 0
cvt.f64.f32 %fd2, %f30;
ld.param.u32 %r25, [__cudaparm_vec_log1p_result];
add.u32 %r26, %r25, %r5;
st.global.f64 [%r26+0], %fd2;
$Lt_52_3842:
.loc 15 642 0
exit;
$LDWend_vec_log1p:
} // vec_log1p
.entry vec_log2 (
.param .u32 __cudaparm_vec_log2_n,
.param .u32 __cudaparm_vec_log2_result,
.param .u32 __cudaparm_vec_log2_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<22>;
.reg .f32 %f<50>;
.reg .f64 %fd<4>;
.reg .pred %p<5>;
.loc 15 647 0
$LDWbegin_vec_log2:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_log2_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_53_2818;
.loc 15 652 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_log2_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
.loc 17 8605 0
mov.f32 %f2, 0f00000000; // 0
set.gt.u32.f32 %r8, %f1, %f2;
neg.s32 %r9, %r8;
mov.f32 %f3, 0f7f800000; // 1.#INF
set.lt.u32.f32 %r10, %f1, %f3;
neg.s32 %r11, %r10;
and.b32 %r12, %r9, %r11;
mov.u32 %r13, 0;
setp.eq.s32 %p2, %r12, %r13;
@%p2 bra $Lt_53_3586;
.loc 17 8512 0
mov.b32 %r14, %f1;
and.b32 %r15, %r14, -2139095041;
or.b32 %r16, %r15, 1065353216;
mov.b32 %f4, %r16;
mov.f32 %f5, %f4;
.loc 17 8513 0
shr.u32 %r17, %r14, 23;
sub.u32 %r18, %r17, 127;
mov.f32 %f6, 0f3fb504f3; // 1.41421
setp.gt.f32 %p3, %f4, %f6;
@!%p3 bra $Lt_53_3842;
.loc 17 8515 0
mov.f32 %f7, 0f3f000000; // 0.5
mul.f32 %f5, %f4, %f7;
.loc 17 8516 0
add.s32 %r18, %r18, 1;
$Lt_53_3842:
.loc 17 8429 0
mov.f32 %f8, 0fbf800000; // -1
add.f32 %f9, %f5, %f8;
mov.f32 %f10, 0f3f800000; // 1
add.f32 %f11, %f5, %f10;
neg.f32 %f12, %f9;
div.approx.f32 %f13, %f9, %f11;
mul.rn.f32 %f14, %f12, %f13;
add.rn.f32 %f15, %f9, %f14;
mul.f32 %f16, %f15, %f15;
mov.f32 %f17, 0f3b2063c3; // 0.00244735
mov.f32 %f18, %f17;
mov.f32 %f19, %f16;
mov.f32 %f20, 0f3c4c4be0; // 0.0124693
mov.f32 %f21, %f20;
mad.f32 %f22, %f18, %f19, %f21;
mov.f32 %f23, %f22;
mov.f32 %f24, %f23;
mov.f32 %f25, %f16;
mov.f32 %f26, 0f3daaab50; // 0.0833346
mov.f32 %f27, %f26;
mad.f32 %f28, %f24, %f25, %f27;
mov.f32 %f29, %f28;
mul.f32 %f30, %f16, %f29;
mov.f32 %f31, %f30;
mov.f32 %f32, %f15;
mov.f32 %f33, %f14;
mad.f32 %f34, %f31, %f32, %f33;
mov.f32 %f35, %f34;
cvt.rn.f32.s32 %f36, %r18;
mov.f32 %f37, %f36;
mov.f32 %f38, 0f3f317218; // 0.693147
mov.f32 %f39, %f38;
add.f32 %f40, %f9, %f35;
mov.f32 %f41, %f40;
mad.f32 %f42, %f37, %f39, %f41;
mov.f32 %f43, %f42;
.loc 17 8523 0
mov.f32 %f44, %f43;
bra.uni $Lt_53_3330;
$Lt_53_3586:
.loc 17 8526 0
lg2.approx.f32 %f45, %f1;
mov.f32 %f46, 0f3f317218; // 0.693147
mul.f32 %f44, %f45, %f46;
$Lt_53_3330:
.loc 15 652 0
mov.f32 %f47, 0f3fb8aa3b; // 1.4427
mul.f32 %f48, %f44, %f47;
cvt.f64.f32 %fd2, %f48;
ld.param.u32 %r19, [__cudaparm_vec_log2_result];
add.u32 %r20, %r19, %r5;
st.global.f64 [%r20+0], %fd2;
$Lt_53_2818:
.loc 15 654 0
exit;
$LDWend_vec_log2:
} // vec_log2
.entry vec_logb (
.param .u32 __cudaparm_vec_logb_n,
.param .u32 __cudaparm_vec_logb_result,
.param .u32 __cudaparm_vec_logb_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<24>;
.reg .f32 %f<11>;
.reg .f64 %fd<4>;
.reg .pred %p<7>;
.loc 15 659 0
$LDWbegin_vec_logb:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_logb_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_54_4098;
.loc 15 664 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_logb_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
abs.f32 %f2, %f1;
mov.b32 %r8, %f2;
mov.u32 %r9, 8388607;
setp.gt.u32 %p2, %r8, %r9;
@%p2 bra $Lt_54_4866;
.loc 17 10885 0
mov.u32 %r10, 0;
setp.eq.s32 %p3, %r8, %r10;
@%p3 bra $Lt_54_5378;
.loc 19 4479 0
cvt.rz.f32.u32 %f3, %r8;
mov.b32 %r11, %f3;
shr.s32 %r12, %r11, 23;
mov.s32 %r13, 158;
sub.s32 %r14, %r13, %r12;
bra.uni $Lt_54_5122;
$Lt_54_5378:
mov.s32 %r14, 32;
$Lt_54_5122:
mov.f32 %f4, 0fff800000; // -1.#INF
mov.s32 %r15, -118;
sub.s32 %r16, %r15, %r14;
cvt.rn.f32.s32 %f5, %r16;
mov.f32 %f6, 0f00000000; // 0
setp.eq.f32 %p4, %f1, %f6;
selp.f32 %f7, %f4, %f5, %p4;
bra.uni $Lt_54_4610;
$Lt_54_4866:
.loc 17 10891 0
mul.f32 %f8, %f1, %f1;
shl.b32 %r17, %r8, 1;
shr.u32 %r18, %r17, 24;
sub.s32 %r19, %r18, 127;
cvt.rn.f32.s32 %f9, %r19;
mov.u32 %r20, 2139095039;
setp.gt.u32 %p5, %r8, %r20;
selp.f32 %f7, %f8, %f9, %p5;
$Lt_54_4610:
.loc 15 664 0
cvt.f64.f32 %fd2, %f7;
ld.param.u32 %r21, [__cudaparm_vec_logb_result];
add.u32 %r22, %r21, %r5;
st.global.f64 [%r22+0], %fd2;
$Lt_54_4098:
.loc 15 666 0
exit;
$LDWend_vec_logb:
} // vec_logb
.entry vec_log (
.param .u32 __cudaparm_vec_log_n,
.param .u32 __cudaparm_vec_log_result,
.param .u32 __cudaparm_vec_log_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<22>;
.reg .f32 %f<48>;
.reg .f64 %fd<4>;
.reg .pred %p<5>;
.loc 15 671 0
$LDWbegin_vec_log:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_log_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_55_2818;
.loc 15 676 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_log_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
.loc 17 9365 0
mov.f32 %f2, 0f00000000; // 0
set.gt.u32.f32 %r8, %f1, %f2;
neg.s32 %r9, %r8;
mov.f32 %f3, 0f7f800000; // 1.#INF
set.lt.u32.f32 %r10, %f1, %f3;
neg.s32 %r11, %r10;
and.b32 %r12, %r9, %r11;
mov.u32 %r13, 0;
setp.eq.s32 %p2, %r12, %r13;
@%p2 bra $Lt_55_3586;
.loc 17 8512 0
mov.b32 %r14, %f1;
and.b32 %r15, %r14, -2139095041;
or.b32 %r16, %r15, 1065353216;
mov.b32 %f4, %r16;
mov.f32 %f5, %f4;
.loc 17 8513 0
shr.u32 %r17, %r14, 23;
sub.u32 %r18, %r17, 127;
mov.f32 %f6, 0f3fb504f3; // 1.41421
setp.gt.f32 %p3, %f4, %f6;
@!%p3 bra $Lt_55_3842;
.loc 17 8515 0
mov.f32 %f7, 0f3f000000; // 0.5
mul.f32 %f5, %f4, %f7;
.loc 17 8516 0
add.s32 %r18, %r18, 1;
$Lt_55_3842:
.loc 17 8429 0
mov.f32 %f8, 0fbf800000; // -1
add.f32 %f9, %f5, %f8;
mov.f32 %f10, 0f3f800000; // 1
add.f32 %f11, %f5, %f10;
neg.f32 %f12, %f9;
div.approx.f32 %f13, %f9, %f11;
mul.rn.f32 %f14, %f12, %f13;
add.rn.f32 %f15, %f9, %f14;
mul.f32 %f16, %f15, %f15;
mov.f32 %f17, 0f3b2063c3; // 0.00244735
mov.f32 %f18, %f17;
mov.f32 %f19, %f16;
mov.f32 %f20, 0f3c4c4be0; // 0.0124693
mov.f32 %f21, %f20;
mad.f32 %f22, %f18, %f19, %f21;
mov.f32 %f23, %f22;
mov.f32 %f24, %f23;
mov.f32 %f25, %f16;
mov.f32 %f26, 0f3daaab50; // 0.0833346
mov.f32 %f27, %f26;
mad.f32 %f28, %f24, %f25, %f27;
mov.f32 %f29, %f28;
mul.f32 %f30, %f16, %f29;
mov.f32 %f31, %f30;
mov.f32 %f32, %f15;
mov.f32 %f33, %f14;
mad.f32 %f34, %f31, %f32, %f33;
mov.f32 %f35, %f34;
cvt.rn.f32.s32 %f36, %r18;
mov.f32 %f37, %f36;
mov.f32 %f38, 0f3f317218; // 0.693147
mov.f32 %f39, %f38;
add.f32 %f40, %f9, %f35;
mov.f32 %f41, %f40;
mad.f32 %f42, %f37, %f39, %f41;
mov.f32 %f43, %f42;
.loc 17 8523 0
mov.f32 %f44, %f43;
bra.uni $Lt_55_3330;
$Lt_55_3586:
.loc 17 8526 0
lg2.approx.f32 %f45, %f1;
mov.f32 %f46, 0f3f317218; // 0.693147
mul.f32 %f44, %f45, %f46;
$Lt_55_3330:
.loc 15 676 0
cvt.f64.f32 %fd2, %f44;
ld.param.u32 %r19, [__cudaparm_vec_log_result];
add.u32 %r20, %r19, %r5;
st.global.f64 [%r20+0], %fd2;
$Lt_55_2818:
.loc 15 678 0
exit;
$LDWend_vec_log:
} // vec_log
.entry vec_normcdf (
.param .u32 __cudaparm_vec_normcdf_n,
.param .u32 __cudaparm_vec_normcdf_result,
.param .u32 __cudaparm_vec_normcdf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<20>;
.reg .f32 %f<244>;
.reg .f64 %fd<4>;
.reg .pred %p<9>;
.loc 15 683 0
$LDWbegin_vec_normcdf:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_normcdf_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_56_5634;
.loc 15 688 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_normcdf_y];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
abs.f32 %f2, %f1;
mov.f32 %f3, 0f41680000; // 14.5
setp.gt.f32 %p2, %f2, %f3;
@!%p2 bra $Lt_56_6146;
.loc 17 10245 0
mov.b32 %r8, %f1;
and.b32 %r9, %r8, -2147483648;
or.b32 %r10, %r9, 1097334784;
mov.b32 %f1, %r10;
$Lt_56_6146:
.loc 17 8429 0
neg.f32 %f4, %f1;
mov.f32 %f5, %f4;
mov.f32 %f6, 0f45800800; // 4097
mov.f32 %f7, %f6;
mov.f32 %f8, %f1;
mad.f32 %f9, %f5, %f7, %f8;
mov.f32 %f10, %f9;
mov.f32 %f11, %f1;
mov.f32 %f12, 0f45800800; // 4097
mov.f32 %f13, %f12;
mov.f32 %f14, %f10;
mad.f32 %f15, %f11, %f13, %f14;
mov.f32 %f10, %f15;
.loc 17 10253 0
sub.f32 %f16, %f1, %f10;
.loc 17 10257 0
mov.f32 %f17, %f10;
.loc 17 8429 0
mov.f32 %f18, 0fbf3504f3; // -0.707107
mul.rn.f32 %f19, %f1, %f18;
mov.f32 %f20, %f10;
mov.f32 %f21, 0fbf350000; // -0.707031
mov.f32 %f22, %f21;
neg.f32 %f23, %f19;
mov.f32 %f24, %f23;
mad.f32 %f25, %f20, %f22, %f24;
mov.f32 %f10, %f25;
mov.f32 %f26, %f17;
mov.f32 %f27, 0fb89e6000; // -7.55191e-005
mov.f32 %f28, %f27;
mov.f32 %f29, %f10;
mad.f32 %f30, %f26, %f28, %f29;
mov.f32 %f10, %f30;
mov.f32 %f31, 0fbf350000; // -0.707031
mov.f32 %f32, %f31;
mov.f32 %f33, %f16;
mov.f32 %f34, %f10;
mad.f32 %f35, %f32, %f33, %f34;
mov.f32 %f10, %f35;
mov.f32 %f36, %f16;
mov.f32 %f37, 0fb89e6000; // -7.55191e-005
mov.f32 %f38, %f37;
mov.f32 %f39, %f10;
mad.f32 %f40, %f36, %f38, %f39;
mov.f32 %f10, %f40;
.loc 17 10262 0
mov.f32 %f41, 0fb24fe77a; // -1.21016e-008
mul.rn.f32 %f42, %f1, %f41;
add.rn.f32 %f43, %f42, %f10;
add.rn.f32 %f44, %f19, %f43;
mov.f32 %f45, 0f3f5020c5; // 0.813
setp.le.f32 %p3, %f44, %f45;
@!%p3 bra $Lt_56_6914;
.loc 17 10098 0
abs.f32 %f46, %f44;
mul.f32 %f47, %f44, %f44;
mov.f32 %f48, 0f3f800000; // 1
setp.ge.f32 %p4, %f46, %f48;
@!%p4 bra $Lt_56_7426;
.loc 17 8429 0
mov.f32 %f49, %f46;
mov.f32 %f50, 0f3ea7ba05; // 0.327591
mov.f32 %f51, %f50;
mov.f32 %f52, 0f3f800000; // 1
mov.f32 %f53, %f52;
mad.f32 %f54, %f49, %f51, %f53;
mov.f32 %f55, %f54;
.loc 17 9924 0
rcp.approx.f32 %f56, %f55;
mov.f32 %f57, %f56;
.loc 17 8429 0
mov.f32 %f58, 0f3f87dc22; // 1.06141
mov.f32 %f59, %f58;
mov.f32 %f60, %f56;
mov.f32 %f61, 0fbfba00e3; // -1.45315
mov.f32 %f62, %f61;
mad.f32 %f63, %f59, %f60, %f62;
mov.f32 %f55, %f63;
mov.f32 %f64, %f55;
mov.f32 %f65, %f57;
mov.f32 %f66, 0f3fb5f0e3; // 1.42141
mov.f32 %f67, %f66;
mad.f32 %f68, %f64, %f65, %f67;
mov.f32 %f55, %f68;
mov.f32 %f69, %f55;
mov.f32 %f70, %f57;
mov.f32 %f71, 0fbe91a98e; // -0.284497
mov.f32 %f72, %f71;
mad.f32 %f73, %f69, %f70, %f72;
mov.f32 %f55, %f73;
mov.f32 %f74, %f55;
mov.f32 %f75, %f57;
mov.f32 %f76, 0f3e827906; // 0.25483
mov.f32 %f77, %f76;
mad.f32 %f78, %f74, %f75, %f77;
mov.f32 %f55, %f78;
neg.f32 %f79, %f47;
mov.f32 %f80, 0f3fb8aa3b; // 1.4427
mul.f32 %f81, %f79, %f80;
cvt.rzi.f32.f32 %f82, %f81;
mov.f32 %f83, %f82;
mov.f32 %f84, 0fbf317200; // -0.693146
mov.f32 %f85, %f84;
mov.f32 %f86, %f79;
mad.f32 %f87, %f83, %f85, %f86;
mov.f32 %f88, %f87;
mov.f32 %f89, %f82;
mov.f32 %f90, 0fb5bfbe8e; // -1.42861e-006
mov.f32 %f91, %f90;
mov.f32 %f92, %f88;
mad.f32 %f93, %f89, %f91, %f92;
mov.f32 %f94, %f93;
.loc 17 8763 0
ex2.approx.f32 %f95, %f82;
mov.f32 %f96, 0f3fb8aa3b; // 1.4427
mul.f32 %f97, %f94, %f96;
ex2.approx.f32 %f98, %f97;
mul.f32 %f99, %f95, %f98;
.loc 17 8429 0
neg.f32 %f100, %f99;
mov.f32 %f101, %f100;
mul.f32 %f102, %f56, %f55;
mov.f32 %f103, %f102;
mov.f32 %f104, 0f3f800000; // 1
mov.f32 %f105, %f104;
mad.f32 %f106, %f101, %f103, %f105;
mov.f32 %f55, %f106;
.loc 17 9936 0
mov.f32 %f107, 0f3f800000; // 1
mov.f32 %f108, 0f40b00000; // 5.5
setp.ge.f32 %p5, %f46, %f108;
selp.f32 %f109, %f107, %f55, %p5;
mov.b32 %r11, %f109;
mov.b32 %r12, %f44;
and.b32 %r13, %r12, -2147483648;
or.b32 %r14, %r11, %r13;
mov.b32 %f110, %r14;
bra.uni $Lt_56_7170;
$Lt_56_7426:
.loc 17 8429 0
mov.f32 %f111, 0fba1268fb; // -0.00055851
mov.f32 %f112, %f111;
mov.f32 %f113, %f47;
mov.f32 %f114, 0f3ba0c9f8; // 0.00490689
mov.f32 %f115, %f114;
mad.f32 %f116, %f112, %f113, %f115;
mov.f32 %f55, %f116;
mov.f32 %f117, %f55;
mov.f32 %f118, %f47;
mov.f32 %f119, 0fbcdabfd4; // -0.0267028
mov.f32 %f120, %f119;
mad.f32 %f121, %f117, %f118, %f120;
mov.f32 %f55, %f121;
mov.f32 %f122, %f55;
mov.f32 %f123, %f47;
mov.f32 %f124, 0f3de70331; // 0.112799
mov.f32 %f125, %f124;
mad.f32 %f126, %f122, %f123, %f125;
mov.f32 %f55, %f126;
mov.f32 %f127, %f55;
mov.f32 %f128, %f47;
mov.f32 %f129, 0fbec09330; // -0.376123
mov.f32 %f130, %f129;
mad.f32 %f131, %f127, %f128, %f130;
mov.f32 %f55, %f131;
mov.f32 %f132, %f55;
mov.f32 %f133, %f47;
mov.f32 %f134, 0f3f906eba; // 1.12838
mov.f32 %f135, %f134;
mad.f32 %f136, %f132, %f133, %f135;
mov.f32 %f55, %f136;
.loc 17 9945 0
mul.f32 %f110, %f44, %f55;
$Lt_56_7170:
.loc 17 10098 0
mov.f32 %f137, 0f3f800000; // 1
sub.f32 %f138, %f137, %f110;
bra.uni $Lt_56_6658;
$Lt_56_6914:
.loc 17 8437 0
mov.f32 %f139, %f44;
rcp.approx.ftz.f32 %f140,%f139;
mov.f32 %f141, %f140;
.loc 17 8429 0
mov.f32 %f142, 0fbf7fc509; // -0.9991
mov.f32 %f143, %f142;
mov.f32 %f144, %f141;
mov.f32 %f145, 0fbe85acdf; // -0.261085
mov.f32 %f146, %f145;
mad.f32 %f147, %f143, %f144, %f146;
mov.f32 %f148, %f147;
mov.f32 %f149, %f148;
mov.f32 %f150, %f141;
mov.f32 %f151, 0f3dff301b; // 0.124603
mov.f32 %f152, %f151;
mad.f32 %f153, %f149, %f150, %f152;
mov.f32 %f148, %f153;
mov.f32 %f154, %f148;
mov.f32 %f155, %f141;
mov.f32 %f156, 0f3e079e1d; // 0.132439
mov.f32 %f157, %f156;
mad.f32 %f158, %f154, %f155, %f157;
mov.f32 %f148, %f158;
mov.f32 %f159, %f148;
mov.f32 %f160, %f141;
mov.f32 %f161, 0f3d091fcf; // 0.0334776
mov.f32 %f162, %f161;
mad.f32 %f163, %f159, %f160, %f162;
mov.f32 %f164, %f163;
mov.f32 %f165, 0f401045e9; // 2.25427
add.f32 %f166, %f141, %f165;
mov.f32 %f167, %f166;
mov.f32 %f168, %f141;
mov.f32 %f169, 0f4009b13f; // 2.15144
mov.f32 %f170, %f169;
mad.f32 %f171, %f167, %f168, %f170;
mov.f32 %f148, %f171;
mov.f32 %f172, %f148;
mov.f32 %f173, %f141;
mov.f32 %f174, 0f3f83a2f6; // 1.02841
mov.f32 %f175, %f174;
mad.f32 %f176, %f172, %f173, %f175;
mov.f32 %f148, %f176;
mov.f32 %f177, %f148;
mov.f32 %f178, %f141;
mov.f32 %f179, 0f3e859a52; // 0.260943
mov.f32 %f180, %f179;
mad.f32 %f181, %f177, %f178, %f180;
mov.f32 %f148, %f181;
mov.f32 %f182, %f148;
mov.f32 %f183, %f141;
mov.f32 %f184, 0fb6860e0b; // -3.99515e-006
mov.f32 %f185, %f184;
mad.f32 %f186, %f182, %f183, %f185;
mov.f32 %f148, %f186;
.loc 17 10076 0
div.approx.f32 %f187, %f164, %f148;
.loc 17 8750 0
mov.b32 %r15, %f44;
and.b32 %r16, %r15, -4096;
mov.b32 %f188, %r16;
mul.f32 %f189, %f188, %f188;
neg.f32 %f190, %f189;
mov.f32 %f191, 0f3fb8aa3b; // 1.4427
mul.f32 %f192, %f190, %f191;
cvt.rzi.f32.f32 %f193, %f192;
.loc 17 8429 0
mov.f32 %f194, %f193;
mov.f32 %f195, 0fbf317200; // -0.693146
mov.f32 %f196, %f195;
mov.f32 %f197, %f190;
mad.f32 %f198, %f194, %f196, %f197;
mov.f32 %f199, %f198;
mov.f32 %f200, %f193;
mov.f32 %f201, 0fb5bfbe8e; // -1.42861e-006
mov.f32 %f202, %f201;
mov.f32 %f203, %f199;
mad.f32 %f204, %f200, %f202, %f203;
mov.f32 %f205, %f204;
.loc 17 10108 0
add.f32 %f206, %f44, %f188;
sub.f32 %f207, %f44, %f188;
mul.f32 %f208, %f206, %f207;
neg.f32 %f209, %f208;
.loc 17 8429 0
mul.f32 %f210, %f141, %f187;
mov.f32 %f211, %f210;
mov.f32 %f212, %f141;
mov.f32 %f213, %f141;
mad.f32 %f214, %f211, %f212, %f213;
mov.f32 %f215, %f214;
.loc 17 10100 0
mov.f32 %f216, 0f00000000; // 0
ex2.approx.f32 %f217, %f193;
mov.f32 %f218, 0f3fb8aa3b; // 1.4427
mul.f32 %f219, %f205, %f218;
ex2.approx.f32 %f220, %f219;
mul.f32 %f221, %f217, %f220;
mov.f32 %f222, 0f3fb8aa3b; // 1.4427
mul.f32 %f223, %f209, %f222;
ex2.approx.f32 %f224, %f223;
mov.f32 %f225, 0f3f000000; // 0.5
mul.f32 %f226, %f224, %f225;
mul.f32 %f227, %f221, %f226;
mul.f32 %f228, %f215, %f227;
mov.f32 %f229, 0f4120e148; // 10.055
setp.gt.f32 %p6, %f44, %f229;
selp.f32 %f138, %f216, %f228, %p6;
$Lt_56_6658:
.loc 17 10262 0
mov.f32 %f230, %f138;
mov.f32 %f231, 0fbf800000; // -1
setp.lt.f32 %p7, %f1, %f231;
@!%p7 bra $Lt_56_7682;
.loc 17 8429 0
mov.f32 %f232, 0fc0000000; // -2
mul.f32 %f233, %f44, %f232;
mul.f32 %f234, %f230, %f233;
mov.f32 %f235, %f234;
sub.f32 %f236, %f19, %f44;
add.rn.f32 %f237, %f236, %f43;
mov.f32 %f238, %f237;
mov.f32 %f239, %f230;
mad.f32 %f240, %f235, %f238, %f239;
mov.f32 %f10, %f240;
.loc 17 10266 0
mov.f32 %f230, %f10;
$Lt_56_7682:
.loc 15 688 0
mov.f32 %f241, 0f3f000000; // 0.5
mul.f32 %f242, %f230, %f241;
cvt.f64.f32 %fd2, %f242;
ld.param.u32 %r17, [__cudaparm_vec_normcdf_result];
add.u32 %r18, %r17, %r5;
st.global.f64 [%r18+0], %fd2;
$Lt_56_5634:
.loc 15 690 0
exit;
$LDWend_vec_normcdf:
} // vec_normcdf
.entry vec_normcdfinv (
.param .u32 __cudaparm_vec_normcdfinv_n,
.param .u32 __cudaparm_vec_normcdfinv_result,
.param .u32 __cudaparm_vec_normcdfinv_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<17>;
.reg .f32 %f<118>;
.reg .f64 %fd<4>;
.reg .pred %p<5>;
.loc 15 695 0
$LDWbegin_vec_normcdfinv:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_normcdfinv_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_57_3586;
.loc 15 700 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_normcdfinv_y];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
.loc 17 10235 0
add.f32 %f2, %f1, %f1;
neg.f32 %f3, %f2;
mov.f32 %f4, 0f3b5ed289; // 0.0034
set.ge.u32.f32 %r8, %f2, %f4;
neg.s32 %r9, %r8;
mov.f32 %f5, 0f3fff9097; // 1.9966
set.le.u32.f32 %r10, %f2, %f5;
neg.s32 %r11, %r10;
and.b32 %r12, %r9, %r11;
mov.u32 %r13, 0;
setp.eq.s32 %p2, %r12, %r13;
@%p2 bra $Lt_57_4354;
.loc 17 8429 0
mov.f32 %f6, 0f40000000; // 2
add.rn.f32 %f7, %f6, %f3;
mul.rn.f32 %f8, %f7, %f2;
lg2.approx.f32 %f9, %f8;
neg.f32 %f10, %f9;
mov.f32 %f11, 0faf8a6370; // -2.51727e-010
mov.f32 %f12, %f11;
mov.f32 %f13, %f10;
mov.f32 %f14, 0f3221f645; // 9.42743e-009
mov.f32 %f15, %f14;
mad.f32 %f16, %f12, %f13, %f15;
mov.f32 %f17, %f16;
mov.f32 %f18, %f17;
mov.f32 %f19, %f10;
mov.f32 %f20, 0fb4016fda; // -1.20548e-007
mov.f32 %f21, %f20;
mad.f32 %f22, %f18, %f19, %f21;
mov.f32 %f17, %f22;
mov.f32 %f23, %f17;
mov.f32 %f24, %f10;
mov.f32 %f25, 0f3468f846; // 2.1697e-007
mov.f32 %f26, %f25;
mad.f32 %f27, %f23, %f24, %f26;
mov.f32 %f17, %f27;
mov.f32 %f28, %f17;
mov.f32 %f29, %f10;
mov.f32 %f30, 0f370742aa; // 8.06215e-006
mov.f32 %f31, %f30;
mad.f32 %f32, %f28, %f29, %f31;
mov.f32 %f17, %f32;
mov.f32 %f33, %f17;
mov.f32 %f34, %f10;
mov.f32 %f35, 0fb804db4d; // -3.16755e-005
mov.f32 %f36, %f35;
mad.f32 %f37, %f33, %f34, %f36;
mov.f32 %f17, %f37;
mov.f32 %f38, %f17;
mov.f32 %f39, %f10;
mov.f32 %f40, 0fba4afea1; // -0.000774363
mov.f32 %f41, %f40;
mad.f32 %f42, %f38, %f39, %f41;
mov.f32 %f17, %f42;
mov.f32 %f43, %f17;
mov.f32 %f44, %f10;
mov.f32 %f45, 0f3bb5c027; // 0.00554659
mov.f32 %f46, %f45;
mad.f32 %f47, %f43, %f44, %f46;
mov.f32 %f17, %f47;
mov.f32 %f48, %f17;
mov.f32 %f49, %f10;
mov.f32 %f50, 0f3e24ae0f; // 0.16082
mov.f32 %f51, %f50;
mad.f32 %f52, %f48, %f49, %f51;
mov.f32 %f17, %f52;
mov.f32 %f53, %f17;
mov.f32 %f54, %f10;
mov.f32 %f55, 0f3f62dfc4; // 0.886227
mov.f32 %f56, %f55;
mad.f32 %f57, %f53, %f54, %f56;
mov.f32 %f17, %f57;
.loc 17 10211 0
mov.f32 %f58, 0f3f800000; // 1
add.rn.f32 %f59, %f58, %f3;
mul.rn.f32 %f60, %f59, %f17;
bra.uni $Lt_57_4098;
$Lt_57_4354:
.loc 17 8429 0
mov.f32 %f61, 0f3f800000; // 1
setp.gt.f32 %p3, %f2, %f61;
mov.f32 %f62, 0f40000000; // 2
add.rn.f32 %f63, %f62, %f3;
selp.f32 %f64, %f63, %f2, %p3;
lg2.approx.f32 %f65, %f64;
neg.f32 %f66, %f65;
rsqrt.approx.f32 %f67, %f66;
mov.f32 %f68, 0fc27c73f1; // -63.1132
mov.f32 %f69, %f68;
mov.f32 %f70, %f67;
mov.f32 %f71, 0f42fef829; // 127.485
mov.f32 %f72, %f71;
mad.f32 %f73, %f69, %f70, %f72;
mov.f32 %f74, %f73;
mov.f32 %f75, %f74;
mov.f32 %f76, %f67;
mov.f32 %f77, 0fc2e4361c; // -114.106
mov.f32 %f78, %f77;
mad.f32 %f79, %f75, %f76, %f78;
mov.f32 %f74, %f79;
mov.f32 %f80, %f74;
mov.f32 %f81, %f67;
mov.f32 %f82, 0f42714d9b; // 60.3258
mov.f32 %f83, %f82;
mad.f32 %f84, %f80, %f81, %f83;
mov.f32 %f74, %f84;
mov.f32 %f85, %f74;
mov.f32 %f86, %f67;
mov.f32 %f87, 0fc1ae51b3; // -21.7899
mov.f32 %f88, %f87;
mad.f32 %f89, %f85, %f86, %f88;
mov.f32 %f74, %f89;
mov.f32 %f90, %f74;
mov.f32 %f91, %f67;
mov.f32 %f92, 0f40cef504; // 6.46741
mov.f32 %f93, %f92;
mad.f32 %f94, %f90, %f91, %f93;
mov.f32 %f74, %f94;
mov.f32 %f95, %f74;
mov.f32 %f96, %f67;
mov.f32 %f97, 0fbfea9e05; // -1.83295
mov.f32 %f98, %f97;
mad.f32 %f99, %f95, %f96, %f98;
mov.f32 %f74, %f99;
mov.f32 %f100, %f74;
mov.f32 %f101, %f67;
mov.f32 %f102, 0fbcf871f4; // -0.0303278
mov.f32 %f103, %f102;
mad.f32 %f104, %f100, %f101, %f103;
mov.f32 %f74, %f104;
mov.f32 %f105, %f74;
mov.f32 %f106, %f67;
mov.f32 %f107, 0f3f553775; // 0.832877
mov.f32 %f108, %f107;
mad.f32 %f109, %f105, %f106, %f108;
mov.f32 %f74, %f109;
.loc 17 8437 0
mov.f32 %f110, %f67;
rcp.approx.ftz.f32 %f111,%f110;
mov.f32 %f112, %f111;
.loc 17 10216 0
mul.rn.f32 %f113, %f74, %f112;
neg.f32 %f114, %f113;
selp.f32 %f60, %f114, %f113, %p3;
$Lt_57_4098:
.loc 15 700 0
mov.f32 %f115, 0fbfb504f3; // -1.41421
mul.f32 %f116, %f60, %f115;
cvt.f64.f32 %fd2, %f116;
ld.param.u32 %r14, [__cudaparm_vec_normcdfinv_result];
add.u32 %r15, %r14, %r5;
st.global.f64 [%r15+0], %fd2;
$Lt_57_3586:
.loc 15 702 0
exit;
$LDWend_vec_normcdfinv:
} // vec_normcdfinv
.entry vec_rcbrt (
.param .u32 __cudaparm_vec_rcbrt_n,
.param .u32 __cudaparm_vec_rcbrt_result,
.param .u32 __cudaparm_vec_rcbrt_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<13>;
.reg .f32 %f<30>;
.reg .f64 %fd<4>;
.reg .pred %p<5>;
.loc 15 707 0
$LDWbegin_vec_rcbrt:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_rcbrt_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_58_2562;
.loc 15 712 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_rcbrt_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
.loc 17 8429 0
abs.f32 %f2, %f1;
lg2.approx.f32 %f3, %f2;
mov.f32 %f4, 0fbeaaaaab; // -0.333333
mul.f32 %f5, %f3, %f4;
ex2.approx.f32 %f6, %f5;
mul.f32 %f7, %f6, %f6;
mov.f32 %f8, %f7;
mul.f32 %f9, %f2, %f6;
neg.f32 %f10, %f9;
mov.f32 %f11, %f10;
mov.f32 %f12, 0f3f800000; // 1
mov.f32 %f13, %f12;
mad.f32 %f14, %f8, %f11, %f13;
mov.f32 %f15, %f14;
mov.f32 %f16, %f15;
mov.f32 %f17, 0f3eaaaaab; // 0.333333
mul.f32 %f18, %f6, %f17;
mov.f32 %f19, %f18;
mov.f32 %f20, %f6;
mad.f32 %f21, %f16, %f19, %f20;
mov.f32 %f22, %f21;
.loc 15 712 0
neg.f32 %f23, %f22;
mov.b32 %r8, %f1;
mov.s32 %r9, 0;
setp.lt.s32 %p2, %r8, %r9;
selp.f32 %f24, %f23, %f22, %p2;
add.f32 %f25, %f1, %f1;
setp.eq.f32 %p3, %f1, %f25;
@!%p3 bra $Lt_58_3074;
.loc 17 8437 0
mov.f32 %f26, %f1;
rcp.approx.ftz.f32 %f27,%f26;
mov.f32 %f28, %f27;
.loc 17 9530 0
mov.f32 %f24, %f28;
$Lt_58_3074:
.loc 15 712 0
cvt.f64.f32 %fd2, %f24;
ld.param.u32 %r10, [__cudaparm_vec_rcbrt_result];
add.u32 %r11, %r10, %r5;
st.global.f64 [%r11+0], %fd2;
$Lt_58_2562:
.loc 15 714 0
exit;
$LDWend_vec_rcbrt:
} // vec_rcbrt
.entry vec_rint (
.param .u32 __cudaparm_vec_rint_n,
.param .u32 __cudaparm_vec_rint_result,
.param .u32 __cudaparm_vec_rint_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<11>;
.reg .f32 %f<4>;
.reg .f64 %fd<4>;
.reg .pred %p<3>;
.loc 15 719 0
$LDWbegin_vec_rint:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_rint_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_59_1026;
.loc 15 724 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_rint_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
cvt.rni.f32.f32 %f2, %f1;
cvt.f64.f32 %fd2, %f2;
ld.param.u32 %r8, [__cudaparm_vec_rint_result];
add.u32 %r9, %r8, %r5;
st.global.f64 [%r9+0], %fd2;
$Lt_59_1026:
.loc 15 726 0
exit;
$LDWend_vec_rint:
} // vec_rint
.entry vec_round (
.param .u32 __cudaparm_vec_round_n,
.param .u32 __cudaparm_vec_round_result,
.param .u32 __cudaparm_vec_round_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<14>;
.reg .f32 %f<10>;
.reg .f64 %fd<4>;
.reg .pred %p<5>;
.loc 15 731 0
$LDWbegin_vec_round:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_round_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_60_2562;
.loc 15 736 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_round_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
abs.f32 %f2, %f1;
mov.b32 %r8, %f1;
and.b32 %r9, %r8, -2147483648;
or.b32 %r10, %r9, 1056964608;
mov.b32 %f3, %r10;
add.f32 %f4, %f1, %f3;
cvt.rzi.f32.f32 %f5, %f4;
mov.f32 %f6, 0f4b000000; // 8.38861e+006
setp.gt.f32 %p2, %f2, %f6;
selp.f32 %f7, %f1, %f5, %p2;
mov.f32 %f8, 0f3f000000; // 0.5
setp.lt.f32 %p3, %f2, %f8;
@!%p3 bra $Lt_60_3074;
.loc 17 10798 0
cvt.rzi.f32.f32 %f7, %f1;
$Lt_60_3074:
.loc 15 736 0
cvt.f64.f32 %fd2, %f7;
ld.param.u32 %r11, [__cudaparm_vec_round_result];
add.u32 %r12, %r11, %r5;
st.global.f64 [%r12+0], %fd2;
$Lt_60_2562:
.loc 15 738 0
exit;
$LDWend_vec_round:
} // vec_round
.entry vec_rsqrt (
.param .u32 __cudaparm_vec_rsqrt_n,
.param .u32 __cudaparm_vec_rsqrt_result,
.param .u32 __cudaparm_vec_rsqrt_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<11>;
.reg .f32 %f<4>;
.reg .f64 %fd<4>;
.reg .pred %p<3>;
.loc 15 743 0
$LDWbegin_vec_rsqrt:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_rsqrt_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_61_1026;
.loc 15 748 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_rsqrt_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
rsqrt.approx.f32 %f2, %f1;
cvt.f64.f32 %fd2, %f2;
ld.param.u32 %r8, [__cudaparm_vec_rsqrt_result];
add.u32 %r9, %r8, %r5;
st.global.f64 [%r9+0], %fd2;
$Lt_61_1026:
.loc 15 750 0
exit;
$LDWend_vec_rsqrt:
} // vec_rsqrt
.entry vec_sin (
.param .u32 __cudaparm_vec_sin_n,
.param .u32 __cudaparm_vec_sin_result,
.param .u32 __cudaparm_vec_sin_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<92>;
.reg .f32 %f<94>;
.reg .f64 %fd<5>;
.reg .pred %p<15>;
.local .align 4 .b8 __cuda___cuda_result_161096[28];
.loc 15 755 0
$LDWbegin_vec_sin:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_sin_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_62_11010;
.loc 17 9004 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_sin_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
.loc 17 8952 0
abs.f64 %fd2, %fd1;
cvt.rn.f32.f64 %f2, %fd2;
mov.f32 %f3, 0f7f800000; // 1.#INF
setp.eq.f32 %p2, %f2, %f3;
@!%p2 bra $Lt_62_11522;
.loc 17 8953 0
mov.f32 %f4, 0f00000000; // 0
mul.rn.f32 %f1, %f1, %f4;
$Lt_62_11522:
.loc 17 8726 0
mov.f32 %f5, 0f3f22f983; // 0.63662
mul.f32 %f6, %f1, %f5;
cvt.rni.s32.f32 %r8, %f6;
mov.s32 %r9, %r8;
.loc 17 8429 0
cvt.rn.f32.s32 %f7, %r8;
neg.f32 %f8, %f7;
mov.f32 %f9, %f8;
mov.f32 %f10, 0f3fc90000; // 1.57031
mov.f32 %f11, %f10;
mov.f32 %f12, %f1;
mad.f32 %f13, %f9, %f11, %f12;
mov.f32 %f14, %f13;
mov.f32 %f15, %f8;
mov.f32 %f16, 0f39fd8000; // 0.000483513
mov.f32 %f17, %f16;
mov.f32 %f18, %f14;
mad.f32 %f19, %f15, %f17, %f18;
mov.f32 %f20, %f19;
mov.f32 %f21, %f8;
mov.f32 %f22, 0f34a88000; // 3.13856e-007
mov.f32 %f23, %f22;
mov.f32 %f24, %f20;
mad.f32 %f25, %f21, %f23, %f24;
mov.f32 %f26, %f25;
mov.f32 %f27, %f8;
mov.f32 %f28, 0f2e85a309; // 6.0771e-011
mov.f32 %f29, %f28;
mov.f32 %f30, %f26;
mad.f32 %f31, %f27, %f29, %f30;
mov.f32 %f32, %f31;
.loc 17 8737 0
mov.f32 %f33, %f32;
abs.f32 %f34, %f1;
mov.f32 %f35, 0f473ba700; // 48039
setp.gt.f32 %p3, %f34, %f35;
@!%p3 bra $Lt_62_12034;
.loc 17 8740 0
mov.u32 %r10, __cudart_i2opi_f;
.loc 17 8658 0
mov.b32 %r11, %f1;
and.b32 %r12, %r11, -2147483648;
mov.s32 %r13, %r12;
.loc 17 24 0
shl.b32 %r14, %r11, 8;
mov.s32 %r15, %r10;
add.u32 %r16, %r10, 24;
mov.u32 %r17, __cuda___cuda_result_161096;
or.b32 %r18, %r14, -2147483648;
mov.u32 %r19, 0;
$Lt_62_13058:
// Loop body line 24, nesting depth: 1, iterations: 6
.loc 17 8674 0
ld.const.u32 %r20, [%r15+0];
mul.lo.u32 %r21, %r18, %r20;
add.u32 %r22, %r21, %r19;
.loc 17 8675 0
set.gt.u32.u32 %r23, %r21, %r22;
neg.s32 %r24, %r23;
mul.hi.u32 %r25, %r20, %r18;
add.u32 %r19, %r24, %r25;
.loc 17 8676 0
st.local.u32 [%r17+0], %r22;
add.u32 %r17, %r17, 4;
add.u32 %r15, %r15, 4;
setp.ne.u32 %p4, %r15, %r16;
@%p4 bra $Lt_62_13058;
.loc 17 8678 0
st.local.u32 [__cuda___cuda_result_161096+24], %r19;
.loc 17 8683 0
shl.b32 %r26, %r11, 1;
shr.u32 %r27, %r26, 24;
sub.u32 %r28, %r27, 128;
shr.u32 %r29, %r28, 5;
mov.s32 %r30, 4;
sub.s32 %r31, %r30, %r29;
mul.lo.u32 %r32, %r31, 4;
mov.u32 %r33, __cuda___cuda_result_161096;
add.u32 %r34, %r32, %r33;
ld.local.u32 %r19, [%r34+8];
.loc 17 8684 0
ld.local.u32 %r35, [%r34+4];
and.b32 %r36, %r28, 31;
mov.u32 %r37, 0;
setp.eq.u32 %p5, %r36, %r37;
@%p5 bra $Lt_62_13570;
.loc 17 8687 0
mov.s32 %r38, 32;
sub.s32 %r39, %r38, %r36;
shr.u32 %r40, %r35, %r39;
shl.b32 %r41, %r19, %r36;
add.u32 %r19, %r40, %r41;
.loc 17 8688 0
ld.local.u32 %r42, [%r34+0];
shr.u32 %r43, %r42, %r39;
shl.b32 %r44, %r35, %r36;
add.u32 %r35, %r43, %r44;
$Lt_62_13570:
.loc 17 8690 0
shr.u32 %r45, %r19, 30;
.loc 17 8692 0
shr.u32 %r46, %r35, 30;
shl.b32 %r47, %r19, 2;
add.u32 %r19, %r46, %r47;
.loc 17 8693 0
shl.b32 %r35, %r35, 2;
.loc 17 8695 0
shr.u32 %r48, %r19, 31;
add.u32 %r49, %r45, %r48;
.loc 17 8690 0
neg.s32 %r50, %r49;
mov.u32 %r51, 0;
setp.ne.u32 %p6, %r12, %r51;
selp.s32 %r52, %r50, %r49, %p6;
.loc 17 8697 0
mov.s32 %r9, %r52;
mov.u32 %r53, 0;
setp.eq.u32 %p7, %r48, %r53;
@%p7 bra $Lt_62_14082;
.loc 17 8701 0
neg.s32 %r35, %r35;
.loc 17 8703 0
mov.u32 %r54, 0;
set.eq.u32.u32 %r55, %r35, %r54;
neg.s32 %r56, %r55;
not.b32 %r57, %r19;
add.u32 %r19, %r56, %r57;
.loc 17 8704 0
xor.b32 %r13, %r12, -2147483648;
$Lt_62_14082:
.loc 17 8707 0
mov.u32 %r58, 0;
setp.eq.s32 %p8, %r19, %r58;
@%p8 bra $Lt_62_14850;
.loc 19 4479 0
cvt.rz.f32.u32 %f36, %r19;
mov.b32 %r59, %f36;
shr.s32 %r60, %r59, 23;
mov.s32 %r61, 158;
sub.s32 %r62, %r61, %r60;
bra.uni $Lt_62_14594;
$Lt_62_14850:
mov.s32 %r62, 32;
$Lt_62_14594:
.loc 17 8707 0
mov.s32 %r63, %r62;
mov.s32 %r64, %r63;
.loc 19 4479 0
mov.s32 %r65, 32;
sub.s32 %r66, %r65, %r63;
shr.u32 %r67, %r35, %r66;
shl.b32 %r68, %r19, %r63;
add.u32 %r69, %r67, %r68;
mov.u32 %r70, 0;
setp.ne.u32 %p9, %r63, %r70;
selp.u32 %r71, %r69, %r19, %p9;
.loc 17 8711 0
mul.lo.u32 %r35, %r71, -921707870;
.loc 17 8712 0
mov.u32 %r72, -921707870;
mul.hi.u32 %r19, %r71, %r72;
mov.u32 %r73, 0;
setp.le.s32 %p10, %r19, %r73;
@%p10 bra $Lt_62_15106;
.loc 17 8714 0
shr.u32 %r74, %r35, 31;
shl.b32 %r75, %r19, 1;
add.u32 %r19, %r74, %r75;
.loc 17 8715 0
add.u32 %r64, %r63, 1;
$Lt_62_15106:
.loc 17 8740 0
add.u32 %r76, %r19, 1;
shr.u32 %r77, %r76, 7;
add.u32 %r78, %r77, 1;
shr.u32 %r79, %r78, 1;
mov.s32 %r80, 126;
sub.s32 %r81, %r80, %r64;
shl.b32 %r82, %r81, 23;
add.u32 %r83, %r79, %r82;
or.b32 %r84, %r13, %r83;
mov.b32 %f33, %r84;
$Lt_62_12034:
.loc 17 8956 0
mul.f32 %f37, %f33, %f33;
and.b32 %r85, %r9, 1;
mov.u32 %r86, 0;
setp.eq.s32 %p11, %r85, %r86;
@%p11 bra $Lt_62_15874;
.loc 17 8429 0
mov.f32 %f38, 0f37ccf5ce; // 2.44332e-005
mov.f32 %f39, %f38;
mov.f32 %f40, %f37;
mov.f32 %f41, 0fbab6061a; // -0.00138873
mov.f32 %f42, %f41;
mad.f32 %f43, %f39, %f40, %f42;
mov.f32 %f44, %f43;
mov.f32 %f45, %f44;
mov.f32 %f46, %f37;
mov.f32 %f47, 0f3d2aaaa5; // 0.0416666
mov.f32 %f48, %f47;
mad.f32 %f49, %f45, %f46, %f48;
mov.f32 %f50, %f49;
mov.f32 %f51, %f50;
mov.f32 %f52, %f37;
mov.f32 %f53, 0fbf000000; // -0.5
mov.f32 %f54, %f53;
mad.f32 %f55, %f51, %f52, %f54;
mov.f32 %f56, %f55;
mov.f32 %f57, %f56;
mov.f32 %f58, %f37;
mov.f32 %f59, 0f3f800000; // 1
mov.f32 %f60, %f59;
mad.f32 %f61, %f57, %f58, %f60;
mov.f32 %f62, %f61;
.loc 17 8936 0
mov.f32 %f63, %f62;
bra.uni $Lt_62_15618;
$Lt_62_15874:
.loc 17 8429 0
mov.f32 %f64, 0fb94ca1f9; // -0.000195153
mov.f32 %f65, %f64;
mov.f32 %f66, %f37;
mov.f32 %f67, 0f3c08839e; // 0.00833216
mov.f32 %f68, %f67;
mad.f32 %f69, %f65, %f66, %f68;
mov.f32 %f70, %f69;
mov.f32 %f71, %f70;
mov.f32 %f72, %f37;
mov.f32 %f73, 0fbe2aaaa3; // -0.166667
mov.f32 %f74, %f73;
mad.f32 %f75, %f71, %f72, %f74;
mov.f32 %f76, %f75;
mul.f32 %f77, %f37, %f76;
mov.f32 %f78, %f77;
mov.f32 %f79, %f33;
mov.f32 %f80, %f33;
mad.f32 %f81, %f78, %f79, %f80;
mov.f32 %f82, %f81;
.loc 17 8938 0
mov.f32 %f63, %f82;
$Lt_62_15618:
and.b32 %r87, %r9, 2;
mov.u32 %r88, 0;
setp.eq.s32 %p12, %r87, %r88;
@%p12 bra $Lt_62_16130;
.loc 17 8429 0
mov.f32 %f83, %f63;
mov.f32 %f84, 0fbf800000; // -1
mov.f32 %f85, %f84;
mov.f32 %f86, 0f00000000; // 0
mov.f32 %f87, %f86;
mad.f32 %f88, %f83, %f85, %f87;
mov.f32 %f89, %f88;
.loc 17 8941 0
mov.f32 %f63, %f89;
$Lt_62_16130:
.loc 17 8956 0
mov.f32 %f90, %f63;
mov.f32 %f91, 0f00000000; // 0
setp.eq.f32 %p13, %f33, %f91;
@!%p13 bra $Lt_62_16642;
.loc 17 8959 0
mov.f32 %f92, 0f00000000; // 0
mul.rn.f32 %f90, %f33, %f92;
$Lt_62_16642:
.loc 15 760 0
cvt.f64.f32 %fd3, %f90;
ld.param.u32 %r89, [__cudaparm_vec_sin_result];
add.u32 %r90, %r89, %r5;
st.global.f64 [%r90+0], %fd3;
$Lt_62_11010:
.loc 15 762 0
exit;
$LDWend_vec_sin:
} // vec_sin
.entry vec_sinh (
.param .u32 __cudaparm_vec_sinh_n,
.param .u32 __cudaparm_vec_sinh_result,
.param .u32 __cudaparm_vec_sinh_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<15>;
.reg .f32 %f<62>;
.reg .f64 %fd<4>;
.reg .pred %p<5>;
.loc 15 767 0
$LDWbegin_vec_sinh:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_sinh_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_63_2562;
.loc 15 772 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_sinh_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
abs.f32 %f2, %f1;
mov.f32 %f3, 0f3f800000; // 1
setp.ge.f32 %p2, %f2, %f3;
@!%p2 bra $Lt_63_3330;
.loc 17 8429 0
mov.f32 %f4, 0f3fb8aa3b; // 1.4427
mul.f32 %f5, %f2, %f4;
cvt.rzi.f32.f32 %f6, %f5;
mov.f32 %f7, %f6;
mov.f32 %f8, 0fbf317200; // -0.693146
mov.f32 %f9, %f8;
mov.f32 %f10, %f2;
mad.f32 %f11, %f7, %f9, %f10;
mov.f32 %f12, %f11;
mov.f32 %f13, %f6;
mov.f32 %f14, 0fb5bfbe8e; // -1.42861e-006
mov.f32 %f15, %f14;
mov.f32 %f16, %f12;
mad.f32 %f17, %f13, %f15, %f16;
mov.f32 %f18, %f17;
mov.f32 %f19, 0f3fb8aa3b; // 1.4427
mul.f32 %f20, %f18, %f19;
ex2.approx.f32 %f21, %f20;
mov.f32 %f22, 0fc0000000; // -2
add.f32 %f23, %f6, %f22;
ex2.approx.f32 %f24, %f23;
mul.f32 %f25, %f21, %f24;
mov.f32 %f26, 0f40000000; // 2
mov.f32 %f27, %f26;
mov.f32 %f28, %f25;
mov.f32 %f29, 0f3e000000; // 0.125
div.approx.f32 %f30, %f29, %f25;
neg.f32 %f31, %f30;
mov.f32 %f32, %f31;
mad.f32 %f33, %f27, %f28, %f32;
mov.f32 %f34, %f33;
.loc 17 9212 0
mov.f32 %f35, 0f7f800000; // 1.#INF
mov.f32 %f36, 0f42b40000; // 90
setp.ge.f32 %p3, %f2, %f36;
selp.f32 %f37, %f35, %f34, %p3;
mov.b32 %r8, %f37;
mov.b32 %r9, %f1;
and.b32 %r10, %r9, -2147483648;
or.b32 %r11, %r8, %r10;
mov.b32 %f38, %r11;
bra.uni $Lt_63_3074;
$Lt_63_3330:
.loc 17 8429 0
mul.f32 %f39, %f1, %f1;
mov.f32 %f40, 0f363d0ada; // 2.81695e-006
mov.f32 %f41, %f40;
mov.f32 %f42, %f39;
mov.f32 %f43, 0f394fff49; // 0.000198362
mov.f32 %f44, %f43;
mad.f32 %f45, %f41, %f42, %f44;
mov.f32 %f34, %f45;
mov.f32 %f46, %f34;
mov.f32 %f47, %f39;
mov.f32 %f48, 0f3c08889a; // 0.00833335
mov.f32 %f49, %f48;
mad.f32 %f50, %f46, %f47, %f49;
mov.f32 %f34, %f50;
mov.f32 %f51, %f34;
mov.f32 %f52, %f39;
mov.f32 %f53, 0f3e2aaaab; // 0.166667
mov.f32 %f54, %f53;
mad.f32 %f55, %f51, %f52, %f54;
mov.f32 %f34, %f55;
mul.f32 %f56, %f39, %f34;
mov.f32 %f57, %f56;
mov.f32 %f58, %f1;
mov.f32 %f59, %f1;
mad.f32 %f60, %f57, %f58, %f59;
mov.f32 %f34, %f60;
.loc 17 9221 0
mov.f32 %f38, %f34;
$Lt_63_3074:
.loc 15 772 0
cvt.f64.f32 %fd2, %f38;
ld.param.u32 %r12, [__cudaparm_vec_sinh_result];
add.u32 %r13, %r12, %r5;
st.global.f64 [%r13+0], %fd2;
$Lt_63_2562:
.loc 15 774 0
exit;
$LDWend_vec_sinh:
} // vec_sinh
.entry vec_sinpi (
.param .u32 __cudaparm_vec_sinpi_n,
.param .u32 __cudaparm_vec_sinpi_result,
.param .u32 __cudaparm_vec_sinpi_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<16>;
.reg .f32 %f<70>;
.reg .f64 %fd<4>;
.reg .pred %p<6>;
.loc 15 779 0
$LDWbegin_vec_sinpi:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_sinpi_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_64_3330;
.loc 15 784 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_sinpi_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
.loc 17 8429 0
add.f32 %f2, %f1, %f1;
cvt.rni.f32.f32 %f3, %f2;
neg.f32 %f4, %f3;
mov.f32 %f5, %f4;
mov.f32 %f6, 0f3f000000; // 0.5
mov.f32 %f7, %f6;
mov.f32 %f8, %f1;
mad.f32 %f9, %f5, %f7, %f8;
mov.f32 %f10, %f9;
.loc 17 9070 0
mov.f32 %f11, 0f40490fdb; // 3.14159
mul.f32 %f12, %f10, %f11;
mul.f32 %f13, %f12, %f12;
cvt.rzi.s32.f32 %r8, %f3;
and.b32 %r9, %r8, 1;
mov.u32 %r10, 0;
setp.eq.s32 %p2, %r9, %r10;
@%p2 bra $Lt_64_4098;
.loc 17 8429 0
mov.f32 %f14, 0f37ccf5ce; // 2.44332e-005
mov.f32 %f15, %f14;
mov.f32 %f16, %f13;
mov.f32 %f17, 0fbab6061a; // -0.00138873
mov.f32 %f18, %f17;
mad.f32 %f19, %f15, %f16, %f18;
mov.f32 %f20, %f19;
mov.f32 %f21, %f20;
mov.f32 %f22, %f13;
mov.f32 %f23, 0f3d2aaaa5; // 0.0416666
mov.f32 %f24, %f23;
mad.f32 %f25, %f21, %f22, %f24;
mov.f32 %f26, %f25;
mov.f32 %f27, %f26;
mov.f32 %f28, %f13;
mov.f32 %f29, 0fbf000000; // -0.5
mov.f32 %f30, %f29;
mad.f32 %f31, %f27, %f28, %f30;
mov.f32 %f32, %f31;
mov.f32 %f33, %f32;
mov.f32 %f34, %f13;
mov.f32 %f35, 0f3f800000; // 1
mov.f32 %f36, %f35;
mad.f32 %f37, %f33, %f34, %f36;
mov.f32 %f38, %f37;
.loc 17 8936 0
mov.f32 %f39, %f38;
bra.uni $Lt_64_3842;
$Lt_64_4098:
.loc 17 8429 0
mov.f32 %f40, 0fb94ca1f9; // -0.000195153
mov.f32 %f41, %f40;
mov.f32 %f42, %f13;
mov.f32 %f43, 0f3c08839e; // 0.00833216
mov.f32 %f44, %f43;
mad.f32 %f45, %f41, %f42, %f44;
mov.f32 %f46, %f45;
mov.f32 %f47, %f46;
mov.f32 %f48, %f13;
mov.f32 %f49, 0fbe2aaaa3; // -0.166667
mov.f32 %f50, %f49;
mad.f32 %f51, %f47, %f48, %f50;
mov.f32 %f52, %f51;
mul.f32 %f53, %f13, %f52;
mov.f32 %f54, %f53;
mov.f32 %f55, %f12;
mov.f32 %f56, %f12;
mad.f32 %f57, %f54, %f55, %f56;
mov.f32 %f58, %f57;
.loc 17 8938 0
mov.f32 %f39, %f58;
$Lt_64_3842:
and.b32 %r11, %r8, 2;
mov.u32 %r12, 0;
setp.eq.s32 %p3, %r11, %r12;
@%p3 bra $Lt_64_4354;
.loc 17 8429 0
mov.f32 %f59, %f39;
mov.f32 %f60, 0fbf800000; // -1
mov.f32 %f61, %f60;
mov.f32 %f62, 0f00000000; // 0
mov.f32 %f63, %f62;
mad.f32 %f64, %f59, %f61, %f63;
mov.f32 %f65, %f64;
.loc 17 8941 0
mov.f32 %f39, %f65;
$Lt_64_4354:
.loc 17 9070 0
mov.f32 %f66, %f39;
cvt.rzi.f32.f32 %f67, %f1;
setp.eq.f32 %p4, %f1, %f67;
@!%p4 bra $Lt_64_4866;
.loc 17 9072 0
mov.f32 %f68, 0f00000000; // 0
mul.rn.f32 %f66, %f1, %f68;
$Lt_64_4866:
.loc 15 784 0
cvt.f64.f32 %fd2, %f66;
ld.param.u32 %r13, [__cudaparm_vec_sinpi_result];
add.u32 %r14, %r13, %r5;
st.global.f64 [%r14+0], %fd2;
$Lt_64_3330:
.loc 15 786 0
exit;
$LDWend_vec_sinpi:
} // vec_sinpi
.entry vec_sqrt (
.param .u32 __cudaparm_vec_sqrt_n,
.param .u32 __cudaparm_vec_sqrt_result,
.param .u32 __cudaparm_vec_sqrt_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<11>;
.reg .f32 %f<4>;
.reg .f64 %fd<4>;
.reg .pred %p<3>;
.loc 15 791 0
$LDWbegin_vec_sqrt:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_sqrt_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_65_1026;
.loc 15 796 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_sqrt_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
sqrt.approx.f32 %f2, %f1;
cvt.f64.f32 %fd2, %f2;
ld.param.u32 %r8, [__cudaparm_vec_sqrt_result];
add.u32 %r9, %r8, %r5;
st.global.f64 [%r9+0], %fd2;
$Lt_65_1026:
.loc 15 798 0
exit;
$LDWend_vec_sqrt:
} // vec_sqrt
.entry vec_tan (
.param .u32 __cudaparm_vec_tan_n,
.param .u32 __cudaparm_vec_tan_result,
.param .u32 __cudaparm_vec_tan_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<90>;
.reg .f32 %f<58>;
.reg .f64 %fd<4>;
.reg .pred %p<12>;
.local .align 4 .b8 __cuda___cuda_result_161172[28];
.loc 15 803 0
$LDWbegin_vec_tan:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_tan_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_66_9474;
.loc 15 808 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_tan_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
.loc 17 9147 0
abs.f32 %f2, %f1;
mov.f32 %f3, 0f7f800000; // 1.#INF
setp.eq.f32 %p2, %f2, %f3;
@!%p2 bra $Lt_66_9986;
.loc 17 9148 0
mov.f32 %f4, 0f00000000; // 0
mul.rn.f32 %f1, %f1, %f4;
abs.f32 %f2, %f1;
$Lt_66_9986:
.loc 17 8726 0
mov.f32 %f5, 0f3f22f983; // 0.63662
mul.f32 %f6, %f1, %f5;
cvt.rni.s32.f32 %r8, %f6;
mov.s32 %r9, %r8;
.loc 17 8429 0
cvt.rn.f32.s32 %f7, %r8;
neg.f32 %f8, %f7;
mov.f32 %f9, %f8;
mov.f32 %f10, 0f3fc90000; // 1.57031
mov.f32 %f11, %f10;
mov.f32 %f12, %f1;
mad.f32 %f13, %f9, %f11, %f12;
mov.f32 %f14, %f13;
mov.f32 %f15, %f8;
mov.f32 %f16, 0f39fd8000; // 0.000483513
mov.f32 %f17, %f16;
mov.f32 %f18, %f14;
mad.f32 %f19, %f15, %f17, %f18;
mov.f32 %f20, %f19;
mov.f32 %f21, %f8;
mov.f32 %f22, 0f34a88000; // 3.13856e-007
mov.f32 %f23, %f22;
mov.f32 %f24, %f20;
mad.f32 %f25, %f21, %f23, %f24;
mov.f32 %f26, %f25;
mov.f32 %f27, %f8;
mov.f32 %f28, 0f2e85a309; // 6.0771e-011
mov.f32 %f29, %f28;
mov.f32 %f30, %f26;
mad.f32 %f31, %f27, %f29, %f30;
mov.f32 %f32, %f31;
.loc 17 8737 0
mov.f32 %f33, %f32;
mov.f32 %f34, 0f473ba700; // 48039
setp.gt.f32 %p3, %f2, %f34;
@!%p3 bra $Lt_66_10498;
.loc 17 8740 0
mov.u32 %r10, __cudart_i2opi_f;
.loc 17 8658 0
mov.b32 %r11, %f1;
and.b32 %r12, %r11, -2147483648;
mov.s32 %r13, %r12;
.loc 17 24 0
shl.b32 %r14, %r11, 8;
mov.s32 %r15, %r10;
add.u32 %r16, %r10, 24;
mov.u32 %r17, __cuda___cuda_result_161172;
or.b32 %r18, %r14, -2147483648;
mov.u32 %r19, 0;
$Lt_66_11522:
// Loop body line 24, nesting depth: 1, iterations: 6
.loc 17 8674 0
ld.const.u32 %r20, [%r15+0];
mul.lo.u32 %r21, %r18, %r20;
add.u32 %r22, %r21, %r19;
.loc 17 8675 0
set.gt.u32.u32 %r23, %r21, %r22;
neg.s32 %r24, %r23;
mul.hi.u32 %r25, %r20, %r18;
add.u32 %r19, %r24, %r25;
.loc 17 8676 0
st.local.u32 [%r17+0], %r22;
add.u32 %r17, %r17, 4;
add.u32 %r15, %r15, 4;
setp.ne.u32 %p4, %r15, %r16;
@%p4 bra $Lt_66_11522;
.loc 17 8678 0
st.local.u32 [__cuda___cuda_result_161172+24], %r19;
.loc 17 8683 0
shl.b32 %r26, %r11, 1;
shr.u32 %r27, %r26, 24;
sub.u32 %r28, %r27, 128;
shr.u32 %r29, %r28, 5;
mov.s32 %r30, 4;
sub.s32 %r31, %r30, %r29;
mul.lo.u32 %r32, %r31, 4;
mov.u32 %r33, __cuda___cuda_result_161172;
add.u32 %r34, %r32, %r33;
ld.local.u32 %r19, [%r34+8];
.loc 17 8684 0
ld.local.u32 %r35, [%r34+4];
and.b32 %r36, %r28, 31;
mov.u32 %r37, 0;
setp.eq.u32 %p5, %r36, %r37;
@%p5 bra $Lt_66_12034;
.loc 17 8687 0
mov.s32 %r38, 32;
sub.s32 %r39, %r38, %r36;
shr.u32 %r40, %r35, %r39;
shl.b32 %r41, %r19, %r36;
add.u32 %r19, %r40, %r41;
.loc 17 8688 0
ld.local.u32 %r42, [%r34+0];
shr.u32 %r43, %r42, %r39;
shl.b32 %r44, %r35, %r36;
add.u32 %r35, %r43, %r44;
$Lt_66_12034:
.loc 17 8690 0
shr.u32 %r45, %r19, 30;
.loc 17 8692 0
shr.u32 %r46, %r35, 30;
shl.b32 %r47, %r19, 2;
add.u32 %r19, %r46, %r47;
.loc 17 8693 0
shl.b32 %r35, %r35, 2;
.loc 17 8695 0
shr.u32 %r48, %r19, 31;
add.u32 %r49, %r45, %r48;
.loc 17 8690 0
neg.s32 %r50, %r49;
mov.u32 %r51, 0;
setp.ne.u32 %p6, %r12, %r51;
selp.s32 %r52, %r50, %r49, %p6;
.loc 17 8697 0
mov.s32 %r9, %r52;
mov.u32 %r53, 0;
setp.eq.u32 %p7, %r48, %r53;
@%p7 bra $Lt_66_12546;
.loc 17 8701 0
neg.s32 %r35, %r35;
.loc 17 8703 0
mov.u32 %r54, 0;
set.eq.u32.u32 %r55, %r35, %r54;
neg.s32 %r56, %r55;
not.b32 %r57, %r19;
add.u32 %r19, %r56, %r57;
.loc 17 8704 0
xor.b32 %r13, %r12, -2147483648;
$Lt_66_12546:
.loc 17 8707 0
mov.u32 %r58, 0;
setp.eq.s32 %p8, %r19, %r58;
@%p8 bra $Lt_66_13314;
.loc 19 4479 0
cvt.rz.f32.u32 %f35, %r19;
mov.b32 %r59, %f35;
shr.s32 %r60, %r59, 23;
mov.s32 %r61, 158;
sub.s32 %r62, %r61, %r60;
bra.uni $Lt_66_13058;
$Lt_66_13314:
mov.s32 %r62, 32;
$Lt_66_13058:
.loc 17 8707 0
mov.s32 %r63, %r62;
mov.s32 %r64, %r63;
.loc 19 4479 0
mov.s32 %r65, 32;
sub.s32 %r66, %r65, %r63;
shr.u32 %r67, %r35, %r66;
shl.b32 %r68, %r19, %r63;
add.u32 %r69, %r67, %r68;
mov.u32 %r70, 0;
setp.ne.u32 %p9, %r63, %r70;
selp.u32 %r71, %r69, %r19, %p9;
.loc 17 8711 0
mul.lo.u32 %r35, %r71, -921707870;
.loc 17 8712 0
mov.u32 %r72, -921707870;
mul.hi.u32 %r19, %r71, %r72;
mov.u32 %r73, 0;
setp.le.s32 %p10, %r19, %r73;
@%p10 bra $Lt_66_13570;
.loc 17 8714 0
shr.u32 %r74, %r35, 31;
shl.b32 %r75, %r19, 1;
add.u32 %r19, %r74, %r75;
.loc 17 8715 0
add.u32 %r64, %r63, 1;
$Lt_66_13570:
.loc 17 8740 0
add.u32 %r76, %r19, 1;
shr.u32 %r77, %r76, 7;
add.u32 %r78, %r77, 1;
shr.u32 %r79, %r78, 1;
mov.s32 %r80, 126;
sub.s32 %r81, %r80, %r64;
shl.b32 %r82, %r81, 23;
add.u32 %r83, %r79, %r82;
or.b32 %r84, %r13, %r83;
mov.b32 %f33, %r84;
$Lt_66_10498:
.loc 17 8429 0
mul.f32 %f36, %f33, %f33;
mov.f32 %f37, 0f3b86d46d; // 0.00411468
mov.f32 %f38, %f37;
mov.f32 %f39, %f36;
mov.f32 %f40, 0fbf52b7f4; // -0.823119
mov.f32 %f41, %f40;
mad.f32 %f42, %f38, %f39, %f41;
mov.f32 %f43, %f42;
mov.f32 %f44, 0fc01e09d0; // -2.46935
add.f32 %f45, %f36, %f44;
rcp.approx.f32 %f46, %f45;
mul.f32 %f47, %f43, %f46;
mul.f32 %f48, %f36, %f47;
mov.f32 %f49, %f48;
mov.f32 %f50, %f33;
mov.f32 %f51, %f33;
mad.f32 %f52, %f49, %f50, %f51;
mov.f32 %f53, %f52;
.loc 15 808 0
rcp.approx.f32 %f54, %f53;
neg.f32 %f55, %f54;
and.b32 %r85, %r9, 1;
neg.s32 %r86, %r85;
slct.f32.s32 %f56, %f53, %f55, %r86;
cvt.f64.f32 %fd2, %f56;
ld.param.u32 %r87, [__cudaparm_vec_tan_result];
add.u32 %r88, %r87, %r5;
st.global.f64 [%r88+0], %fd2;
$Lt_66_9474:
.loc 15 810 0
exit;
$LDWend_vec_tan:
} // vec_tan
.entry vec_tanh (
.param .u32 __cudaparm_vec_tanh_n,
.param .u32 __cudaparm_vec_tanh_result,
.param .u32 __cudaparm_vec_tanh_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<15>;
.reg .f32 %f<69>;
.reg .f64 %fd<4>;
.reg .pred %p<6>;
.loc 15 815 0
$LDWbegin_vec_tanh:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_tanh_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_67_3330;
.loc 15 820 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_tanh_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
abs.f32 %f2, %f1;
mov.f32 %f3, 0f3f0ccccd; // 0.55
setp.ge.f32 %p2, %f2, %f3;
@!%p2 bra $Lt_67_4098;
.loc 17 8429 0
add.f32 %f4, %f2, %f2;
mov.f32 %f5, 0f3fb8aa3b; // 1.4427
mul.f32 %f6, %f4, %f5;
cvt.rzi.f32.f32 %f7, %f6;
mov.f32 %f8, %f7;
mov.f32 %f9, 0fbf317200; // -0.693146
mov.f32 %f10, %f9;
mov.f32 %f11, %f4;
mad.f32 %f12, %f8, %f10, %f11;
mov.f32 %f13, %f12;
mov.f32 %f14, %f7;
mov.f32 %f15, 0fb5bfbe8e; // -1.42861e-006
mov.f32 %f16, %f15;
mov.f32 %f17, %f13;
mad.f32 %f18, %f14, %f16, %f17;
mov.f32 %f19, %f18;
mov.f32 %f20, 0f3fb8aa3b; // 1.4427
mul.f32 %f21, %f19, %f20;
ex2.approx.f32 %f22, %f21;
mov.f32 %f23, %f22;
ex2.approx.f32 %f24, %f7;
mov.f32 %f25, %f24;
mov.f32 %f26, 0f3f800000; // 1
mov.f32 %f27, %f26;
mad.f32 %f28, %f23, %f25, %f27;
mov.f32 %f29, %f28;
.loc 17 8437 0
mov.f32 %f30, %f29;
rcp.approx.ftz.f32 %f31,%f30;
mov.f32 %f32, %f31;
.loc 17 8429 0
mov.f32 %f33, %f32;
mov.f32 %f34, 0fc0000000; // -2
mov.f32 %f35, %f34;
mov.f32 %f36, 0f3f800000; // 1
mov.f32 %f37, %f36;
mad.f32 %f38, %f33, %f35, %f37;
mov.f32 %f39, %f38;
.loc 17 9237 0
mov.f32 %f40, 0f3f800000; // 1
mov.f32 %f41, 0f42b00000; // 88
setp.ge.f32 %p3, %f2, %f41;
selp.f32 %f42, %f40, %f39, %p3;
mov.b32 %r8, %f42;
mov.b32 %r9, %f1;
and.b32 %r10, %r9, -2147483648;
or.b32 %r11, %r8, %r10;
mov.b32 %f43, %r11;
bra.uni $Lt_67_3842;
$Lt_67_4098:
.loc 17 8429 0
mul.f32 %f44, %f1, %f1;
mov.f32 %f45, 0f3c86a81b; // 0.0164376
mov.f32 %f46, %f45;
mov.f32 %f47, %f44;
mov.f32 %f48, 0fbd57be66; // -0.0526718
mov.f32 %f49, %f48;
mad.f32 %f50, %f46, %f47, %f49;
mov.f32 %f39, %f50;
mov.f32 %f51, %f39;
mov.f32 %f52, %f44;
mov.f32 %f53, 0f3e08677b; // 0.133207
mov.f32 %f54, %f53;
mad.f32 %f55, %f51, %f52, %f54;
mov.f32 %f39, %f55;
mov.f32 %f56, %f39;
mov.f32 %f57, %f44;
mov.f32 %f58, 0fbeaaaa29; // -0.333329
mov.f32 %f59, %f58;
mad.f32 %f60, %f56, %f57, %f59;
mov.f32 %f39, %f60;
mul.f32 %f61, %f44, %f39;
mov.f32 %f62, %f61;
mov.f32 %f63, %f1;
mov.f32 %f64, %f1;
mad.f32 %f65, %f62, %f63, %f64;
mov.f32 %f39, %f65;
.loc 17 9240 0
add.f32 %f66, %f1, %f1;
mov.f32 %f67, 0f00000000; // 0
setp.eq.f32 %p4, %f1, %f67;
selp.f32 %f43, %f66, %f39, %p4;
$Lt_67_3842:
.loc 15 820 0
cvt.f64.f32 %fd2, %f43;
ld.param.u32 %r12, [__cudaparm_vec_tanh_result];
add.u32 %r13, %r12, %r5;
st.global.f64 [%r13+0], %fd2;
$Lt_67_3330:
.loc 15 822 0
exit;
$LDWend_vec_tanh:
} // vec_tanh
.entry vec_tgamma (
.param .u32 __cudaparm_vec_tgamma_n,
.param .u32 __cudaparm_vec_tgamma_result,
.param .u32 __cudaparm_vec_tgamma_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<20>;
.reg .f32 %f<139>;
.reg .f64 %fd<4>;
.reg .pred %p<15>;
.loc 15 827 0
$LDWbegin_vec_tgamma:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_tgamma_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_68_11778;
.loc 15 832 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_tgamma_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
.loc 17 10732 0
mov.f32 %f2, %f1;
mov.f32 %f3, 0f00000000; // 0
setp.ge.f32 %p2, %f1, %f3;
@!%p2 bra $Lt_68_12546;
.loc 17 10735 0
mov.f32 %f4, 0f42100000; // 36
setp.gt.f32 %p3, %f1, %f4;
mov.f32 %f5, 0f42100000; // 36
selp.f32 %f6, %f5, %f1, %p3;
mov.f32 %f7, 0f42081eb8; // 34.03
setp.gt.f32 %p4, %f6, %f7;
mov.f32 %f8, 0fbf800000; // -1
add.f32 %f9, %f6, %f8;
selp.f32 %f10, %f9, %f6, %p4;
mov.f32 %f11, %f10;
mov.f32 %f12, 0f3fc00000; // 1.5
setp.gt.f32 %p5, %f10, %f12;
@!%p5 bra $Lt_68_16386;
mov.f32 %f13, 0f3f800000; // 1
$Lt_68_13314:
.loc 17 10741 0
mov.f32 %f14, 0fbf800000; // -1
add.f32 %f11, %f11, %f14;
.loc 17 10742 0
mul.f32 %f13, %f11, %f13;
mov.f32 %f15, 0f3fc00000; // 1.5
setp.gt.f32 %p6, %f11, %f15;
@%p6 bra $Lt_68_13314;
bra.uni $Lt_68_12802;
$Lt_68_16386:
mov.f32 %f13, 0f3f800000; // 1
$Lt_68_12802:
.loc 17 10744 0
mov.f32 %f16, 0fbf800000; // -1
add.f32 %f17, %f11, %f16;
mov.f32 %f18, 0f3f000000; // 0.5
setp.ge.f32 %p7, %f6, %f18;
selp.f32 %f11, %f17, %f11, %p7;
.loc 17 8429 0
mov.f32 %f19, 0fba8aa19e; // -0.00105767
mov.f32 %f20, %f19;
mov.f32 %f21, %f11;
mov.f32 %f22, 0f3be86aa4; // 0.00709279
mov.f32 %f23, %f22;
mad.f32 %f24, %f20, %f21, %f23;
mov.f32 %f25, %f24;
mov.f32 %f26, %f25;
mov.f32 %f27, %f11;
mov.f32 %f28, 0fbc1e2998; // -0.00965347
mov.f32 %f29, %f28;
mad.f32 %f30, %f26, %f27, %f29;
mov.f32 %f25, %f30;
mov.f32 %f31, %f25;
mov.f32 %f32, %f11;
mov.f32 %f33, 0fbd2cbe4a; // -0.0421737
mov.f32 %f34, %f33;
mad.f32 %f35, %f31, %f32, %f34;
mov.f32 %f25, %f35;
mov.f32 %f36, %f25;
mov.f32 %f37, %f11;
mov.f32 %f38, 0f3e2a8a17; // 0.166542
mov.f32 %f39, %f38;
mad.f32 %f40, %f36, %f37, %f39;
mov.f32 %f25, %f40;
mov.f32 %f41, %f25;
mov.f32 %f42, %f11;
mov.f32 %f43, 0fbd2c0cbb; // -0.0420043
mov.f32 %f44, %f43;
mad.f32 %f45, %f41, %f42, %f44;
mov.f32 %f25, %f45;
mov.f32 %f46, %f25;
mov.f32 %f47, %f11;
mov.f32 %f48, 0fbf27e7a3; // -0.655878
mov.f32 %f49, %f48;
mad.f32 %f50, %f46, %f47, %f49;
mov.f32 %f25, %f50;
mov.f32 %f51, %f25;
mov.f32 %f52, %f11;
mov.f32 %f53, 0f3f13c468; // 0.577216
mov.f32 %f54, %f53;
mad.f32 %f55, %f51, %f52, %f54;
mov.f32 %f25, %f55;
mov.f32 %f56, %f25;
mov.f32 %f57, %f11;
mov.f32 %f58, 0f3f800000; // 1
mov.f32 %f59, %f58;
mad.f32 %f60, %f56, %f57, %f59;
mov.f32 %f25, %f60;
.loc 17 10751 0
mul.f32 %f61, %f6, %f25;
mov.f32 %f62, 0f3f000000; // 0.5
setp.lt.f32 %p8, %f6, %f62;
selp.f32 %f63, %f61, %f25, %p8;
div.approx.f32 %f13, %f13, %f63;
@!%p4 bra $Lt_68_13826;
.loc 17 10755 0
mul.f32 %f13, %f9, %f13;
$Lt_68_13826:
mov.f32 %f64, %f13;
bra.uni $Lt_68_12290;
$Lt_68_12546:
cvt.rmi.f32.f32 %f65, %f1;
setp.eq.f32 %p9, %f65, %f1;
@!%p9 bra $Lt_68_14338;
.loc 17 10760 0
mov.f32 %f66, 0fffc00000; // -1.#IND
rsqrt.approx.f32 %f2, %f66;
$Lt_68_14338:
.loc 17 10763 0
mov.f32 %f67, 0fc2246666; // -41.1
setp.lt.f32 %p10, %f2, %f67;
mov.f32 %f68, 0fc2246666; // -41.1
selp.f32 %f69, %f68, %f2, %p10;
mov.f32 %f70, 0fc2081eb8; // -34.03
setp.lt.f32 %p11, %f69, %f70;
mov.f32 %f71, 0f40c00000; // 6
add.f32 %f72, %f69, %f71;
selp.f32 %f73, %f72, %f69, %p11;
mov.f32 %f11, %f73;
.loc 17 10767 0
mov.f32 %f13, %f73;
mov.f32 %f74, 0fbf000000; // -0.5
setp.lt.f32 %p12, %f73, %f74;
@!%p12 bra $Lt_68_14850;
$Lt_68_15362:
.loc 17 10769 0
mov.f32 %f75, 0f3f800000; // 1
add.f32 %f11, %f11, %f75;
.loc 17 10770 0
mul.f32 %f13, %f11, %f13;
mov.f32 %f76, 0fbf000000; // -0.5
setp.lt.f32 %p13, %f11, %f76;
@%p13 bra $Lt_68_15362;
$Lt_68_14850:
.loc 17 8429 0
mov.f32 %f77, 0fba8aa19e; // -0.00105767
mov.f32 %f78, %f77;
mov.f32 %f79, %f11;
mov.f32 %f80, 0f3be86aa4; // 0.00709279
mov.f32 %f81, %f80;
mad.f32 %f82, %f78, %f79, %f81;
mov.f32 %f25, %f82;
mov.f32 %f83, %f25;
mov.f32 %f84, %f11;
mov.f32 %f85, 0fbc1e2998; // -0.00965347
mov.f32 %f86, %f85;
mad.f32 %f87, %f83, %f84, %f86;
mov.f32 %f25, %f87;
mov.f32 %f88, %f25;
mov.f32 %f89, %f11;
mov.f32 %f90, 0fbd2cbe4a; // -0.0421737
mov.f32 %f91, %f90;
mad.f32 %f92, %f88, %f89, %f91;
mov.f32 %f25, %f92;
mov.f32 %f93, %f25;
mov.f32 %f94, %f11;
mov.f32 %f95, 0f3e2a8a17; // 0.166542
mov.f32 %f96, %f95;
mad.f32 %f97, %f93, %f94, %f96;
mov.f32 %f25, %f97;
mov.f32 %f98, %f25;
mov.f32 %f99, %f11;
mov.f32 %f100, 0fbd2c0cbb; // -0.0420043
mov.f32 %f101, %f100;
mad.f32 %f102, %f98, %f99, %f101;
mov.f32 %f25, %f102;
mov.f32 %f103, %f25;
mov.f32 %f104, %f11;
mov.f32 %f105, 0fbf27e7a3; // -0.655878
mov.f32 %f106, %f105;
mad.f32 %f107, %f103, %f104, %f106;
mov.f32 %f25, %f107;
mov.f32 %f108, %f25;
mov.f32 %f109, %f11;
mov.f32 %f110, 0f3f13c468; // 0.577216
mov.f32 %f111, %f110;
mad.f32 %f112, %f108, %f109, %f111;
mov.f32 %f25, %f112;
mov.f32 %f113, %f25;
mov.f32 %f114, %f11;
mov.f32 %f115, 0f3f800000; // 1
mov.f32 %f116, %f115;
mad.f32 %f117, %f113, %f114, %f116;
mov.f32 %f25, %f117;
.loc 17 10773 0
mul.f32 %f118, %f25, %f13;
.loc 17 10774 0
rcp.approx.f32 %f13, %f118;
@!%p11 bra $Lt_68_15874;
.loc 17 10783 0
mov.f32 %f119, 0f40a00000; // 5
add.f32 %f120, %f69, %f119;
mov.f32 %f121, 0f40800000; // 4
add.f32 %f122, %f69, %f121;
mov.f32 %f123, 0f40400000; // 3
add.f32 %f124, %f69, %f123;
mov.f32 %f125, 0f40000000; // 2
add.f32 %f126, %f69, %f125;
mov.f32 %f127, 0f3f800000; // 1
add.f32 %f128, %f69, %f127;
mul.f32 %f129, %f69, %f128;
mul.f32 %f130, %f126, %f129;
mul.f32 %f131, %f124, %f130;
mul.f32 %f132, %f122, %f131;
mul.f32 %f133, %f120, %f132;
rcp.approx.f32 %f134, %f133;
mul.f32 %f135, %f13, %f134;
.loc 17 10776 0
mov.f32 %f136, 0f80000000; // -0
cvt.rzi.s32.f32 %r8, %f1;
and.b32 %r9, %r8, 1;
mov.s32 %r10, 0;
set.eq.u32.s32 %r11, %r9, %r10;
neg.s32 %r12, %r11;
mov.f32 %f137, 0fc2280000; // -42
set.lt.u32.f32 %r13, %f1, %f137;
neg.s32 %r14, %r13;
and.b32 %r15, %r12, %r14;
neg.s32 %r16, %r15;
slct.f32.s32 %f13, %f135, %f136, %r16;
$Lt_68_15874:
mov.f32 %f64, %f13;
$Lt_68_12290:
.loc 15 832 0
cvt.f64.f32 %fd2, %f64;
ld.param.u32 %r17, [__cudaparm_vec_tgamma_result];
add.u32 %r18, %r17, %r5;
st.global.f64 [%r18+0], %fd2;
$Lt_68_11778:
.loc 15 834 0
exit;
$LDWend_vec_tgamma:
} // vec_tgamma
.entry vec_trunc (
.param .u32 __cudaparm_vec_trunc_n,
.param .u32 __cudaparm_vec_trunc_result,
.param .u32 __cudaparm_vec_trunc_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<11>;
.reg .f32 %f<4>;
.reg .f64 %fd<4>;
.reg .pred %p<3>;
.loc 15 839 0
$LDWbegin_vec_trunc:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_trunc_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_69_1026;
.loc 15 844 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_trunc_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
cvt.rzi.f32.f32 %f2, %f1;
cvt.f64.f32 %fd2, %f2;
ld.param.u32 %r8, [__cudaparm_vec_trunc_result];
add.u32 %r9, %r8, %r5;
st.global.f64 [%r9+0], %fd2;
$Lt_69_1026:
.loc 15 846 0
exit;
$LDWend_vec_trunc:
} // vec_trunc
.entry vec_y0 (
.param .u32 __cudaparm_vec_y0_n,
.param .u32 __cudaparm_vec_y0_result,
.param .u32 __cudaparm_vec_y0_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<336>;
.reg .f32 %f<678>;
.reg .f64 %fd<4>;
.reg .pred %p<51>;
.local .align 4 .b8 __cuda___cuda_result_161248[28];
.local .align 4 .b8 __cuda___cuda_result_441276[28];
.local .align 4 .b8 __cuda___cuda_result_721304[28];
.local .align 4 .b8 __cuda___cuda_result_1001332[28];
.loc 15 851 0
$LDWbegin_vec_y0:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_y0_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_70_41218;
.loc 15 856 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_y0_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
abs.f32 %f2, %f1;
mov.f32 %f3, 0f3ee4c176; // 0.446788
setp.le.f32 %p2, %f2, %f3;
@!%p2 bra $Lt_70_41986;
.loc 17 8429 0
mul.f32 %f4, %f2, %f2;
mov.f32 %f5, 0f33dbe5ac; // 1.02398e-007
mov.f32 %f6, %f5;
mov.f32 %f7, %f4;
mov.f32 %f8, 0fb71f49b6; // -9.4943e-006
mov.f32 %f9, %f8;
mad.f32 %f10, %f6, %f7, %f9;
mov.f32 %f11, %f10;
mov.f32 %f12, %f11;
mov.f32 %f13, %f4;
mov.f32 %f14, 0f3a0d3100; // 0.000538602
mov.f32 %f15, %f14;
mad.f32 %f16, %f12, %f13, %f15;
mov.f32 %f11, %f16;
mov.f32 %f17, %f11;
mov.f32 %f18, %f4;
mov.f32 %f19, 0fbc83ad8e; // -0.016074
mov.f32 %f20, %f19;
mad.f32 %f21, %f17, %f18, %f20;
mov.f32 %f11, %f21;
mov.f32 %f22, %f11;
mov.f32 %f23, %f4;
mov.f32 %f24, 0f3e35de5a; // 0.177606
mov.f32 %f25, %f24;
mad.f32 %f26, %f22, %f23, %f25;
mov.f32 %f11, %f26;
mov.f32 %f27, %f11;
mov.f32 %f28, %f4;
mov.f32 %f29, 0fbd9726b5; // -0.0738043
mov.f32 %f30, %f29;
mad.f32 %f31, %f27, %f28, %f30;
mov.f32 %f11, %f31;
.loc 17 9365 0
mov.f32 %f32, 0f00000000; // 0
set.gt.u32.f32 %r8, %f2, %f32;
neg.s32 %r9, %r8;
mov.f32 %f33, 0f7f800000; // 1.#INF
set.lt.u32.f32 %r10, %f2, %f33;
neg.s32 %r11, %r10;
and.b32 %r12, %r9, %r11;
mov.u32 %r13, 0;
setp.eq.s32 %p3, %r12, %r13;
@%p3 bra $Lt_70_42498;
.loc 17 8512 0
mov.b32 %r14, %f2;
and.b32 %r15, %r14, -2139095041;
or.b32 %r16, %r15, 1065353216;
mov.b32 %f34, %r16;
mov.f32 %f35, %f34;
.loc 17 8513 0
shr.u32 %r17, %r14, 23;
sub.u32 %r18, %r17, 127;
mov.f32 %f36, 0f3fb504f3; // 1.41421
setp.gt.f32 %p4, %f34, %f36;
@!%p4 bra $Lt_70_42754;
.loc 17 8515 0
mov.f32 %f37, 0f3f000000; // 0.5
mul.f32 %f35, %f34, %f37;
.loc 17 8516 0
add.s32 %r18, %r18, 1;
$Lt_70_42754:
.loc 17 8429 0
mov.f32 %f38, 0fbf800000; // -1
add.f32 %f39, %f35, %f38;
mov.f32 %f40, 0f3f800000; // 1
add.f32 %f41, %f35, %f40;
neg.f32 %f42, %f39;
div.approx.f32 %f43, %f39, %f41;
mul.rn.f32 %f44, %f42, %f43;
add.rn.f32 %f45, %f39, %f44;
mul.f32 %f46, %f45, %f45;
mov.f32 %f47, 0f3b2063c3; // 0.00244735
mov.f32 %f48, %f47;
mov.f32 %f49, %f46;
mov.f32 %f50, 0f3c4c4be0; // 0.0124693
mov.f32 %f51, %f50;
mad.f32 %f52, %f48, %f49, %f51;
mov.f32 %f53, %f52;
mov.f32 %f54, %f53;
mov.f32 %f55, %f46;
mov.f32 %f56, 0f3daaab50; // 0.0833346
mov.f32 %f57, %f56;
mad.f32 %f58, %f54, %f55, %f57;
mov.f32 %f59, %f58;
mul.f32 %f60, %f46, %f59;
mov.f32 %f61, %f60;
mov.f32 %f62, %f45;
mov.f32 %f63, %f44;
mad.f32 %f64, %f61, %f62, %f63;
mov.f32 %f65, %f64;
cvt.rn.f32.s32 %f66, %r18;
mov.f32 %f67, %f66;
mov.f32 %f68, 0f3f317218; // 0.693147
mov.f32 %f69, %f68;
add.f32 %f70, %f39, %f65;
mov.f32 %f71, %f70;
mad.f32 %f72, %f67, %f69, %f71;
mov.f32 %f73, %f72;
.loc 17 8523 0
mov.f32 %f74, %f73;
bra.uni $Lt_70_42242;
$Lt_70_42498:
.loc 17 8526 0
lg2.approx.f32 %f75, %f2;
mov.f32 %f76, 0f3f317218; // 0.693147
mul.f32 %f74, %f75, %f76;
$Lt_70_42242:
.loc 17 9663 0
mov.f32 %f77, 0f41000000; // 8
setp.le.f32 %p5, %f2, %f77;
@!%p5 bra $Lt_70_43522;
.loc 17 8429 0
mov.f32 %f78, 0fc019e8a9; // -2.40483
add.f32 %f79, %f2, %f78;
mov.f32 %f80, 0fb3e971b3; // -1.08706e-007
add.f32 %f81, %f79, %f80;
mov.f32 %f82, 0fa6b3b8e7; // -1.24707e-015
mov.f32 %f83, %f82;
mov.f32 %f84, %f81;
mov.f32 %f85, 0fa9aca9b3; // -7.66777e-014
mov.f32 %f86, %f85;
mad.f32 %f87, %f83, %f84, %f86;
mov.f32 %f88, %f87;
mov.f32 %f89, %f88;
mov.f32 %f90, %f81;
mov.f32 %f91, 0f2c3f0e18; // 2.71506e-012
mov.f32 %f92, %f91;
mad.f32 %f93, %f89, %f90, %f92;
mov.f32 %f88, %f93;
mov.f32 %f94, %f88;
mov.f32 %f95, %f81;
mov.f32 %f96, 0facd41781; // -6.02801e-012
mov.f32 %f97, %f96;
mad.f32 %f98, %f94, %f95, %f97;
mov.f32 %f88, %f98;
mov.f32 %f99, %f88;
mov.f32 %f100, %f81;
mov.f32 %f101, 0fafe90f38; // -4.23933e-010
mov.f32 %f102, %f101;
mad.f32 %f103, %f99, %f100, %f102;
mov.f32 %f88, %f103;
mov.f32 %f104, %f88;
mov.f32 %f105, %f81;
mov.f32 %f106, 0f3020305b; // 5.82764e-010
mov.f32 %f107, %f106;
mad.f32 %f108, %f104, %f105, %f107;
mov.f32 %f88, %f108;
mov.f32 %f109, %f88;
mov.f32 %f110, %f81;
mov.f32 %f111, 0f33797143; // 5.80778e-008
mov.f32 %f112, %f111;
mad.f32 %f113, %f109, %f110, %f112;
mov.f32 %f88, %f113;
mov.f32 %f114, %f88;
mov.f32 %f115, %f81;
mov.f32 %f116, 0f30f76f85; // 1.80033e-009
mov.f32 %f117, %f116;
mad.f32 %f118, %f114, %f115, %f117;
mov.f32 %f88, %f118;
mov.f32 %f119, %f88;
mov.f32 %f120, %f81;
mov.f32 %f121, 0fb6b6dfc6; // -5.45007e-006
mov.f32 %f122, %f121;
mad.f32 %f123, %f119, %f120, %f122;
mov.f32 %f88, %f123;
mov.f32 %f124, %f88;
mov.f32 %f125, %f81;
mov.f32 %f126, 0fb6f665c9; // -7.34322e-006
mov.f32 %f127, %f126;
mad.f32 %f128, %f124, %f125, %f127;
mov.f32 %f88, %f128;
mov.f32 %f129, %f88;
mov.f32 %f130, %f81;
mov.f32 %f131, 0f399e2deb; // 0.000301703
mov.f32 %f132, %f131;
mad.f32 %f133, %f129, %f130, %f132;
mov.f32 %f88, %f133;
mov.f32 %f134, %f88;
mov.f32 %f135, %f81;
mov.f32 %f136, 0f3a4ae334; // 0.000773954
mov.f32 %f137, %f136;
mad.f32 %f138, %f134, %f135, %f137;
mov.f32 %f88, %f138;
mov.f32 %f139, %f88;
mov.f32 %f140, %f81;
mov.f32 %f141, 0fbbeeaa1b; // -0.00728346
mov.f32 %f142, %f141;
mad.f32 %f143, %f139, %f140, %f142;
mov.f32 %f88, %f143;
mov.f32 %f144, %f88;
mov.f32 %f145, %f81;
mov.f32 %f146, 0fbcda7747; // -0.0266682
mov.f32 %f147, %f146;
mad.f32 %f148, %f144, %f145, %f147;
mov.f32 %f88, %f148;
.loc 17 9562 0
mov.f32 %f149, 0fc10a75ab; // -8.65373
add.f32 %f150, %f2, %f149;
mov.f32 %f151, 0fb4cccded; // -3.81478e-007
add.f32 %f152, %f150, %f151;
mov.f32 %f153, 0fc0b0a47b; // -5.52008
add.f32 %f154, %f2, %f153;
mov.f32 %f155, 0f339a7a37; // 7.19341e-008
add.f32 %f156, %f154, %f155;
mul.f32 %f157, %f81, %f88;
mul.f32 %f158, %f156, %f157;
mul.f32 %f159, %f152, %f158;
bra.uni $Lt_70_43266;
$Lt_70_43522:
.loc 17 9563 0
mov.f32 %f160, 0f7f800000; // 1.#INF
setp.eq.f32 %p6, %f2, %f160;
@%p6 bra $Lt_70_44034;
.loc 17 8437 0
mov.f32 %f161, %f2;
rcp.approx.ftz.f32 %f162,%f161;
mov.f32 %f163, %f162;
.loc 17 8429 0
mul.f32 %f164, %f163, %f163;
mov.f32 %f165, 0f4056fe93; // 3.35929
mov.f32 %f166, %f165;
mov.f32 %f167, %f164;
mov.f32 %f168, 0fbf03b7c2; // -0.514523
mov.f32 %f169, %f168;
mad.f32 %f170, %f166, %f167, %f169;
mov.f32 %f88, %f170;
mov.f32 %f171, %f88;
mov.f32 %f172, %f164;
mov.f32 %f173, 0f3dd3b3f3; // 0.103371
mov.f32 %f174, %f173;
mad.f32 %f175, %f171, %f172, %f174;
mov.f32 %f88, %f175;
mov.f32 %f176, %f88;
mov.f32 %f177, %f164;
mov.f32 %f178, 0fbd7fffb6; // -0.0624997
mov.f32 %f179, %f178;
mad.f32 %f180, %f176, %f177, %f179;
mov.f32 %f88, %f180;
mov.f32 %f181, %f88;
mov.f32 %f182, %f164;
mov.f32 %f183, 0f3f800000; // 1
mov.f32 %f184, %f183;
mad.f32 %f185, %f181, %f182, %f184;
mov.f32 %f186, %f185;
mov.f32 %f187, 0f3f91e009; // 1.13965
mov.f32 %f188, %f187;
mov.f32 %f189, %f164;
mov.f32 %f190, 0fbe52412d; // -0.205327
mov.f32 %f191, %f190;
mad.f32 %f192, %f188, %f189, %f191;
mov.f32 %f88, %f192;
mov.f32 %f193, %f88;
mov.f32 %f194, %f164;
mov.f32 %f195, 0f3d854ed1; // 0.0650917
mov.f32 %f196, %f195;
mad.f32 %f197, %f193, %f194, %f196;
mov.f32 %f88, %f197;
mov.f32 %f198, %f88;
mov.f32 %f199, %f164;
mov.f32 %f200, 0fbdffffff; // -0.125
mov.f32 %f201, %f200;
mad.f32 %f202, %f198, %f199, %f201;
mov.f32 %f88, %f202;
mov.f32 %f203, %f88;
mov.f32 %f204, %f163;
mov.f32 %f205, %f2;
mad.f32 %f206, %f203, %f204, %f205;
mov.f32 %f88, %f206;
.loc 17 8726 0
mov.f32 %f207, 0f3f22f983; // 0.63662
mul.f32 %f208, %f88, %f207;
cvt.rni.s32.f32 %r19, %f208;
mov.s32 %r20, %r19;
.loc 17 8429 0
cvt.rn.f32.s32 %f209, %r19;
neg.f32 %f210, %f209;
mov.f32 %f211, %f210;
mov.f32 %f212, 0f3fc90000; // 1.57031
mov.f32 %f213, %f212;
mov.f32 %f214, %f88;
mad.f32 %f215, %f211, %f213, %f214;
mov.f32 %f216, %f215;
mov.f32 %f217, %f210;
mov.f32 %f218, 0f39fd8000; // 0.000483513
mov.f32 %f219, %f218;
mov.f32 %f220, %f216;
mad.f32 %f221, %f217, %f219, %f220;
mov.f32 %f222, %f221;
mov.f32 %f223, %f210;
mov.f32 %f224, 0f34a88000; // 3.13856e-007
mov.f32 %f225, %f224;
mov.f32 %f226, %f222;
mad.f32 %f227, %f223, %f225, %f226;
mov.f32 %f228, %f227;
mov.f32 %f229, %f210;
mov.f32 %f230, 0f2e85a309; // 6.0771e-011
mov.f32 %f231, %f230;
mov.f32 %f232, %f228;
mad.f32 %f233, %f229, %f231, %f232;
mov.f32 %f234, %f233;
.loc 17 8737 0
mov.f32 %f235, %f234;
abs.f32 %f236, %f88;
mov.f32 %f237, 0f473ba700; // 48039
setp.gt.f32 %p7, %f236, %f237;
@!%p7 bra $Lt_70_44290;
.loc 17 8740 0
mov.u32 %r21, __cudart_i2opi_f;
.loc 17 8658 0
mov.b32 %r22, %f88;
and.b32 %r23, %r22, -2147483648;
mov.s32 %r24, %r23;
.loc 17 24 0
shl.b32 %r25, %r22, 8;
mov.s32 %r26, %r21;
add.u32 %r27, %r21, 24;
mov.u32 %r28, __cuda___cuda_result_161248;
or.b32 %r29, %r25, -2147483648;
mov.u32 %r30, 0;
$Lt_70_45314:
// Loop body line 24, nesting depth: 1, iterations: 6
.loc 17 8674 0
ld.const.u32 %r31, [%r26+0];
mul.lo.u32 %r32, %r29, %r31;
add.u32 %r33, %r32, %r30;
.loc 17 8675 0
set.gt.u32.u32 %r34, %r32, %r33;
neg.s32 %r35, %r34;
mul.hi.u32 %r36, %r31, %r29;
add.u32 %r30, %r35, %r36;
.loc 17 8676 0
st.local.u32 [%r28+0], %r33;
add.u32 %r28, %r28, 4;
add.u32 %r26, %r26, 4;
setp.ne.u32 %p8, %r26, %r27;
@%p8 bra $Lt_70_45314;
.loc 17 8678 0
st.local.u32 [__cuda___cuda_result_161248+24], %r30;
.loc 17 8683 0
shl.b32 %r37, %r22, 1;
shr.u32 %r38, %r37, 24;
sub.u32 %r39, %r38, 128;
shr.u32 %r40, %r39, 5;
mov.s32 %r41, 4;
sub.s32 %r42, %r41, %r40;
mul.lo.u32 %r43, %r42, 4;
mov.u32 %r44, __cuda___cuda_result_161248;
add.u32 %r45, %r43, %r44;
ld.local.u32 %r30, [%r45+8];
.loc 17 8684 0
ld.local.u32 %r46, [%r45+4];
and.b32 %r47, %r39, 31;
mov.u32 %r48, 0;
setp.eq.u32 %p9, %r47, %r48;
@%p9 bra $Lt_70_45826;
.loc 17 8687 0
mov.s32 %r49, 32;
sub.s32 %r50, %r49, %r47;
shr.u32 %r51, %r46, %r50;
shl.b32 %r52, %r30, %r47;
add.u32 %r30, %r51, %r52;
.loc 17 8688 0
ld.local.u32 %r53, [%r45+0];
shr.u32 %r54, %r53, %r50;
shl.b32 %r55, %r46, %r47;
add.u32 %r46, %r54, %r55;
$Lt_70_45826:
.loc 17 8690 0
shr.u32 %r56, %r30, 30;
.loc 17 8692 0
shr.u32 %r57, %r46, 30;
shl.b32 %r58, %r30, 2;
add.u32 %r30, %r57, %r58;
.loc 17 8693 0
shl.b32 %r46, %r46, 2;
.loc 17 8695 0
shr.u32 %r59, %r30, 31;
add.u32 %r60, %r56, %r59;
.loc 17 8690 0
neg.s32 %r61, %r60;
mov.u32 %r62, 0;
setp.ne.u32 %p10, %r23, %r62;
selp.s32 %r63, %r61, %r60, %p10;
.loc 17 8697 0
mov.s32 %r20, %r63;
mov.u32 %r64, 0;
setp.eq.u32 %p11, %r59, %r64;
@%p11 bra $Lt_70_46338;
.loc 17 8701 0
neg.s32 %r46, %r46;
.loc 17 8703 0
mov.u32 %r65, 0;
set.eq.u32.u32 %r66, %r46, %r65;
neg.s32 %r67, %r66;
not.b32 %r68, %r30;
add.u32 %r30, %r67, %r68;
.loc 17 8704 0
xor.b32 %r24, %r23, -2147483648;
$Lt_70_46338:
.loc 17 8707 0
mov.u32 %r69, 0;
setp.eq.s32 %p12, %r30, %r69;
@%p12 bra $Lt_70_47106;
.loc 19 4479 0
cvt.rz.f32.u32 %f238, %r30;
mov.b32 %r70, %f238;
shr.s32 %r71, %r70, 23;
mov.s32 %r72, 158;
sub.s32 %r73, %r72, %r71;
bra.uni $Lt_70_46850;
$Lt_70_47106:
mov.s32 %r73, 32;
$Lt_70_46850:
.loc 17 8707 0
mov.s32 %r74, %r73;
mov.s32 %r75, %r74;
.loc 19 4479 0
mov.s32 %r76, 32;
sub.s32 %r77, %r76, %r74;
shr.u32 %r78, %r46, %r77;
shl.b32 %r79, %r30, %r74;
add.u32 %r80, %r78, %r79;
mov.u32 %r81, 0;
setp.ne.u32 %p13, %r74, %r81;
selp.u32 %r82, %r80, %r30, %p13;
.loc 17 8711 0
mul.lo.u32 %r46, %r82, -921707870;
.loc 17 8712 0
mov.u32 %r83, -921707870;
mul.hi.u32 %r30, %r82, %r83;
mov.u32 %r84, 0;
setp.le.s32 %p14, %r30, %r84;
@%p14 bra $Lt_70_47362;
.loc 17 8714 0
shr.u32 %r85, %r46, 31;
shl.b32 %r86, %r30, 1;
add.u32 %r30, %r85, %r86;
.loc 17 8715 0
add.u32 %r75, %r74, 1;
$Lt_70_47362:
.loc 17 8740 0
add.u32 %r87, %r30, 1;
shr.u32 %r88, %r87, 7;
add.u32 %r89, %r88, 1;
shr.u32 %r90, %r89, 1;
mov.s32 %r91, 126;
sub.s32 %r92, %r91, %r75;
shl.b32 %r93, %r92, 23;
add.u32 %r94, %r90, %r93;
or.b32 %r95, %r24, %r94;
mov.b32 %f235, %r95;
$Lt_70_44290:
.loc 17 8990 0
mov.u32 %r21, __cudart_i2opi_f;
mov.f32 %f239, 0fbf490fdb; // -0.785398
add.f32 %f240, %f235, %f239;
and.b32 %r96, %r20, 3;
cvt.rn.f32.s32 %f241, %r96;
mov.f32 %f242, 0f3fc90fdb; // 1.5708
mad.f32 %f243, %f241, %f242, %f240;
mov.f32 %f244, %f243;
.loc 17 8970 0
abs.f32 %f245, %f243;
mov.f32 %f246, 0f7f800000; // 1.#INF
setp.eq.f32 %p15, %f245, %f246;
@!%p15 bra $Lt_70_47874;
.loc 17 8971 0
mov.f32 %f247, 0f00000000; // 0
mul.rn.f32 %f244, %f243, %f247;
$Lt_70_47874:
.loc 17 8726 0
mov.f32 %f248, 0f3f22f983; // 0.63662
mul.f32 %f249, %f244, %f248;
cvt.rni.s32.f32 %r97, %f249;
mov.s32 %r98, %r97;
.loc 17 8429 0
cvt.rn.f32.s32 %f250, %r97;
neg.f32 %f251, %f250;
mov.f32 %f252, %f251;
mov.f32 %f253, 0f3fc90000; // 1.57031
mov.f32 %f254, %f253;
mov.f32 %f255, %f244;
mad.f32 %f256, %f252, %f254, %f255;
mov.f32 %f257, %f256;
mov.f32 %f258, %f251;
mov.f32 %f259, 0f39fd8000; // 0.000483513
mov.f32 %f260, %f259;
mov.f32 %f261, %f257;
mad.f32 %f262, %f258, %f260, %f261;
mov.f32 %f263, %f262;
mov.f32 %f264, %f251;
mov.f32 %f265, 0f34a88000; // 3.13856e-007
mov.f32 %f266, %f265;
mov.f32 %f267, %f263;
mad.f32 %f268, %f264, %f266, %f267;
mov.f32 %f269, %f268;
mov.f32 %f270, %f251;
mov.f32 %f271, 0f2e85a309; // 6.0771e-011
mov.f32 %f272, %f271;
mov.f32 %f273, %f269;
mad.f32 %f274, %f270, %f272, %f273;
mov.f32 %f275, %f274;
.loc 17 8737 0
mov.f32 %f276, %f275;
abs.f32 %f277, %f244;
mov.f32 %f278, 0f473ba700; // 48039
setp.gt.f32 %p16, %f277, %f278;
@!%p16 bra $Lt_70_48386;
.loc 17 8658 0
mov.b32 %r99, %f244;
and.b32 %r100, %r99, -2147483648;
mov.s32 %r101, %r100;
.loc 17 24 0
shl.b32 %r102, %r99, 8;
mov.s32 %r103, %r21;
add.u32 %r27, %r21, 24;
mov.u32 %r104, __cuda___cuda_result_441276;
or.b32 %r105, %r102, -2147483648;
mov.u32 %r106, 0;
$Lt_70_49410:
// Loop body line 24, nesting depth: 1, iterations: 6
.loc 17 8674 0
ld.const.u32 %r107, [%r103+0];
mul.lo.u32 %r108, %r105, %r107;
add.u32 %r109, %r108, %r106;
.loc 17 8675 0
set.gt.u32.u32 %r110, %r108, %r109;
neg.s32 %r111, %r110;
mul.hi.u32 %r112, %r107, %r105;
add.u32 %r106, %r111, %r112;
.loc 17 8676 0
st.local.u32 [%r104+0], %r109;
add.u32 %r104, %r104, 4;
add.u32 %r103, %r103, 4;
setp.ne.u32 %p17, %r103, %r27;
@%p17 bra $Lt_70_49410;
.loc 17 8678 0
st.local.u32 [__cuda___cuda_result_441276+24], %r106;
.loc 17 8683 0
shl.b32 %r113, %r99, 1;
shr.u32 %r114, %r113, 24;
sub.u32 %r115, %r114, 128;
shr.u32 %r116, %r115, 5;
mov.s32 %r117, 4;
sub.s32 %r118, %r117, %r116;
mul.lo.u32 %r119, %r118, 4;
mov.u32 %r120, __cuda___cuda_result_441276;
add.u32 %r121, %r119, %r120;
ld.local.u32 %r106, [%r121+8];
.loc 17 8684 0
ld.local.u32 %r122, [%r121+4];
and.b32 %r123, %r115, 31;
mov.u32 %r124, 0;
setp.eq.u32 %p18, %r123, %r124;
@%p18 bra $Lt_70_49922;
.loc 17 8687 0
mov.s32 %r125, 32;
sub.s32 %r126, %r125, %r123;
shr.u32 %r127, %r122, %r126;
shl.b32 %r128, %r106, %r123;
add.u32 %r106, %r127, %r128;
.loc 17 8688 0
ld.local.u32 %r129, [%r121+0];
shr.u32 %r130, %r129, %r126;
shl.b32 %r131, %r122, %r123;
add.u32 %r122, %r130, %r131;
$Lt_70_49922:
.loc 17 8690 0
shr.u32 %r132, %r106, 30;
.loc 17 8692 0
shr.u32 %r133, %r122, 30;
shl.b32 %r134, %r106, 2;
add.u32 %r106, %r133, %r134;
.loc 17 8693 0
shl.b32 %r122, %r122, 2;
.loc 17 8695 0
shr.u32 %r135, %r106, 31;
add.u32 %r136, %r132, %r135;
.loc 17 8690 0
neg.s32 %r137, %r136;
mov.u32 %r138, 0;
setp.ne.u32 %p19, %r100, %r138;
selp.s32 %r139, %r137, %r136, %p19;
.loc 17 8697 0
mov.s32 %r98, %r139;
mov.u32 %r140, 0;
setp.eq.u32 %p20, %r135, %r140;
@%p20 bra $Lt_70_50434;
.loc 17 8701 0
neg.s32 %r122, %r122;
.loc 17 8703 0
mov.u32 %r141, 0;
set.eq.u32.u32 %r142, %r122, %r141;
neg.s32 %r143, %r142;
not.b32 %r144, %r106;
add.u32 %r106, %r143, %r144;
.loc 17 8704 0
xor.b32 %r101, %r100, -2147483648;
$Lt_70_50434:
.loc 17 8707 0
mov.u32 %r145, 0;
setp.eq.s32 %p21, %r106, %r145;
@%p21 bra $Lt_70_51202;
.loc 19 4479 0
cvt.rz.f32.u32 %f279, %r106;
mov.b32 %r146, %f279;
shr.s32 %r147, %r146, 23;
mov.s32 %r148, 158;
sub.s32 %r149, %r148, %r147;
bra.uni $Lt_70_50946;
$Lt_70_51202:
mov.s32 %r149, 32;
$Lt_70_50946:
.loc 17 8707 0
mov.s32 %r150, %r149;
mov.s32 %r151, %r150;
.loc 19 4479 0
mov.s32 %r152, 32;
sub.s32 %r153, %r152, %r150;
shr.u32 %r154, %r122, %r153;
shl.b32 %r155, %r106, %r150;
add.u32 %r156, %r154, %r155;
mov.u32 %r157, 0;
setp.ne.u32 %p22, %r150, %r157;
selp.u32 %r158, %r156, %r106, %p22;
.loc 17 8711 0
mul.lo.u32 %r122, %r158, -921707870;
.loc 17 8712 0
mov.u32 %r159, -921707870;
mul.hi.u32 %r106, %r158, %r159;
mov.u32 %r160, 0;
setp.le.s32 %p23, %r106, %r160;
@%p23 bra $Lt_70_51458;
.loc 17 8714 0
shr.u32 %r161, %r122, 31;
shl.b32 %r162, %r106, 1;
add.u32 %r106, %r161, %r162;
.loc 17 8715 0
add.u32 %r151, %r150, 1;
$Lt_70_51458:
.loc 17 8740 0
add.u32 %r163, %r106, 1;
shr.u32 %r164, %r163, 7;
add.u32 %r165, %r164, 1;
shr.u32 %r166, %r165, 1;
mov.s32 %r167, 126;
sub.s32 %r168, %r167, %r151;
shl.b32 %r169, %r168, 23;
add.u32 %r170, %r166, %r169;
or.b32 %r171, %r101, %r170;
mov.b32 %f276, %r171;
$Lt_70_48386:
.loc 17 8975 0
add.s32 %r172, %r98, 1;
mul.f32 %f280, %f276, %f276;
and.b32 %r173, %r172, 1;
mov.u32 %r174, 0;
setp.eq.s32 %p24, %r173, %r174;
@%p24 bra $Lt_70_52226;
.loc 17 8429 0
mov.f32 %f281, 0f37ccf5ce; // 2.44332e-005
mov.f32 %f282, %f281;
mov.f32 %f283, %f280;
mov.f32 %f284, 0fbab6061a; // -0.00138873
mov.f32 %f285, %f284;
mad.f32 %f286, %f282, %f283, %f285;
mov.f32 %f287, %f286;
mov.f32 %f288, %f287;
mov.f32 %f289, %f280;
mov.f32 %f290, 0f3d2aaaa5; // 0.0416666
mov.f32 %f291, %f290;
mad.f32 %f292, %f288, %f289, %f291;
mov.f32 %f293, %f292;
mov.f32 %f294, %f293;
mov.f32 %f295, %f280;
mov.f32 %f296, 0fbf000000; // -0.5
mov.f32 %f297, %f296;
mad.f32 %f298, %f294, %f295, %f297;
mov.f32 %f299, %f298;
mov.f32 %f300, %f299;
mov.f32 %f301, %f280;
mov.f32 %f302, 0f3f800000; // 1
mov.f32 %f303, %f302;
mad.f32 %f304, %f300, %f301, %f303;
mov.f32 %f305, %f304;
.loc 17 8936 0
mov.f32 %f306, %f305;
bra.uni $Lt_70_51970;
$Lt_70_52226:
.loc 17 8429 0
mov.f32 %f307, 0fb94ca1f9; // -0.000195153
mov.f32 %f308, %f307;
mov.f32 %f309, %f280;
mov.f32 %f310, 0f3c08839e; // 0.00833216
mov.f32 %f311, %f310;
mad.f32 %f312, %f308, %f309, %f311;
mov.f32 %f313, %f312;
mov.f32 %f314, %f313;
mov.f32 %f315, %f280;
mov.f32 %f316, 0fbe2aaaa3; // -0.166667
mov.f32 %f317, %f316;
mad.f32 %f318, %f314, %f315, %f317;
mov.f32 %f319, %f318;
mul.f32 %f320, %f280, %f319;
mov.f32 %f321, %f320;
mov.f32 %f322, %f276;
mov.f32 %f323, %f276;
mad.f32 %f324, %f321, %f322, %f323;
mov.f32 %f325, %f324;
.loc 17 8938 0
mov.f32 %f306, %f325;
$Lt_70_51970:
and.b32 %r175, %r172, 2;
mov.u32 %r176, 0;
setp.eq.s32 %p25, %r175, %r176;
@%p25 bra $Lt_70_52482;
.loc 17 8429 0
mov.f32 %f326, %f306;
mov.f32 %f327, 0fbf800000; // -1
mov.f32 %f328, %f327;
mov.f32 %f329, 0f00000000; // 0
mov.f32 %f330, %f329;
mad.f32 %f331, %f326, %f328, %f330;
mov.f32 %f332, %f331;
.loc 17 8941 0
mov.f32 %f306, %f332;
$Lt_70_52482:
.loc 17 9581 0
rsqrt.approx.f32 %f333, %f2;
mov.f32 %f334, 0f3f4c422a; // 0.797885
mul.f32 %f335, %f333, %f334;
mul.f32 %f336, %f186, %f335;
mul.f32 %f159, %f306, %f336;
bra.uni $Lt_70_43778;
$Lt_70_44034:
.loc 17 9584 0
mov.f32 %f159, 0f00000000; // 0
$Lt_70_43778:
$Lt_70_43266:
.loc 17 9663 0
mov.f32 %f337, 0f3f22f983; // 0.63662
mul.f32 %f338, %f74, %f337;
mad.f32 %f339, %f159, %f338, %f11;
bra.uni $Lt_70_41730;
$Lt_70_41986:
mov.f32 %f340, 0f3ff67af8; // 1.92563
setp.le.f32 %p26, %f2, %f340;
@!%p26 bra $Lt_70_53250;
.loc 17 8429 0
mov.f32 %f341, 0fbf64c176; // -0.893577
add.f32 %f342, %f2, %f341;
mov.f32 %f343, 0f32657d03; // 1.3358e-008
add.f32 %f344, %f342, %f343;
mov.f32 %f345, 0f3cddc8b3; // 0.0270732
mov.f32 %f346, %f345;
mov.f32 %f347, %f344;
mov.f32 %f348, 0fbe02574c; // -0.127286
mov.f32 %f349, %f348;
mad.f32 %f350, %f346, %f347, %f349;
mov.f32 %f11, %f350;
mov.f32 %f351, %f11;
mov.f32 %f352, %f344;
mov.f32 %f353, 0f3e7f2cc9; // 0.249194
mov.f32 %f354, %f353;
mad.f32 %f355, %f351, %f352, %f354;
mov.f32 %f11, %f355;
mov.f32 %f356, %f11;
mov.f32 %f357, %f344;
mov.f32 %f358, 0fbe8bf29b; // -0.273335
mov.f32 %f359, %f358;
mad.f32 %f360, %f356, %f357, %f359;
mov.f32 %f11, %f360;
mov.f32 %f361, %f11;
mov.f32 %f362, %f344;
mov.f32 %f363, 0f3e5bce93; // 0.214655
mov.f32 %f364, %f363;
mad.f32 %f365, %f361, %f362, %f364;
mov.f32 %f11, %f365;
mov.f32 %f366, %f11;
mov.f32 %f367, %f344;
mov.f32 %f368, 0fbe38c4ff; // -0.180439
mov.f32 %f369, %f368;
mad.f32 %f370, %f366, %f367, %f369;
mov.f32 %f11, %f370;
mov.f32 %f371, %f11;
mov.f32 %f372, %f344;
mov.f32 %f373, 0f3e42774d; // 0.189908
mov.f32 %f374, %f373;
mad.f32 %f375, %f371, %f372, %f374;
mov.f32 %f11, %f375;
mov.f32 %f376, %f11;
mov.f32 %f377, %f344;
mov.f32 %f378, 0fbe525cb2; // -0.205432
mov.f32 %f379, %f378;
mad.f32 %f380, %f376, %f377, %f379;
mov.f32 %f11, %f380;
mov.f32 %f381, %f11;
mov.f32 %f382, %f344;
mov.f32 %f383, 0f3e60f43d; // 0.219682
mov.f32 %f384, %f383;
mad.f32 %f385, %f381, %f382, %f384;
mov.f32 %f11, %f385;
mov.f32 %f386, %f11;
mov.f32 %f387, %f344;
mov.f32 %f388, 0fbe679145; // -0.22614
mov.f32 %f389, %f388;
mad.f32 %f390, %f386, %f387, %f389;
mov.f32 %f11, %f390;
mov.f32 %f391, %f11;
mov.f32 %f392, %f344;
mov.f32 %f393, 0f3e61d24a; // 0.220529
mov.f32 %f394, %f393;
mad.f32 %f395, %f391, %f392, %f394;
mov.f32 %f11, %f395;
mov.f32 %f396, %f11;
mov.f32 %f397, %f344;
mov.f32 %f398, 0fbefbf1ad; // -0.492078
mov.f32 %f399, %f398;
mad.f32 %f400, %f396, %f397, %f399;
mov.f32 %f11, %f400;
mov.f32 %f401, %f11;
mov.f32 %f402, %f344;
mov.f32 %f403, 0f3f6121bb; // 0.879421
mov.f32 %f404, %f403;
mad.f32 %f405, %f401, %f402, %f404;
mov.f32 %f11, %f405;
.loc 17 9682 0
mul.f32 %f339, %f344, %f11;
bra.uni $Lt_70_52994;
$Lt_70_53250:
mov.f32 %f406, 0f40b0b31e; // 5.52186
setp.le.f32 %p27, %f2, %f406;
@!%p27 bra $Lt_70_53762;
.loc 17 8429 0
mov.f32 %f407, 0fc07d4a9a; // -3.95768
add.f32 %f408, %f2, %f407;
mov.f32 %f409, 0fb3d9856a; // -1.01291e-007
add.f32 %f410, %f408, %f409;
mov.f32 %f411, 0fb449dd3f; // -1.88001e-007
mov.f32 %f412, %f411;
mov.f32 %f413, %f410;
mov.f32 %f414, 0fb45e2607; // -2.06892e-007
mov.f32 %f415, %f414;
mad.f32 %f416, %f412, %f413, %f415;
mov.f32 %f11, %f416;
mov.f32 %f417, %f11;
mov.f32 %f418, %f410;
mov.f32 %f419, 0fb6857064; // -3.97679e-006
mov.f32 %f420, %f419;
mad.f32 %f421, %f417, %f418, %f420;
mov.f32 %f11, %f421;
mov.f32 %f422, %f11;
mov.f32 %f423, %f410;
mov.f32 %f424, 0f38554610; // 5.08484e-005
mov.f32 %f425, %f424;
mad.f32 %f426, %f422, %f423, %f425;
mov.f32 %f11, %f426;
mov.f32 %f427, %f11;
mov.f32 %f428, %f410;
mov.f32 %f429, 0f394aced7; // 0.000193413
mov.f32 %f430, %f429;
mad.f32 %f431, %f427, %f428, %f430;
mov.f32 %f11, %f431;
mov.f32 %f432, %f11;
mov.f32 %f433, %f410;
mov.f32 %f434, 0fbb0f1a0c; // -0.00218356
mov.f32 %f435, %f434;
mad.f32 %f436, %f432, %f433, %f435;
mov.f32 %f11, %f436;
mov.f32 %f437, %f11;
mov.f32 %f438, %f410;
mov.f32 %f439, 0fbbe07f2e; // -0.0068511
mov.f32 %f440, %f439;
mad.f32 %f441, %f437, %f438, %f440;
mov.f32 %f11, %f441;
mov.f32 %f442, %f11;
mov.f32 %f443, %f410;
mov.f32 %f444, 0f3d6fb6b5; // 0.0585239
mov.f32 %f445, %f444;
mad.f32 %f446, %f442, %f443, %f445;
mov.f32 %f11, %f446;
mov.f32 %f447, %f11;
mov.f32 %f448, %f410;
mov.f32 %f449, 0f3d504df1; // 0.0508556
mov.f32 %f450, %f449;
mad.f32 %f451, %f447, %f448, %f450;
mov.f32 %f11, %f451;
mov.f32 %f452, %f11;
mov.f32 %f453, %f410;
mov.f32 %f454, 0fbece1a13; // -0.402543
mov.f32 %f455, %f454;
mad.f32 %f456, %f452, %f453, %f455;
mov.f32 %f11, %f456;
.loc 17 9695 0
mul.f32 %f339, %f410, %f11;
bra.uni $Lt_70_53506;
$Lt_70_53762:
mov.f32 %f457, 0f410a7798; // 8.6542
setp.le.f32 %p28, %f2, %f457;
@!%p28 bra $Lt_70_54274;
.loc 17 8429 0
mov.f32 %f458, 0fc0e2c0ee; // -7.08605
add.f32 %f459, %f2, %f458;
mov.f32 %f460, 0fb39ce420; // -7.30581e-008
add.f32 %f461, %f459, %f460;
mov.f32 %f462, 0f3510cebe; // 5.3945e-007
mov.f32 %f463, %f462;
mov.f32 %f464, %f461;
mov.f32 %f465, 0f3629da6c; // 2.53101e-006
mov.f32 %f466, %f465;
mad.f32 %f467, %f463, %f464, %f466;
mov.f32 %f11, %f467;
mov.f32 %f468, %f11;
mov.f32 %f469, %f461;
mov.f32 %f470, 0fb84054c0; // -4.58553e-005
mov.f32 %f471, %f470;
mad.f32 %f472, %f468, %f469, %f471;
mov.f32 %f11, %f472;
mov.f32 %f473, %f11;
mov.f32 %f474, %f461;
mov.f32 %f475, 0fb91318ab; // -0.000140282
mov.f32 %f476, %f475;
mad.f32 %f477, %f473, %f474, %f476;
mov.f32 %f11, %f477;
mov.f32 %f478, %f11;
mov.f32 %f479, %f461;
mov.f32 %f480, 0f3b0e9921; // 0.00217588
mov.f32 %f481, %f480;
mad.f32 %f482, %f478, %f479, %f481;
mov.f32 %f11, %f482;
mov.f32 %f483, %f11;
mov.f32 %f484, %f461;
mov.f32 %f485, 0f3b5974d5; // 0.00331812
mov.f32 %f486, %f485;
mad.f32 %f487, %f483, %f484, %f486;
mov.f32 %f11, %f487;
mov.f32 %f488, %f11;
mov.f32 %f489, %f461;
mov.f32 %f490, 0fbd44b4d7; // -0.048024
mov.f32 %f491, %f490;
mad.f32 %f492, %f488, %f489, %f491;
mov.f32 %f11, %f492;
mov.f32 %f493, %f11;
mov.f32 %f494, %f461;
mov.f32 %f495, 0fbcad7799; // -0.0211752
mov.f32 %f496, %f495;
mad.f32 %f497, %f493, %f494, %f496;
mov.f32 %f11, %f497;
mov.f32 %f498, %f11;
mov.f32 %f499, %f461;
mov.f32 %f500, 0f3e99a665; // 0.300098
mov.f32 %f501, %f500;
mad.f32 %f502, %f498, %f499, %f501;
mov.f32 %f11, %f502;
.loc 17 9707 0
mul.f32 %f339, %f461, %f11;
bra.uni $Lt_70_54018;
$Lt_70_54274:
.loc 17 9708 0
mov.f32 %f503, 0f7f800000; // 1.#INF
setp.eq.f32 %p29, %f2, %f503;
@%p29 bra $Lt_70_54786;
.loc 17 8437 0
mov.f32 %f504, %f2;
rcp.approx.ftz.f32 %f505,%f504;
mov.f32 %f506, %f505;
.loc 17 8429 0
mul.f32 %f507, %f506, %f506;
mov.f32 %f508, 0fbecc69f3; // -0.399246
mov.f32 %f509, %f508;
mov.f32 %f510, %f507;
mov.f32 %f511, 0f3dd0d5f0; // 0.101971
mov.f32 %f512, %f511;
mad.f32 %f513, %f509, %f510, %f512;
mov.f32 %f11, %f513;
mov.f32 %f514, %f11;
mov.f32 %f515, %f507;
mov.f32 %f516, 0fbd7ff855; // -0.0624927
mov.f32 %f517, %f516;
mad.f32 %f518, %f514, %f515, %f517;
mov.f32 %f11, %f518;
mov.f32 %f519, %f11;
mov.f32 %f520, %f507;
mov.f32 %f521, 0f3f800000; // 1
mov.f32 %f522, %f521;
mad.f32 %f523, %f519, %f520, %f522;
mov.f32 %f524, %f523;
mov.f32 %f525, 0f3f8ccd61; // 1.10002
mov.f32 %f526, %f525;
mov.f32 %f527, %f507;
mov.f32 %f528, 0fbe50d31c; // -0.20393
mov.f32 %f529, %f528;
mad.f32 %f530, %f526, %f527, %f529;
mov.f32 %f11, %f530;
mov.f32 %f531, %f11;
mov.f32 %f532, %f507;
mov.f32 %f533, 0f3d854783; // 0.0650778
mov.f32 %f534, %f533;
mad.f32 %f535, %f531, %f532, %f534;
mov.f32 %f11, %f535;
mov.f32 %f536, %f11;
mov.f32 %f537, %f507;
mov.f32 %f538, 0fbdfffffb; // -0.125
mov.f32 %f539, %f538;
mad.f32 %f540, %f536, %f537, %f539;
mov.f32 %f11, %f540;
mov.f32 %f541, %f11;
mov.f32 %f542, %f506;
mov.f32 %f543, %f2;
mad.f32 %f544, %f541, %f542, %f543;
mov.f32 %f11, %f544;
.loc 17 8726 0
mov.f32 %f545, 0f3f22f983; // 0.63662
mul.f32 %f546, %f11, %f545;
cvt.rni.s32.f32 %r177, %f546;
mov.s32 %r178, %r177;
.loc 17 8429 0
cvt.rn.f32.s32 %f547, %r177;
neg.f32 %f548, %f547;
mov.f32 %f549, %f548;
mov.f32 %f550, 0f3fc90000; // 1.57031
mov.f32 %f551, %f550;
mov.f32 %f552, %f11;
mad.f32 %f553, %f549, %f551, %f552;
mov.f32 %f554, %f553;
mov.f32 %f555, %f548;
mov.f32 %f556, 0f39fd8000; // 0.000483513
mov.f32 %f557, %f556;
mov.f32 %f558, %f554;
mad.f32 %f559, %f555, %f557, %f558;
mov.f32 %f560, %f559;
mov.f32 %f561, %f548;
mov.f32 %f562, 0f34a88000; // 3.13856e-007
mov.f32 %f563, %f562;
mov.f32 %f564, %f560;
mad.f32 %f565, %f561, %f563, %f564;
mov.f32 %f566, %f565;
mov.f32 %f567, %f548;
mov.f32 %f568, 0f2e85a309; // 6.0771e-011
mov.f32 %f569, %f568;
mov.f32 %f570, %f566;
mad.f32 %f571, %f567, %f569, %f570;
mov.f32 %f572, %f571;
.loc 17 8737 0
mov.f32 %f573, %f572;
abs.f32 %f574, %f11;
mov.f32 %f575, 0f473ba700; // 48039
setp.gt.f32 %p30, %f574, %f575;
@!%p30 bra $Lt_70_55042;
.loc 17 8740 0
mov.u32 %r21, __cudart_i2opi_f;
.loc 17 8658 0
mov.b32 %r179, %f11;
and.b32 %r180, %r179, -2147483648;
mov.s32 %r181, %r180;
.loc 17 24 0
shl.b32 %r182, %r179, 8;
mov.s32 %r183, %r21;
add.u32 %r27, %r21, 24;
mov.u32 %r184, __cuda___cuda_result_721304;
or.b32 %r185, %r182, -2147483648;
mov.u32 %r186, 0;
$Lt_70_56066:
// Loop body line 24, nesting depth: 1, iterations: 6
.loc 17 8674 0
ld.const.u32 %r187, [%r183+0];
mul.lo.u32 %r188, %r185, %r187;
add.u32 %r189, %r188, %r186;
.loc 17 8675 0
set.gt.u32.u32 %r190, %r188, %r189;
neg.s32 %r191, %r190;
mul.hi.u32 %r192, %r187, %r185;
add.u32 %r186, %r191, %r192;
.loc 17 8676 0
st.local.u32 [%r184+0], %r189;
add.u32 %r184, %r184, 4;
add.u32 %r183, %r183, 4;
setp.ne.u32 %p31, %r183, %r27;
@%p31 bra $Lt_70_56066;
.loc 17 8678 0
st.local.u32 [__cuda___cuda_result_721304+24], %r186;
.loc 17 8683 0
shl.b32 %r193, %r179, 1;
shr.u32 %r194, %r193, 24;
sub.u32 %r195, %r194, 128;
shr.u32 %r196, %r195, 5;
mov.s32 %r197, 4;
sub.s32 %r198, %r197, %r196;
mul.lo.u32 %r199, %r198, 4;
mov.u32 %r200, __cuda___cuda_result_721304;
add.u32 %r201, %r199, %r200;
ld.local.u32 %r186, [%r201+8];
.loc 17 8684 0
ld.local.u32 %r202, [%r201+4];
and.b32 %r203, %r195, 31;
mov.u32 %r204, 0;
setp.eq.u32 %p32, %r203, %r204;
@%p32 bra $Lt_70_56578;
.loc 17 8687 0
mov.s32 %r205, 32;
sub.s32 %r206, %r205, %r203;
shr.u32 %r207, %r202, %r206;
shl.b32 %r208, %r186, %r203;
add.u32 %r186, %r207, %r208;
.loc 17 8688 0
ld.local.u32 %r209, [%r201+0];
shr.u32 %r210, %r209, %r206;
shl.b32 %r211, %r202, %r203;
add.u32 %r202, %r210, %r211;
$Lt_70_56578:
.loc 17 8690 0
shr.u32 %r212, %r186, 30;
.loc 17 8692 0
shr.u32 %r213, %r202, 30;
shl.b32 %r214, %r186, 2;
add.u32 %r186, %r213, %r214;
.loc 17 8693 0
shl.b32 %r202, %r202, 2;
.loc 17 8695 0
shr.u32 %r215, %r186, 31;
add.u32 %r216, %r212, %r215;
.loc 17 8690 0
neg.s32 %r217, %r216;
mov.u32 %r218, 0;
setp.ne.u32 %p33, %r180, %r218;
selp.s32 %r219, %r217, %r216, %p33;
.loc 17 8697 0
mov.s32 %r178, %r219;
mov.u32 %r220, 0;
setp.eq.u32 %p34, %r215, %r220;
@%p34 bra $Lt_70_57090;
.loc 17 8701 0
neg.s32 %r202, %r202;
.loc 17 8703 0
mov.u32 %r221, 0;
set.eq.u32.u32 %r222, %r202, %r221;
neg.s32 %r223, %r222;
not.b32 %r224, %r186;
add.u32 %r186, %r223, %r224;
.loc 17 8704 0
xor.b32 %r181, %r180, -2147483648;
$Lt_70_57090:
.loc 17 8707 0
mov.u32 %r225, 0;
setp.eq.s32 %p35, %r186, %r225;
@%p35 bra $Lt_70_57858;
.loc 19 4479 0
cvt.rz.f32.u32 %f576, %r186;
mov.b32 %r226, %f576;
shr.s32 %r227, %r226, 23;
mov.s32 %r228, 158;
sub.s32 %r229, %r228, %r227;
bra.uni $Lt_70_57602;
$Lt_70_57858:
mov.s32 %r229, 32;
$Lt_70_57602:
.loc 17 8707 0
mov.s32 %r230, %r229;
mov.s32 %r231, %r230;
.loc 19 4479 0
mov.s32 %r232, 32;
sub.s32 %r233, %r232, %r230;
shr.u32 %r234, %r202, %r233;
shl.b32 %r235, %r186, %r230;
add.u32 %r236, %r234, %r235;
mov.u32 %r237, 0;
setp.ne.u32 %p36, %r230, %r237;
selp.u32 %r238, %r236, %r186, %p36;
.loc 17 8711 0
mul.lo.u32 %r202, %r238, -921707870;
.loc 17 8712 0
mov.u32 %r239, -921707870;
mul.hi.u32 %r186, %r238, %r239;
mov.u32 %r240, 0;
setp.le.s32 %p37, %r186, %r240;
@%p37 bra $Lt_70_58114;
.loc 17 8714 0
shr.u32 %r241, %r202, 31;
shl.b32 %r242, %r186, 1;
add.u32 %r186, %r241, %r242;
.loc 17 8715 0
add.u32 %r231, %r230, 1;
$Lt_70_58114:
.loc 17 8740 0
add.u32 %r243, %r186, 1;
shr.u32 %r244, %r243, 7;
add.u32 %r245, %r244, 1;
shr.u32 %r246, %r245, 1;
mov.s32 %r247, 126;
sub.s32 %r248, %r247, %r231;
shl.b32 %r249, %r248, 23;
add.u32 %r250, %r246, %r249;
or.b32 %r251, %r181, %r250;
mov.b32 %f573, %r251;
$Lt_70_55042:
.loc 17 8990 0
mov.u32 %r21, __cudart_i2opi_f;
mov.f32 %f577, 0fc016cbe4; // -2.35619
add.f32 %f578, %f573, %f577;
and.b32 %r252, %r178, 3;
cvt.rn.f32.s32 %f579, %r252;
mov.f32 %f580, 0f3fc90fdb; // 1.5708
mad.f32 %f581, %f579, %f580, %f578;
mov.f32 %f582, %f581;
.loc 17 8970 0
abs.f32 %f583, %f581;
mov.f32 %f584, 0f7f800000; // 1.#INF
setp.eq.f32 %p38, %f583, %f584;
@!%p38 bra $Lt_70_58626;
.loc 17 8971 0
mov.f32 %f585, 0f00000000; // 0
mul.rn.f32 %f582, %f581, %f585;
$Lt_70_58626:
.loc 17 8726 0
mov.f32 %f586, 0f3f22f983; // 0.63662
mul.f32 %f587, %f582, %f586;
cvt.rni.s32.f32 %r253, %f587;
mov.s32 %r254, %r253;
.loc 17 8429 0
cvt.rn.f32.s32 %f588, %r253;
neg.f32 %f589, %f588;
mov.f32 %f590, %f589;
mov.f32 %f591, 0f3fc90000; // 1.57031
mov.f32 %f592, %f591;
mov.f32 %f593, %f582;
mad.f32 %f594, %f590, %f592, %f593;
mov.f32 %f595, %f594;
mov.f32 %f596, %f589;
mov.f32 %f597, 0f39fd8000; // 0.000483513
mov.f32 %f598, %f597;
mov.f32 %f599, %f595;
mad.f32 %f600, %f596, %f598, %f599;
mov.f32 %f601, %f600;
mov.f32 %f602, %f589;
mov.f32 %f603, 0f34a88000; // 3.13856e-007
mov.f32 %f604, %f603;
mov.f32 %f605, %f601;
mad.f32 %f606, %f602, %f604, %f605;
mov.f32 %f607, %f606;
mov.f32 %f608, %f589;
mov.f32 %f609, 0f2e85a309; // 6.0771e-011
mov.f32 %f610, %f609;
mov.f32 %f611, %f607;
mad.f32 %f612, %f608, %f610, %f611;
mov.f32 %f613, %f612;
.loc 17 8737 0
mov.f32 %f614, %f613;
abs.f32 %f615, %f582;
mov.f32 %f616, 0f473ba700; // 48039
setp.gt.f32 %p39, %f615, %f616;
@!%p39 bra $Lt_70_59138;
.loc 17 8658 0
mov.b32 %r255, %f582;
and.b32 %r256, %r255, -2147483648;
mov.s32 %r257, %r256;
.loc 17 24 0
shl.b32 %r258, %r255, 8;
mov.s32 %r259, %r21;
add.u32 %r27, %r21, 24;
mov.u32 %r260, __cuda___cuda_result_1001332;
or.b32 %r261, %r258, -2147483648;
mov.u32 %r262, 0;
$Lt_70_60162:
// Loop body line 24, nesting depth: 1, iterations: 6
.loc 17 8674 0
ld.const.u32 %r263, [%r259+0];
mul.lo.u32 %r264, %r261, %r263;
add.u32 %r265, %r264, %r262;
.loc 17 8675 0
set.gt.u32.u32 %r266, %r264, %r265;
neg.s32 %r267, %r266;
mul.hi.u32 %r268, %r263, %r261;
add.u32 %r262, %r267, %r268;
.loc 17 8676 0
st.local.u32 [%r260+0], %r265;
add.u32 %r260, %r260, 4;
add.u32 %r259, %r259, 4;
setp.ne.u32 %p40, %r259, %r27;
@%p40 bra $Lt_70_60162;
.loc 17 8678 0
st.local.u32 [__cuda___cuda_result_1001332+24], %r262;
.loc 17 8683 0
shl.b32 %r269, %r255, 1;
shr.u32 %r270, %r269, 24;
sub.u32 %r271, %r270, 128;
shr.u32 %r272, %r271, 5;
mov.s32 %r273, 4;
sub.s32 %r274, %r273, %r272;
mul.lo.u32 %r275, %r274, 4;
mov.u32 %r276, __cuda___cuda_result_1001332;
add.u32 %r277, %r275, %r276;
ld.local.u32 %r262, [%r277+8];
.loc 17 8684 0
ld.local.u32 %r278, [%r277+4];
and.b32 %r279, %r271, 31;
mov.u32 %r280, 0;
setp.eq.u32 %p41, %r279, %r280;
@%p41 bra $Lt_70_60674;
.loc 17 8687 0
mov.s32 %r281, 32;
sub.s32 %r282, %r281, %r279;
shr.u32 %r283, %r278, %r282;
shl.b32 %r284, %r262, %r279;
add.u32 %r262, %r283, %r284;
.loc 17 8688 0
ld.local.u32 %r285, [%r277+0];
shr.u32 %r286, %r285, %r282;
shl.b32 %r287, %r278, %r279;
add.u32 %r278, %r286, %r287;
$Lt_70_60674:
.loc 17 8690 0
shr.u32 %r288, %r262, 30;
.loc 17 8692 0
shr.u32 %r289, %r278, 30;
shl.b32 %r290, %r262, 2;
add.u32 %r262, %r289, %r290;
.loc 17 8693 0
shl.b32 %r278, %r278, 2;
.loc 17 8695 0
shr.u32 %r291, %r262, 31;
add.u32 %r292, %r288, %r291;
.loc 17 8690 0
neg.s32 %r293, %r292;
mov.u32 %r294, 0;
setp.ne.u32 %p42, %r256, %r294;
selp.s32 %r295, %r293, %r292, %p42;
.loc 17 8697 0
mov.s32 %r254, %r295;
mov.u32 %r296, 0;
setp.eq.u32 %p43, %r291, %r296;
@%p43 bra $Lt_70_61186;
.loc 17 8701 0
neg.s32 %r278, %r278;
.loc 17 8703 0
mov.u32 %r297, 0;
set.eq.u32.u32 %r298, %r278, %r297;
neg.s32 %r299, %r298;
not.b32 %r300, %r262;
add.u32 %r262, %r299, %r300;
.loc 17 8704 0
xor.b32 %r257, %r256, -2147483648;
$Lt_70_61186:
.loc 17 8707 0
mov.u32 %r301, 0;
setp.eq.s32 %p44, %r262, %r301;
@%p44 bra $Lt_70_61954;
.loc 19 4479 0
cvt.rz.f32.u32 %f617, %r262;
mov.b32 %r302, %f617;
shr.s32 %r303, %r302, 23;
mov.s32 %r304, 158;
sub.s32 %r305, %r304, %r303;
bra.uni $Lt_70_61698;
$Lt_70_61954:
mov.s32 %r305, 32;
$Lt_70_61698:
.loc 17 8707 0
mov.s32 %r306, %r305;
mov.s32 %r307, %r306;
.loc 19 4479 0
mov.s32 %r308, 32;
sub.s32 %r309, %r308, %r306;
shr.u32 %r310, %r278, %r309;
shl.b32 %r311, %r262, %r306;
add.u32 %r312, %r310, %r311;
mov.u32 %r313, 0;
setp.ne.u32 %p45, %r306, %r313;
selp.u32 %r314, %r312, %r262, %p45;
.loc 17 8711 0
mul.lo.u32 %r278, %r314, -921707870;
.loc 17 8712 0
mov.u32 %r315, -921707870;
mul.hi.u32 %r262, %r314, %r315;
mov.u32 %r316, 0;
setp.le.s32 %p46, %r262, %r316;
@%p46 bra $Lt_70_62210;
.loc 17 8714 0
shr.u32 %r317, %r278, 31;
shl.b32 %r318, %r262, 1;
add.u32 %r262, %r317, %r318;
.loc 17 8715 0
add.u32 %r307, %r306, 1;
$Lt_70_62210:
.loc 17 8740 0
add.u32 %r319, %r262, 1;
shr.u32 %r320, %r319, 7;
add.u32 %r321, %r320, 1;
shr.u32 %r322, %r321, 1;
mov.s32 %r323, 126;
sub.s32 %r324, %r323, %r307;
shl.b32 %r325, %r324, 23;
add.u32 %r326, %r322, %r325;
or.b32 %r327, %r257, %r326;
mov.b32 %f614, %r327;
$Lt_70_59138:
.loc 17 8975 0
add.s32 %r328, %r254, 1;
mul.f32 %f618, %f614, %f614;
and.b32 %r329, %r328, 1;
mov.u32 %r330, 0;
setp.eq.s32 %p47, %r329, %r330;
@%p47 bra $Lt_70_62978;
.loc 17 8429 0
mov.f32 %f619, 0f37ccf5ce; // 2.44332e-005
mov.f32 %f620, %f619;
mov.f32 %f621, %f618;
mov.f32 %f622, 0fbab6061a; // -0.00138873
mov.f32 %f623, %f622;
mad.f32 %f624, %f620, %f621, %f623;
mov.f32 %f625, %f624;
mov.f32 %f626, %f625;
mov.f32 %f627, %f618;
mov.f32 %f628, 0f3d2aaaa5; // 0.0416666
mov.f32 %f629, %f628;
mad.f32 %f630, %f626, %f627, %f629;
mov.f32 %f631, %f630;
mov.f32 %f632, %f631;
mov.f32 %f633, %f618;
mov.f32 %f634, 0fbf000000; // -0.5
mov.f32 %f635, %f634;
mad.f32 %f636, %f632, %f633, %f635;
mov.f32 %f637, %f636;
mov.f32 %f638, %f637;
mov.f32 %f639, %f618;
mov.f32 %f640, 0f3f800000; // 1
mov.f32 %f641, %f640;
mad.f32 %f642, %f638, %f639, %f641;
mov.f32 %f643, %f642;
.loc 17 8936 0
mov.f32 %f644, %f643;
bra.uni $Lt_70_62722;
$Lt_70_62978:
.loc 17 8429 0
mov.f32 %f645, 0fb94ca1f9; // -0.000195153
mov.f32 %f646, %f645;
mov.f32 %f647, %f618;
mov.f32 %f648, 0f3c08839e; // 0.00833216
mov.f32 %f649, %f648;
mad.f32 %f650, %f646, %f647, %f649;
mov.f32 %f651, %f650;
mov.f32 %f652, %f651;
mov.f32 %f653, %f618;
mov.f32 %f654, 0fbe2aaaa3; // -0.166667
mov.f32 %f655, %f654;
mad.f32 %f656, %f652, %f653, %f655;
mov.f32 %f657, %f656;
mul.f32 %f658, %f618, %f657;
mov.f32 %f659, %f658;
mov.f32 %f660, %f614;
mov.f32 %f661, %f614;
mad.f32 %f662, %f659, %f660, %f661;
mov.f32 %f663, %f662;
.loc 17 8938 0
mov.f32 %f644, %f663;
$Lt_70_62722:
and.b32 %r331, %r328, 2;
mov.u32 %r332, 0;
setp.eq.s32 %p48, %r331, %r332;
@%p48 bra $Lt_70_63234;
.loc 17 8429 0
mov.f32 %f664, %f644;
mov.f32 %f665, 0fbf800000; // -1
mov.f32 %f666, %f665;
mov.f32 %f667, 0f00000000; // 0
mov.f32 %f668, %f667;
mad.f32 %f669, %f664, %f666, %f668;
mov.f32 %f670, %f669;
.loc 17 8941 0
mov.f32 %f644, %f670;
$Lt_70_63234:
.loc 17 9721 0
rsqrt.approx.f32 %f671, %f2;
mov.f32 %f672, 0f3f4c422a; // 0.797885
mul.f32 %f673, %f671, %f672;
mul.f32 %f674, %f524, %f673;
mul.f32 %f339, %f644, %f674;
bra.uni $Lt_70_54530;
$Lt_70_54786:
.loc 17 9724 0
mov.f32 %f339, 0f00000000; // 0
$Lt_70_54530:
$Lt_70_54018:
$Lt_70_53506:
$Lt_70_52994:
$Lt_70_41730:
mov.f32 %f675, 0f00000000; // 0
setp.lt.f32 %p49, %f1, %f675;
@!%p49 bra $Lt_70_63746;
.loc 17 9727 0
mov.f32 %f676, 0fbf800000; // -1
sqrt.approx.f32 %f339, %f676;
$Lt_70_63746:
.loc 15 856 0
cvt.f64.f32 %fd2, %f339;
ld.param.u32 %r333, [__cudaparm_vec_y0_result];
add.u32 %r334, %r333, %r5;
st.global.f64 [%r334+0], %fd2;
$Lt_70_41218:
.loc 15 858 0
exit;
$LDWend_vec_y0:
} // vec_y0
.entry vec_y1 (
.param .u32 __cudaparm_vec_y1_n,
.param .u32 __cudaparm_vec_y1_result,
.param .u32 __cudaparm_vec_y1_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<341>;
.reg .f32 %f<662>;
.reg .f64 %fd<4>;
.reg .pred %p<54>;
.local .align 4 .b8 __cuda___cuda_result_161372[28];
.local .align 4 .b8 __cuda___cuda_result_441400[28];
.local .align 4 .b8 __cuda___cuda_result_721428[28];
.local .align 4 .b8 __cuda___cuda_result_1001456[28];
.loc 15 863 0
$LDWbegin_vec_y1:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_y1_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_71_43522;
.loc 15 868 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_y1_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
abs.f32 %f2, %f1;
mov.f32 %f3, 0f00800000; // 1.17549e-038
setp.lt.f32 %p2, %f2, %f3;
@!%p2 bra $Lt_71_44290;
.loc 17 9739 0
mov.f32 %f4, 0fbf22f983; // -0.63662
div.full.f32 %f5, %f4, %f2;
bra.uni $Lt_71_44034;
$Lt_71_44290:
mov.f32 %f6, 0f3fd96ac4; // 1.69857
setp.le.f32 %p3, %f2, %f6;
@!%p3 bra $Lt_71_44802;
.loc 17 8429 0
mul.f32 %f7, %f2, %f2;
mov.f32 %f8, 0f321462cc; // 8.6372e-009
mov.f32 %f9, %f8;
mov.f32 %f10, %f7;
mov.f32 %f11, 0fb58527da; // -9.92087e-007
mov.f32 %f12, %f11;
mad.f32 %f13, %f9, %f10, %f12;
mov.f32 %f14, %f13;
mov.f32 %f15, %f14;
mov.f32 %f16, %f7;
mov.f32 %f17, 0f38963e95; // 7.16421e-005
mov.f32 %f18, %f17;
mad.f32 %f19, %f15, %f16, %f18;
mov.f32 %f14, %f19;
mov.f32 %f20, %f14;
mov.f32 %f21, %f7;
mov.f32 %f22, 0fbb41adcb; // -0.00295531
mov.f32 %f23, %f22;
mad.f32 %f24, %f20, %f21, %f23;
mov.f32 %f14, %f24;
mov.f32 %f25, %f14;
mov.f32 %f26, %f7;
mov.f32 %f27, 0f3d5e9cbb; // 0.0543487
mov.f32 %f28, %f27;
mad.f32 %f29, %f25, %f26, %f28;
mov.f32 %f14, %f29;
mov.f32 %f30, %f14;
mov.f32 %f31, %f7;
mov.f32 %f32, 0fbe48c331; // -0.196057
mov.f32 %f33, %f32;
mad.f32 %f34, %f30, %f31, %f33;
mov.f32 %f14, %f34;
.loc 17 9365 0
mov.f32 %f35, 0f00000000; // 0
set.gt.u32.f32 %r8, %f2, %f35;
neg.s32 %r9, %r8;
mov.f32 %f36, 0f7f800000; // 1.#INF
set.lt.u32.f32 %r10, %f2, %f36;
neg.s32 %r11, %r10;
and.b32 %r12, %r9, %r11;
mov.u32 %r13, 0;
setp.eq.s32 %p4, %r12, %r13;
@%p4 bra $Lt_71_45314;
.loc 17 8512 0
mov.b32 %r14, %f2;
and.b32 %r15, %r14, -2139095041;
or.b32 %r16, %r15, 1065353216;
mov.b32 %f37, %r16;
mov.f32 %f38, %f37;
.loc 17 8513 0
shr.u32 %r17, %r14, 23;
sub.u32 %r18, %r17, 127;
mov.f32 %f39, 0f3fb504f3; // 1.41421
setp.gt.f32 %p5, %f37, %f39;
@!%p5 bra $Lt_71_45570;
.loc 17 8515 0
mov.f32 %f40, 0f3f000000; // 0.5
mul.f32 %f38, %f37, %f40;
.loc 17 8516 0
add.s32 %r18, %r18, 1;
$Lt_71_45570:
.loc 17 8429 0
mov.f32 %f41, 0fbf800000; // -1
add.f32 %f42, %f38, %f41;
mov.f32 %f43, 0f3f800000; // 1
add.f32 %f44, %f38, %f43;
neg.f32 %f45, %f42;
div.approx.f32 %f46, %f42, %f44;
mul.rn.f32 %f47, %f45, %f46;
add.rn.f32 %f48, %f42, %f47;
mul.f32 %f49, %f48, %f48;
mov.f32 %f50, 0f3b2063c3; // 0.00244735
mov.f32 %f51, %f50;
mov.f32 %f52, %f49;
mov.f32 %f53, 0f3c4c4be0; // 0.0124693
mov.f32 %f54, %f53;
mad.f32 %f55, %f51, %f52, %f54;
mov.f32 %f56, %f55;
mov.f32 %f57, %f56;
mov.f32 %f58, %f49;
mov.f32 %f59, 0f3daaab50; // 0.0833346
mov.f32 %f60, %f59;
mad.f32 %f61, %f57, %f58, %f60;
mov.f32 %f62, %f61;
mul.f32 %f63, %f49, %f62;
mov.f32 %f64, %f63;
mov.f32 %f65, %f48;
mov.f32 %f66, %f47;
mad.f32 %f67, %f64, %f65, %f66;
mov.f32 %f68, %f67;
cvt.rn.f32.s32 %f69, %r18;
mov.f32 %f70, %f69;
mov.f32 %f71, 0f3f317218; // 0.693147
mov.f32 %f72, %f71;
add.f32 %f73, %f42, %f68;
mov.f32 %f74, %f73;
mad.f32 %f75, %f70, %f72, %f74;
mov.f32 %f76, %f75;
.loc 17 8523 0
mov.f32 %f77, %f76;
bra.uni $Lt_71_45058;
$Lt_71_45314:
.loc 17 8526 0
lg2.approx.f32 %f78, %f2;
mov.f32 %f79, 0f3f317218; // 0.693147
mul.f32 %f77, %f78, %f79;
$Lt_71_45058:
.loc 17 9755 0
mov.f32 %f80, 0f40fb3333; // 7.85
setp.le.f32 %p6, %f2, %f80;
@!%p6 bra $Lt_71_46338;
.loc 17 8429 0
mov.f32 %f81, 0fc0753aac; // -3.83171
add.f32 %f82, %f2, %f81;
mov.f32 %f83, 0f33a5090f; // 7.68506e-008
add.f32 %f84, %f82, %f83;
mov.f32 %f85, 0f29af3463; // 7.78065e-014
mov.f32 %f86, %f85;
mov.f32 %f87, %f84;
mov.f32 %f88, 0f2b81bf42; // 9.21909e-013
mov.f32 %f89, %f88;
mad.f32 %f90, %f86, %f87, %f89;
mov.f32 %f91, %f90;
mov.f32 %f92, %f91;
mov.f32 %f93, %f84;
mov.f32 %f94, 0fade21ec1; // -2.57069e-011
mov.f32 %f95, %f94;
mad.f32 %f96, %f92, %f93, %f95;
mov.f32 %f91, %f96;
mov.f32 %f97, %f91;
mov.f32 %f98, %f84;
mov.f32 %f99, 0faf5ddeff; // -2.01791e-010
mov.f32 %f100, %f99;
mad.f32 %f101, %f97, %f98, %f100;
mov.f32 %f91, %f101;
mov.f32 %f102, %f91;
mov.f32 %f103, %f84;
mov.f32 %f104, 0f319b0c9d; // 4.51253e-009
mov.f32 %f105, %f104;
mad.f32 %f106, %f102, %f103, %f105;
mov.f32 %f91, %f106;
mov.f32 %f107, %f91;
mov.f32 %f108, %f84;
mov.f32 %f109, 0f32e81173; // 2.70163e-008
mov.f32 %f110, %f109;
mad.f32 %f111, %f107, %f108, %f110;
mov.f32 %f91, %f111;
mov.f32 %f112, %f91;
mov.f32 %f113, %f84;
mov.f32 %f114, 0fb50f8dc8; // -5.3478e-007
mov.f32 %f115, %f114;
mad.f32 %f116, %f112, %f113, %f115;
mov.f32 %f91, %f116;
mov.f32 %f117, %f91;
mov.f32 %f118, %f84;
mov.f32 %f119, 0fb61e653d; // -2.36028e-006
mov.f32 %f120, %f119;
mad.f32 %f121, %f117, %f118, %f120;
mov.f32 %f91, %f121;
mov.f32 %f122, %f91;
mov.f32 %f123, %f84;
mov.f32 %f124, 0f382cd9c5; // 4.12108e-005
mov.f32 %f125, %f124;
mad.f32 %f126, %f122, %f123, %f125;
mov.f32 %f91, %f126;
mov.f32 %f127, %f91;
mov.f32 %f128, %f84;
mov.f32 %f129, 0f38f9eb10; // 0.00011917
mov.f32 %f130, %f129;
mad.f32 %f131, %f127, %f128, %f130;
mov.f32 %f91, %f131;
mov.f32 %f132, %f91;
mov.f32 %f133, %f84;
mov.f32 %f134, 0fbaeceb9c; // -0.00180756
mov.f32 %f135, %f134;
mad.f32 %f136, %f132, %f133, %f135;
mov.f32 %f91, %f136;
mov.f32 %f137, %f91;
mov.f32 %f138, %f84;
mov.f32 %f139, 0fbb276ffd; // -0.00255489
mov.f32 %f140, %f139;
mad.f32 %f141, %f137, %f138, %f140;
mov.f32 %f91, %f141;
mov.f32 %f142, %f91;
mov.f32 %f143, %f84;
mov.f32 %f144, 0f3d073993; // 0.0330139
mov.f32 %f145, %f144;
mad.f32 %f146, %f142, %f143, %f145;
mov.f32 %f91, %f146;
.loc 17 9616 0
mov.f32 %f147, 0fc0e07fb0; // -7.01559
add.f32 %f148, %f2, %f147;
mov.f32 %f149, 0f3444b8db; // 1.83212e-007
add.f32 %f150, %f148, %f149;
mul.f32 %f151, %f91, %f150;
mul.f32 %f152, %f84, %f151;
mul.f32 %f153, %f2, %f152;
bra.uni $Lt_71_46082;
$Lt_71_46338:
.loc 17 9617 0
mov.f32 %f154, 0f7f800000; // 1.#INF
setp.eq.f32 %p7, %f2, %f154;
@%p7 bra $Lt_71_46850;
.loc 17 8437 0
mov.f32 %f155, %f2;
rcp.approx.ftz.f32 %f156,%f155;
mov.f32 %f157, %f156;
.loc 17 8429 0
mul.f32 %f158, %f157, %f157;
mov.f32 %f159, 0fc082cb37; // -4.08731
mov.f32 %f160, %f159;
mov.f32 %f161, %f158;
mov.f32 %f162, 0f3f3ff7e9; // 0.749877
mov.f32 %f163, %f162;
mad.f32 %f164, %f160, %f161, %f163;
mov.f32 %f91, %f164;
mov.f32 %f165, %f91;
mov.f32 %f166, %f158;
mov.f32 %f167, 0fbe458bae; // -0.192916
mov.f32 %f168, %f167;
mad.f32 %f169, %f165, %f166, %f168;
mov.f32 %f91, %f169;
mov.f32 %f170, %f91;
mov.f32 %f171, %f158;
mov.f32 %f172, 0f3e3fff8b; // 0.187498
mov.f32 %f173, %f172;
mad.f32 %f174, %f170, %f171, %f173;
mov.f32 %f91, %f174;
mov.f32 %f175, %f91;
mov.f32 %f176, %f158;
mov.f32 %f177, 0f3f800000; // 1
mov.f32 %f178, %f177;
mad.f32 %f179, %f175, %f176, %f178;
mov.f32 %f180, %f179;
mov.f32 %f181, 0fbfca3ba2; // -1.57994
mov.f32 %f182, %f181;
mov.f32 %f183, %f158;
mov.f32 %f184, 0f3eb914ad; // 0.361486
mov.f32 %f185, %f184;
mad.f32 %f186, %f182, %f183, %f185;
mov.f32 %f91, %f186;
mov.f32 %f187, %f91;
mov.f32 %f188, %f158;
mov.f32 %f189, 0fbe27f2ec; // -0.164013
mov.f32 %f190, %f189;
mad.f32 %f191, %f187, %f188, %f190;
mov.f32 %f91, %f191;
mov.f32 %f192, %f91;
mov.f32 %f193, %f158;
mov.f32 %f194, 0f3ebffffd; // 0.375
mov.f32 %f195, %f194;
mad.f32 %f196, %f192, %f193, %f195;
mov.f32 %f91, %f196;
mov.f32 %f197, %f91;
mov.f32 %f198, %f157;
mov.f32 %f199, %f2;
mad.f32 %f200, %f197, %f198, %f199;
mov.f32 %f91, %f200;
.loc 17 8726 0
mov.f32 %f201, 0f3f22f983; // 0.63662
mul.f32 %f202, %f91, %f201;
cvt.rni.s32.f32 %r19, %f202;
mov.s32 %r20, %r19;
.loc 17 8429 0
cvt.rn.f32.s32 %f203, %r19;
neg.f32 %f204, %f203;
mov.f32 %f205, %f204;
mov.f32 %f206, 0f3fc90000; // 1.57031
mov.f32 %f207, %f206;
mov.f32 %f208, %f91;
mad.f32 %f209, %f205, %f207, %f208;
mov.f32 %f210, %f209;
mov.f32 %f211, %f204;
mov.f32 %f212, 0f39fd8000; // 0.000483513
mov.f32 %f213, %f212;
mov.f32 %f214, %f210;
mad.f32 %f215, %f211, %f213, %f214;
mov.f32 %f216, %f215;
mov.f32 %f217, %f204;
mov.f32 %f218, 0f34a88000; // 3.13856e-007
mov.f32 %f219, %f218;
mov.f32 %f220, %f216;
mad.f32 %f221, %f217, %f219, %f220;
mov.f32 %f222, %f221;
mov.f32 %f223, %f204;
mov.f32 %f224, 0f2e85a309; // 6.0771e-011
mov.f32 %f225, %f224;
mov.f32 %f226, %f222;
mad.f32 %f227, %f223, %f225, %f226;
mov.f32 %f228, %f227;
.loc 17 8737 0
mov.f32 %f229, %f228;
abs.f32 %f230, %f91;
mov.f32 %f231, 0f473ba700; // 48039
setp.gt.f32 %p8, %f230, %f231;
@!%p8 bra $Lt_71_47106;
.loc 17 8740 0
mov.u32 %r21, __cudart_i2opi_f;
.loc 17 8658 0
mov.b32 %r22, %f91;
and.b32 %r23, %r22, -2147483648;
mov.s32 %r24, %r23;
.loc 17 24 0
shl.b32 %r25, %r22, 8;
mov.s32 %r26, %r21;
add.u32 %r27, %r21, 24;
mov.u32 %r28, __cuda___cuda_result_161372;
or.b32 %r29, %r25, -2147483648;
mov.u32 %r30, 0;
$Lt_71_48130:
// Loop body line 24, nesting depth: 1, iterations: 6
.loc 17 8674 0
ld.const.u32 %r31, [%r26+0];
mul.lo.u32 %r32, %r29, %r31;
add.u32 %r33, %r32, %r30;
.loc 17 8675 0
set.gt.u32.u32 %r34, %r32, %r33;
neg.s32 %r35, %r34;
mul.hi.u32 %r36, %r31, %r29;
add.u32 %r30, %r35, %r36;
.loc 17 8676 0
st.local.u32 [%r28+0], %r33;
add.u32 %r28, %r28, 4;
add.u32 %r26, %r26, 4;
setp.ne.u32 %p9, %r26, %r27;
@%p9 bra $Lt_71_48130;
.loc 17 8678 0
st.local.u32 [__cuda___cuda_result_161372+24], %r30;
.loc 17 8683 0
shl.b32 %r37, %r22, 1;
shr.u32 %r38, %r37, 24;
sub.u32 %r39, %r38, 128;
shr.u32 %r40, %r39, 5;
mov.s32 %r41, 4;
sub.s32 %r42, %r41, %r40;
mul.lo.u32 %r43, %r42, 4;
mov.u32 %r44, __cuda___cuda_result_161372;
add.u32 %r45, %r43, %r44;
ld.local.u32 %r30, [%r45+8];
.loc 17 8684 0
ld.local.u32 %r46, [%r45+4];
and.b32 %r47, %r39, 31;
mov.u32 %r48, 0;
setp.eq.u32 %p10, %r47, %r48;
@%p10 bra $Lt_71_48642;
.loc 17 8687 0
mov.s32 %r49, 32;
sub.s32 %r50, %r49, %r47;
shr.u32 %r51, %r46, %r50;
shl.b32 %r52, %r30, %r47;
add.u32 %r30, %r51, %r52;
.loc 17 8688 0
ld.local.u32 %r53, [%r45+0];
shr.u32 %r54, %r53, %r50;
shl.b32 %r55, %r46, %r47;
add.u32 %r46, %r54, %r55;
$Lt_71_48642:
.loc 17 8690 0
shr.u32 %r56, %r30, 30;
.loc 17 8692 0
shr.u32 %r57, %r46, 30;
shl.b32 %r58, %r30, 2;
add.u32 %r30, %r57, %r58;
.loc 17 8693 0
shl.b32 %r46, %r46, 2;
.loc 17 8695 0
shr.u32 %r59, %r30, 31;
add.u32 %r60, %r56, %r59;
.loc 17 8690 0
neg.s32 %r61, %r60;
mov.u32 %r62, 0;
setp.ne.u32 %p11, %r23, %r62;
selp.s32 %r63, %r61, %r60, %p11;
.loc 17 8697 0
mov.s32 %r20, %r63;
mov.u32 %r64, 0;
setp.eq.u32 %p12, %r59, %r64;
@%p12 bra $Lt_71_49154;
.loc 17 8701 0
neg.s32 %r46, %r46;
.loc 17 8703 0
mov.u32 %r65, 0;
set.eq.u32.u32 %r66, %r46, %r65;
neg.s32 %r67, %r66;
not.b32 %r68, %r30;
add.u32 %r30, %r67, %r68;
.loc 17 8704 0
xor.b32 %r24, %r23, -2147483648;
$Lt_71_49154:
.loc 17 8707 0
mov.u32 %r69, 0;
setp.eq.s32 %p13, %r30, %r69;
@%p13 bra $Lt_71_49922;
.loc 19 4479 0
cvt.rz.f32.u32 %f232, %r30;
mov.b32 %r70, %f232;
shr.s32 %r71, %r70, 23;
mov.s32 %r72, 158;
sub.s32 %r73, %r72, %r71;
bra.uni $Lt_71_49666;
$Lt_71_49922:
mov.s32 %r73, 32;
$Lt_71_49666:
.loc 17 8707 0
mov.s32 %r74, %r73;
mov.s32 %r75, %r74;
.loc 19 4479 0
mov.s32 %r76, 32;
sub.s32 %r77, %r76, %r74;
shr.u32 %r78, %r46, %r77;
shl.b32 %r79, %r30, %r74;
add.u32 %r80, %r78, %r79;
mov.u32 %r81, 0;
setp.ne.u32 %p14, %r74, %r81;
selp.u32 %r82, %r80, %r30, %p14;
.loc 17 8711 0
mul.lo.u32 %r46, %r82, -921707870;
.loc 17 8712 0
mov.u32 %r83, -921707870;
mul.hi.u32 %r30, %r82, %r83;
mov.u32 %r84, 0;
setp.le.s32 %p15, %r30, %r84;
@%p15 bra $Lt_71_50178;
.loc 17 8714 0
shr.u32 %r85, %r46, 31;
shl.b32 %r86, %r30, 1;
add.u32 %r30, %r85, %r86;
.loc 17 8715 0
add.u32 %r75, %r74, 1;
$Lt_71_50178:
.loc 17 8740 0
add.u32 %r87, %r30, 1;
shr.u32 %r88, %r87, 7;
add.u32 %r89, %r88, 1;
shr.u32 %r90, %r89, 1;
mov.s32 %r91, 126;
sub.s32 %r92, %r91, %r75;
shl.b32 %r93, %r92, 23;
add.u32 %r94, %r90, %r93;
or.b32 %r95, %r24, %r94;
mov.b32 %f229, %r95;
$Lt_71_47106:
.loc 17 8990 0
mov.u32 %r21, __cudart_i2opi_f;
mov.f32 %f233, 0fc016cbe4; // -2.35619
add.f32 %f234, %f229, %f233;
and.b32 %r96, %r20, 3;
cvt.rn.f32.s32 %f235, %r96;
mov.f32 %f236, 0f3fc90fdb; // 1.5708
mad.f32 %f237, %f235, %f236, %f234;
mov.f32 %f238, %f237;
.loc 17 8970 0
abs.f32 %f239, %f237;
mov.f32 %f240, 0f7f800000; // 1.#INF
setp.eq.f32 %p16, %f239, %f240;
@!%p16 bra $Lt_71_50690;
.loc 17 8971 0
mov.f32 %f241, 0f00000000; // 0
mul.rn.f32 %f238, %f237, %f241;
$Lt_71_50690:
.loc 17 8726 0
mov.f32 %f242, 0f3f22f983; // 0.63662
mul.f32 %f243, %f238, %f242;
cvt.rni.s32.f32 %r97, %f243;
mov.s32 %r98, %r97;
.loc 17 8429 0
cvt.rn.f32.s32 %f244, %r97;
neg.f32 %f245, %f244;
mov.f32 %f246, %f245;
mov.f32 %f247, 0f3fc90000; // 1.57031
mov.f32 %f248, %f247;
mov.f32 %f249, %f238;
mad.f32 %f250, %f246, %f248, %f249;
mov.f32 %f251, %f250;
mov.f32 %f252, %f245;
mov.f32 %f253, 0f39fd8000; // 0.000483513
mov.f32 %f254, %f253;
mov.f32 %f255, %f251;
mad.f32 %f256, %f252, %f254, %f255;
mov.f32 %f257, %f256;
mov.f32 %f258, %f245;
mov.f32 %f259, 0f34a88000; // 3.13856e-007
mov.f32 %f260, %f259;
mov.f32 %f261, %f257;
mad.f32 %f262, %f258, %f260, %f261;
mov.f32 %f263, %f262;
mov.f32 %f264, %f245;
mov.f32 %f265, 0f2e85a309; // 6.0771e-011
mov.f32 %f266, %f265;
mov.f32 %f267, %f263;
mad.f32 %f268, %f264, %f266, %f267;
mov.f32 %f269, %f268;
.loc 17 8737 0
mov.f32 %f270, %f269;
abs.f32 %f271, %f238;
mov.f32 %f272, 0f473ba700; // 48039
setp.gt.f32 %p17, %f271, %f272;
@!%p17 bra $Lt_71_51202;
.loc 17 8658 0
mov.b32 %r99, %f238;
and.b32 %r100, %r99, -2147483648;
mov.s32 %r101, %r100;
.loc 17 24 0
shl.b32 %r102, %r99, 8;
mov.s32 %r103, %r21;
add.u32 %r27, %r21, 24;
mov.u32 %r104, __cuda___cuda_result_441400;
or.b32 %r105, %r102, -2147483648;
mov.u32 %r106, 0;
$Lt_71_52226:
// Loop body line 24, nesting depth: 1, iterations: 6
.loc 17 8674 0
ld.const.u32 %r107, [%r103+0];
mul.lo.u32 %r108, %r105, %r107;
add.u32 %r109, %r108, %r106;
.loc 17 8675 0
set.gt.u32.u32 %r110, %r108, %r109;
neg.s32 %r111, %r110;
mul.hi.u32 %r112, %r107, %r105;
add.u32 %r106, %r111, %r112;
.loc 17 8676 0
st.local.u32 [%r104+0], %r109;
add.u32 %r104, %r104, 4;
add.u32 %r103, %r103, 4;
setp.ne.u32 %p18, %r103, %r27;
@%p18 bra $Lt_71_52226;
.loc 17 8678 0
st.local.u32 [__cuda___cuda_result_441400+24], %r106;
.loc 17 8683 0
shl.b32 %r113, %r99, 1;
shr.u32 %r114, %r113, 24;
sub.u32 %r115, %r114, 128;
shr.u32 %r116, %r115, 5;
mov.s32 %r117, 4;
sub.s32 %r118, %r117, %r116;
mul.lo.u32 %r119, %r118, 4;
mov.u32 %r120, __cuda___cuda_result_441400;
add.u32 %r121, %r119, %r120;
ld.local.u32 %r106, [%r121+8];
.loc 17 8684 0
ld.local.u32 %r122, [%r121+4];
and.b32 %r123, %r115, 31;
mov.u32 %r124, 0;
setp.eq.u32 %p19, %r123, %r124;
@%p19 bra $Lt_71_52738;
.loc 17 8687 0
mov.s32 %r125, 32;
sub.s32 %r126, %r125, %r123;
shr.u32 %r127, %r122, %r126;
shl.b32 %r128, %r106, %r123;
add.u32 %r106, %r127, %r128;
.loc 17 8688 0
ld.local.u32 %r129, [%r121+0];
shr.u32 %r130, %r129, %r126;
shl.b32 %r131, %r122, %r123;
add.u32 %r122, %r130, %r131;
$Lt_71_52738:
.loc 17 8690 0
shr.u32 %r132, %r106, 30;
.loc 17 8692 0
shr.u32 %r133, %r122, 30;
shl.b32 %r134, %r106, 2;
add.u32 %r106, %r133, %r134;
.loc 17 8693 0
shl.b32 %r122, %r122, 2;
.loc 17 8695 0
shr.u32 %r135, %r106, 31;
add.u32 %r136, %r132, %r135;
.loc 17 8690 0
neg.s32 %r137, %r136;
mov.u32 %r138, 0;
setp.ne.u32 %p20, %r100, %r138;
selp.s32 %r139, %r137, %r136, %p20;
.loc 17 8697 0
mov.s32 %r98, %r139;
mov.u32 %r140, 0;
setp.eq.u32 %p21, %r135, %r140;
@%p21 bra $Lt_71_53250;
.loc 17 8701 0
neg.s32 %r122, %r122;
.loc 17 8703 0
mov.u32 %r141, 0;
set.eq.u32.u32 %r142, %r122, %r141;
neg.s32 %r143, %r142;
not.b32 %r144, %r106;
add.u32 %r106, %r143, %r144;
.loc 17 8704 0
xor.b32 %r101, %r100, -2147483648;
$Lt_71_53250:
.loc 17 8707 0
mov.u32 %r145, 0;
setp.eq.s32 %p22, %r106, %r145;
@%p22 bra $Lt_71_54018;
.loc 19 4479 0
cvt.rz.f32.u32 %f273, %r106;
mov.b32 %r146, %f273;
shr.s32 %r147, %r146, 23;
mov.s32 %r148, 158;
sub.s32 %r149, %r148, %r147;
bra.uni $Lt_71_53762;
$Lt_71_54018:
mov.s32 %r149, 32;
$Lt_71_53762:
.loc 17 8707 0
mov.s32 %r150, %r149;
mov.s32 %r151, %r150;
.loc 19 4479 0
mov.s32 %r152, 32;
sub.s32 %r153, %r152, %r150;
shr.u32 %r154, %r122, %r153;
shl.b32 %r155, %r106, %r150;
add.u32 %r156, %r154, %r155;
mov.u32 %r157, 0;
setp.ne.u32 %p23, %r150, %r157;
selp.u32 %r158, %r156, %r106, %p23;
.loc 17 8711 0
mul.lo.u32 %r122, %r158, -921707870;
.loc 17 8712 0
mov.u32 %r159, -921707870;
mul.hi.u32 %r106, %r158, %r159;
mov.u32 %r160, 0;
setp.le.s32 %p24, %r106, %r160;
@%p24 bra $Lt_71_54274;
.loc 17 8714 0
shr.u32 %r161, %r122, 31;
shl.b32 %r162, %r106, 1;
add.u32 %r106, %r161, %r162;
.loc 17 8715 0
add.u32 %r151, %r150, 1;
$Lt_71_54274:
.loc 17 8740 0
add.u32 %r163, %r106, 1;
shr.u32 %r164, %r163, 7;
add.u32 %r165, %r164, 1;
shr.u32 %r166, %r165, 1;
mov.s32 %r167, 126;
sub.s32 %r168, %r167, %r151;
shl.b32 %r169, %r168, 23;
add.u32 %r170, %r166, %r169;
or.b32 %r171, %r101, %r170;
mov.b32 %f270, %r171;
$Lt_71_51202:
.loc 17 8975 0
add.s32 %r172, %r98, 1;
mul.f32 %f274, %f270, %f270;
and.b32 %r173, %r172, 1;
mov.u32 %r174, 0;
setp.eq.s32 %p25, %r173, %r174;
@%p25 bra $Lt_71_55042;
.loc 17 8429 0
mov.f32 %f275, 0f37ccf5ce; // 2.44332e-005
mov.f32 %f276, %f275;
mov.f32 %f277, %f274;
mov.f32 %f278, 0fbab6061a; // -0.00138873
mov.f32 %f279, %f278;
mad.f32 %f280, %f276, %f277, %f279;
mov.f32 %f281, %f280;
mov.f32 %f282, %f281;
mov.f32 %f283, %f274;
mov.f32 %f284, 0f3d2aaaa5; // 0.0416666
mov.f32 %f285, %f284;
mad.f32 %f286, %f282, %f283, %f285;
mov.f32 %f287, %f286;
mov.f32 %f288, %f287;
mov.f32 %f289, %f274;
mov.f32 %f290, 0fbf000000; // -0.5
mov.f32 %f291, %f290;
mad.f32 %f292, %f288, %f289, %f291;
mov.f32 %f293, %f292;
mov.f32 %f294, %f293;
mov.f32 %f295, %f274;
mov.f32 %f296, 0f3f800000; // 1
mov.f32 %f297, %f296;
mad.f32 %f298, %f294, %f295, %f297;
mov.f32 %f299, %f298;
.loc 17 8936 0
mov.f32 %f300, %f299;
bra.uni $Lt_71_54786;
$Lt_71_55042:
.loc 17 8429 0
mov.f32 %f301, 0fb94ca1f9; // -0.000195153
mov.f32 %f302, %f301;
mov.f32 %f303, %f274;
mov.f32 %f304, 0f3c08839e; // 0.00833216
mov.f32 %f305, %f304;
mad.f32 %f306, %f302, %f303, %f305;
mov.f32 %f307, %f306;
mov.f32 %f308, %f307;
mov.f32 %f309, %f274;
mov.f32 %f310, 0fbe2aaaa3; // -0.166667
mov.f32 %f311, %f310;
mad.f32 %f312, %f308, %f309, %f311;
mov.f32 %f313, %f312;
mul.f32 %f314, %f274, %f313;
mov.f32 %f315, %f314;
mov.f32 %f316, %f270;
mov.f32 %f317, %f270;
mad.f32 %f318, %f315, %f316, %f317;
mov.f32 %f319, %f318;
.loc 17 8938 0
mov.f32 %f300, %f319;
$Lt_71_54786:
and.b32 %r175, %r172, 2;
mov.u32 %r176, 0;
setp.eq.s32 %p26, %r175, %r176;
@%p26 bra $Lt_71_55298;
.loc 17 8429 0
mov.f32 %f320, %f300;
mov.f32 %f321, 0fbf800000; // -1
mov.f32 %f322, %f321;
mov.f32 %f323, 0f00000000; // 0
mov.f32 %f324, %f323;
mad.f32 %f325, %f320, %f322, %f324;
mov.f32 %f326, %f325;
.loc 17 8941 0
mov.f32 %f300, %f326;
$Lt_71_55298:
.loc 17 9631 0
rsqrt.approx.f32 %f327, %f2;
mov.f32 %f328, 0f3f4c422a; // 0.797885
mul.f32 %f329, %f327, %f328;
mul.f32 %f330, %f180, %f329;
mul.f32 %f153, %f300, %f330;
bra.uni $Lt_71_46594;
$Lt_71_46850:
.loc 17 9633 0
mov.f32 %f153, 0f00000000; // 0
$Lt_71_46594:
$Lt_71_46082:
.loc 17 9635 0
neg.f32 %f331, %f153;
mov.f32 %f332, 0f00000000; // 0
setp.lt.f32 %p27, %f2, %f332;
selp.f32 %f153, %f331, %f153, %p27;
mov.f32 %f333, 0f0da24260; // 1e-030
setp.lt.f32 %p28, %f2, %f333;
@!%p28 bra $Lt_71_55810;
.loc 17 9639 0
mov.b32 %r177, %f2;
and.b32 %r178, %r177, -2147483648;
mov.b32 %r179, %f153;
and.b32 %r180, %r179, 2147483647;
or.b32 %r181, %r178, %r180;
mov.b32 %f153, %r181;
$Lt_71_55810:
.loc 17 9755 0
mul.f32 %f334, %f2, %f14;
rcp.approx.f32 %f335, %f2;
mul.f32 %f336, %f153, %f77;
sub.f32 %f337, %f336, %f335;
mov.f32 %f338, 0f3f22f983; // 0.63662
mad.f32 %f5, %f337, %f338, %f334;
bra.uni $Lt_71_44546;
$Lt_71_44802:
mov.f32 %f339, 0f40740eee; // 3.81341
setp.le.f32 %p29, %f2, %f339;
@!%p29 bra $Lt_71_56578;
.loc 17 8429 0
mov.f32 %f340, 0fc00c9df7; // -2.19714
add.f32 %f341, %f2, %f340;
mov.f32 %f342, 0f33b200dc; // 8.28893e-008
add.f32 %f343, %f341, %f342;
mov.f32 %f344, 0fb789e29d; // -1.64372e-005
mov.f32 %f345, %f344;
mov.f32 %f346, %f343;
mov.f32 %f347, 0f39064a88; // 0.00012807
mov.f32 %f348, %f347;
mad.f32 %f349, %f345, %f346, %f348;
mov.f32 %f14, %f349;
mov.f32 %f350, %f14;
mov.f32 %f351, %f343;
mov.f32 %f352, 0fb9f0ab0d; // -0.000459038
mov.f32 %f353, %f352;
mad.f32 %f354, %f350, %f351, %f353;
mov.f32 %f14, %f354;
mov.f32 %f355, %f14;
mov.f32 %f356, %f343;
mov.f32 %f357, 0f3a8f6102; // 0.00109389
mov.f32 %f358, %f357;
mad.f32 %f359, %f355, %f356, %f358;
mov.f32 %f14, %f359;
mov.f32 %f360, %f14;
mov.f32 %f361, %f343;
mov.f32 %f362, 0fbb2c7045; // -0.0026312
mov.f32 %f363, %f362;
mad.f32 %f364, %f360, %f361, %f363;
mov.f32 %f14, %f364;
mov.f32 %f365, %f14;
mov.f32 %f366, %f343;
mov.f32 %f367, 0f3bf35df7; // 0.00742697
mov.f32 %f368, %f367;
mad.f32 %f369, %f365, %f366, %f368;
mov.f32 %f14, %f369;
mov.f32 %f370, %f14;
mov.f32 %f371, %f343;
mov.f32 %f372, 0fbb9d097c; // -0.00479239
mov.f32 %f373, %f372;
mad.f32 %f374, %f370, %f371, %f373;
mov.f32 %f14, %f374;
mov.f32 %f375, %f14;
mov.f32 %f376, %f343;
mov.f32 %f377, 0fbd06968a; // -0.0328584
mov.f32 %f378, %f377;
mad.f32 %f379, %f375, %f376, %f378;
mov.f32 %f14, %f379;
mov.f32 %f380, %f14;
mov.f32 %f381, %f343;
mov.f32 %f382, 0fbdf2b7df; // -0.118515
mov.f32 %f383, %f382;
mad.f32 %f384, %f380, %f381, %f383;
mov.f32 %f14, %f384;
mov.f32 %f385, %f14;
mov.f32 %f386, %f343;
mov.f32 %f387, 0f3f055242; // 0.520786
mov.f32 %f388, %f387;
mad.f32 %f389, %f385, %f386, %f388;
mov.f32 %f14, %f389;
.loc 17 9771 0
mul.f32 %f5, %f343, %f14;
bra.uni $Lt_71_56322;
$Lt_71_56578:
mov.f32 %f390, 0f40e06937; // 7.01284
setp.le.f32 %p30, %f2, %f390;
@!%p30 bra $Lt_71_57090;
.loc 17 8429 0
mov.f32 %f391, 0fc0adbff2; // -5.42968
add.f32 %f392, %f2, %f391;
mov.f32 %f393, 0fb4687b03; // -2.16514e-007
add.f32 %f394, %f392, %f393;
mov.f32 %f395, 0f32be57d0; // 2.21588e-008
mov.f32 %f396, %f395;
mov.f32 %f397, %f394;
mov.f32 %f398, 0fb508a416; // -5.09027e-007
mov.f32 %f399, %f398;
mad.f32 %f400, %f396, %f397, %f399;
mov.f32 %f14, %f400;
mov.f32 %f401, %f14;
mov.f32 %f402, %f394;
mov.f32 %f403, 0fb63f8a14; // -2.85416e-006
mov.f32 %f404, %f403;
mad.f32 %f405, %f401, %f402, %f404;
mov.f32 %f14, %f405;
mov.f32 %f406, %f14;
mov.f32 %f407, %f394;
mov.f32 %f408, 0f38427e02; // 4.63706e-005
mov.f32 %f409, %f408;
mad.f32 %f410, %f406, %f407, %f409;
mov.f32 %f14, %f410;
mov.f32 %f411, %f14;
mov.f32 %f412, %f394;
mov.f32 %f413, 0f3919bb1c; // 0.000146609
mov.f32 %f414, %f413;
mad.f32 %f415, %f411, %f412, %f414;
mov.f32 %f14, %f415;
mov.f32 %f416, %f14;
mov.f32 %f417, %f394;
mov.f32 %f418, 0fbb0df1fd; // -0.00216591
mov.f32 %f419, %f418;
mad.f32 %f420, %f416, %f417, %f419;
mov.f32 %f14, %f420;
mov.f32 %f421, %f14;
mov.f32 %f422, %f394;
mov.f32 %f423, 0fbb885189; // -0.00416011
mov.f32 %f424, %f423;
mad.f32 %f425, %f421, %f422, %f424;
mov.f32 %f14, %f425;
mov.f32 %f426, %f14;
mov.f32 %f427, %f394;
mov.f32 %f428, 0f3d50aec1; // 0.0509479
mov.f32 %f429, %f428;
mad.f32 %f430, %f426, %f427, %f429;
mov.f32 %f14, %f430;
mov.f32 %f431, %f14;
mov.f32 %f432, %f394;
mov.f32 %f433, 0f3d005cfc; // 0.0313387
mov.f32 %f434, %f433;
mad.f32 %f435, %f431, %f432, %f434;
mov.f32 %f14, %f435;
mov.f32 %f436, %f14;
mov.f32 %f437, %f394;
mov.f32 %f438, 0fbeae3e2b; // -0.340318
mov.f32 %f439, %f438;
mad.f32 %f440, %f436, %f437, %f439;
mov.f32 %f14, %f440;
.loc 17 9784 0
mul.f32 %f5, %f394, %f14;
bra.uni $Lt_71_56834;
$Lt_71_57090:
mov.f32 %f441, 0f4122c2e3; // 10.1726
setp.le.f32 %p31, %f2, %f441;
@!%p31 bra $Lt_71_57602;
.loc 17 8429 0
mov.f32 %f442, 0fc109893d; // -8.59601
add.f32 %f443, %f2, %f442;
mov.f32 %f444, 0fb4e6169b; // -4.28573e-007
add.f32 %f445, %f443, %f444;
mov.f32 %f446, 0f350cf383; // 5.25084e-007
mov.f32 %f447, %f446;
mov.f32 %f448, %f445;
mov.f32 %f449, 0f3602902e; // 1.94554e-006
mov.f32 %f450, %f449;
mad.f32 %f451, %f447, %f448, %f450;
mov.f32 %f14, %f451;
mov.f32 %f452, %f14;
mov.f32 %f453, %f445;
mov.f32 %f454, 0fb8375f71; // -4.37195e-005
mov.f32 %f455, %f454;
mad.f32 %f456, %f452, %f453, %f455;
mov.f32 %f14, %f456;
mov.f32 %f457, %f14;
mov.f32 %f458, %f445;
mov.f32 %f459, 0fb8d9faa8; // -0.000103941
mov.f32 %f460, %f459;
mad.f32 %f461, %f457, %f458, %f460;
mov.f32 %f14, %f461;
mov.f32 %f462, %f14;
mov.f32 %f463, %f445;
mov.f32 %f464, 0f3b03d19a; // 0.00201139
mov.f32 %f465, %f464;
mad.f32 %f466, %f462, %f463, %f465;
mov.f32 %f14, %f466;
mov.f32 %f467, %f14;
mov.f32 %f468, %f445;
mov.f32 %f469, 0f3b1e736d; // 0.00241777
mov.f32 %f470, %f469;
mad.f32 %f471, %f467, %f468, %f470;
mov.f32 %f14, %f471;
mov.f32 %f472, %f14;
mov.f32 %f473, %f445;
mov.f32 %f474, 0fbd31cae5; // -0.0434064
mov.f32 %f475, %f474;
mad.f32 %f476, %f472, %f473, %f475;
mov.f32 %f14, %f476;
mov.f32 %f477, %f14;
mov.f32 %f478, %f445;
mov.f32 %f479, 0fbc8159b6; // -0.0157898
mov.f32 %f480, %f479;
mad.f32 %f481, %f477, %f478, %f480;
mov.f32 %f14, %f481;
mov.f32 %f482, %f14;
mov.f32 %f483, %f445;
mov.f32 %f484, 0f3e8afcca; // 0.27146
mov.f32 %f485, %f484;
mad.f32 %f486, %f482, %f483, %f485;
mov.f32 %f14, %f486;
.loc 17 9796 0
mul.f32 %f5, %f445, %f14;
bra.uni $Lt_71_57346;
$Lt_71_57602:
.loc 17 9797 0
mov.f32 %f487, 0f7f800000; // 1.#INF
setp.eq.f32 %p32, %f2, %f487;
@%p32 bra $Lt_71_58114;
.loc 17 8437 0
mov.f32 %f488, %f2;
rcp.approx.ftz.f32 %f489,%f488;
mov.f32 %f490, %f489;
.loc 17 8429 0
mul.f32 %f491, %f490, %f490;
mov.f32 %f492, 0f3f267f60; // 0.650381
mov.f32 %f493, %f492;
mov.f32 %f494, %f491;
mov.f32 %f495, 0fbe44ab90; // -0.192061
mov.f32 %f496, %f495;
mad.f32 %f497, %f493, %f494, %f496;
mov.f32 %f14, %f497;
mov.f32 %f498, %f14;
mov.f32 %f499, %f491;
mov.f32 %f500, 0f3e3ffebf; // 0.187495
mov.f32 %f501, %f500;
mad.f32 %f502, %f498, %f499, %f501;
mov.f32 %f14, %f502;
mov.f32 %f503, %f14;
mov.f32 %f504, %f491;
mov.f32 %f505, 0f3f800000; // 1
mov.f32 %f506, %f505;
mad.f32 %f507, %f503, %f504, %f506;
mov.f32 %f508, %f507;
mov.f32 %f509, 0fbfe4e1ab; // -1.78814
mov.f32 %f510, %f509;
mov.f32 %f511, %f491;
mov.f32 %f512, 0f3ebb73ab; // 0.366117
mov.f32 %f513, %f512;
mad.f32 %f514, %f510, %f511, %f513;
mov.f32 %f14, %f514;
mov.f32 %f515, %f14;
mov.f32 %f516, %f491;
mov.f32 %f517, 0fbe27fb6e; // -0.164045
mov.f32 %f518, %f517;
mad.f32 %f519, %f515, %f516, %f518;
mov.f32 %f14, %f519;
mov.f32 %f520, %f14;
mov.f32 %f521, %f491;
mov.f32 %f522, 0f3ebfffff; // 0.375
mov.f32 %f523, %f522;
mad.f32 %f524, %f520, %f521, %f523;
mov.f32 %f14, %f524;
mov.f32 %f525, %f14;
mov.f32 %f526, %f490;
mov.f32 %f527, %f2;
mad.f32 %f528, %f525, %f526, %f527;
mov.f32 %f14, %f528;
.loc 17 8726 0
mov.f32 %f529, 0f3f22f983; // 0.63662
mul.f32 %f530, %f14, %f529;
cvt.rni.s32.f32 %r182, %f530;
mov.s32 %r183, %r182;
.loc 17 8429 0
cvt.rn.f32.s32 %f531, %r182;
neg.f32 %f532, %f531;
mov.f32 %f533, %f532;
mov.f32 %f534, 0f3fc90000; // 1.57031
mov.f32 %f535, %f534;
mov.f32 %f536, %f14;
mad.f32 %f537, %f533, %f535, %f536;
mov.f32 %f538, %f537;
mov.f32 %f539, %f532;
mov.f32 %f540, 0f39fd8000; // 0.000483513
mov.f32 %f541, %f540;
mov.f32 %f542, %f538;
mad.f32 %f543, %f539, %f541, %f542;
mov.f32 %f544, %f543;
mov.f32 %f545, %f532;
mov.f32 %f546, 0f34a88000; // 3.13856e-007
mov.f32 %f547, %f546;
mov.f32 %f548, %f544;
mad.f32 %f549, %f545, %f547, %f548;
mov.f32 %f550, %f549;
mov.f32 %f551, %f532;
mov.f32 %f552, 0f2e85a309; // 6.0771e-011
mov.f32 %f553, %f552;
mov.f32 %f554, %f550;
mad.f32 %f555, %f551, %f553, %f554;
mov.f32 %f556, %f555;
.loc 17 8737 0
mov.f32 %f557, %f556;
abs.f32 %f558, %f14;
mov.f32 %f559, 0f473ba700; // 48039
setp.gt.f32 %p33, %f558, %f559;
@!%p33 bra $Lt_71_58370;
.loc 17 8740 0
mov.u32 %r21, __cudart_i2opi_f;
.loc 17 8658 0
mov.b32 %r184, %f14;
and.b32 %r185, %r184, -2147483648;
mov.s32 %r186, %r185;
.loc 17 24 0
shl.b32 %r187, %r184, 8;
mov.s32 %r188, %r21;
add.u32 %r27, %r21, 24;
mov.u32 %r189, __cuda___cuda_result_721428;
or.b32 %r190, %r187, -2147483648;
mov.u32 %r191, 0;
$Lt_71_59394:
// Loop body line 24, nesting depth: 1, iterations: 6
.loc 17 8674 0
ld.const.u32 %r192, [%r188+0];
mul.lo.u32 %r193, %r190, %r192;
add.u32 %r194, %r193, %r191;
.loc 17 8675 0
set.gt.u32.u32 %r195, %r193, %r194;
neg.s32 %r196, %r195;
mul.hi.u32 %r197, %r192, %r190;
add.u32 %r191, %r196, %r197;
.loc 17 8676 0
st.local.u32 [%r189+0], %r194;
add.u32 %r189, %r189, 4;
add.u32 %r188, %r188, 4;
setp.ne.u32 %p34, %r188, %r27;
@%p34 bra $Lt_71_59394;
.loc 17 8678 0
st.local.u32 [__cuda___cuda_result_721428+24], %r191;
.loc 17 8683 0
shl.b32 %r198, %r184, 1;
shr.u32 %r199, %r198, 24;
sub.u32 %r200, %r199, 128;
shr.u32 %r201, %r200, 5;
mov.s32 %r202, 4;
sub.s32 %r203, %r202, %r201;
mul.lo.u32 %r204, %r203, 4;
mov.u32 %r205, __cuda___cuda_result_721428;
add.u32 %r206, %r204, %r205;
ld.local.u32 %r191, [%r206+8];
.loc 17 8684 0
ld.local.u32 %r207, [%r206+4];
and.b32 %r208, %r200, 31;
mov.u32 %r209, 0;
setp.eq.u32 %p35, %r208, %r209;
@%p35 bra $Lt_71_59906;
.loc 17 8687 0
mov.s32 %r210, 32;
sub.s32 %r211, %r210, %r208;
shr.u32 %r212, %r207, %r211;
shl.b32 %r213, %r191, %r208;
add.u32 %r191, %r212, %r213;
.loc 17 8688 0
ld.local.u32 %r214, [%r206+0];
shr.u32 %r215, %r214, %r211;
shl.b32 %r216, %r207, %r208;
add.u32 %r207, %r215, %r216;
$Lt_71_59906:
.loc 17 8690 0
shr.u32 %r217, %r191, 30;
.loc 17 8692 0
shr.u32 %r218, %r207, 30;
shl.b32 %r219, %r191, 2;
add.u32 %r191, %r218, %r219;
.loc 17 8693 0
shl.b32 %r207, %r207, 2;
.loc 17 8695 0
shr.u32 %r220, %r191, 31;
add.u32 %r221, %r217, %r220;
.loc 17 8690 0
neg.s32 %r222, %r221;
mov.u32 %r223, 0;
setp.ne.u32 %p36, %r185, %r223;
selp.s32 %r224, %r222, %r221, %p36;
.loc 17 8697 0
mov.s32 %r183, %r224;
mov.u32 %r225, 0;
setp.eq.u32 %p37, %r220, %r225;
@%p37 bra $Lt_71_60418;
.loc 17 8701 0
neg.s32 %r207, %r207;
.loc 17 8703 0
mov.u32 %r226, 0;
set.eq.u32.u32 %r227, %r207, %r226;
neg.s32 %r228, %r227;
not.b32 %r229, %r191;
add.u32 %r191, %r228, %r229;
.loc 17 8704 0
xor.b32 %r186, %r185, -2147483648;
$Lt_71_60418:
.loc 17 8707 0
mov.u32 %r230, 0;
setp.eq.s32 %p38, %r191, %r230;
@%p38 bra $Lt_71_61186;
.loc 19 4479 0
cvt.rz.f32.u32 %f560, %r191;
mov.b32 %r231, %f560;
shr.s32 %r232, %r231, 23;
mov.s32 %r233, 158;
sub.s32 %r234, %r233, %r232;
bra.uni $Lt_71_60930;
$Lt_71_61186:
mov.s32 %r234, 32;
$Lt_71_60930:
.loc 17 8707 0
mov.s32 %r235, %r234;
mov.s32 %r236, %r235;
.loc 19 4479 0
mov.s32 %r237, 32;
sub.s32 %r238, %r237, %r235;
shr.u32 %r239, %r207, %r238;
shl.b32 %r240, %r191, %r235;
add.u32 %r241, %r239, %r240;
mov.u32 %r242, 0;
setp.ne.u32 %p39, %r235, %r242;
selp.u32 %r243, %r241, %r191, %p39;
.loc 17 8711 0
mul.lo.u32 %r207, %r243, -921707870;
.loc 17 8712 0
mov.u32 %r244, -921707870;
mul.hi.u32 %r191, %r243, %r244;
mov.u32 %r245, 0;
setp.le.s32 %p40, %r191, %r245;
@%p40 bra $Lt_71_61442;
.loc 17 8714 0
shr.u32 %r246, %r207, 31;
shl.b32 %r247, %r191, 1;
add.u32 %r191, %r246, %r247;
.loc 17 8715 0
add.u32 %r236, %r235, 1;
$Lt_71_61442:
.loc 17 8740 0
add.u32 %r248, %r191, 1;
shr.u32 %r249, %r248, 7;
add.u32 %r250, %r249, 1;
shr.u32 %r251, %r250, 1;
mov.s32 %r252, 126;
sub.s32 %r253, %r252, %r236;
shl.b32 %r254, %r253, 23;
add.u32 %r255, %r251, %r254;
or.b32 %r256, %r186, %r255;
mov.b32 %f557, %r256;
$Lt_71_58370:
.loc 17 8990 0
mov.u32 %r21, __cudart_i2opi_f;
mov.f32 %f561, 0fc07b53d1; // -3.92699
add.f32 %f562, %f557, %f561;
and.b32 %r257, %r183, 3;
cvt.rn.f32.s32 %f563, %r257;
mov.f32 %f564, 0f3fc90fdb; // 1.5708
mad.f32 %f565, %f563, %f564, %f562;
mov.f32 %f566, %f565;
.loc 17 8970 0
abs.f32 %f567, %f565;
mov.f32 %f568, 0f7f800000; // 1.#INF
setp.eq.f32 %p41, %f567, %f568;
@!%p41 bra $Lt_71_61954;
.loc 17 8971 0
mov.f32 %f569, 0f00000000; // 0
mul.rn.f32 %f566, %f565, %f569;
$Lt_71_61954:
.loc 17 8726 0
mov.f32 %f570, 0f3f22f983; // 0.63662
mul.f32 %f571, %f566, %f570;
cvt.rni.s32.f32 %r258, %f571;
mov.s32 %r259, %r258;
.loc 17 8429 0
cvt.rn.f32.s32 %f572, %r258;
neg.f32 %f573, %f572;
mov.f32 %f574, %f573;
mov.f32 %f575, 0f3fc90000; // 1.57031
mov.f32 %f576, %f575;
mov.f32 %f577, %f566;
mad.f32 %f578, %f574, %f576, %f577;
mov.f32 %f579, %f578;
mov.f32 %f580, %f573;
mov.f32 %f581, 0f39fd8000; // 0.000483513
mov.f32 %f582, %f581;
mov.f32 %f583, %f579;
mad.f32 %f584, %f580, %f582, %f583;
mov.f32 %f585, %f584;
mov.f32 %f586, %f573;
mov.f32 %f587, 0f34a88000; // 3.13856e-007
mov.f32 %f588, %f587;
mov.f32 %f589, %f585;
mad.f32 %f590, %f586, %f588, %f589;
mov.f32 %f591, %f590;
mov.f32 %f592, %f573;
mov.f32 %f593, 0f2e85a309; // 6.0771e-011
mov.f32 %f594, %f593;
mov.f32 %f595, %f591;
mad.f32 %f596, %f592, %f594, %f595;
mov.f32 %f597, %f596;
.loc 17 8737 0
mov.f32 %f598, %f597;
abs.f32 %f599, %f566;
mov.f32 %f600, 0f473ba700; // 48039
setp.gt.f32 %p42, %f599, %f600;
@!%p42 bra $Lt_71_62466;
.loc 17 8658 0
mov.b32 %r260, %f566;
and.b32 %r261, %r260, -2147483648;
mov.s32 %r262, %r261;
.loc 17 24 0
shl.b32 %r263, %r260, 8;
mov.s32 %r264, %r21;
add.u32 %r27, %r21, 24;
mov.u32 %r265, __cuda___cuda_result_1001456;
or.b32 %r266, %r263, -2147483648;
mov.u32 %r267, 0;
$Lt_71_63490:
// Loop body line 24, nesting depth: 1, iterations: 6
.loc 17 8674 0
ld.const.u32 %r268, [%r264+0];
mul.lo.u32 %r269, %r266, %r268;
add.u32 %r270, %r269, %r267;
.loc 17 8675 0
set.gt.u32.u32 %r271, %r269, %r270;
neg.s32 %r272, %r271;
mul.hi.u32 %r273, %r268, %r266;
add.u32 %r267, %r272, %r273;
.loc 17 8676 0
st.local.u32 [%r265+0], %r270;
add.u32 %r265, %r265, 4;
add.u32 %r264, %r264, 4;
setp.ne.u32 %p43, %r264, %r27;
@%p43 bra $Lt_71_63490;
.loc 17 8678 0
st.local.u32 [__cuda___cuda_result_1001456+24], %r267;
.loc 17 8683 0
shl.b32 %r274, %r260, 1;
shr.u32 %r275, %r274, 24;
sub.u32 %r276, %r275, 128;
shr.u32 %r277, %r276, 5;
mov.s32 %r278, 4;
sub.s32 %r279, %r278, %r277;
mul.lo.u32 %r280, %r279, 4;
mov.u32 %r281, __cuda___cuda_result_1001456;
add.u32 %r282, %r280, %r281;
ld.local.u32 %r267, [%r282+8];
.loc 17 8684 0
ld.local.u32 %r283, [%r282+4];
and.b32 %r284, %r276, 31;
mov.u32 %r285, 0;
setp.eq.u32 %p44, %r284, %r285;
@%p44 bra $Lt_71_64002;
.loc 17 8687 0
mov.s32 %r286, 32;
sub.s32 %r287, %r286, %r284;
shr.u32 %r288, %r283, %r287;
shl.b32 %r289, %r267, %r284;
add.u32 %r267, %r288, %r289;
.loc 17 8688 0
ld.local.u32 %r290, [%r282+0];
shr.u32 %r291, %r290, %r287;
shl.b32 %r292, %r283, %r284;
add.u32 %r283, %r291, %r292;
$Lt_71_64002:
.loc 17 8690 0
shr.u32 %r293, %r267, 30;
.loc 17 8692 0
shr.u32 %r294, %r283, 30;
shl.b32 %r295, %r267, 2;
add.u32 %r267, %r294, %r295;
.loc 17 8693 0
shl.b32 %r283, %r283, 2;
.loc 17 8695 0
shr.u32 %r296, %r267, 31;
add.u32 %r297, %r293, %r296;
.loc 17 8690 0
neg.s32 %r298, %r297;
mov.u32 %r299, 0;
setp.ne.u32 %p45, %r261, %r299;
selp.s32 %r300, %r298, %r297, %p45;
.loc 17 8697 0
mov.s32 %r259, %r300;
mov.u32 %r301, 0;
setp.eq.u32 %p46, %r296, %r301;
@%p46 bra $Lt_71_64514;
.loc 17 8701 0
neg.s32 %r283, %r283;
.loc 17 8703 0
mov.u32 %r302, 0;
set.eq.u32.u32 %r303, %r283, %r302;
neg.s32 %r304, %r303;
not.b32 %r305, %r267;
add.u32 %r267, %r304, %r305;
.loc 17 8704 0
xor.b32 %r262, %r261, -2147483648;
$Lt_71_64514:
.loc 17 8707 0
mov.u32 %r306, 0;
setp.eq.s32 %p47, %r267, %r306;
@%p47 bra $Lt_71_65282;
.loc 19 4479 0
cvt.rz.f32.u32 %f601, %r267;
mov.b32 %r307, %f601;
shr.s32 %r308, %r307, 23;
mov.s32 %r309, 158;
sub.s32 %r310, %r309, %r308;
bra.uni $Lt_71_65026;
$Lt_71_65282:
mov.s32 %r310, 32;
$Lt_71_65026:
.loc 17 8707 0
mov.s32 %r311, %r310;
mov.s32 %r312, %r311;
.loc 19 4479 0
mov.s32 %r313, 32;
sub.s32 %r314, %r313, %r311;
shr.u32 %r315, %r283, %r314;
shl.b32 %r316, %r267, %r311;
add.u32 %r317, %r315, %r316;
mov.u32 %r318, 0;
setp.ne.u32 %p48, %r311, %r318;
selp.u32 %r319, %r317, %r267, %p48;
.loc 17 8711 0
mul.lo.u32 %r283, %r319, -921707870;
.loc 17 8712 0
mov.u32 %r320, -921707870;
mul.hi.u32 %r267, %r319, %r320;
mov.u32 %r321, 0;
setp.le.s32 %p49, %r267, %r321;
@%p49 bra $Lt_71_65538;
.loc 17 8714 0
shr.u32 %r322, %r283, 31;
shl.b32 %r323, %r267, 1;
add.u32 %r267, %r322, %r323;
.loc 17 8715 0
add.u32 %r312, %r311, 1;
$Lt_71_65538:
.loc 17 8740 0
add.u32 %r324, %r267, 1;
shr.u32 %r325, %r324, 7;
add.u32 %r326, %r325, 1;
shr.u32 %r327, %r326, 1;
mov.s32 %r328, 126;
sub.s32 %r329, %r328, %r312;
shl.b32 %r330, %r329, 23;
add.u32 %r331, %r327, %r330;
or.b32 %r332, %r262, %r331;
mov.b32 %f598, %r332;
$Lt_71_62466:
.loc 17 8975 0
add.s32 %r333, %r259, 1;
mul.f32 %f602, %f598, %f598;
and.b32 %r334, %r333, 1;
mov.u32 %r335, 0;
setp.eq.s32 %p50, %r334, %r335;
@%p50 bra $Lt_71_66306;
.loc 17 8429 0
mov.f32 %f603, 0f37ccf5ce; // 2.44332e-005
mov.f32 %f604, %f603;
mov.f32 %f605, %f602;
mov.f32 %f606, 0fbab6061a; // -0.00138873
mov.f32 %f607, %f606;
mad.f32 %f608, %f604, %f605, %f607;
mov.f32 %f609, %f608;
mov.f32 %f610, %f609;
mov.f32 %f611, %f602;
mov.f32 %f612, 0f3d2aaaa5; // 0.0416666
mov.f32 %f613, %f612;
mad.f32 %f614, %f610, %f611, %f613;
mov.f32 %f615, %f614;
mov.f32 %f616, %f615;
mov.f32 %f617, %f602;
mov.f32 %f618, 0fbf000000; // -0.5
mov.f32 %f619, %f618;
mad.f32 %f620, %f616, %f617, %f619;
mov.f32 %f621, %f620;
mov.f32 %f622, %f621;
mov.f32 %f623, %f602;
mov.f32 %f624, 0f3f800000; // 1
mov.f32 %f625, %f624;
mad.f32 %f626, %f622, %f623, %f625;
mov.f32 %f627, %f626;
.loc 17 8936 0
mov.f32 %f628, %f627;
bra.uni $Lt_71_66050;
$Lt_71_66306:
.loc 17 8429 0
mov.f32 %f629, 0fb94ca1f9; // -0.000195153
mov.f32 %f630, %f629;
mov.f32 %f631, %f602;
mov.f32 %f632, 0f3c08839e; // 0.00833216
mov.f32 %f633, %f632;
mad.f32 %f634, %f630, %f631, %f633;
mov.f32 %f635, %f634;
mov.f32 %f636, %f635;
mov.f32 %f637, %f602;
mov.f32 %f638, 0fbe2aaaa3; // -0.166667
mov.f32 %f639, %f638;
mad.f32 %f640, %f636, %f637, %f639;
mov.f32 %f641, %f640;
mul.f32 %f642, %f602, %f641;
mov.f32 %f643, %f642;
mov.f32 %f644, %f598;
mov.f32 %f645, %f598;
mad.f32 %f646, %f643, %f644, %f645;
mov.f32 %f647, %f646;
.loc 17 8938 0
mov.f32 %f628, %f647;
$Lt_71_66050:
and.b32 %r336, %r333, 2;
mov.u32 %r337, 0;
setp.eq.s32 %p51, %r336, %r337;
@%p51 bra $Lt_71_66562;
.loc 17 8429 0
mov.f32 %f648, %f628;
mov.f32 %f649, 0fbf800000; // -1
mov.f32 %f650, %f649;
mov.f32 %f651, 0f00000000; // 0
mov.f32 %f652, %f651;
mad.f32 %f653, %f648, %f650, %f652;
mov.f32 %f654, %f653;
.loc 17 8941 0
mov.f32 %f628, %f654;
$Lt_71_66562:
.loc 17 9810 0
rsqrt.approx.f32 %f655, %f2;
mov.f32 %f656, 0f3f4c422a; // 0.797885
mul.f32 %f657, %f655, %f656;
mul.f32 %f658, %f508, %f657;
mul.f32 %f5, %f628, %f658;
bra.uni $Lt_71_57858;
$Lt_71_58114:
.loc 17 9813 0
mov.f32 %f5, 0f00000000; // 0
$Lt_71_57858:
$Lt_71_57346:
$Lt_71_56834:
$Lt_71_56322:
$Lt_71_44546:
$Lt_71_44034:
mov.f32 %f659, 0f00000000; // 0
setp.lt.f32 %p52, %f1, %f659;
@!%p52 bra $Lt_71_67074;
.loc 17 9816 0
mov.f32 %f660, 0fbf800000; // -1
sqrt.approx.f32 %f5, %f660;
$Lt_71_67074:
.loc 15 868 0
cvt.f64.f32 %fd2, %f5;
ld.param.u32 %r338, [__cudaparm_vec_y1_result];
add.u32 %r339, %r338, %r5;
st.global.f64 [%r339+0], %fd2;
$Lt_71_43522:
.loc 15 870 0
exit;
$LDWend_vec_y1:
} // vec_y1
.entry vec_copysign (
.param .u32 __cudaparm_vec_copysign_n,
.param .u32 __cudaparm_vec_copysign_result,
.param .u32 __cudaparm_vec_copysign_x,
.param .u32 __cudaparm_vec_copysign_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<18>;
.reg .f32 %f<5>;
.reg .f64 %fd<5>;
.reg .pred %p<3>;
.loc 15 890 0
$LDWbegin_vec_copysign:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_copysign_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_72_1026;
.loc 15 895 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_copysign_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
mov.b32 %r8, %f1;
and.b32 %r9, %r8, 2147483647;
ld.param.u32 %r10, [__cudaparm_vec_copysign_y];
add.u32 %r11, %r10, %r5;
ld.global.f64 %fd2, [%r11+0];
cvt.rn.f32.f64 %f2, %fd2;
mov.b32 %r12, %f2;
and.b32 %r13, %r12, -2147483648;
or.b32 %r14, %r9, %r13;
mov.b32 %f3, %r14;
cvt.f64.f32 %fd3, %f3;
ld.param.u32 %r15, [__cudaparm_vec_copysign_result];
add.u32 %r16, %r15, %r5;
st.global.f64 [%r16+0], %fd3;
$Lt_72_1026:
.loc 15 897 0
exit;
$LDWend_vec_copysign:
} // vec_copysign
.entry vec_fdim (
.param .u32 __cudaparm_vec_fdim_n,
.param .u32 __cudaparm_vec_fdim_result,
.param .u32 __cudaparm_vec_fdim_x,
.param .u32 __cudaparm_vec_fdim_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<13>;
.reg .f32 %f<7>;
.reg .f64 %fd<5>;
.reg .pred %p<4>;
.loc 15 901 0
$LDWbegin_vec_fdim:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_fdim_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_73_1794;
.loc 15 906 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_fdim_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
ld.param.u32 %r8, [__cudaparm_vec_fdim_y];
add.u32 %r9, %r8, %r5;
ld.global.f64 %fd2, [%r9+0];
cvt.rn.f32.f64 %f2, %fd2;
mov.f32 %f3, 0f00000000; // 0
sub.f32 %f4, %f1, %f2;
setp.le.f32 %p2, %f1, %f2;
selp.f32 %f5, %f3, %f4, %p2;
cvt.f64.f32 %fd3, %f5;
ld.param.u32 %r10, [__cudaparm_vec_fdim_result];
add.u32 %r11, %r10, %r5;
st.global.f64 [%r11+0], %fd3;
$Lt_73_1794:
.loc 15 908 0
exit;
$LDWend_vec_fdim:
} // vec_fdim
.entry vec_fdivide (
.param .u32 __cudaparm_vec_fdivide_n,
.param .u32 __cudaparm_vec_fdivide_result,
.param .u32 __cudaparm_vec_fdivide_x,
.param .u32 __cudaparm_vec_fdivide_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<13>;
.reg .f32 %f<5>;
.reg .f64 %fd<5>;
.reg .pred %p<3>;
.loc 15 912 0
$LDWbegin_vec_fdivide:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_fdivide_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_74_1026;
.loc 15 917 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_fdivide_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
ld.param.u32 %r8, [__cudaparm_vec_fdivide_y];
add.u32 %r9, %r8, %r5;
ld.global.f64 %fd2, [%r9+0];
cvt.rn.f32.f64 %f2, %fd2;
div.full.f32 %f3, %f1, %f2;
cvt.f64.f32 %fd3, %f3;
ld.param.u32 %r10, [__cudaparm_vec_fdivide_result];
add.u32 %r11, %r10, %r5;
st.global.f64 [%r11+0], %fd3;
$Lt_74_1026:
.loc 15 919 0
exit;
$LDWend_vec_fdivide:
} // vec_fdivide
.entry vec_fmax (
.param .u32 __cudaparm_vec_fmax_n,
.param .u32 __cudaparm_vec_fmax_result,
.param .u32 __cudaparm_vec_fmax_x,
.param .u32 __cudaparm_vec_fmax_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<13>;
.reg .f32 %f<5>;
.reg .f64 %fd<5>;
.reg .pred %p<3>;
.loc 15 923 0
$LDWbegin_vec_fmax:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_fmax_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_75_1026;
.loc 15 928 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_fmax_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
ld.param.u32 %r8, [__cudaparm_vec_fmax_y];
add.u32 %r9, %r8, %r5;
ld.global.f64 %fd2, [%r9+0];
cvt.rn.f32.f64 %f2, %fd2;
max.f32 %f3, %f1, %f2;
cvt.f64.f32 %fd3, %f3;
ld.param.u32 %r10, [__cudaparm_vec_fmax_result];
add.u32 %r11, %r10, %r5;
st.global.f64 [%r11+0], %fd3;
$Lt_75_1026:
.loc 15 930 0
exit;
$LDWend_vec_fmax:
} // vec_fmax
.entry vec_fmin (
.param .u32 __cudaparm_vec_fmin_n,
.param .u32 __cudaparm_vec_fmin_result,
.param .u32 __cudaparm_vec_fmin_x,
.param .u32 __cudaparm_vec_fmin_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<13>;
.reg .f32 %f<5>;
.reg .f64 %fd<5>;
.reg .pred %p<3>;
.loc 15 934 0
$LDWbegin_vec_fmin:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_fmin_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_76_1026;
.loc 15 939 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_fmin_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
ld.param.u32 %r8, [__cudaparm_vec_fmin_y];
add.u32 %r9, %r8, %r5;
ld.global.f64 %fd2, [%r9+0];
cvt.rn.f32.f64 %f2, %fd2;
min.f32 %f3, %f1, %f2;
cvt.f64.f32 %fd3, %f3;
ld.param.u32 %r10, [__cudaparm_vec_fmin_result];
add.u32 %r11, %r10, %r5;
st.global.f64 [%r11+0], %fd3;
$Lt_76_1026:
.loc 15 941 0
exit;
$LDWend_vec_fmin:
} // vec_fmin
.entry vec_fmod (
.param .u32 __cudaparm_vec_fmod_n,
.param .u32 __cudaparm_vec_fmod_result,
.param .u32 __cudaparm_vec_fmod_x,
.param .u32 __cudaparm_vec_fmod_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<33>;
.reg .f32 %f<23>;
.reg .f64 %fd<5>;
.reg .pred %p<11>;
.loc 15 945 0
$LDWbegin_vec_fmod:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_fmod_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_77_7682;
.loc 15 950 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_fmod_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
ld.param.u32 %r8, [__cudaparm_vec_fmod_y];
add.u32 %r9, %r8, %r5;
ld.global.f64 %fd2, [%r9+0];
cvt.rn.f32.f64 %f2, %fd2;
.loc 17 10376 0
abs.f32 %f3, %f1;
abs.f32 %f4, %f2;
mov.f32 %f5, 0f7f800000; // 1.#INF
set.le.u32.f32 %r10, %f4, %f5;
neg.s32 %r11, %r10;
mov.f32 %f6, 0f7f800000; // 1.#INF
set.le.u32.f32 %r12, %f3, %f6;
neg.s32 %r13, %r12;
and.b32 %r14, %r11, %r13;
mov.u32 %r15, 0;
setp.ne.s32 %p2, %r14, %r15;
@%p2 bra $Lt_77_8194;
.loc 17 10379 0
add.f32 %f7, %f1, %f2;
bra.uni $LDWendi_fmodf_336_1;
$Lt_77_8194:
mov.f32 %f8, 0f00000000; // 0
set.eq.u32.f32 %r16, %f4, %f8;
neg.s32 %r17, %r16;
mov.f32 %f9, 0f7f800000; // 1.#INF
set.eq.u32.f32 %r18, %f3, %f9;
neg.s32 %r19, %r18;
or.b32 %r20, %r17, %r19;
mov.u32 %r21, 0;
setp.eq.s32 %p3, %r20, %r21;
@%p3 bra $Lt_77_8962;
mov.f32 %f10, 0fffc00000; // -1.#IND
rsqrt.approx.f32 %f11, %f10;
bra.uni $Lt_77_8706;
$Lt_77_8962:
setp.le.f32 %p4, %f4, %f3;
@!%p4 bra $Lt_77_9474;
.loc 17 10397 0
mov.b32 %r22, %f3;
mov.b32 %r23, %f4;
and.b32 %r24, %r22, 2139095040;
and.b32 %r25, %r23, 8388607;
or.b32 %r26, %r24, %r25;
mov.b32 %f12, %r26;
setp.gt.f32 %p5, %f12, %f3;
mov.f32 %f13, 0f3f000000; // 0.5
mul.f32 %f14, %f12, %f13;
selp.f32 %f15, %f14, %f12, %p5;
mov.f32 %f16, %f15;
setp.le.f32 %p6, %f4, %f15;
@!%p6 bra $Lt_77_9730;
$Lt_77_10242:
.loc 17 10403 0
sub.f32 %f17, %f3, %f16;
setp.ge.f32 %p7, %f3, %f16;
selp.f32 %f3, %f17, %f3, %p7;
.loc 17 10406 0
mov.f32 %f18, 0f3f000000; // 0.5
mul.f32 %f16, %f16, %f18;
setp.le.f32 %p8, %f4, %f16;
@%p8 bra $Lt_77_10242;
mov.b32 %r22, %f3;
$Lt_77_9730:
mov.b32 %r27, %f1;
and.b32 %r28, %r27, -2147483648;
or.b32 %r29, %r22, %r28;
mov.b32 %f11, %r29;
bra.uni $Lt_77_9218;
$Lt_77_9474:
.loc 17 10411 0
add.f32 %f19, %f1, %f1;
mov.f32 %f20, 0f00000000; // 0
setp.gt.f32 %p9, %f3, %f20;
selp.f32 %f21, %f1, %f19, %p9;
mov.f32 %f11, %f21;
$Lt_77_9218:
$Lt_77_8706:
mov.f32 %f7, %f11;
$LDWendi_fmodf_336_1:
.loc 15 950 0
cvt.f64.f32 %fd3, %f7;
ld.param.u32 %r30, [__cudaparm_vec_fmod_result];
add.u32 %r31, %r30, %r5;
st.global.f64 [%r31+0], %fd3;
$Lt_77_7682:
.loc 15 952 0
exit;
$LDWend_vec_fmod:
} // vec_fmod
.entry vec_hypot (
.param .u32 __cudaparm_vec_hypot_n,
.param .u32 __cudaparm_vec_hypot_result,
.param .u32 __cudaparm_vec_hypot_x,
.param .u32 __cudaparm_vec_hypot_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<19>;
.reg .f32 %f<30>;
.reg .f64 %fd<5>;
.reg .pred %p<6>;
.loc 15 956 0
$LDWbegin_vec_hypot:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_hypot_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_78_4354;
.loc 15 961 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_hypot_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
ld.param.u32 %r8, [__cudaparm_vec_hypot_y];
add.u32 %r9, %r8, %r5;
ld.global.f64 %fd2, [%r9+0];
cvt.rn.f32.f64 %f2, %fd2;
.loc 17 9482 0
abs.f32 %f3, %f1;
abs.f32 %f4, %f2;
max.f32 %f5, %f3, %f4;
mov.f32 %f6, %f5;
.loc 17 9483 0
min.f32 %f7, %f3, %f4;
mov.f32 %f8, %f7;
mov.f32 %f9, 0f7e800000; // 8.50706e+037
setp.gt.f32 %p2, %f5, %f9;
@!%p2 bra $Lt_78_4866;
.loc 17 9485 0
mov.f32 %f10, 0f3e800000; // 0.25
mul.f32 %f6, %f5, %f10;
.loc 17 9486 0
mov.f32 %f11, 0f3e800000; // 0.25
mul.f32 %f8, %f7, %f11;
$Lt_78_4866:
.loc 17 9488 0
div.approx.f32 %f8, %f8, %f6;
.loc 17 8429 0
mov.f32 %f12, %f8;
mov.f32 %f13, %f8;
mov.f32 %f14, 0f3f800000; // 1
mov.f32 %f15, %f14;
mad.f32 %f16, %f12, %f13, %f15;
mov.f32 %f17, %f16;
.loc 15 961 0
add.f32 %f18, %f7, %f5;
sqrt.approx.f32 %f19, %f17;
mul.f32 %f20, %f5, %f19;
mov.f32 %f21, 0f00000000; // 0
setp.eq.f32 %p3, %f5, %f21;
selp.f32 %f22, %f18, %f20, %p3;
add.f32 %f23, %f1, %f2;
mov.f32 %f24, 0f7f800000; // 1.#INF
set.le.u32.f32 %r10, %f3, %f24;
neg.s32 %r11, %r10;
mov.f32 %f25, 0f7f800000; // 1.#INF
set.le.u32.f32 %r12, %f4, %f25;
neg.s32 %r13, %r12;
and.b32 %r14, %r11, %r13;
neg.s32 %r15, %r14;
slct.f32.s32 %f26, %f23, %f22, %r15;
mov.f32 %f27, 0f7f800000; // 1.#INF
setp.eq.f32 %p4, %f5, %f27;
selp.f32 %f28, %f18, %f26, %p4;
cvt.f64.f32 %fd3, %f28;
ld.param.u32 %r16, [__cudaparm_vec_hypot_result];
add.u32 %r17, %r16, %r5;
st.global.f64 [%r17+0], %fd3;
$Lt_78_4354:
.loc 15 963 0
exit;
$LDWend_vec_hypot:
} // vec_hypot
.entry vec_nextafter (
.param .u32 __cudaparm_vec_nextafter_n,
.param .u32 __cudaparm_vec_nextafter_result,
.param .u32 __cudaparm_vec_nextafter_x,
.param .u32 __cudaparm_vec_nextafter_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<46>;
.reg .f32 %f<17>;
.reg .f64 %fd<5>;
.reg .pred %p<14>;
.loc 15 967 0
$LDWbegin_vec_nextafter:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_nextafter_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_79_10242;
.loc 15 972 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_nextafter_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
ld.param.u32 %r8, [__cudaparm_vec_nextafter_y];
add.u32 %r9, %r8, %r5;
ld.global.f64 %fd2, [%r9+0];
cvt.rn.f32.f64 %f2, %fd2;
.loc 17 8325 0
abs.f32 %f3, %f1;
mov.f32 %f4, 0f7f800000; // 1.#INF
setp.le.f32 %p2, %f3, %f4;
@!%p2 bra $Lt_79_1794;
abs.f32 %f5, %f2;
mov.f32 %f6, 0f7f800000; // 1.#INF
setp.le.f32 %p3, %f5, %f6;
@%p3 bra $Lt_79_2050;
$Lt_79_1794:
add.f32 %f7, %f1, %f2;
bra.uni $LDWendi___isnanf_338_1;
$Lt_79_2050:
mov.b32 %r10, %f1;
mov.b32 %r11, %f2;
shl.b32 %r12, %r10, 1;
and.b32 %r13, %r10, -2147483648;
shl.b32 %r14, %r11, 1;
and.b32 %r15, %r11, -2147483648;
mov.u32 %r16, 16777215;
setp.le.u32 %p4, %r12, %r16;
mov.u32 %r17, 16777215;
setp.le.u32 %p5, %r14, %r17;
selp.u32 %r18, %r13, %r10, %p4;
selp.u32 %r19, %r15, %r11, %p5;
or.b32 %r20, %r18, %r19;
mov.b32 %f8, %r20;
mov.f32 %f9, 0f00000000; // 0
setp.eq.f32 %p6, %f8, %f9;
@!%p6 bra $Lt_79_10754;
.loc 17 8326 0
mov.b32 %f7, %r19;
bra.uni $LDWendi___isnanf_338_1;
$Lt_79_10754:
mov.b32 %f10, %r18;
mov.f32 %f11, 0f00000000; // 0
setp.eq.f32 %p7, %f10, %f11;
@!%p7 bra $Lt_79_11266;
.loc 17 8329 0
or.b32 %r21, %r15, 8388608;
mov.b32 %f7, %r21;
bra.uni $LDWendi___isnanf_338_1;
$Lt_79_11266:
.loc 17 8339 0
setp.gt.f32 %p8, %f1, %f2;
mov.f32 %f12, 0f00000000; // 0
setp.gt.f32 %p9, %f1, %f12;
mov.f32 %f13, 0f00000000; // 0
setp.lt.f32 %p10, %f1, %f13;
setp.lt.f32 %p11, %f1, %f2;
selp.s32 %r22, 1, 0, %p8;
selp.s32 %r23, 1, 0, %p9;
selp.s32 %r24, 1, 0, %p10;
selp.s32 %r25, 1, 0, %p11;
and.b32 %r26, %r22, %r24;
and.b32 %r27, %r23, %r25;
and.b32 %r28, %r24, %r25;
sub.u32 %r29, %r18, 1;
neg.s32 %r30, %r28;
slct.u32.s32 %r31, %r18, %r29, %r30;
add.u32 %r32, %r31, 1;
neg.s32 %r33, %r27;
slct.u32.s32 %r34, %r31, %r32, %r33;
add.u32 %r35, %r34, 1;
neg.s32 %r36, %r26;
slct.u32.s32 %r37, %r34, %r35, %r36;
sub.u32 %r38, %r37, 1;
and.b32 %r39, %r22, %r23;
neg.s32 %r40, %r39;
slct.u32.s32 %r41, %r37, %r38, %r40;
.loc 17 8340 0
mov.b32 %f14, %r41;
mov.f32 %f1, %f14;
mov.f32 %f15, 0f00000000; // 0
setp.eq.f32 %p12, %f14, %f15;
@!%p12 bra $Lt_79_11778;
.loc 17 8343 0
and.b32 %r42, %r41, -2147483648;
mov.b32 %f1, %r42;
$Lt_79_11778:
.loc 17 8346 0
mov.f32 %f7, %f1;
$LDWendi___isnanf_338_1:
.loc 15 972 0
cvt.f64.f32 %fd3, %f7;
ld.param.u32 %r43, [__cudaparm_vec_nextafter_result];
add.u32 %r44, %r43, %r5;
st.global.f64 [%r44+0], %fd3;
$Lt_79_10242:
.loc 15 974 0
exit;
$LDWend_vec_nextafter:
} // vec_nextafter
.entry vec_pow (
.param .u32 __cudaparm_vec_pow_n,
.param .u32 __cudaparm_vec_pow_result,
.param .u32 __cudaparm_vec_pow_x,
.param .u32 __cudaparm_vec_pow_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<43>;
.reg .f32 %f<223>;
.reg .f64 %fd<5>;
.reg .pred %p<27>;
.loc 15 978 0
$LDWbegin_vec_pow:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_pow_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_80_19714;
.loc 15 983 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_pow_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
ld.param.u32 %r8, [__cudaparm_vec_pow_y];
add.u32 %r9, %r8, %r5;
ld.global.f64 %fd2, [%r9+0];
cvt.rn.f32.f64 %f2, %fd2;
mov.f32 %f3, 0f3f800000; // 1
set.eq.u32.f32 %r10, %f1, %f3;
neg.s32 %r11, %r10;
mov.f32 %f4, 0f00000000; // 0
set.eq.u32.f32 %r12, %f2, %f4;
neg.s32 %r13, %r12;
or.b32 %r14, %r11, %r13;
mov.u32 %r15, 0;
setp.eq.s32 %p2, %r14, %r15;
@%p2 bra $Lt_80_20226;
.loc 17 10665 0
mov.f32 %f5, 0f3f800000; // 1
bra.uni $LDWendi___isnanf_339_1;
$Lt_80_20226:
.loc 17 10667 0
abs.f32 %f6, %f1;
mov.f32 %f7, 0f7f800000; // 1.#INF
setp.le.f32 %p3, %f6, %f7;
@!%p3 bra $Lt_80_1538;
abs.f32 %f8, %f2;
mov.f32 %f9, 0f7f800000; // 1.#INF
setp.le.f32 %p4, %f8, %f9;
@%p4 bra $Lt_80_1794;
$Lt_80_1538:
.loc 17 10668 0
add.f32 %f5, %f1, %f2;
bra.uni $LDWendi___isnanf_339_1;
$Lt_80_1794:
.loc 17 10667 0
mov.f32 %f10, 0f7f800000; // 1.#INF
setp.eq.f32 %p5, %f1, %f10;
@!%p5 bra $Lt_80_20738;
.loc 17 10671 0
mov.f32 %f11, 0f7f800000; // 1.#INF
mov.f32 %f12, 0f00000000; // 0
mov.b32 %r16, %f2;
mov.s32 %r17, 0;
setp.ge.s32 %p6, %r16, %r17;
selp.f32 %f5, %f11, %f12, %p6;
bra.uni $LDWendi___isnanf_339_1;
$Lt_80_20738:
.loc 17 10673 0
mov.f32 %f13, 0f7f800000; // 1.#INF
setp.eq.f32 %p7, %f8, %f13;
@!%p7 bra $Lt_80_21250;
mov.f32 %f14, 0fbf800000; // -1
setp.eq.f32 %p8, %f1, %f14;
@!%p8 bra $Lt_80_21762;
.loc 17 10675 0
mov.f32 %f5, 0f3f800000; // 1
bra.uni $LDWendi___isnanf_339_1;
$Lt_80_21762:
.loc 17 10681 0
mov.f32 %f15, 0f00000000; // 0
setp.lt.f32 %p9, %f2, %f15;
mov.f32 %f16, 0f00000000; // 0
rcp.approx.f32 %f17, %f16;
mov.f32 %f18, 0f3f800000; // 1
setp.gt.f32 %p10, %f6, %f18;
mov.f32 %f19, 0f00000000; // 0
selp.f32 %f20, %f19, %f17, %p10;
mov.f32 %f21, 0f7f800000; // 1.#INF
mov.f32 %f22, 0f00000000; // 0
selp.f32 %f23, %f21, %f22, %p10;
selp.f32 %f24, %f20, %f23, %p9;
add.f32 %f5, %f24, %f24;
bra.uni $LDWendi___isnanf_339_1;
$Lt_80_21250:
mov.f32 %f25, 0f00000000; // 0
setp.eq.f32 %p11, %f1, %f25;
@!%p11 bra $Lt_80_22274;
.loc 17 10689 0
mov.f32 %f26, 0f3f000000; // 0.5
mul.f32 %f27, %f2, %f26;
mov.f32 %f28, 0f00000000; // 0
setp.lt.f32 %p12, %f2, %f28;
cvt.rzi.f32.f32 %f29, %f27;
add.f32 %f30, %f29, %f29;
sub.f32 %f31, %f2, %f30;
abs.f32 %f32, %f31;
mov.f32 %f33, 0f3f800000; // 1
setp.eq.f32 %p13, %f32, %f33;
mov.f32 %f34, 0f00000000; // 0
selp.f32 %f35, %f1, %f34, %p13;
rcp.approx.f32 %f36, %f35;
selp.f32 %f37, %f36, %f35, %p12;
add.f32 %f5, %f37, %f37;
bra.uni $LDWendi___isnanf_339_1;
$Lt_80_22274:
mov.f32 %f38, 0fff800000; // -1.#INF
setp.eq.f32 %p14, %f1, %f38;
@!%p14 bra $Lt_80_22786;
.loc 17 10692 0
rcp.approx.f32 %f39, %f1;
neg.f32 %f40, %f39;
neg.f32 %f41, %f1;
mov.f32 %f42, 0f00000000; // 0
setp.lt.f32 %p15, %f2, %f42;
selp.f32 %f43, %f40, %f41, %p15;
mov.f32 %f44, 0f3f000000; // 0.5
mul.f32 %f45, %f2, %f44;
cvt.rzi.f32.f32 %f46, %f45;
add.f32 %f47, %f46, %f46;
sub.f32 %f48, %f2, %f47;
abs.f32 %f49, %f48;
mov.f32 %f50, 0f3f800000; // 1
setp.eq.f32 %p16, %f49, %f50;
@!%p16 bra $Lt_80_23298;
.loc 17 10694 0
mov.b32 %r18, %f43;
xor.b32 %r19, %r18, -2147483648;
mov.b32 %f43, %r19;
$Lt_80_23298:
.loc 17 10696 0
mov.f32 %f5, %f43;
bra.uni $LDWendi___isnanf_339_1;
$Lt_80_22786:
.loc 17 10698 0
mov.f32 %f51, 0f00000000; // 0
setp.lt.f32 %p17, %f1, %f51;
@!%p17 bra $Lt_80_26114;
cvt.rzi.f32.f32 %f52, %f2;
setp.neu.f32 %p18, %f2, %f52;
@!%p18 bra $L_80_19202;
.loc 17 10699 0
mov.f32 %f53, 0fffc00000; // -1.#IND
rsqrt.approx.f32 %f5, %f53;
bra.uni $LDWendi___isnanf_339_1;
$Lt_80_26114:
$L_80_19202:
.loc 17 8549 0
mov.b32 %r20, %f6;
shr.s32 %r21, %r20, 23;
and.b32 %r22, %r21, 255;
sub.s32 %r23, %r22, 127;
.loc 17 8550 0
and.b32 %r24, %r20, -2139095041;
or.b32 %r25, %r24, 1065353216;
mov.b32 %f54, %r25;
mov.f32 %f55, %f54;
mov.f32 %f56, 0f3fb504f3; // 1.41421
setp.gt.f32 %p19, %f54, %f56;
@!%p19 bra $Lt_80_23810;
.loc 17 8552 0
mov.f32 %f57, 0f3f000000; // 0.5
mul.f32 %f55, %f54, %f57;
.loc 17 8553 0
add.s32 %r23, %r23, 1;
$Lt_80_23810:
.loc 17 8429 0
mov.f32 %f58, 0fbf800000; // -1
add.f32 %f59, %f55, %f58;
mov.f32 %f60, 0f3f800000; // 1
add.f32 %f61, %f55, %f60;
add.f32 %f62, %f59, %f59;
rcp.approx.f32 %f63, %f61;
mul.f32 %f64, %f62, %f63;
mul.f32 %f65, %f64, %f64;
mov.f32 %f66, 0f3b18f0fe; // 0.0023337
mov.f32 %f67, %f66;
mov.f32 %f68, %f65;
mov.f32 %f69, 0f3c4caf63; // 0.012493
mov.f32 %f70, %f69;
mad.f32 %f71, %f67, %f68, %f70;
mov.f32 %f72, %f71;
mov.f32 %f73, %f72;
mov.f32 %f74, %f65;
mov.f32 %f75, 0f3daaaabd; // 0.0833335
mov.f32 %f76, %f75;
mad.f32 %f77, %f73, %f74, %f76;
mov.f32 %f78, %f77;
.loc 17 8570 0
mul.rn.f32 %f79, %f78, %f65;
mul.rn.f32 %f80, %f79, %f64;
.loc 17 8429 0
mov.b32 %r26, %f59;
and.b32 %r27, %r26, -4096;
mov.b32 %f81, %r27;
mov.b32 %r28, %f64;
and.b32 %r29, %r28, -4096;
mov.b32 %f82, %r29;
neg.f32 %f83, %f82;
sub.f32 %f84, %f59, %f82;
mov.f32 %f85, %f83;
mov.f32 %f86, %f81;
add.f32 %f87, %f84, %f84;
mov.f32 %f88, %f87;
mad.f32 %f89, %f85, %f86, %f88;
mov.f32 %f90, %f89;
mov.f32 %f91, %f83;
sub.f32 %f92, %f59, %f81;
mov.f32 %f93, %f92;
mov.f32 %f94, %f90;
mad.f32 %f95, %f91, %f93, %f94;
mov.f32 %f96, %f95;
.loc 17 8588 0
mul.rn.f32 %f97, %f63, %f96;
add.f32 %f98, %f97, %f82;
add.f32 %f99, %f98, %f80;
sub.f32 %f100, %f98, %f82;
sub.f32 %f101, %f98, %f99;
sub.f32 %f102, %f97, %f100;
add.f32 %f103, %f101, %f80;
add.f32 %f104, %f102, %f103;
add.f32 %f105, %f99, %f104;
.loc 17 8589 0
sub.f32 %f106, %f99, %f105;
add.f32 %f107, %f104, %f106;
.loc 17 8596 0
cvt.rn.f32.s32 %f108, %r23;
mov.f32 %f109, 0f3f317200; // 0.693146
mul.rn.f32 %f110, %f108, %f109;
add.f32 %f111, %f110, %f105;
.loc 17 8597 0
mov.f32 %f112, 0f35bfbe8e; // 1.42861e-006
mul.rn.f32 %f113, %f108, %f112;
sub.f32 %f114, %f110, %f111;
add.f32 %f115, %f114, %f105;
add.f32 %f116, %f115, %f107;
add.f32 %f117, %f113, %f116;
.loc 17 8598 0
add.f32 %f118, %f117, %f111;
.loc 17 8429 0
mov.f32 %f119, 0f39000000; // 0.00012207
mul.f32 %f120, %f2, %f119;
mov.f32 %f121, 0f77f684df; // 1e+034
setp.gt.f32 %p20, %f8, %f121;
selp.f32 %f122, %f120, %f2, %p20;
neg.f32 %f123, %f122;
mov.f32 %f124, %f123;
mov.f32 %f125, 0f45800800; // 4097
mov.f32 %f126, %f125;
mov.f32 %f127, %f122;
mad.f32 %f128, %f124, %f126, %f127;
mov.f32 %f129, %f128;
mov.f32 %f130, %f122;
mov.f32 %f131, 0f45800800; // 4097
mov.f32 %f132, %f131;
mov.f32 %f133, %f129;
mad.f32 %f134, %f130, %f132, %f133;
mov.f32 %f135, %f134;
.loc 17 8616 0
mov.f32 %f136, %f135;
.loc 17 8429 0
neg.f32 %f137, %f118;
mov.f32 %f138, %f137;
mov.f32 %f139, 0f45800800; // 4097
mov.f32 %f140, %f139;
mov.f32 %f141, %f118;
mad.f32 %f142, %f138, %f140, %f141;
mov.f32 %f129, %f142;
mov.f32 %f143, %f118;
mov.f32 %f144, 0f45800800; // 4097
mov.f32 %f145, %f144;
mov.f32 %f146, %f129;
mad.f32 %f147, %f143, %f145, %f146;
mov.f32 %f129, %f147;
.loc 17 8617 0
mov.f32 %f148, %f129;
.loc 17 8619 0
sub.f32 %f149, %f118, %f129;
.loc 17 8429 0
mul.rn.f32 %f150, %f122, %f118;
mov.f32 %f151, %f136;
mov.f32 %f152, %f129;
neg.f32 %f153, %f150;
mov.f32 %f154, %f153;
mad.f32 %f155, %f151, %f152, %f154;
mov.f32 %f129, %f155;
mov.f32 %f156, %f136;
mov.f32 %f157, %f149;
mov.f32 %f158, %f129;
mad.f32 %f159, %f156, %f157, %f158;
mov.f32 %f129, %f159;
sub.f32 %f160, %f122, %f135;
mov.f32 %f161, %f148;
mov.f32 %f162, %f160;
mov.f32 %f163, %f129;
mad.f32 %f164, %f161, %f162, %f163;
mov.f32 %f129, %f164;
mov.f32 %f165, %f160;
mov.f32 %f166, %f149;
mov.f32 %f167, %f129;
mad.f32 %f168, %f165, %f166, %f167;
mov.f32 %f129, %f168;
.loc 17 8625 0
sub.f32 %f169, %f111, %f118;
mov.f32 %f170, 0f00000000; // 0
mul.rn.f32 %f171, %f170, %f118;
add.f32 %f172, %f169, %f117;
mul.rn.f32 %f173, %f122, %f172;
add.f32 %f174, %f171, %f173;
add.f32 %f175, %f174, %f129;
add.rn.f32 %f176, %f150, %f175;
sub.f32 %f177, %f150, %f176;
add.rn.f32 %f178, %f177, %f175;
.loc 17 10602 0
mov.f32 %f179, %f178;
mov.f32 %f180, %f176;
mov.b32 %r30, %f176;
mov.u32 %r31, 1118925336;
setp.ne.s32 %p21, %r30, %r31;
@%p21 bra $Lt_80_24322;
.loc 17 10606 0
sub.s32 %r32, %r30, 1;
mov.b32 %f180, %r32;
.loc 17 10607 0
mov.f32 %f181, 0f37000000; // 7.62939e-006
add.f32 %f179, %f178, %f181;
$Lt_80_24322:
.loc 17 8429 0
mov.f32 %f182, 0f3fb8aa3b; // 1.4427
mul.f32 %f183, %f180, %f182;
cvt.rzi.f32.f32 %f184, %f183;
mov.f32 %f185, %f184;
mov.f32 %f186, 0fbf317200; // -0.693146
mov.f32 %f187, %f186;
mov.f32 %f188, %f180;
mad.f32 %f189, %f185, %f187, %f188;
mov.f32 %f190, %f189;
mov.f32 %f191, %f184;
mov.f32 %f192, 0fb5bfbe8e; // -1.42861e-006
mov.f32 %f193, %f192;
mov.f32 %f194, %f190;
mad.f32 %f195, %f191, %f193, %f194;
mov.f32 %f196, %f195;
.loc 17 10611 0
mov.f32 %f197, 0f42d20000; // 105
setp.gt.f32 %p22, %f180, %f197;
mov.f32 %f198, 0fc2d20000; // -105
setp.lt.f32 %p23, %f180, %f198;
mov.f32 %f199, 0f3fb8aa3b; // 1.4427
mul.f32 %f200, %f196, %f199;
ex2.approx.f32 %f201, %f200;
ex2.approx.f32 %f202, %f184;
mul.f32 %f203, %f201, %f202;
mov.f32 %f204, 0f00000000; // 0
selp.f32 %f205, %f204, %f203, %p23;
mov.f32 %f206, 0f7f800000; // 1.#INF
selp.f32 %f207, %f206, %f205, %p22;
mov.f32 %f208, %f207;
mov.f32 %f209, 0f7f800000; // 1.#INF
setp.neu.f32 %p24, %f207, %f209;
@!%p24 bra $Lt_80_24834;
.loc 17 8429 0
mov.f32 %f210, %f208;
mov.f32 %f211, %f179;
mov.f32 %f212, %f208;
mad.f32 %f213, %f210, %f211, %f212;
mov.f32 %f214, %f213;
.loc 17 10617 0
mov.f32 %f208, %f214;
$Lt_80_24834:
.loc 17 10702 0
mov.f32 %f43, %f208;
mov.f32 %f215, 0f3f000000; // 0.5
mul.f32 %f216, %f2, %f215;
cvt.rzi.f32.f32 %f217, %f216;
selp.s32 %r33, 1, 0, %p17;
add.f32 %f218, %f217, %f217;
sub.f32 %f219, %f2, %f218;
abs.f32 %f220, %f219;
mov.f32 %f221, 0f3f800000; // 1
set.eq.u32.f32 %r34, %f220, %f221;
neg.s32 %r35, %r34;
and.b32 %r36, %r33, %r35;
mov.u32 %r37, 0;
setp.eq.s32 %p25, %r36, %r37;
@%p25 bra $Lt_80_25346;
.loc 17 10704 0
mov.b32 %r38, %f43;
xor.b32 %r39, %r38, -2147483648;
mov.b32 %f43, %r39;
$Lt_80_25346:
.loc 17 10706 0
mov.f32 %f5, %f43;
$LDWendi___isnanf_339_1:
.loc 15 983 0
cvt.f64.f32 %fd3, %f5;
ld.param.u32 %r40, [__cudaparm_vec_pow_result];
add.u32 %r41, %r40, %r5;
st.global.f64 [%r41+0], %fd3;
$Lt_80_19714:
.loc 15 985 0
exit;
$LDWend_vec_pow:
} // vec_pow
.entry vec_remainder (
.param .u32 __cudaparm_vec_remainder_n,
.param .u32 __cudaparm_vec_remainder_result,
.param .u32 __cudaparm_vec_remainder_x,
.param .u32 __cudaparm_vec_remainder_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<57>;
.reg .f32 %f<37>;
.reg .f64 %fd<5>;
.reg .pred %p<15>;
.loc 15 989 0
$LDWbegin_vec_remainder:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.u32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
ld.param.u32 %r4, [__cudaparm_vec_remainder_n];
setp.le.u32 %p1, %r4, %r3;
@%p1 bra $Lt_81_11010;
.loc 15 994 0
mul.lo.u32 %r5, %r3, 8;
ld.param.u32 %r6, [__cudaparm_vec_remainder_x];
add.u32 %r7, %r6, %r5;
ld.global.f64 %fd1, [%r7+0];
cvt.rn.f32.f64 %f1, %fd1;
ld.param.u32 %r8, [__cudaparm_vec_remainder_y];
add.u32 %r9, %r8, %r5;
ld.global.f64 %fd2, [%r9+0];
cvt.rn.f32.f64 %f2, %fd2;
.loc 17 10424 0
abs.f32 %f3, %f1;
abs.f32 %f4, %f2;
mov.f32 %f5, 0f7f800000; // 1.#INF
set.le.u32.f32 %r10, %f4, %f5;
neg.s32 %r11, %r10;
mov.f32 %f6, 0f7f800000; // 1.#INF
set.le.u32.f32 %r12, %f3, %f6;
neg.s32 %r13, %r12;
and.b32 %r14, %r11, %r13;
mov.u32 %r15, 0;
setp.ne.s32 %p2, %r14, %r15;
@%p2 bra $Lt_81_11522;
.loc 17 10427 0
add.f32 %f7, %f1, %f2;
bra.uni $LDWendi___internal_fmad_340_1;
$Lt_81_11522:
mov.f32 %f8, 0f00000000; // 0
set.eq.u32.f32 %r16, %f4, %f8;
neg.s32 %r17, %r16;
mov.f32 %f9, 0f7f800000; // 1.#INF
set.eq.u32.f32 %r18, %f3, %f9;
neg.s32 %r19, %r18;
or.b32 %r20, %r17, %r19;
mov.u32 %r21, 0;
setp.eq.s32 %p3, %r20, %r21;
@%p3 bra $Lt_81_12290;
.loc 17 10430 0
mov.f32 %f10, 0fffc00000; // -1.#IND
rsqrt.approx.f32 %f7, %f10;
bra.uni $LDWendi___internal_fmad_340_1;
$Lt_81_12290:
setp.le.f32 %p4, %f4, %f3;
@!%p4 bra $Lt_81_12802;
.loc 17 10444 0
mov.b32 %r22, %f3;
mov.b32 %r23, %f4;
and.b32 %r24, %r22, 2139095040;
and.b32 %r25, %r23, 8388607;
or.b32 %r26, %r24, %r25;
mov.b32 %f11, %r26;
setp.gt.f32 %p5, %f11, %f3;
mov.f32 %f12, 0f3f000000; // 0.5
mul.f32 %f13, %f11, %f12;
selp.f32 %f14, %f13, %f11, %p5;
mov.f32 %f15, %f14;
setp.eq.f32 %p6, %f14, %f3;
@!%p6 bra $Lt_81_16642;
.loc 17 10450 0
mov.b32 %r27, %f1;
and.b32 %r28, %r27, -2147483648;
mov.b32 %f7, %r28;
bra.uni $LDWendi___internal_fmad_340_1;
$Lt_81_16642:
setp.le.f32 %p7, %f4, %f14;
@!%p7 bra $Lt_81_16898;
mov.f32 %f16, 0f00000000; // 0
$Lt_81_14082:
setp.ge.f32 %p8, %f3, %f15;
@!%p8 bra $Lt_81_14594;
.loc 17 8429 0
mov.f32 %f17, %f3;
mov.f32 %f18, 0f40000000; // 2
mov.f32 %f19, %f18;
neg.f32 %f20, %f15;
mov.f32 %f21, %f20;
mad.f32 %f22, %f17, %f19, %f21;
mov.f32 %f23, %f22;
.loc 17 10456 0
sub.f32 %f16, %f23, %f15;
.loc 17 10457 0
sub.f32 %f3, %f3, %f15;
mov.u32 %r29, 1;
bra.uni $Lt_81_14338;
$Lt_81_14594:
mov.u32 %r29, 0;
$Lt_81_14338:
.loc 17 10460 0
mov.f32 %f24, 0f3f000000; // 0.5
mul.f32 %f15, %f15, %f24;
setp.le.f32 %p9, %f4, %f15;
@%p9 bra $Lt_81_14082;
bra.uni $Lt_81_12546;
$Lt_81_16898:
mov.u32 %r29, 0;
mov.f32 %f16, 0f00000000; // 0
bra.uni $Lt_81_12546;
$Lt_81_12802:
mov.u32 %r29, 0;
mov.f32 %f16, 0f00000000; // 0
$Lt_81_12546:
mov.u32 %r30, 0;
setp.ne.u32 %p10, %r29, %r30;
selp.s32 %r31, 1, 0, %p10;
mov.f32 %f25, 0f00800000; // 1.17549e-038
setp.ge.f32 %p11, %f3, %f25;
@!%p11 bra $Lt_81_15362;
add.f32 %f26, %f3, %f3;
set.lt.u32.f32 %r32, %f4, %f26;
neg.s32 %r33, %r32;
set.eq.u32.f32 %r34, %f4, %f26;
neg.s32 %r35, %r34;
and.b32 %r36, %r31, %r35;
or.b32 %r37, %r33, %r36;
mov.u32 %r38, 0;
setp.eq.s32 %p12, %r37, %r38;
@%p12 bra $Lt_81_16130;
.loc 17 10474 0
sub.f32 %f27, %f3, %f4;
.loc 17 10475 0
mov.b32 %r39, %f27;
or.b32 %r40, %r39, -2147483648;
mov.b32 %f3, %r40;
bra.uni $Lt_81_16130;
$Lt_81_15362:
set.lt.u32.f32 %r41, %f4, %f16;
neg.s32 %r42, %r41;
set.eq.u32.f32 %r43, %f4, %f16;
neg.s32 %r44, %r43;
and.b32 %r45, %r31, %r44;
or.b32 %r46, %r42, %r45;
mov.u32 %r47, 0;
setp.eq.s32 %p13, %r46, %r47;
@%p13 bra $Lt_81_16130;
.loc 17 8429 0
mov.f32 %f28, %f4;
mov.f32 %f29, 0fc0000000; // -2
mov.f32 %f30, %f29;
mov.f32 %f31, %f16;
mad.f32 %f32, %f28, %f30, %f31;
mov.f32 %f33, %f32;
.loc 17 10481 0
mov.f32 %f34, 0f3f000000; // 0.5
mul.f32 %f35, %f33, %f34;
mov.b32 %r48, %f35;
or.b32 %r49, %r48, -2147483648;
mov.b32 %f3, %r49;
$Lt_81_16130:
$Lt_81_15106:
.loc 17 10485 0
mov.b32 %r50, %f3;
mov.b32 %r51, %f1;
and.b32 %r52, %r51, -2147483648;
xor.b32 %r53, %r50, %r52;
mov.b32 %f3, %r53;
.loc 17 10487 0
mov.f32 %f7, %f3;
$LDWendi___internal_fmad_340_1:
.loc 15 994 0
cvt.f64.f32 %fd3, %f7;
ld.param.u32 %r54, [__cudaparm_vec_remainder_result];
add.u32 %r55, %r54, %r5;
st.global.f64 [%r55+0], %fd3;
$Lt_81_11010:
.loc 15 996 0
exit;
$LDWend_vec_remainder:
} // vec_remainder
© 2015 - 2025 Weber Informatics LLC | Privacy Policy