
gust.linalg.cuda.map_kernels_float_64.ptx Maven / Gradle / Ivy
The newest version!
.version 1.4
.target sm_10, map_f64_to_f32
//-----------------------------------------------------------
// Options:
//-----------------------------------------------------------
// Target:ptx, ISA:sm_10, Endian:little, Pointer Size:64
// -O3 (Optimization level)
// -g0 (Debug level)
// -m2 (Report advisories)
//-----------------------------------------------------------
.entry vec_setf (
.param .u64 __cudaparm_vec_setf_n,
.param .u64 __cudaparm_vec_setf_result,
.param .f32 __cudaparm_vec_setf_value)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<7>;
.reg .f32 %f<3>;
.reg .pred %p<3>;
.loc 15 4 0
$LDWbegin_vec_setf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_setf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_0_1026;
.loc 15 9 0
ld.param.f32 %f1, [__cudaparm_vec_setf_value];
ld.param.u64 %rd3, [__cudaparm_vec_setf_result];
mul.lo.u64 %rd4, %rd1, 4;
add.u64 %rd5, %rd3, %rd4;
st.global.f32 [%rd5+0], %f1;
$Lt_0_1026:
.loc 15 11 0
exit;
$LDWend_vec_setf:
} // vec_setf
.entry vec_addf (
.param .u64 __cudaparm_vec_addf_n,
.param .u64 __cudaparm_vec_addf_result,
.param .u64 __cudaparm_vec_addf_x,
.param .u64 __cudaparm_vec_addf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<11>;
.reg .f32 %f<5>;
.reg .pred %p<3>;
.loc 15 16 0
$LDWbegin_vec_addf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_addf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_1_1026;
.loc 15 21 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_addf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
ld.param.u64 %rd6, [__cudaparm_vec_addf_y];
add.u64 %rd7, %rd6, %rd3;
ld.global.f32 %f2, [%rd7+0];
add.f32 %f3, %f1, %f2;
ld.param.u64 %rd8, [__cudaparm_vec_addf_result];
add.u64 %rd9, %rd8, %rd3;
st.global.f32 [%rd9+0], %f3;
$Lt_1_1026:
.loc 15 23 0
exit;
$LDWend_vec_addf:
} // vec_addf
.entry vec_subf (
.param .u64 __cudaparm_vec_subf_n,
.param .u64 __cudaparm_vec_subf_result,
.param .u64 __cudaparm_vec_subf_x,
.param .u64 __cudaparm_vec_subf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<11>;
.reg .f32 %f<5>;
.reg .pred %p<3>;
.loc 15 27 0
$LDWbegin_vec_subf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_subf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_2_1026;
.loc 15 32 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_subf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
ld.param.u64 %rd6, [__cudaparm_vec_subf_y];
add.u64 %rd7, %rd6, %rd3;
ld.global.f32 %f2, [%rd7+0];
sub.f32 %f3, %f1, %f2;
ld.param.u64 %rd8, [__cudaparm_vec_subf_result];
add.u64 %rd9, %rd8, %rd3;
st.global.f32 [%rd9+0], %f3;
$Lt_2_1026:
.loc 15 34 0
exit;
$LDWend_vec_subf:
} // vec_subf
.entry vec_mulf (
.param .u64 __cudaparm_vec_mulf_n,
.param .u64 __cudaparm_vec_mulf_result,
.param .u64 __cudaparm_vec_mulf_x,
.param .u64 __cudaparm_vec_mulf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<11>;
.reg .f32 %f<5>;
.reg .pred %p<3>;
.loc 15 38 0
$LDWbegin_vec_mulf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_mulf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_3_1026;
.loc 15 43 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_mulf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
ld.param.u64 %rd6, [__cudaparm_vec_mulf_y];
add.u64 %rd7, %rd6, %rd3;
ld.global.f32 %f2, [%rd7+0];
mul.f32 %f3, %f1, %f2;
ld.param.u64 %rd8, [__cudaparm_vec_mulf_result];
add.u64 %rd9, %rd8, %rd3;
st.global.f32 [%rd9+0], %f3;
$Lt_3_1026:
.loc 15 45 0
exit;
$LDWend_vec_mulf:
} // vec_mulf
.entry vec_divf (
.param .u64 __cudaparm_vec_divf_n,
.param .u64 __cudaparm_vec_divf_result,
.param .u64 __cudaparm_vec_divf_x,
.param .u64 __cudaparm_vec_divf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<11>;
.reg .f32 %f<5>;
.reg .pred %p<3>;
.loc 15 49 0
$LDWbegin_vec_divf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_divf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_4_1026;
.loc 15 54 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_divf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
ld.param.u64 %rd6, [__cudaparm_vec_divf_y];
add.u64 %rd7, %rd6, %rd3;
ld.global.f32 %f2, [%rd7+0];
div.full.f32 %f3, %f1, %f2;
ld.param.u64 %rd8, [__cudaparm_vec_divf_result];
add.u64 %rd9, %rd8, %rd3;
st.global.f32 [%rd9+0], %f3;
$Lt_4_1026:
.loc 15 56 0
exit;
$LDWend_vec_divf:
} // vec_divf
.entry vec_negatef (
.param .u64 __cudaparm_vec_negatef_n,
.param .u64 __cudaparm_vec_negatef_result,
.param .u64 __cudaparm_vec_negatef_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<9>;
.reg .f32 %f<4>;
.reg .pred %p<3>;
.loc 15 59 0
$LDWbegin_vec_negatef:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_negatef_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_5_1026;
.loc 15 64 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_negatef_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
neg.f32 %f2, %f1;
ld.param.u64 %rd6, [__cudaparm_vec_negatef_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f2;
$Lt_5_1026:
.loc 15 66 0
exit;
$LDWend_vec_negatef:
} // vec_negatef
.entry vec_addScalarf (
.param .u64 __cudaparm_vec_addScalarf_n,
.param .u64 __cudaparm_vec_addScalarf_result,
.param .u64 __cudaparm_vec_addScalarf_x,
.param .f32 __cudaparm_vec_addScalarf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<9>;
.reg .f32 %f<5>;
.reg .pred %p<3>;
.loc 15 74 0
$LDWbegin_vec_addScalarf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_addScalarf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_6_1026;
.loc 15 79 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_addScalarf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
ld.param.f32 %f2, [__cudaparm_vec_addScalarf_y];
add.f32 %f3, %f1, %f2;
ld.param.u64 %rd6, [__cudaparm_vec_addScalarf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f3;
$Lt_6_1026:
.loc 15 81 0
exit;
$LDWend_vec_addScalarf:
} // vec_addScalarf
.entry vec_subScalarf (
.param .u64 __cudaparm_vec_subScalarf_n,
.param .u64 __cudaparm_vec_subScalarf_result,
.param .u64 __cudaparm_vec_subScalarf_x,
.param .f32 __cudaparm_vec_subScalarf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<9>;
.reg .f32 %f<5>;
.reg .pred %p<3>;
.loc 15 85 0
$LDWbegin_vec_subScalarf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_subScalarf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_7_1026;
.loc 15 90 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_subScalarf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
ld.param.f32 %f2, [__cudaparm_vec_subScalarf_y];
sub.f32 %f3, %f1, %f2;
ld.param.u64 %rd6, [__cudaparm_vec_subScalarf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f3;
$Lt_7_1026:
.loc 15 92 0
exit;
$LDWend_vec_subScalarf:
} // vec_subScalarf
.entry vec_mulScalarf (
.param .u64 __cudaparm_vec_mulScalarf_n,
.param .u64 __cudaparm_vec_mulScalarf_result,
.param .u64 __cudaparm_vec_mulScalarf_x,
.param .f32 __cudaparm_vec_mulScalarf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<9>;
.reg .f32 %f<5>;
.reg .pred %p<3>;
.loc 15 96 0
$LDWbegin_vec_mulScalarf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_mulScalarf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_8_1026;
.loc 15 101 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_mulScalarf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
ld.param.f32 %f2, [__cudaparm_vec_mulScalarf_y];
mul.f32 %f3, %f1, %f2;
ld.param.u64 %rd6, [__cudaparm_vec_mulScalarf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f3;
$Lt_8_1026:
.loc 15 103 0
exit;
$LDWend_vec_mulScalarf:
} // vec_mulScalarf
.entry vec_divScalarf (
.param .u64 __cudaparm_vec_divScalarf_n,
.param .u64 __cudaparm_vec_divScalarf_result,
.param .u64 __cudaparm_vec_divScalarf_x,
.param .f32 __cudaparm_vec_divScalarf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<9>;
.reg .f32 %f<5>;
.reg .pred %p<3>;
.loc 15 107 0
$LDWbegin_vec_divScalarf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_divScalarf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_9_1026;
.loc 15 112 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_divScalarf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
ld.param.f32 %f2, [__cudaparm_vec_divScalarf_y];
div.full.f32 %f3, %f1, %f2;
ld.param.u64 %rd6, [__cudaparm_vec_divScalarf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f3;
$Lt_9_1026:
.loc 15 114 0
exit;
$LDWend_vec_divScalarf:
} // vec_divScalarf
.entry vec_scalarAddf (
.param .u64 __cudaparm_vec_scalarAddf_n,
.param .u64 __cudaparm_vec_scalarAddf_result,
.param .f32 __cudaparm_vec_scalarAddf_x,
.param .u64 __cudaparm_vec_scalarAddf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<9>;
.reg .f32 %f<5>;
.reg .pred %p<3>;
.loc 15 120 0
$LDWbegin_vec_scalarAddf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_scalarAddf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_10_1026;
.loc 15 125 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_scalarAddf_y];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
ld.param.f32 %f2, [__cudaparm_vec_scalarAddf_x];
add.f32 %f3, %f1, %f2;
ld.param.u64 %rd6, [__cudaparm_vec_scalarAddf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f3;
$Lt_10_1026:
.loc 15 127 0
exit;
$LDWend_vec_scalarAddf:
} // vec_scalarAddf
.entry vec_scalarSubf (
.param .u64 __cudaparm_vec_scalarSubf_n,
.param .u64 __cudaparm_vec_scalarSubf_result,
.param .f32 __cudaparm_vec_scalarSubf_x,
.param .u64 __cudaparm_vec_scalarSubf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<9>;
.reg .f32 %f<5>;
.reg .pred %p<3>;
.loc 15 131 0
$LDWbegin_vec_scalarSubf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_scalarSubf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_11_1026;
.loc 15 136 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.f32 %f1, [__cudaparm_vec_scalarSubf_x];
ld.param.u64 %rd4, [__cudaparm_vec_scalarSubf_y];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f2, [%rd5+0];
sub.f32 %f3, %f1, %f2;
ld.param.u64 %rd6, [__cudaparm_vec_scalarSubf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f3;
$Lt_11_1026:
.loc 15 138 0
exit;
$LDWend_vec_scalarSubf:
} // vec_scalarSubf
.entry vec_scalarMulf (
.param .u64 __cudaparm_vec_scalarMulf_n,
.param .u64 __cudaparm_vec_scalarMulf_result,
.param .f32 __cudaparm_vec_scalarMulf_x,
.param .u64 __cudaparm_vec_scalarMulf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<9>;
.reg .f32 %f<5>;
.reg .pred %p<3>;
.loc 15 142 0
$LDWbegin_vec_scalarMulf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_scalarMulf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_12_1026;
.loc 15 147 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_scalarMulf_y];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
ld.param.f32 %f2, [__cudaparm_vec_scalarMulf_x];
mul.f32 %f3, %f1, %f2;
ld.param.u64 %rd6, [__cudaparm_vec_scalarMulf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f3;
$Lt_12_1026:
.loc 15 149 0
exit;
$LDWend_vec_scalarMulf:
} // vec_scalarMulf
.entry vec_scalarDivf (
.param .u64 __cudaparm_vec_scalarDivf_n,
.param .u64 __cudaparm_vec_scalarDivf_result,
.param .f32 __cudaparm_vec_scalarDivf_x,
.param .u64 __cudaparm_vec_scalarDivf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<9>;
.reg .f32 %f<5>;
.reg .pred %p<3>;
.loc 15 153 0
$LDWbegin_vec_scalarDivf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_scalarDivf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_13_1026;
.loc 15 158 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.f32 %f1, [__cudaparm_vec_scalarDivf_x];
ld.param.u64 %rd4, [__cudaparm_vec_scalarDivf_y];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f2, [%rd5+0];
div.full.f32 %f3, %f1, %f2;
ld.param.u64 %rd6, [__cudaparm_vec_scalarDivf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f3;
$Lt_13_1026:
.loc 15 160 0
exit;
$LDWend_vec_scalarDivf:
} // vec_scalarDivf
.entry vec_ltf (
.param .u64 __cudaparm_vec_ltf_n,
.param .u64 __cudaparm_vec_ltf_result,
.param .u64 __cudaparm_vec_ltf_x,
.param .u64 __cudaparm_vec_ltf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<11>;
.reg .f32 %f<7>;
.reg .pred %p<4>;
.loc 15 175 0
$LDWbegin_vec_ltf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_ltf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_14_1794;
.loc 15 180 0
mul.lo.u64 %rd3, %rd1, 4;
mov.f32 %f1, 0f3f800000; // 1
mov.f32 %f2, 0f00000000; // 0
ld.param.u64 %rd4, [__cudaparm_vec_ltf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f3, [%rd5+0];
ld.param.u64 %rd6, [__cudaparm_vec_ltf_y];
add.u64 %rd7, %rd6, %rd3;
ld.global.f32 %f4, [%rd7+0];
setp.lt.f32 %p2, %f3, %f4;
selp.f32 %f5, %f1, %f2, %p2;
ld.param.u64 %rd8, [__cudaparm_vec_ltf_result];
add.u64 %rd9, %rd8, %rd3;
st.global.f32 [%rd9+0], %f5;
$Lt_14_1794:
.loc 15 182 0
exit;
$LDWend_vec_ltf:
} // vec_ltf
.entry vec_ltef (
.param .u64 __cudaparm_vec_ltef_n,
.param .u64 __cudaparm_vec_ltef_result,
.param .u64 __cudaparm_vec_ltef_x,
.param .u64 __cudaparm_vec_ltef_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<11>;
.reg .f32 %f<7>;
.reg .pred %p<4>;
.loc 15 186 0
$LDWbegin_vec_ltef:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_ltef_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_15_1794;
.loc 15 191 0
mul.lo.u64 %rd3, %rd1, 4;
mov.f32 %f1, 0f3f800000; // 1
mov.f32 %f2, 0f00000000; // 0
ld.param.u64 %rd4, [__cudaparm_vec_ltef_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f3, [%rd5+0];
ld.param.u64 %rd6, [__cudaparm_vec_ltef_y];
add.u64 %rd7, %rd6, %rd3;
ld.global.f32 %f4, [%rd7+0];
setp.le.f32 %p2, %f3, %f4;
selp.f32 %f5, %f1, %f2, %p2;
ld.param.u64 %rd8, [__cudaparm_vec_ltef_result];
add.u64 %rd9, %rd8, %rd3;
st.global.f32 [%rd9+0], %f5;
$Lt_15_1794:
.loc 15 193 0
exit;
$LDWend_vec_ltef:
} // vec_ltef
.entry vec_eqf (
.param .u64 __cudaparm_vec_eqf_n,
.param .u64 __cudaparm_vec_eqf_result,
.param .u64 __cudaparm_vec_eqf_x,
.param .u64 __cudaparm_vec_eqf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<11>;
.reg .f32 %f<7>;
.reg .pred %p<4>;
.loc 15 197 0
$LDWbegin_vec_eqf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_eqf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_16_1794;
.loc 15 202 0
mul.lo.u64 %rd3, %rd1, 4;
mov.f32 %f1, 0f3f800000; // 1
mov.f32 %f2, 0f00000000; // 0
ld.param.u64 %rd4, [__cudaparm_vec_eqf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f3, [%rd5+0];
ld.param.u64 %rd6, [__cudaparm_vec_eqf_y];
add.u64 %rd7, %rd6, %rd3;
ld.global.f32 %f4, [%rd7+0];
setp.eq.f32 %p2, %f3, %f4;
selp.f32 %f5, %f1, %f2, %p2;
ld.param.u64 %rd8, [__cudaparm_vec_eqf_result];
add.u64 %rd9, %rd8, %rd3;
st.global.f32 [%rd9+0], %f5;
$Lt_16_1794:
.loc 15 204 0
exit;
$LDWend_vec_eqf:
} // vec_eqf
.entry vec_gtef (
.param .u64 __cudaparm_vec_gtef_n,
.param .u64 __cudaparm_vec_gtef_result,
.param .u64 __cudaparm_vec_gtef_x,
.param .u64 __cudaparm_vec_gtef_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<11>;
.reg .f32 %f<7>;
.reg .pred %p<4>;
.loc 15 208 0
$LDWbegin_vec_gtef:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_gtef_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_17_1794;
.loc 15 213 0
mul.lo.u64 %rd3, %rd1, 4;
mov.f32 %f1, 0f3f800000; // 1
mov.f32 %f2, 0f00000000; // 0
ld.param.u64 %rd4, [__cudaparm_vec_gtef_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f3, [%rd5+0];
ld.param.u64 %rd6, [__cudaparm_vec_gtef_y];
add.u64 %rd7, %rd6, %rd3;
ld.global.f32 %f4, [%rd7+0];
setp.ge.f32 %p2, %f3, %f4;
selp.f32 %f5, %f1, %f2, %p2;
ld.param.u64 %rd8, [__cudaparm_vec_gtef_result];
add.u64 %rd9, %rd8, %rd3;
st.global.f32 [%rd9+0], %f5;
$Lt_17_1794:
.loc 15 215 0
exit;
$LDWend_vec_gtef:
} // vec_gtef
.entry vec_gtf (
.param .u64 __cudaparm_vec_gtf_n,
.param .u64 __cudaparm_vec_gtf_result,
.param .u64 __cudaparm_vec_gtf_x,
.param .u64 __cudaparm_vec_gtf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<11>;
.reg .f32 %f<7>;
.reg .pred %p<4>;
.loc 15 219 0
$LDWbegin_vec_gtf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_gtf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_18_1794;
.loc 15 224 0
mul.lo.u64 %rd3, %rd1, 4;
mov.f32 %f1, 0f3f800000; // 1
mov.f32 %f2, 0f00000000; // 0
ld.param.u64 %rd4, [__cudaparm_vec_gtf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f3, [%rd5+0];
ld.param.u64 %rd6, [__cudaparm_vec_gtf_y];
add.u64 %rd7, %rd6, %rd3;
ld.global.f32 %f4, [%rd7+0];
setp.gt.f32 %p2, %f3, %f4;
selp.f32 %f5, %f1, %f2, %p2;
ld.param.u64 %rd8, [__cudaparm_vec_gtf_result];
add.u64 %rd9, %rd8, %rd3;
st.global.f32 [%rd9+0], %f5;
$Lt_18_1794:
.loc 15 226 0
exit;
$LDWend_vec_gtf:
} // vec_gtf
.entry vec_nef (
.param .u64 __cudaparm_vec_nef_n,
.param .u64 __cudaparm_vec_nef_result,
.param .u64 __cudaparm_vec_nef_x,
.param .u64 __cudaparm_vec_nef_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<11>;
.reg .f32 %f<7>;
.reg .pred %p<4>;
.loc 15 231 0
$LDWbegin_vec_nef:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_nef_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_19_1794;
.loc 15 236 0
mul.lo.u64 %rd3, %rd1, 4;
mov.f32 %f1, 0f3f800000; // 1
mov.f32 %f2, 0f00000000; // 0
ld.param.u64 %rd4, [__cudaparm_vec_nef_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f3, [%rd5+0];
ld.param.u64 %rd6, [__cudaparm_vec_nef_y];
add.u64 %rd7, %rd6, %rd3;
ld.global.f32 %f4, [%rd7+0];
setp.neu.f32 %p2, %f3, %f4;
selp.f32 %f5, %f1, %f2, %p2;
ld.param.u64 %rd8, [__cudaparm_vec_nef_result];
add.u64 %rd9, %rd8, %rd3;
st.global.f32 [%rd9+0], %f5;
$Lt_19_1794:
.loc 15 238 0
exit;
$LDWend_vec_nef:
} // vec_nef
.entry vec_ltScalarf (
.param .u64 __cudaparm_vec_ltScalarf_n,
.param .u64 __cudaparm_vec_ltScalarf_result,
.param .u64 __cudaparm_vec_ltScalarf_x,
.param .f32 __cudaparm_vec_ltScalarf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<9>;
.reg .f32 %f<7>;
.reg .pred %p<4>;
.loc 15 246 0
$LDWbegin_vec_ltScalarf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_ltScalarf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_20_1794;
.loc 15 251 0
mul.lo.u64 %rd3, %rd1, 4;
mov.f32 %f1, 0f3f800000; // 1
mov.f32 %f2, 0f00000000; // 0
ld.param.u64 %rd4, [__cudaparm_vec_ltScalarf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f3, [%rd5+0];
ld.param.f32 %f4, [__cudaparm_vec_ltScalarf_y];
setp.lt.f32 %p2, %f3, %f4;
selp.f32 %f5, %f1, %f2, %p2;
ld.param.u64 %rd6, [__cudaparm_vec_ltScalarf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f5;
$Lt_20_1794:
.loc 15 253 0
exit;
$LDWend_vec_ltScalarf:
} // vec_ltScalarf
.entry vec_lteScalarf (
.param .u64 __cudaparm_vec_lteScalarf_n,
.param .u64 __cudaparm_vec_lteScalarf_result,
.param .u64 __cudaparm_vec_lteScalarf_x,
.param .f32 __cudaparm_vec_lteScalarf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<9>;
.reg .f32 %f<7>;
.reg .pred %p<4>;
.loc 15 257 0
$LDWbegin_vec_lteScalarf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_lteScalarf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_21_1794;
.loc 15 262 0
mul.lo.u64 %rd3, %rd1, 4;
mov.f32 %f1, 0f3f800000; // 1
mov.f32 %f2, 0f00000000; // 0
ld.param.u64 %rd4, [__cudaparm_vec_lteScalarf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f3, [%rd5+0];
ld.param.f32 %f4, [__cudaparm_vec_lteScalarf_y];
setp.le.f32 %p2, %f3, %f4;
selp.f32 %f5, %f1, %f2, %p2;
ld.param.u64 %rd6, [__cudaparm_vec_lteScalarf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f5;
$Lt_21_1794:
.loc 15 264 0
exit;
$LDWend_vec_lteScalarf:
} // vec_lteScalarf
.entry vec_eqScalarf (
.param .u64 __cudaparm_vec_eqScalarf_n,
.param .u64 __cudaparm_vec_eqScalarf_result,
.param .u64 __cudaparm_vec_eqScalarf_x,
.param .f32 __cudaparm_vec_eqScalarf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<9>;
.reg .f32 %f<7>;
.reg .pred %p<4>;
.loc 15 268 0
$LDWbegin_vec_eqScalarf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_eqScalarf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_22_1794;
.loc 15 273 0
mul.lo.u64 %rd3, %rd1, 4;
mov.f32 %f1, 0f3f800000; // 1
mov.f32 %f2, 0f00000000; // 0
ld.param.u64 %rd4, [__cudaparm_vec_eqScalarf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f3, [%rd5+0];
ld.param.f32 %f4, [__cudaparm_vec_eqScalarf_y];
setp.eq.f32 %p2, %f3, %f4;
selp.f32 %f5, %f1, %f2, %p2;
ld.param.u64 %rd6, [__cudaparm_vec_eqScalarf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f5;
$Lt_22_1794:
.loc 15 275 0
exit;
$LDWend_vec_eqScalarf:
} // vec_eqScalarf
.entry vec_gteScalarf (
.param .u64 __cudaparm_vec_gteScalarf_n,
.param .u64 __cudaparm_vec_gteScalarf_result,
.param .u64 __cudaparm_vec_gteScalarf_x,
.param .f32 __cudaparm_vec_gteScalarf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<9>;
.reg .f32 %f<7>;
.reg .pred %p<4>;
.loc 15 279 0
$LDWbegin_vec_gteScalarf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_gteScalarf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_23_1794;
.loc 15 284 0
mul.lo.u64 %rd3, %rd1, 4;
mov.f32 %f1, 0f3f800000; // 1
mov.f32 %f2, 0f00000000; // 0
ld.param.u64 %rd4, [__cudaparm_vec_gteScalarf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f3, [%rd5+0];
ld.param.f32 %f4, [__cudaparm_vec_gteScalarf_y];
setp.ge.f32 %p2, %f3, %f4;
selp.f32 %f5, %f1, %f2, %p2;
ld.param.u64 %rd6, [__cudaparm_vec_gteScalarf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f5;
$Lt_23_1794:
.loc 15 286 0
exit;
$LDWend_vec_gteScalarf:
} // vec_gteScalarf
.entry vec_gtScalarf (
.param .u64 __cudaparm_vec_gtScalarf_n,
.param .u64 __cudaparm_vec_gtScalarf_result,
.param .u64 __cudaparm_vec_gtScalarf_x,
.param .f32 __cudaparm_vec_gtScalarf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<9>;
.reg .f32 %f<7>;
.reg .pred %p<4>;
.loc 15 290 0
$LDWbegin_vec_gtScalarf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_gtScalarf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_24_1794;
.loc 15 295 0
mul.lo.u64 %rd3, %rd1, 4;
mov.f32 %f1, 0f3f800000; // 1
mov.f32 %f2, 0f00000000; // 0
ld.param.u64 %rd4, [__cudaparm_vec_gtScalarf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f3, [%rd5+0];
ld.param.f32 %f4, [__cudaparm_vec_gtScalarf_y];
setp.gt.f32 %p2, %f3, %f4;
selp.f32 %f5, %f1, %f2, %p2;
ld.param.u64 %rd6, [__cudaparm_vec_gtScalarf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f5;
$Lt_24_1794:
.loc 15 297 0
exit;
$LDWend_vec_gtScalarf:
} // vec_gtScalarf
.entry vec_neScalarf (
.param .u64 __cudaparm_vec_neScalarf_n,
.param .u64 __cudaparm_vec_neScalarf_result,
.param .u64 __cudaparm_vec_neScalarf_x,
.param .f32 __cudaparm_vec_neScalarf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<9>;
.reg .f32 %f<7>;
.reg .pred %p<4>;
.loc 15 301 0
$LDWbegin_vec_neScalarf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_neScalarf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_25_1794;
.loc 15 306 0
mul.lo.u64 %rd3, %rd1, 4;
mov.f32 %f1, 0f3f800000; // 1
mov.f32 %f2, 0f00000000; // 0
ld.param.u64 %rd4, [__cudaparm_vec_neScalarf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f3, [%rd5+0];
ld.param.f32 %f4, [__cudaparm_vec_neScalarf_y];
setp.neu.f32 %p2, %f3, %f4;
selp.f32 %f5, %f1, %f2, %p2;
ld.param.u64 %rd6, [__cudaparm_vec_neScalarf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f5;
$Lt_25_1794:
.loc 15 308 0
exit;
$LDWend_vec_neScalarf:
} // vec_neScalarf
.entry vec_acosf (
.param .u64 __cudaparm_vec_acosf_n,
.param .u64 __cudaparm_vec_acosf_result,
.param .u64 __cudaparm_vec_acosf_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<7>;
.reg .u64 %rd<9>;
.reg .f32 %f<46>;
.reg .pred %p<5>;
.loc 15 325 0
$LDWbegin_vec_acosf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_acosf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_26_3330;
.loc 15 330 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_acosf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
.loc 17 8429 0
abs.f32 %f2, %f1;
mov.f32 %f3, 0f3f11eb85; // 0.57
setp.gt.f32 %p2, %f2, %f3;
mov.f32 %f4, 0f3f800000; // 1
sub.f32 %f5, %f4, %f2;
mov.f32 %f6, 0f3f000000; // 0.5
mul.f32 %f7, %f5, %f6;
sqrt.approx.f32 %f8, %f7;
selp.f32 %f9, %f8, %f2, %p2;
mul.f32 %f10, %f9, %f9;
mov.f32 %f11, 0f3d53f941; // 0.0517514
mov.f32 %f12, %f11;
mov.f32 %f13, %f10;
mov.f32 %f14, 0f3c94d2e9; // 0.018167
mov.f32 %f15, %f14;
mad.f32 %f16, %f12, %f13, %f15;
mov.f32 %f17, %f16;
mov.f32 %f18, %f17;
mov.f32 %f19, %f10;
mov.f32 %f20, 0f3d3f841f; // 0.0467569
mov.f32 %f21, %f20;
mad.f32 %f22, %f18, %f19, %f21;
mov.f32 %f17, %f22;
mov.f32 %f23, %f17;
mov.f32 %f24, %f10;
mov.f32 %f25, 0f3d994929; // 0.0748466
mov.f32 %f26, %f25;
mad.f32 %f27, %f23, %f24, %f26;
mov.f32 %f17, %f27;
mov.f32 %f28, %f17;
mov.f32 %f29, %f10;
mov.f32 %f30, 0f3e2aab94; // 0.16667
mov.f32 %f31, %f30;
mad.f32 %f32, %f28, %f29, %f31;
mov.f32 %f17, %f32;
mul.f32 %f33, %f10, %f17;
mov.f32 %f34, %f33;
mov.f32 %f35, %f9;
mov.f32 %f36, %f9;
mad.f32 %f37, %f34, %f35, %f36;
mov.f32 %f17, %f37;
.loc 15 330 0
add.f32 %f38, %f17, %f17;
mov.f32 %f39, 0f3fc90fdb; // 1.5708
sub.f32 %f40, %f39, %f17;
selp.f32 %f41, %f38, %f40, %p2;
mov.f32 %f42, 0f40490fdb; // 3.14159
sub.f32 %f43, %f42, %f41;
mov.b32 %r4, %f1;
mov.s32 %r5, 0;
setp.lt.s32 %p3, %r4, %r5;
selp.f32 %f44, %f43, %f41, %p3;
ld.param.u64 %rd6, [__cudaparm_vec_acosf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f44;
$Lt_26_3330:
.loc 15 332 0
exit;
$LDWend_vec_acosf:
} // vec_acosf
.entry vec_acoshf (
.param .u64 __cudaparm_vec_acoshf_n,
.param .u64 __cudaparm_vec_acoshf_result,
.param .u64 __cudaparm_vec_acoshf_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<33>;
.reg .u64 %rd<9>;
.reg .f32 %f<132>;
.reg .pred %p<9>;
.loc 15 337 0
$LDWbegin_vec_acoshf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_acoshf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_27_6402;
.loc 15 342 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_acoshf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
mov.f32 %f2, 0fbf800000; // -1
add.f32 %f3, %f1, %f2;
abs.f32 %f4, %f3;
mov.f32 %f5, 0f4b000000; // 8.38861e+006
setp.gt.f32 %p2, %f4, %f5;
@!%p2 bra $Lt_27_7170;
.loc 17 9400 0
mov.f32 %f6, 0f00000000; // 0
set.gt.u32.f32 %r4, %f1, %f6;
neg.s32 %r5, %r4;
mov.f32 %f7, 0f7f800000; // 1.#INF
set.lt.u32.f32 %r6, %f1, %f7;
neg.s32 %r7, %r6;
and.b32 %r8, %r5, %r7;
mov.u32 %r9, 0;
setp.eq.s32 %p3, %r8, %r9;
@%p3 bra $Lt_27_7682;
.loc 17 8512 0
mov.b32 %r10, %f1;
and.b32 %r11, %r10, -2139095041;
or.b32 %r12, %r11, 1065353216;
mov.b32 %f8, %r12;
mov.f32 %f9, %f8;
.loc 17 8513 0
shr.u32 %r13, %r10, 23;
sub.u32 %r14, %r13, 127;
mov.f32 %f10, 0f3fb504f3; // 1.41421
setp.gt.f32 %p4, %f8, %f10;
@!%p4 bra $Lt_27_7938;
.loc 17 8515 0
mov.f32 %f11, 0f3f000000; // 0.5
mul.f32 %f9, %f8, %f11;
.loc 17 8516 0
add.s32 %r14, %r14, 1;
$Lt_27_7938:
.loc 17 8429 0
mov.f32 %f12, 0fbf800000; // -1
add.f32 %f13, %f9, %f12;
mov.f32 %f14, 0f3f800000; // 1
add.f32 %f15, %f9, %f14;
neg.f32 %f16, %f13;
div.approx.f32 %f17, %f13, %f15;
mul.rn.f32 %f18, %f16, %f17;
add.rn.f32 %f19, %f13, %f18;
mul.f32 %f20, %f19, %f19;
mov.f32 %f21, 0f3b2063c3; // 0.00244735
mov.f32 %f22, %f21;
mov.f32 %f23, %f20;
mov.f32 %f24, 0f3c4c4be0; // 0.0124693
mov.f32 %f25, %f24;
mad.f32 %f26, %f22, %f23, %f25;
mov.f32 %f27, %f26;
mov.f32 %f28, %f27;
mov.f32 %f29, %f20;
mov.f32 %f30, 0f3daaab50; // 0.0833346
mov.f32 %f31, %f30;
mad.f32 %f32, %f28, %f29, %f31;
mov.f32 %f33, %f32;
mul.f32 %f34, %f20, %f33;
mov.f32 %f35, %f34;
mov.f32 %f36, %f19;
mov.f32 %f37, %f18;
mad.f32 %f38, %f35, %f36, %f37;
mov.f32 %f39, %f38;
cvt.rn.f32.s32 %f40, %r14;
mov.f32 %f41, %f40;
mov.f32 %f42, 0f3f317218; // 0.693147
mov.f32 %f43, %f42;
add.f32 %f44, %f13, %f39;
mov.f32 %f45, %f44;
mad.f32 %f46, %f41, %f43, %f45;
mov.f32 %f47, %f46;
.loc 17 8523 0
mov.f32 %f48, %f47;
bra.uni $Lt_27_7426;
$Lt_27_7682:
.loc 17 8526 0
lg2.approx.f32 %f49, %f1;
mov.f32 %f50, 0f3f317218; // 0.693147
mul.f32 %f48, %f49, %f50;
$Lt_27_7426:
.loc 17 9400 0
mov.f32 %f51, 0f3f317218; // 0.693147
add.f32 %f52, %f48, %f51;
bra.uni $Lt_27_6914;
$Lt_27_7170:
.loc 17 9403 0
mul.rz.f32 %f53, %f1, %f3;
add.rn.f32 %f54, %f53, %f3;
sqrt.approx.f32 %f55, %f54;
add.f32 %f56, %f3, %f55;
mov.f32 %f57, 0fbec9ba5e; // -0.394
set.ge.u32.f32 %r15, %f56, %f57;
neg.s32 %r16, %r15;
mov.f32 %f58, 0f3f266666; // 0.65
set.le.u32.f32 %r17, %f56, %f58;
neg.s32 %r18, %r17;
and.b32 %r19, %r16, %r18;
mov.u32 %r20, 0;
setp.eq.s32 %p5, %r19, %r20;
@%p5 bra $Lt_27_8706;
.loc 17 9385 0
neg.f32 %f59, %f56;
mov.f32 %f60, 0f40000000; // 2
add.f32 %f61, %f56, %f60;
div.approx.f32 %f62, %f56, %f61;
mul.rn.f32 %f63, %f59, %f62;
.loc 17 8429 0
add.rn.f32 %f64, %f56, %f63;
mul.f32 %f65, %f64, %f64;
mov.f32 %f66, 0f3b2063c3; // 0.00244735
mov.f32 %f67, %f66;
mov.f32 %f68, %f65;
mov.f32 %f69, 0f3c4c4be0; // 0.0124693
mov.f32 %f70, %f69;
mad.f32 %f71, %f67, %f68, %f70;
mov.f32 %f72, %f71;
mov.f32 %f73, %f72;
mov.f32 %f74, %f65;
mov.f32 %f75, 0f3daaab50; // 0.0833346
mov.f32 %f76, %f75;
mad.f32 %f77, %f73, %f74, %f76;
mov.f32 %f78, %f77;
mul.f32 %f79, %f65, %f78;
mov.f32 %f80, %f79;
mov.f32 %f81, %f64;
mov.f32 %f82, %f63;
mad.f32 %f83, %f80, %f81, %f82;
mov.f32 %f84, %f83;
.loc 17 9386 0
add.f32 %f63, %f56, %f84;
bra.uni $Lt_27_8450;
$Lt_27_8706:
.loc 17 9388 0
mov.f32 %f85, 0f3f800000; // 1
add.f32 %f86, %f56, %f85;
mov.f32 %f87, 0f00000000; // 0
set.gt.u32.f32 %r21, %f86, %f87;
neg.s32 %r22, %r21;
mov.f32 %f88, 0f7f800000; // 1.#INF
set.lt.u32.f32 %r23, %f86, %f88;
neg.s32 %r24, %r23;
and.b32 %r25, %r22, %r24;
mov.u32 %r26, 0;
setp.eq.s32 %p6, %r25, %r26;
@%p6 bra $Lt_27_9218;
.loc 17 8512 0
mov.b32 %r27, %f86;
and.b32 %r28, %r27, -2139095041;
or.b32 %r29, %r28, 1065353216;
mov.b32 %f89, %r29;
.loc 17 8513 0
shr.u32 %r30, %r27, 23;
sub.u32 %r31, %r30, 127;
mov.f32 %f90, 0f3fb504f3; // 1.41421
setp.gt.f32 %p7, %f89, %f90;
@!%p7 bra $Lt_27_9474;
.loc 17 8515 0
mov.f32 %f91, 0f3f000000; // 0.5
mul.f32 %f89, %f89, %f91;
.loc 17 8516 0
add.s32 %r31, %r31, 1;
$Lt_27_9474:
.loc 17 8429 0
mov.f32 %f92, 0fbf800000; // -1
add.f32 %f93, %f89, %f92;
mov.f32 %f94, 0f3f800000; // 1
add.f32 %f95, %f89, %f94;
neg.f32 %f96, %f93;
div.approx.f32 %f97, %f93, %f95;
mul.rn.f32 %f98, %f96, %f97;
add.rn.f32 %f99, %f93, %f98;
mul.f32 %f100, %f99, %f99;
mov.f32 %f101, 0f3b2063c3; // 0.00244735
mov.f32 %f102, %f101;
mov.f32 %f103, %f100;
mov.f32 %f104, 0f3c4c4be0; // 0.0124693
mov.f32 %f105, %f104;
mad.f32 %f106, %f102, %f103, %f105;
mov.f32 %f107, %f106;
mov.f32 %f108, %f107;
mov.f32 %f109, %f100;
mov.f32 %f110, 0f3daaab50; // 0.0833346
mov.f32 %f111, %f110;
mad.f32 %f112, %f108, %f109, %f111;
mov.f32 %f113, %f112;
mul.f32 %f114, %f100, %f113;
mov.f32 %f115, %f114;
mov.f32 %f116, %f99;
mov.f32 %f117, %f98;
mad.f32 %f118, %f115, %f116, %f117;
mov.f32 %f119, %f118;
cvt.rn.f32.s32 %f120, %r31;
mov.f32 %f121, %f120;
mov.f32 %f122, 0f3f317218; // 0.693147
mov.f32 %f123, %f122;
add.f32 %f124, %f93, %f119;
mov.f32 %f125, %f124;
mad.f32 %f126, %f121, %f123, %f125;
mov.f32 %f127, %f126;
.loc 17 8523 0
mov.f32 %f128, %f127;
bra.uni $Lt_27_8962;
$Lt_27_9218:
.loc 17 8526 0
lg2.approx.f32 %f129, %f86;
mov.f32 %f130, 0f3f317218; // 0.693147
mul.f32 %f128, %f129, %f130;
$Lt_27_8962:
.loc 17 9388 0
mov.f32 %f63, %f128;
$Lt_27_8450:
.loc 17 9403 0
mov.f32 %f52, %f63;
$Lt_27_6914:
.loc 15 342 0
ld.param.u64 %rd6, [__cudaparm_vec_acoshf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f52;
$Lt_27_6402:
.loc 15 344 0
exit;
$LDWend_vec_acoshf:
} // vec_acoshf
.entry vec_asinf (
.param .u64 __cudaparm_vec_asinf_n,
.param .u64 __cudaparm_vec_asinf_result,
.param .u64 __cudaparm_vec_asinf_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<9>;
.reg .u64 %rd<9>;
.reg .f32 %f<49>;
.reg .pred %p<5>;
.loc 15 349 0
$LDWbegin_vec_asinf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_asinf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_28_3330;
.loc 15 354 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_asinf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
.loc 17 8429 0
abs.f32 %f2, %f1;
mov.f32 %f3, 0f3f11eb85; // 0.57
setp.gt.f32 %p2, %f2, %f3;
mov.f32 %f4, 0f3f800000; // 1
sub.f32 %f5, %f4, %f2;
mov.f32 %f6, 0f3f000000; // 0.5
mul.f32 %f7, %f5, %f6;
sqrt.approx.f32 %f8, %f7;
selp.f32 %f9, %f8, %f2, %p2;
mul.f32 %f10, %f9, %f9;
mov.f32 %f11, 0f3d53f941; // 0.0517514
mov.f32 %f12, %f11;
mov.f32 %f13, %f10;
mov.f32 %f14, 0f3c94d2e9; // 0.018167
mov.f32 %f15, %f14;
mad.f32 %f16, %f12, %f13, %f15;
mov.f32 %f17, %f16;
mov.f32 %f18, %f17;
mov.f32 %f19, %f10;
mov.f32 %f20, 0f3d3f841f; // 0.0467569
mov.f32 %f21, %f20;
mad.f32 %f22, %f18, %f19, %f21;
mov.f32 %f17, %f22;
mov.f32 %f23, %f17;
mov.f32 %f24, %f10;
mov.f32 %f25, 0f3d994929; // 0.0748466
mov.f32 %f26, %f25;
mad.f32 %f27, %f23, %f24, %f26;
mov.f32 %f17, %f27;
mov.f32 %f28, %f17;
mov.f32 %f29, %f10;
mov.f32 %f30, 0f3e2aab94; // 0.16667
mov.f32 %f31, %f30;
mad.f32 %f32, %f28, %f29, %f31;
mov.f32 %f17, %f32;
mul.f32 %f33, %f10, %f17;
mov.f32 %f34, %f33;
mov.f32 %f35, %f9;
mov.f32 %f36, %f9;
mad.f32 %f37, %f34, %f35, %f36;
mov.f32 %f17, %f37;
mov.f32 %f38, 0fc0000000; // -2
mov.f32 %f39, %f38;
mov.f32 %f40, %f17;
mov.f32 %f41, 0f3fc90fdb; // 1.5708
mov.f32 %f42, %f41;
mad.f32 %f43, %f39, %f40, %f42;
mov.f32 %f44, %f43;
.loc 17 9331 0
selp.f32 %f45, %f44, %f17, %p2;
mov.f32 %f46, %f45;
mov.f32 %f47, 0f7f800000; // 1.#INF
setp.le.f32 %p3, %f45, %f47;
@!%p3 bra $Lt_28_3842;
.loc 17 9338 0
mov.b32 %r4, %f45;
mov.b32 %r5, %f1;
and.b32 %r6, %r5, -2147483648;
or.b32 %r7, %r4, %r6;
mov.b32 %f46, %r7;
$Lt_28_3842:
.loc 15 354 0
ld.param.u64 %rd6, [__cudaparm_vec_asinf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f46;
$Lt_28_3330:
.loc 15 356 0
exit;
$LDWend_vec_asinf:
} // vec_asinf
.entry vec_asinhf (
.param .u64 __cudaparm_vec_asinhf_n,
.param .u64 __cudaparm_vec_asinhf_result,
.param .u64 __cudaparm_vec_asinhf_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<26>;
.reg .u64 %rd<9>;
.reg .f32 %f<104>;
.reg .pred %p<8>;
.loc 15 361 0
$LDWbegin_vec_asinhf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_asinhf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_29_5378;
.loc 15 366 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_asinhf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
abs.f32 %f2, %f1;
mov.f32 %f3, 0f7e800000; // 8.50706e+037
setp.gt.f32 %p2, %f2, %f3;
@!%p2 bra $Lt_29_6146;
.loc 17 9414 0
mov.f32 %f4, 0f3f317218; // 0.693147
lg2.approx.f32 %f5, %f2;
mov.f32 %f6, 0f3f317218; // 0.693147
mul.f32 %f7, %f5, %f6;
add.rn.f32 %f8, %f4, %f7;
bra.uni $Lt_29_5890;
$Lt_29_6146:
.loc 17 8429 0
rcp.approx.f32 %f9, %f2;
mov.f32 %f10, %f9;
mov.f32 %f11, %f9;
mov.f32 %f12, 0f3f800000; // 1
mov.f32 %f13, %f12;
mad.f32 %f14, %f10, %f11, %f13;
mov.f32 %f15, %f14;
.loc 17 8437 0
sqrt.approx.f32 %f16, %f15;
add.f32 %f17, %f9, %f16;
mov.f32 %f18, %f17;
rcp.approx.ftz.f32 %f19,%f18;
mov.f32 %f20, %f19;
.loc 17 8429 0
mov.f32 %f21, %f2;
mov.f32 %f22, %f20;
mov.f32 %f23, %f2;
mad.f32 %f24, %f21, %f22, %f23;
mov.f32 %f25, %f24;
.loc 17 9419 0
mov.f32 %f26, 0fbec9ba5e; // -0.394
set.ge.u32.f32 %r4, %f25, %f26;
neg.s32 %r5, %r4;
mov.f32 %f27, 0f3f266666; // 0.65
set.le.u32.f32 %r6, %f25, %f27;
neg.s32 %r7, %r6;
and.b32 %r8, %r5, %r7;
mov.u32 %r9, 0;
setp.eq.s32 %p3, %r8, %r9;
@%p3 bra $Lt_29_6658;
.loc 17 8429 0
neg.f32 %f28, %f25;
mov.f32 %f29, 0f40000000; // 2
add.f32 %f30, %f25, %f29;
div.approx.f32 %f31, %f25, %f30;
mul.rn.f32 %f32, %f28, %f31;
add.rn.f32 %f33, %f25, %f32;
mul.f32 %f34, %f33, %f33;
mov.f32 %f35, 0f3b2063c3; // 0.00244735
mov.f32 %f36, %f35;
mov.f32 %f37, %f34;
mov.f32 %f38, 0f3c4c4be0; // 0.0124693
mov.f32 %f39, %f38;
mad.f32 %f40, %f36, %f37, %f39;
mov.f32 %f41, %f40;
mov.f32 %f42, %f41;
mov.f32 %f43, %f34;
mov.f32 %f44, 0f3daaab50; // 0.0833346
mov.f32 %f45, %f44;
mad.f32 %f46, %f42, %f43, %f45;
mov.f32 %f47, %f46;
mul.f32 %f48, %f34, %f47;
mov.f32 %f49, %f48;
mov.f32 %f50, %f33;
mov.f32 %f51, %f32;
mad.f32 %f52, %f49, %f50, %f51;
mov.f32 %f53, %f52;
.loc 17 9386 0
add.f32 %f54, %f25, %f53;
bra.uni $Lt_29_6402;
$Lt_29_6658:
.loc 17 9388 0
mov.f32 %f55, 0f3f800000; // 1
add.f32 %f56, %f25, %f55;
mov.f32 %f57, 0f00000000; // 0
set.gt.u32.f32 %r10, %f56, %f57;
neg.s32 %r11, %r10;
mov.f32 %f58, 0f7f800000; // 1.#INF
set.lt.u32.f32 %r12, %f56, %f58;
neg.s32 %r13, %r12;
and.b32 %r14, %r11, %r13;
mov.u32 %r15, 0;
setp.eq.s32 %p4, %r14, %r15;
@%p4 bra $Lt_29_7170;
.loc 17 8512 0
mov.b32 %r16, %f56;
and.b32 %r17, %r16, -2139095041;
or.b32 %r18, %r17, 1065353216;
mov.b32 %f59, %r18;
mov.f32 %f60, %f59;
.loc 17 8513 0
shr.u32 %r19, %r16, 23;
sub.u32 %r20, %r19, 127;
mov.f32 %f61, 0f3fb504f3; // 1.41421
setp.gt.f32 %p5, %f59, %f61;
@!%p5 bra $Lt_29_7426;
.loc 17 8515 0
mov.f32 %f62, 0f3f000000; // 0.5
mul.f32 %f60, %f59, %f62;
.loc 17 8516 0
add.s32 %r20, %r20, 1;
$Lt_29_7426:
.loc 17 8429 0
mov.f32 %f63, 0fbf800000; // -1
add.f32 %f64, %f60, %f63;
mov.f32 %f65, 0f3f800000; // 1
add.f32 %f66, %f60, %f65;
neg.f32 %f67, %f64;
div.approx.f32 %f68, %f64, %f66;
mul.rn.f32 %f69, %f67, %f68;
add.rn.f32 %f70, %f64, %f69;
mul.f32 %f71, %f70, %f70;
mov.f32 %f72, 0f3b2063c3; // 0.00244735
mov.f32 %f73, %f72;
mov.f32 %f74, %f71;
mov.f32 %f75, 0f3c4c4be0; // 0.0124693
mov.f32 %f76, %f75;
mad.f32 %f77, %f73, %f74, %f76;
mov.f32 %f78, %f77;
mov.f32 %f79, %f78;
mov.f32 %f80, %f71;
mov.f32 %f81, 0f3daaab50; // 0.0833346
mov.f32 %f82, %f81;
mad.f32 %f83, %f79, %f80, %f82;
mov.f32 %f84, %f83;
mul.f32 %f85, %f71, %f84;
mov.f32 %f86, %f85;
mov.f32 %f87, %f70;
mov.f32 %f88, %f69;
mad.f32 %f89, %f86, %f87, %f88;
mov.f32 %f90, %f89;
cvt.rn.f32.s32 %f91, %r20;
mov.f32 %f92, %f91;
mov.f32 %f93, 0f3f317218; // 0.693147
mov.f32 %f94, %f93;
add.f32 %f95, %f64, %f90;
mov.f32 %f96, %f95;
mad.f32 %f97, %f92, %f94, %f96;
mov.f32 %f98, %f97;
.loc 17 8523 0
mov.f32 %f99, %f98;
bra.uni $Lt_29_6914;
$Lt_29_7170:
.loc 17 8526 0
lg2.approx.f32 %f100, %f56;
mov.f32 %f101, 0f3f317218; // 0.693147
mul.f32 %f99, %f100, %f101;
$Lt_29_6914:
.loc 17 9388 0
mov.f32 %f54, %f99;
$Lt_29_6402:
.loc 17 9419 0
mov.f32 %f8, %f54;
$Lt_29_5890:
mov.f32 %f102, 0f7f800000; // 1.#INF
setp.le.f32 %p6, %f2, %f102;
@!%p6 bra $Lt_29_7938;
.loc 17 9422 0
mov.b32 %r21, %f8;
mov.b32 %r22, %f1;
and.b32 %r23, %r22, -2147483648;
or.b32 %r24, %r21, %r23;
mov.b32 %f8, %r24;
$Lt_29_7938:
.loc 15 366 0
ld.param.u64 %rd6, [__cudaparm_vec_asinhf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f8;
$Lt_29_5378:
.loc 15 368 0
exit;
$LDWend_vec_asinhf:
} // vec_asinhf
.entry vec_atanf (
.param .u64 __cudaparm_vec_atanf_n,
.param .u64 __cudaparm_vec_atanf_result,
.param .u64 __cudaparm_vec_atanf_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<9>;
.reg .u64 %rd<9>;
.reg .f32 %f<43>;
.reg .pred %p<5>;
.loc 15 373 0
$LDWbegin_vec_atanf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_atanf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_30_3330;
.loc 15 378 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_atanf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
.loc 17 8429 0
abs.f32 %f2, %f1;
mov.f32 %f3, 0f3f800000; // 1
setp.gt.f32 %p2, %f2, %f3;
rcp.approx.f32 %f4, %f2;
selp.f32 %f5, %f4, %f2, %p2;
mul.rn.f32 %f6, %f5, %f5;
mov.f32 %f7, %f6;
mov.f32 %f8, 0fbf52c7ea; // -0.823363
mov.f32 %f9, %f8;
mov.f32 %f10, 0fc0b59883; // -5.67487
mov.f32 %f11, %f10;
mad.f32 %f12, %f7, %f9, %f11;
mov.f32 %f13, %f12;
mov.f32 %f14, %f13;
mov.f32 %f15, %f6;
mov.f32 %f16, 0fc0d21907; // -6.56556
mov.f32 %f17, %f16;
mad.f32 %f18, %f14, %f15, %f17;
mov.f32 %f13, %f18;
.loc 17 8469 0
mul.f32 %f19, %f6, %f13;
mul.f32 %f20, %f5, %f19;
.loc 17 8429 0
mov.f32 %f21, 0f41355dc0; // 11.3354
add.f32 %f22, %f6, %f21;
mov.f32 %f23, %f22;
mov.f32 %f24, %f6;
mov.f32 %f25, 0f41e6bd60; // 28.8425
mov.f32 %f26, %f25;
mad.f32 %f27, %f23, %f24, %f26;
mov.f32 %f13, %f27;
mov.f32 %f28, %f13;
mov.f32 %f29, %f6;
mov.f32 %f30, 0f419d92c8; // 19.6967
mov.f32 %f31, %f30;
mad.f32 %f32, %f28, %f29, %f31;
mov.f32 %f13, %f32;
mov.f32 %f33, %f20;
rcp.approx.f32 %f34, %f13;
mov.f32 %f35, %f34;
mov.f32 %f36, %f5;
mad.f32 %f37, %f33, %f35, %f36;
mov.f32 %f13, %f37;
.loc 17 9297 0
mov.f32 %f38, 0f3fc90fdb; // 1.5708
sub.f32 %f39, %f38, %f13;
selp.f32 %f40, %f39, %f13, %p2;
mov.f32 %f41, 0f7f800000; // 1.#INF
setp.le.f32 %p3, %f2, %f41;
@!%p3 bra $Lt_30_3842;
.loc 17 9303 0
mov.b32 %r4, %f40;
mov.b32 %r5, %f1;
and.b32 %r6, %r5, -2147483648;
or.b32 %r7, %r4, %r6;
mov.b32 %f40, %r7;
$Lt_30_3842:
.loc 15 378 0
ld.param.u64 %rd6, [__cudaparm_vec_atanf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f40;
$Lt_30_3330:
.loc 15 380 0
exit;
$LDWend_vec_atanf:
} // vec_atanf
.entry vec_atanhf (
.param .u64 __cudaparm_vec_atanhf_n,
.param .u64 __cudaparm_vec_atanhf_result,
.param .u64 __cudaparm_vec_atanhf_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<26>;
.reg .u64 %rd<9>;
.reg .f32 %f<89>;
.reg .pred %p<7>;
.loc 15 385 0
$LDWbegin_vec_atanhf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_atanhf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_31_4610;
.loc 15 390 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_atanhf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
.loc 17 9433 0
abs.f32 %f2, %f1;
add.f32 %f3, %f2, %f2;
mov.f32 %f4, 0f3f800000; // 1
sub.f32 %f5, %f4, %f2;
div.approx.f32 %f6, %f3, %f5;
mov.f32 %f7, 0fbec9ba5e; // -0.394
set.ge.u32.f32 %r4, %f6, %f7;
neg.s32 %r5, %r4;
mov.f32 %f8, 0f3f266666; // 0.65
set.le.u32.f32 %r6, %f6, %f8;
neg.s32 %r7, %r6;
and.b32 %r8, %r5, %r7;
mov.u32 %r9, 0;
setp.eq.s32 %p2, %r8, %r9;
@%p2 bra $Lt_31_5378;
.loc 17 8447 0
neg.f32 %f9, %f6;
mov.f32 %f10, 0f40000000; // 2
add.f32 %f11, %f6, %f10;
div.approx.f32 %f12, %f6, %f11;
mul.rn.f32 %f13, %f9, %f12;
add.rn.f32 %f14, %f6, %f13;
mul.f32 %f15, %f14, %f14;
.loc 17 8429 0
mov.f32 %f16, 0f3b2063c3; // 0.00244735
mov.f32 %f17, %f16;
mov.f32 %f18, %f15;
mov.f32 %f19, 0f3c4c4be0; // 0.0124693
mov.f32 %f20, %f19;
mad.f32 %f21, %f17, %f18, %f20;
mov.f32 %f22, %f21;
mov.f32 %f23, %f22;
mov.f32 %f24, %f15;
mov.f32 %f25, 0f3daaab50; // 0.0833346
mov.f32 %f26, %f25;
mad.f32 %f27, %f23, %f24, %f26;
mov.f32 %f28, %f27;
mul.f32 %f29, %f15, %f28;
mov.f32 %f30, %f29;
mov.f32 %f31, %f14;
mov.f32 %f32, %f13;
mad.f32 %f33, %f30, %f31, %f32;
mov.f32 %f34, %f33;
.loc 17 9386 0
add.f32 %f35, %f6, %f34;
bra.uni $Lt_31_5122;
$Lt_31_5378:
.loc 17 9388 0
mov.f32 %f36, 0f3f800000; // 1
add.f32 %f37, %f6, %f36;
mov.f32 %f38, 0f00000000; // 0
set.gt.u32.f32 %r10, %f37, %f38;
neg.s32 %r11, %r10;
mov.f32 %f39, 0f7f800000; // 1.#INF
set.lt.u32.f32 %r12, %f37, %f39;
neg.s32 %r13, %r12;
and.b32 %r14, %r11, %r13;
mov.u32 %r15, 0;
setp.eq.s32 %p3, %r14, %r15;
@%p3 bra $Lt_31_5890;
.loc 17 8512 0
mov.b32 %r16, %f37;
and.b32 %r17, %r16, -2139095041;
or.b32 %r18, %r17, 1065353216;
mov.b32 %f40, %r18;
mov.f32 %f41, %f40;
.loc 17 8513 0
shr.u32 %r19, %r16, 23;
sub.u32 %r20, %r19, 127;
mov.f32 %f42, 0f3fb504f3; // 1.41421
setp.gt.f32 %p4, %f40, %f42;
@!%p4 bra $Lt_31_6146;
.loc 17 8515 0
mov.f32 %f43, 0f3f000000; // 0.5
mul.f32 %f41, %f40, %f43;
.loc 17 8516 0
add.s32 %r20, %r20, 1;
$Lt_31_6146:
.loc 17 8429 0
mov.f32 %f44, 0fbf800000; // -1
add.f32 %f45, %f41, %f44;
mov.f32 %f46, 0f3f800000; // 1
add.f32 %f47, %f41, %f46;
neg.f32 %f48, %f45;
div.approx.f32 %f49, %f45, %f47;
mul.rn.f32 %f50, %f48, %f49;
add.rn.f32 %f51, %f45, %f50;
mul.f32 %f52, %f51, %f51;
mov.f32 %f53, 0f3b2063c3; // 0.00244735
mov.f32 %f54, %f53;
mov.f32 %f55, %f52;
mov.f32 %f56, 0f3c4c4be0; // 0.0124693
mov.f32 %f57, %f56;
mad.f32 %f58, %f54, %f55, %f57;
mov.f32 %f59, %f58;
mov.f32 %f60, %f59;
mov.f32 %f61, %f52;
mov.f32 %f62, 0f3daaab50; // 0.0833346
mov.f32 %f63, %f62;
mad.f32 %f64, %f60, %f61, %f63;
mov.f32 %f65, %f64;
mul.f32 %f66, %f52, %f65;
mov.f32 %f67, %f66;
mov.f32 %f68, %f51;
mov.f32 %f69, %f50;
mad.f32 %f70, %f67, %f68, %f69;
mov.f32 %f71, %f70;
cvt.rn.f32.s32 %f72, %r20;
mov.f32 %f73, %f72;
mov.f32 %f74, 0f3f317218; // 0.693147
mov.f32 %f75, %f74;
add.f32 %f76, %f45, %f71;
mov.f32 %f77, %f76;
mad.f32 %f78, %f73, %f75, %f77;
mov.f32 %f79, %f78;
.loc 17 8523 0
mov.f32 %f80, %f79;
bra.uni $Lt_31_5634;
$Lt_31_5890:
.loc 17 8526 0
lg2.approx.f32 %f81, %f37;
mov.f32 %f82, 0f3f317218; // 0.693147
mul.f32 %f80, %f81, %f82;
$Lt_31_5634:
.loc 17 9388 0
mov.f32 %f35, %f80;
$Lt_31_5122:
.loc 17 9433 0
mov.f32 %f83, 0f3f000000; // 0.5
mul.f32 %f84, %f35, %f83;
mov.f32 %f85, %f84;
abs.f32 %f86, %f84;
mov.f32 %f87, 0f7f800000; // 1.#INF
setp.le.f32 %p5, %f86, %f87;
@!%p5 bra $Lt_31_6658;
.loc 17 9435 0
mov.b32 %r21, %f84;
mov.b32 %r22, %f1;
and.b32 %r23, %r22, -2147483648;
or.b32 %r24, %r21, %r23;
mov.b32 %f85, %r24;
$Lt_31_6658:
.loc 15 390 0
ld.param.u64 %rd6, [__cudaparm_vec_atanhf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f85;
$Lt_31_4610:
.loc 15 392 0
exit;
$LDWend_vec_atanhf:
} // vec_atanhf
.entry vec_cbrtf (
.param .u64 __cudaparm_vec_cbrtf_n,
.param .u64 __cudaparm_vec_cbrtf_result,
.param .u64 __cudaparm_vec_cbrtf_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<7>;
.reg .u64 %rd<9>;
.reg .f32 %f<28>;
.reg .pred %p<5>;
.loc 15 397 0
$LDWbegin_vec_cbrtf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_cbrtf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_32_2562;
.loc 15 402 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_cbrtf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
.loc 17 8437 0
abs.f32 %f2, %f1;
lg2.approx.f32 %f3, %f2;
mov.f32 %f4, 0f3eaaaaab; // 0.333333
mul.f32 %f5, %f3, %f4;
ex2.approx.f32 %f6, %f5;
mul.f32 %f7, %f6, %f6;
mov.f32 %f8, %f7;
rcp.approx.ftz.f32 %f9,%f8;
mov.f32 %f10, %f9;
.loc 17 8429 0
mov.f32 %f11, %f10;
neg.f32 %f12, %f2;
mov.f32 %f13, %f12;
mov.f32 %f14, %f6;
mad.f32 %f15, %f11, %f13, %f14;
mov.f32 %f16, %f15;
mov.f32 %f17, %f16;
mov.f32 %f18, 0fbeaaaaab; // -0.333333
mov.f32 %f19, %f18;
mov.f32 %f20, %f6;
mad.f32 %f21, %f17, %f19, %f20;
mov.f32 %f22, %f21;
.loc 15 402 0
add.f32 %f23, %f1, %f1;
neg.f32 %f24, %f22;
mov.b32 %r4, %f1;
mov.s32 %r5, 0;
setp.lt.s32 %p2, %r4, %r5;
selp.f32 %f25, %f24, %f22, %p2;
setp.eq.f32 %p3, %f23, %f1;
selp.f32 %f26, %f23, %f25, %p3;
ld.param.u64 %rd6, [__cudaparm_vec_cbrtf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f26;
$Lt_32_2562:
.loc 15 404 0
exit;
$LDWend_vec_cbrtf:
} // vec_cbrtf
.entry vec_ceilf (
.param .u64 __cudaparm_vec_ceilf_n,
.param .u64 __cudaparm_vec_ceilf_result,
.param .u64 __cudaparm_vec_ceilf_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<9>;
.reg .f32 %f<4>;
.reg .pred %p<3>;
.loc 15 409 0
$LDWbegin_vec_ceilf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_ceilf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_33_1026;
.loc 15 414 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_ceilf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
cvt.rpi.f32.f32 %f2, %f1;
ld.param.u64 %rd6, [__cudaparm_vec_ceilf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f2;
$Lt_33_1026:
.loc 15 416 0
exit;
$LDWend_vec_ceilf:
} // vec_ceilf
.const .align 4 .b8 __cudart_i2opi_f[24] = {65,144,67,60,153,149,98,219,192,221,52,245,209,87,39,252,41,21,68,78,110,131,249,162};
.entry vec_cosf (
.param .u64 __cudaparm_vec_cosf_n,
.param .u64 __cudaparm_vec_cosf_result,
.param .u64 __cudaparm_vec_cosf_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<81>;
.reg .u64 %rd<15>;
.reg .f32 %f<92>;
.reg .pred %p<14>;
.local .align 4 .b8 __cuda___cuda_result_161032[28];
.loc 15 421 0
$LDWbegin_vec_cosf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_cosf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_34_10242;
.loc 15 426 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_cosf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
.loc 17 9013 0
mov.f32 %f2, %f1;
.loc 17 8970 0
abs.f32 %f3, %f1;
mov.f32 %f4, 0f7f800000; // 1.#INF
setp.eq.f32 %p2, %f3, %f4;
@!%p2 bra $Lt_34_10754;
.loc 17 8971 0
mov.f32 %f5, 0f00000000; // 0
mul.rn.f32 %f2, %f1, %f5;
$Lt_34_10754:
.loc 17 8726 0
mov.f32 %f6, 0f3f22f983; // 0.63662
mul.f32 %f7, %f2, %f6;
cvt.rni.s32.f32 %r4, %f7;
mov.s32 %r5, %r4;
.loc 17 8429 0
cvt.rn.f32.s32 %f8, %r4;
neg.f32 %f9, %f8;
mov.f32 %f10, %f9;
mov.f32 %f11, 0f3fc90000; // 1.57031
mov.f32 %f12, %f11;
mov.f32 %f13, %f2;
mad.f32 %f14, %f10, %f12, %f13;
mov.f32 %f15, %f14;
mov.f32 %f16, %f9;
mov.f32 %f17, 0f39fd8000; // 0.000483513
mov.f32 %f18, %f17;
mov.f32 %f19, %f15;
mad.f32 %f20, %f16, %f18, %f19;
mov.f32 %f21, %f20;
mov.f32 %f22, %f9;
mov.f32 %f23, 0f34a88000; // 3.13856e-007
mov.f32 %f24, %f23;
mov.f32 %f25, %f21;
mad.f32 %f26, %f22, %f24, %f25;
mov.f32 %f27, %f26;
mov.f32 %f28, %f9;
mov.f32 %f29, 0f2e85a309; // 6.0771e-011
mov.f32 %f30, %f29;
mov.f32 %f31, %f27;
mad.f32 %f32, %f28, %f30, %f31;
mov.f32 %f33, %f32;
.loc 17 8737 0
mov.f32 %f34, %f33;
abs.f32 %f35, %f2;
mov.f32 %f36, 0f473ba700; // 48039
setp.gt.f32 %p3, %f35, %f36;
@!%p3 bra $Lt_34_11266;
.loc 17 8658 0
mov.b32 %r6, %f2;
and.b32 %r7, %r6, -2147483648;
mov.s32 %r8, %r7;
.loc 17 24 0
shl.b32 %r9, %r6, 8;
or.b32 %r10, %r9, -2147483648;
mov.u64 %rd6, __cudart_i2opi_f;
mov.u64 %rd7, __cuda___cuda_result_161032;
mov.s32 %r11, 0;
mov.u32 %r12, 0;
$Lt_34_12290:
// Loop body line 24, nesting depth: 1, iterations: 6
.loc 17 8674 0
ld.const.u32 %r13, [%rd6+0];
mul.lo.u32 %r14, %r10, %r13;
add.u32 %r15, %r14, %r12;
.loc 17 8675 0
set.gt.u32.u32 %r16, %r14, %r15;
neg.s32 %r17, %r16;
mul.hi.u32 %r18, %r13, %r10;
add.u32 %r12, %r17, %r18;
.loc 17 8676 0
st.local.u32 [%rd7+0], %r15;
add.s32 %r11, %r11, 1;
add.u64 %rd7, %rd7, 4;
add.u64 %rd6, %rd6, 4;
mov.u32 %r19, 6;
setp.ne.s32 %p4, %r11, %r19;
@%p4 bra $Lt_34_12290;
.loc 17 8678 0
st.local.u32 [__cuda___cuda_result_161032+24], %r12;
.loc 17 8683 0
shl.b32 %r20, %r6, 1;
shr.u32 %r21, %r20, 24;
sub.u32 %r22, %r21, 128;
mov.u64 %rd8, __cuda___cuda_result_161032;
shr.u32 %r23, %r22, 5;
mov.s32 %r24, 4;
sub.s32 %r25, %r24, %r23;
cvt.s64.s32 %rd9, %r25;
mul.wide.s32 %rd10, %r25, 4;
add.u64 %rd11, %rd8, %rd10;
ld.local.u32 %r12, [%rd11+8];
.loc 17 8684 0
ld.local.u32 %r26, [%rd11+4];
and.b32 %r27, %r22, 31;
mov.u32 %r28, 0;
setp.eq.u32 %p5, %r27, %r28;
@%p5 bra $Lt_34_12802;
.loc 17 8687 0
mov.s32 %r29, 32;
sub.s32 %r30, %r29, %r27;
shr.u32 %r31, %r26, %r30;
shl.b32 %r32, %r12, %r27;
add.u32 %r12, %r31, %r32;
.loc 17 8688 0
ld.local.u32 %r33, [%rd11+0];
shr.u32 %r34, %r33, %r30;
shl.b32 %r35, %r26, %r27;
add.u32 %r26, %r34, %r35;
$Lt_34_12802:
.loc 17 8690 0
shr.u32 %r36, %r12, 30;
.loc 17 8692 0
shr.u32 %r37, %r26, 30;
shl.b32 %r38, %r12, 2;
add.u32 %r12, %r37, %r38;
.loc 17 8693 0
shl.b32 %r26, %r26, 2;
.loc 17 8695 0
shr.u32 %r39, %r12, 31;
add.u32 %r40, %r36, %r39;
.loc 17 8690 0
neg.s32 %r41, %r40;
mov.u32 %r42, 0;
setp.ne.u32 %p6, %r7, %r42;
selp.s32 %r11, %r41, %r40, %p6;
.loc 17 8697 0
mov.s32 %r5, %r11;
mov.u32 %r43, 0;
setp.eq.u32 %p7, %r39, %r43;
@%p7 bra $Lt_34_13314;
.loc 17 8701 0
neg.s32 %r26, %r26;
.loc 17 8703 0
mov.u32 %r44, 0;
set.eq.u32.u32 %r45, %r26, %r44;
neg.s32 %r46, %r45;
not.b32 %r47, %r12;
add.u32 %r12, %r46, %r47;
.loc 17 8704 0
xor.b32 %r8, %r7, -2147483648;
$Lt_34_13314:
.loc 17 8707 0
mov.u32 %r48, 0;
setp.eq.s32 %p8, %r12, %r48;
@%p8 bra $Lt_34_14082;
.loc 19 4479 0
cvt.rz.f32.u32 %f37, %r12;
mov.b32 %r49, %f37;
shr.s32 %r50, %r49, 23;
mov.s32 %r51, 158;
sub.s32 %r52, %r51, %r50;
bra.uni $Lt_34_13826;
$Lt_34_14082:
mov.s32 %r52, 32;
$Lt_34_13826:
.loc 17 8707 0
mov.s32 %r53, %r52;
mov.s32 %r54, %r53;
.loc 19 4479 0
mov.s32 %r55, 32;
sub.s32 %r56, %r55, %r53;
shr.u32 %r57, %r26, %r56;
shl.b32 %r58, %r12, %r53;
add.u32 %r59, %r57, %r58;
mov.u32 %r60, 0;
setp.ne.u32 %p9, %r53, %r60;
selp.u32 %r61, %r59, %r12, %p9;
.loc 17 8711 0
mul.lo.u32 %r26, %r61, -921707870;
.loc 17 8712 0
mov.u32 %r62, -921707870;
mul.hi.u32 %r12, %r61, %r62;
mov.u32 %r63, 0;
setp.le.s32 %p10, %r12, %r63;
@%p10 bra $Lt_34_14338;
.loc 17 8714 0
shr.u32 %r64, %r26, 31;
shl.b32 %r65, %r12, 1;
add.u32 %r12, %r64, %r65;
.loc 17 8715 0
add.u32 %r54, %r53, 1;
$Lt_34_14338:
.loc 17 8740 0
add.u32 %r66, %r12, 1;
shr.u32 %r67, %r66, 7;
add.u32 %r68, %r67, 1;
shr.u32 %r69, %r68, 1;
mov.s32 %r70, 126;
sub.s32 %r71, %r70, %r54;
shl.b32 %r72, %r71, 23;
add.u32 %r73, %r69, %r72;
or.b32 %r74, %r8, %r73;
mov.b32 %f34, %r74;
$Lt_34_11266:
.loc 17 8975 0
add.s32 %r75, %r5, 1;
mul.f32 %f38, %f34, %f34;
and.b32 %r76, %r75, 1;
mov.u32 %r77, 0;
setp.eq.s32 %p11, %r76, %r77;
@%p11 bra $Lt_34_15106;
.loc 17 8429 0
mov.f32 %f39, 0f37ccf5ce; // 2.44332e-005
mov.f32 %f40, %f39;
mov.f32 %f41, %f38;
mov.f32 %f42, 0fbab6061a; // -0.00138873
mov.f32 %f43, %f42;
mad.f32 %f44, %f40, %f41, %f43;
mov.f32 %f45, %f44;
mov.f32 %f46, %f45;
mov.f32 %f47, %f38;
mov.f32 %f48, 0f3d2aaaa5; // 0.0416666
mov.f32 %f49, %f48;
mad.f32 %f50, %f46, %f47, %f49;
mov.f32 %f51, %f50;
mov.f32 %f52, %f51;
mov.f32 %f53, %f38;
mov.f32 %f54, 0fbf000000; // -0.5
mov.f32 %f55, %f54;
mad.f32 %f56, %f52, %f53, %f55;
mov.f32 %f57, %f56;
mov.f32 %f58, %f57;
mov.f32 %f59, %f38;
mov.f32 %f60, 0f3f800000; // 1
mov.f32 %f61, %f60;
mad.f32 %f62, %f58, %f59, %f61;
mov.f32 %f63, %f62;
.loc 17 8936 0
mov.f32 %f64, %f63;
bra.uni $Lt_34_14850;
$Lt_34_15106:
.loc 17 8429 0
mov.f32 %f65, 0fb94ca1f9; // -0.000195153
mov.f32 %f66, %f65;
mov.f32 %f67, %f38;
mov.f32 %f68, 0f3c08839e; // 0.00833216
mov.f32 %f69, %f68;
mad.f32 %f70, %f66, %f67, %f69;
mov.f32 %f71, %f70;
mov.f32 %f72, %f71;
mov.f32 %f73, %f38;
mov.f32 %f74, 0fbe2aaaa3; // -0.166667
mov.f32 %f75, %f74;
mad.f32 %f76, %f72, %f73, %f75;
mov.f32 %f77, %f76;
mul.f32 %f78, %f38, %f77;
mov.f32 %f79, %f78;
mov.f32 %f80, %f34;
mov.f32 %f81, %f34;
mad.f32 %f82, %f79, %f80, %f81;
mov.f32 %f83, %f82;
.loc 17 8938 0
mov.f32 %f64, %f83;
$Lt_34_14850:
and.b32 %r78, %r75, 2;
mov.u32 %r79, 0;
setp.eq.s32 %p12, %r78, %r79;
@%p12 bra $Lt_34_15362;
.loc 17 8429 0
mov.f32 %f84, %f64;
mov.f32 %f85, 0fbf800000; // -1
mov.f32 %f86, %f85;
mov.f32 %f87, 0f00000000; // 0
mov.f32 %f88, %f87;
mad.f32 %f89, %f84, %f86, %f88;
mov.f32 %f90, %f89;
.loc 17 8941 0
mov.f32 %f64, %f90;
$Lt_34_15362:
.loc 15 426 0
ld.param.u64 %rd12, [__cudaparm_vec_cosf_result];
add.u64 %rd13, %rd12, %rd3;
st.global.f32 [%rd13+0], %f64;
$Lt_34_10242:
.loc 15 428 0
exit;
$LDWend_vec_cosf:
} // vec_cosf
.entry vec_coshf (
.param .u64 __cudaparm_vec_coshf_n,
.param .u64 __cudaparm_vec_coshf_result,
.param .u64 __cudaparm_vec_coshf_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<9>;
.reg .f32 %f<37>;
.reg .pred %p<4>;
.loc 15 433 0
$LDWbegin_vec_coshf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_coshf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_35_1794;
.loc 17 9191 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_coshf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
abs.f32 %f2, %f1;
.loc 17 8429 0
mov.f32 %f3, 0f3fb8aa3b; // 1.4427
mul.f32 %f4, %f2, %f3;
cvt.rzi.f32.f32 %f5, %f4;
mov.f32 %f6, %f5;
mov.f32 %f7, 0fbf317200; // -0.693146
mov.f32 %f8, %f7;
mov.f32 %f9, %f2;
mad.f32 %f10, %f6, %f8, %f9;
mov.f32 %f11, %f10;
mov.f32 %f12, %f5;
mov.f32 %f13, 0fb5bfbe8e; // -1.42861e-006
mov.f32 %f14, %f13;
mov.f32 %f15, %f11;
mad.f32 %f16, %f12, %f14, %f15;
mov.f32 %f17, %f16;
mov.f32 %f18, 0f3fb8aa3b; // 1.4427
mul.f32 %f19, %f17, %f18;
ex2.approx.f32 %f20, %f19;
mov.f32 %f21, 0fc0000000; // -2
add.f32 %f22, %f5, %f21;
ex2.approx.f32 %f23, %f22;
mul.f32 %f24, %f20, %f23;
mov.f32 %f25, 0f40000000; // 2
mov.f32 %f26, %f25;
mov.f32 %f27, %f24;
mov.f32 %f28, 0f3e000000; // 0.125
div.approx.f32 %f29, %f28, %f24;
mov.f32 %f30, %f29;
mad.f32 %f31, %f26, %f27, %f30;
mov.f32 %f32, %f31;
.loc 15 438 0
mov.f32 %f33, 0f7f800000; // 1.#INF
mov.f32 %f34, 0f42b40000; // 90
setp.ge.f32 %p2, %f2, %f34;
selp.f32 %f35, %f33, %f32, %p2;
ld.param.u64 %rd6, [__cudaparm_vec_coshf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f35;
$Lt_35_1794:
.loc 15 440 0
exit;
$LDWend_vec_coshf:
} // vec_coshf
.entry vec_cospif (
.param .u64 __cudaparm_vec_cospif_n,
.param .u64 __cudaparm_vec_cospif_result,
.param .u64 __cudaparm_vec_cospif_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<11>;
.reg .u64 %rd<9>;
.reg .f32 %f<70>;
.reg .pred %p<6>;
.loc 15 445 0
$LDWbegin_vec_cospif:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_cospif_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_36_3330;
.loc 15 450 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_cospif_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
abs.f32 %f2, %f1;
mov.f32 %f3, 0f4b800000; // 1.67772e+007
setp.gt.f32 %p2, %f2, %f3;
@!%p2 bra $Lt_36_3842;
.loc 17 9083 0
mov.f32 %f4, 0f00000000; // 0
mul.rn.f32 %f1, %f1, %f4;
$Lt_36_3842:
.loc 17 8429 0
add.f32 %f5, %f1, %f1;
cvt.rni.f32.f32 %f6, %f5;
neg.f32 %f7, %f6;
mov.f32 %f8, %f7;
mov.f32 %f9, 0f3f000000; // 0.5
mov.f32 %f10, %f9;
mov.f32 %f11, %f1;
mad.f32 %f12, %f8, %f10, %f11;
mov.f32 %f13, %f12;
.loc 17 9094 0
mov.f32 %f14, 0f40490fdb; // 3.14159
mul.f32 %f15, %f13, %f14;
mul.f32 %f16, %f15, %f15;
cvt.rzi.s32.f32 %r4, %f6;
add.s32 %r5, %r4, 1;
and.b32 %r6, %r5, 1;
mov.u32 %r7, 0;
setp.eq.s32 %p3, %r6, %r7;
@%p3 bra $Lt_36_4610;
.loc 17 8429 0
mov.f32 %f17, 0f37ccf5ce; // 2.44332e-005
mov.f32 %f18, %f17;
mov.f32 %f19, %f16;
mov.f32 %f20, 0fbab6061a; // -0.00138873
mov.f32 %f21, %f20;
mad.f32 %f22, %f18, %f19, %f21;
mov.f32 %f23, %f22;
mov.f32 %f24, %f23;
mov.f32 %f25, %f16;
mov.f32 %f26, 0f3d2aaaa5; // 0.0416666
mov.f32 %f27, %f26;
mad.f32 %f28, %f24, %f25, %f27;
mov.f32 %f29, %f28;
mov.f32 %f30, %f29;
mov.f32 %f31, %f16;
mov.f32 %f32, 0fbf000000; // -0.5
mov.f32 %f33, %f32;
mad.f32 %f34, %f30, %f31, %f33;
mov.f32 %f35, %f34;
mov.f32 %f36, %f35;
mov.f32 %f37, %f16;
mov.f32 %f38, 0f3f800000; // 1
mov.f32 %f39, %f38;
mad.f32 %f40, %f36, %f37, %f39;
mov.f32 %f41, %f40;
.loc 17 8936 0
mov.f32 %f42, %f41;
bra.uni $Lt_36_4354;
$Lt_36_4610:
.loc 17 8429 0
mov.f32 %f43, 0fb94ca1f9; // -0.000195153
mov.f32 %f44, %f43;
mov.f32 %f45, %f16;
mov.f32 %f46, 0f3c08839e; // 0.00833216
mov.f32 %f47, %f46;
mad.f32 %f48, %f44, %f45, %f47;
mov.f32 %f49, %f48;
mov.f32 %f50, %f49;
mov.f32 %f51, %f16;
mov.f32 %f52, 0fbe2aaaa3; // -0.166667
mov.f32 %f53, %f52;
mad.f32 %f54, %f50, %f51, %f53;
mov.f32 %f55, %f54;
mul.f32 %f56, %f16, %f55;
mov.f32 %f57, %f56;
mov.f32 %f58, %f15;
mov.f32 %f59, %f15;
mad.f32 %f60, %f57, %f58, %f59;
mov.f32 %f61, %f60;
.loc 17 8938 0
mov.f32 %f42, %f61;
$Lt_36_4354:
and.b32 %r8, %r5, 2;
mov.u32 %r9, 0;
setp.eq.s32 %p4, %r8, %r9;
@%p4 bra $Lt_36_4866;
.loc 17 8429 0
mov.f32 %f62, %f42;
mov.f32 %f63, 0fbf800000; // -1
mov.f32 %f64, %f63;
mov.f32 %f65, 0f00000000; // 0
mov.f32 %f66, %f65;
mad.f32 %f67, %f62, %f64, %f66;
mov.f32 %f68, %f67;
.loc 17 8941 0
mov.f32 %f42, %f68;
$Lt_36_4866:
.loc 15 450 0
ld.param.u64 %rd6, [__cudaparm_vec_cospif_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f42;
$Lt_36_3330:
.loc 15 452 0
exit;
$LDWend_vec_cospif:
} // vec_cospif
.entry vec_erfcf (
.param .u64 __cudaparm_vec_erfcf_n,
.param .u64 __cudaparm_vec_erfcf_result,
.param .u64 __cudaparm_vec_erfcf_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<11>;
.reg .u64 %rd<9>;
.reg .f32 %f<188>;
.reg .pred %p<7>;
.loc 15 457 0
$LDWbegin_vec_erfcf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_erfcf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_37_4098;
.loc 15 462 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_erfcf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
mov.f32 %f2, 0f3f5020c5; // 0.813
setp.le.f32 %p2, %f1, %f2;
@!%p2 bra $Lt_37_4866;
.loc 17 10098 0
abs.f32 %f3, %f1;
mul.f32 %f4, %f1, %f1;
mov.f32 %f5, 0f3f800000; // 1
setp.ge.f32 %p3, %f3, %f5;
@!%p3 bra $Lt_37_5378;
.loc 17 8429 0
mov.f32 %f6, %f3;
mov.f32 %f7, 0f3ea7ba05; // 0.327591
mov.f32 %f8, %f7;
mov.f32 %f9, 0f3f800000; // 1
mov.f32 %f10, %f9;
mad.f32 %f11, %f6, %f8, %f10;
mov.f32 %f12, %f11;
.loc 17 9924 0
rcp.approx.f32 %f13, %f12;
mov.f32 %f14, %f13;
.loc 17 8429 0
mov.f32 %f15, 0f3f87dc22; // 1.06141
mov.f32 %f16, %f15;
mov.f32 %f17, %f13;
mov.f32 %f18, 0fbfba00e3; // -1.45315
mov.f32 %f19, %f18;
mad.f32 %f20, %f16, %f17, %f19;
mov.f32 %f12, %f20;
mov.f32 %f21, %f12;
mov.f32 %f22, %f14;
mov.f32 %f23, 0f3fb5f0e3; // 1.42141
mov.f32 %f24, %f23;
mad.f32 %f25, %f21, %f22, %f24;
mov.f32 %f12, %f25;
mov.f32 %f26, %f12;
mov.f32 %f27, %f14;
mov.f32 %f28, 0fbe91a98e; // -0.284497
mov.f32 %f29, %f28;
mad.f32 %f30, %f26, %f27, %f29;
mov.f32 %f12, %f30;
mov.f32 %f31, %f12;
mov.f32 %f32, %f14;
mov.f32 %f33, 0f3e827906; // 0.25483
mov.f32 %f34, %f33;
mad.f32 %f35, %f31, %f32, %f34;
mov.f32 %f12, %f35;
neg.f32 %f36, %f4;
mov.f32 %f37, 0f3fb8aa3b; // 1.4427
mul.f32 %f38, %f36, %f37;
cvt.rzi.f32.f32 %f39, %f38;
mov.f32 %f40, %f39;
mov.f32 %f41, 0fbf317200; // -0.693146
mov.f32 %f42, %f41;
mov.f32 %f43, %f36;
mad.f32 %f44, %f40, %f42, %f43;
mov.f32 %f45, %f44;
mov.f32 %f46, %f39;
mov.f32 %f47, 0fb5bfbe8e; // -1.42861e-006
mov.f32 %f48, %f47;
mov.f32 %f49, %f45;
mad.f32 %f50, %f46, %f48, %f49;
mov.f32 %f51, %f50;
ex2.approx.f32 %f52, %f39;
mov.f32 %f53, 0f3fb8aa3b; // 1.4427
mul.f32 %f54, %f51, %f53;
ex2.approx.f32 %f55, %f54;
mul.f32 %f56, %f52, %f55;
neg.f32 %f57, %f56;
mov.f32 %f58, %f57;
mul.f32 %f59, %f13, %f12;
mov.f32 %f60, %f59;
mov.f32 %f61, 0f3f800000; // 1
mov.f32 %f62, %f61;
mad.f32 %f63, %f58, %f60, %f62;
mov.f32 %f12, %f63;
.loc 17 9936 0
mov.f32 %f64, 0f3f800000; // 1
mov.f32 %f65, 0f40b00000; // 5.5
setp.ge.f32 %p4, %f3, %f65;
selp.f32 %f66, %f64, %f12, %p4;
mov.b32 %r4, %f66;
mov.b32 %r5, %f1;
and.b32 %r6, %r5, -2147483648;
or.b32 %r7, %r4, %r6;
mov.b32 %f67, %r7;
bra.uni $Lt_37_5122;
$Lt_37_5378:
.loc 17 8429 0
mov.f32 %f68, 0fba1268fb; // -0.00055851
mov.f32 %f69, %f68;
mov.f32 %f70, %f4;
mov.f32 %f71, 0f3ba0c9f8; // 0.00490689
mov.f32 %f72, %f71;
mad.f32 %f73, %f69, %f70, %f72;
mov.f32 %f12, %f73;
mov.f32 %f74, %f12;
mov.f32 %f75, %f4;
mov.f32 %f76, 0fbcdabfd4; // -0.0267028
mov.f32 %f77, %f76;
mad.f32 %f78, %f74, %f75, %f77;
mov.f32 %f12, %f78;
mov.f32 %f79, %f12;
mov.f32 %f80, %f4;
mov.f32 %f81, 0f3de70331; // 0.112799
mov.f32 %f82, %f81;
mad.f32 %f83, %f79, %f80, %f82;
mov.f32 %f12, %f83;
mov.f32 %f84, %f12;
mov.f32 %f85, %f4;
mov.f32 %f86, 0fbec09330; // -0.376123
mov.f32 %f87, %f86;
mad.f32 %f88, %f84, %f85, %f87;
mov.f32 %f12, %f88;
mov.f32 %f89, %f12;
mov.f32 %f90, %f4;
mov.f32 %f91, 0f3f906eba; // 1.12838
mov.f32 %f92, %f91;
mad.f32 %f93, %f89, %f90, %f92;
mov.f32 %f12, %f93;
.loc 17 9945 0
mul.f32 %f67, %f1, %f12;
$Lt_37_5122:
.loc 17 10098 0
mov.f32 %f94, 0f3f800000; // 1
sub.f32 %f95, %f94, %f67;
bra.uni $Lt_37_4610;
$Lt_37_4866:
.loc 17 8437 0
mov.f32 %f96, %f1;
rcp.approx.ftz.f32 %f97,%f96;
mov.f32 %f98, %f97;
.loc 17 8429 0
mov.f32 %f99, 0fbf7fc509; // -0.9991
mov.f32 %f100, %f99;
mov.f32 %f101, %f98;
mov.f32 %f102, 0fbe85acdf; // -0.261085
mov.f32 %f103, %f102;
mad.f32 %f104, %f100, %f101, %f103;
mov.f32 %f105, %f104;
mov.f32 %f106, %f105;
mov.f32 %f107, %f98;
mov.f32 %f108, 0f3dff301b; // 0.124603
mov.f32 %f109, %f108;
mad.f32 %f110, %f106, %f107, %f109;
mov.f32 %f105, %f110;
mov.f32 %f111, %f105;
mov.f32 %f112, %f98;
mov.f32 %f113, 0f3e079e1d; // 0.132439
mov.f32 %f114, %f113;
mad.f32 %f115, %f111, %f112, %f114;
mov.f32 %f105, %f115;
mov.f32 %f116, %f105;
mov.f32 %f117, %f98;
mov.f32 %f118, 0f3d091fcf; // 0.0334776
mov.f32 %f119, %f118;
mad.f32 %f120, %f116, %f117, %f119;
mov.f32 %f121, %f120;
mov.f32 %f122, 0f401045e9; // 2.25427
add.f32 %f123, %f98, %f122;
mov.f32 %f124, %f123;
mov.f32 %f125, %f98;
mov.f32 %f126, 0f4009b13f; // 2.15144
mov.f32 %f127, %f126;
mad.f32 %f128, %f124, %f125, %f127;
mov.f32 %f105, %f128;
mov.f32 %f129, %f105;
mov.f32 %f130, %f98;
mov.f32 %f131, 0f3f83a2f6; // 1.02841
mov.f32 %f132, %f131;
mad.f32 %f133, %f129, %f130, %f132;
mov.f32 %f105, %f133;
mov.f32 %f134, %f105;
mov.f32 %f135, %f98;
mov.f32 %f136, 0f3e859a52; // 0.260943
mov.f32 %f137, %f136;
mad.f32 %f138, %f134, %f135, %f137;
mov.f32 %f105, %f138;
mov.f32 %f139, %f105;
mov.f32 %f140, %f98;
mov.f32 %f141, 0fb6860e0b; // -3.99515e-006
mov.f32 %f142, %f141;
mad.f32 %f143, %f139, %f140, %f142;
mov.f32 %f105, %f143;
.loc 17 10076 0
div.approx.f32 %f144, %f121, %f105;
.loc 17 8429 0
mov.b32 %r8, %f1;
and.b32 %r9, %r8, -4096;
mov.b32 %f145, %r9;
mul.f32 %f146, %f145, %f145;
neg.f32 %f147, %f146;
mov.f32 %f148, 0f3fb8aa3b; // 1.4427
mul.f32 %f149, %f147, %f148;
cvt.rzi.f32.f32 %f150, %f149;
mov.f32 %f151, %f150;
mov.f32 %f152, 0fbf317200; // -0.693146
mov.f32 %f153, %f152;
mov.f32 %f154, %f147;
mad.f32 %f155, %f151, %f153, %f154;
mov.f32 %f156, %f155;
mov.f32 %f157, %f150;
mov.f32 %f158, 0fb5bfbe8e; // -1.42861e-006
mov.f32 %f159, %f158;
mov.f32 %f160, %f156;
mad.f32 %f161, %f157, %f159, %f160;
mov.f32 %f162, %f161;
mul.f32 %f163, %f98, %f144;
mov.f32 %f164, %f163;
mov.f32 %f165, %f98;
mov.f32 %f166, %f98;
mad.f32 %f167, %f164, %f165, %f166;
mov.f32 %f168, %f167;
.loc 17 10112 0
ex2.approx.f32 %f169, %f150;
mov.f32 %f170, 0f3fb8aa3b; // 1.4427
mul.f32 %f171, %f162, %f170;
ex2.approx.f32 %f172, %f171;
mul.f32 %f173, %f169, %f172;
add.f32 %f174, %f145, %f1;
sub.f32 %f175, %f1, %f145;
mul.f32 %f176, %f174, %f175;
neg.f32 %f177, %f176;
mov.f32 %f178, 0f3fb8aa3b; // 1.4427
mul.f32 %f179, %f177, %f178;
ex2.approx.f32 %f180, %f179;
mov.f32 %f181, 0f3f000000; // 0.5
mul.f32 %f182, %f180, %f181;
mul.f32 %f183, %f173, %f182;
mul.f32 %f184, %f168, %f183;
.loc 17 10100 0
mov.f32 %f185, 0f00000000; // 0
mov.f32 %f186, 0f4120e148; // 10.055
setp.gt.f32 %p5, %f1, %f186;
selp.f32 %f95, %f185, %f184, %p5;
$Lt_37_4610:
.loc 15 462 0
ld.param.u64 %rd6, [__cudaparm_vec_erfcf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f95;
$Lt_37_4098:
.loc 15 464 0
exit;
$LDWend_vec_erfcf:
} // vec_erfcf
.entry vec_erfcinvf (
.param .u64 __cudaparm_vec_erfcinvf_n,
.param .u64 __cudaparm_vec_erfcinvf_result,
.param .u64 __cudaparm_vec_erfcinvf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<11>;
.reg .u64 %rd<9>;
.reg .f32 %f<115>;
.reg .pred %p<5>;
.loc 15 469 0
$LDWbegin_vec_erfcinvf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_erfcinvf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_38_3586;
.loc 15 474 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_erfcinvf_y];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
neg.f32 %f2, %f1;
mov.f32 %f3, 0f3b5ed289; // 0.0034
set.ge.u32.f32 %r4, %f1, %f3;
neg.s32 %r5, %r4;
mov.f32 %f4, 0f3fff9097; // 1.9966
set.le.u32.f32 %r6, %f1, %f4;
neg.s32 %r7, %r6;
and.b32 %r8, %r5, %r7;
mov.u32 %r9, 0;
setp.eq.s32 %p2, %r8, %r9;
@%p2 bra $Lt_38_4354;
.loc 17 8429 0
mov.f32 %f5, 0f40000000; // 2
add.rn.f32 %f6, %f5, %f2;
mul.rn.f32 %f7, %f6, %f1;
lg2.approx.f32 %f8, %f7;
neg.f32 %f9, %f8;
mov.f32 %f10, 0faf8a6370; // -2.51727e-010
mov.f32 %f11, %f10;
mov.f32 %f12, %f9;
mov.f32 %f13, 0f3221f645; // 9.42743e-009
mov.f32 %f14, %f13;
mad.f32 %f15, %f11, %f12, %f14;
mov.f32 %f16, %f15;
mov.f32 %f17, %f16;
mov.f32 %f18, %f9;
mov.f32 %f19, 0fb4016fda; // -1.20548e-007
mov.f32 %f20, %f19;
mad.f32 %f21, %f17, %f18, %f20;
mov.f32 %f16, %f21;
mov.f32 %f22, %f16;
mov.f32 %f23, %f9;
mov.f32 %f24, 0f3468f846; // 2.1697e-007
mov.f32 %f25, %f24;
mad.f32 %f26, %f22, %f23, %f25;
mov.f32 %f16, %f26;
mov.f32 %f27, %f16;
mov.f32 %f28, %f9;
mov.f32 %f29, 0f370742aa; // 8.06215e-006
mov.f32 %f30, %f29;
mad.f32 %f31, %f27, %f28, %f30;
mov.f32 %f16, %f31;
mov.f32 %f32, %f16;
mov.f32 %f33, %f9;
mov.f32 %f34, 0fb804db4d; // -3.16755e-005
mov.f32 %f35, %f34;
mad.f32 %f36, %f32, %f33, %f35;
mov.f32 %f16, %f36;
mov.f32 %f37, %f16;
mov.f32 %f38, %f9;
mov.f32 %f39, 0fba4afea1; // -0.000774363
mov.f32 %f40, %f39;
mad.f32 %f41, %f37, %f38, %f40;
mov.f32 %f16, %f41;
mov.f32 %f42, %f16;
mov.f32 %f43, %f9;
mov.f32 %f44, 0f3bb5c027; // 0.00554659
mov.f32 %f45, %f44;
mad.f32 %f46, %f42, %f43, %f45;
mov.f32 %f16, %f46;
mov.f32 %f47, %f16;
mov.f32 %f48, %f9;
mov.f32 %f49, 0f3e24ae0f; // 0.16082
mov.f32 %f50, %f49;
mad.f32 %f51, %f47, %f48, %f50;
mov.f32 %f16, %f51;
mov.f32 %f52, %f16;
mov.f32 %f53, %f9;
mov.f32 %f54, 0f3f62dfc4; // 0.886227
mov.f32 %f55, %f54;
mad.f32 %f56, %f52, %f53, %f55;
mov.f32 %f16, %f56;
.loc 17 10211 0
mov.f32 %f57, 0f3f800000; // 1
add.rn.f32 %f58, %f57, %f2;
mul.rn.f32 %f59, %f58, %f16;
bra.uni $Lt_38_4098;
$Lt_38_4354:
.loc 17 8429 0
mov.f32 %f60, 0f3f800000; // 1
setp.gt.f32 %p3, %f1, %f60;
mov.f32 %f61, 0f40000000; // 2
add.rn.f32 %f62, %f61, %f2;
selp.f32 %f63, %f62, %f1, %p3;
lg2.approx.f32 %f64, %f63;
neg.f32 %f65, %f64;
rsqrt.approx.f32 %f66, %f65;
mov.f32 %f67, 0fc27c73f1; // -63.1132
mov.f32 %f68, %f67;
mov.f32 %f69, %f66;
mov.f32 %f70, 0f42fef829; // 127.485
mov.f32 %f71, %f70;
mad.f32 %f72, %f68, %f69, %f71;
mov.f32 %f73, %f72;
mov.f32 %f74, %f73;
mov.f32 %f75, %f66;
mov.f32 %f76, 0fc2e4361c; // -114.106
mov.f32 %f77, %f76;
mad.f32 %f78, %f74, %f75, %f77;
mov.f32 %f73, %f78;
mov.f32 %f79, %f73;
mov.f32 %f80, %f66;
mov.f32 %f81, 0f42714d9b; // 60.3258
mov.f32 %f82, %f81;
mad.f32 %f83, %f79, %f80, %f82;
mov.f32 %f73, %f83;
mov.f32 %f84, %f73;
mov.f32 %f85, %f66;
mov.f32 %f86, 0fc1ae51b3; // -21.7899
mov.f32 %f87, %f86;
mad.f32 %f88, %f84, %f85, %f87;
mov.f32 %f73, %f88;
mov.f32 %f89, %f73;
mov.f32 %f90, %f66;
mov.f32 %f91, 0f40cef504; // 6.46741
mov.f32 %f92, %f91;
mad.f32 %f93, %f89, %f90, %f92;
mov.f32 %f73, %f93;
mov.f32 %f94, %f73;
mov.f32 %f95, %f66;
mov.f32 %f96, 0fbfea9e05; // -1.83295
mov.f32 %f97, %f96;
mad.f32 %f98, %f94, %f95, %f97;
mov.f32 %f73, %f98;
mov.f32 %f99, %f73;
mov.f32 %f100, %f66;
mov.f32 %f101, 0fbcf871f4; // -0.0303278
mov.f32 %f102, %f101;
mad.f32 %f103, %f99, %f100, %f102;
mov.f32 %f73, %f103;
mov.f32 %f104, %f73;
mov.f32 %f105, %f66;
mov.f32 %f106, 0f3f553775; // 0.832877
mov.f32 %f107, %f106;
mad.f32 %f108, %f104, %f105, %f107;
mov.f32 %f73, %f108;
.loc 17 8437 0
mov.f32 %f109, %f66;
rcp.approx.ftz.f32 %f110,%f109;
mov.f32 %f111, %f110;
.loc 17 10216 0
mul.rn.f32 %f112, %f73, %f111;
neg.f32 %f113, %f112;
selp.f32 %f59, %f113, %f112, %p3;
$Lt_38_4098:
.loc 15 474 0
ld.param.u64 %rd6, [__cudaparm_vec_erfcinvf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f59;
$Lt_38_3586:
.loc 15 476 0
exit;
$LDWend_vec_erfcinvf:
} // vec_erfcinvf
.entry vec_erfcxf (
.param .u64 __cudaparm_vec_erfcxf_n,
.param .u64 __cudaparm_vec_erfcxf_result,
.param .u64 __cudaparm_vec_erfcxf_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<7>;
.reg .u64 %rd<9>;
.reg .f32 %f<171>;
.reg .pred %p<9>;
.loc 15 481 0
$LDWbegin_vec_erfcxf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_erfcxf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_39_5634;
.loc 15 486 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_erfcxf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
abs.f32 %f2, %f1;
mov.f32 %f3, 0f4120e148; // 10.055
setp.lt.f32 %p2, %f2, %f3;
@!%p2 bra $Lt_39_6402;
mov.f32 %f4, 0f3f5020c5; // 0.813
setp.le.f32 %p3, %f2, %f4;
@!%p3 bra $Lt_39_6914;
.loc 17 8429 0
mov.f32 %f5, 0f3c2d0a8f; // 0.0105616
mov.f32 %f6, %f5;
mov.f32 %f7, %f2;
mov.f32 %f8, 0fbd606a09; // -0.0547886
mov.f32 %f9, %f8;
mad.f32 %f10, %f6, %f7, %f9;
mov.f32 %f11, %f10;
mov.f32 %f12, %f11;
mov.f32 %f13, %f2;
mov.f32 %f14, 0f3e176f6c; // 0.147886
mov.f32 %f15, %f14;
mad.f32 %f16, %f12, %f13, %f15;
mov.f32 %f11, %f16;
mov.f32 %f17, %f11;
mov.f32 %f18, %f2;
mov.f32 %f19, 0fbe96a3e8; // -0.294219
mov.f32 %f20, %f19;
mad.f32 %f21, %f17, %f18, %f20;
mov.f32 %f11, %f21;
mov.f32 %f22, %f11;
mov.f32 %f23, %f2;
mov.f32 %f24, 0f3eff50b0; // 0.498662
mov.f32 %f25, %f24;
mad.f32 %f26, %f22, %f23, %f25;
mov.f32 %f11, %f26;
mov.f32 %f27, %f11;
mov.f32 %f28, %f2;
mov.f32 %f29, 0fbf408ad0; // -0.752118
mov.f32 %f30, %f29;
mad.f32 %f31, %f27, %f28, %f30;
mov.f32 %f11, %f31;
mov.f32 %f32, %f11;
mov.f32 %f33, %f2;
mov.f32 %f34, 0f3f7fffa8; // 0.999995
mov.f32 %f35, %f34;
mad.f32 %f36, %f32, %f33, %f35;
mov.f32 %f11, %f36;
mov.f32 %f37, %f11;
mov.f32 %f38, %f2;
mov.f32 %f39, 0fbf906eba; // -1.12838
mov.f32 %f40, %f39;
mad.f32 %f41, %f37, %f38, %f40;
mov.f32 %f11, %f41;
mov.f32 %f42, %f11;
mov.f32 %f43, %f2;
mov.f32 %f44, 0f3f800000; // 1
mov.f32 %f45, %f44;
mad.f32 %f46, %f42, %f43, %f45;
mov.f32 %f11, %f46;
.loc 17 10164 0
mov.f32 %f47, %f11;
bra.uni $Lt_39_6146;
$Lt_39_6914:
.loc 17 8437 0
mov.f32 %f48, %f2;
rcp.approx.ftz.f32 %f49,%f48;
mov.f32 %f50, %f49;
.loc 17 8429 0
mov.f32 %f51, 0fbf7fc509; // -0.9991
mov.f32 %f52, %f51;
mov.f32 %f53, %f50;
mov.f32 %f54, 0fbe85acdf; // -0.261085
mov.f32 %f55, %f54;
mad.f32 %f56, %f52, %f53, %f55;
mov.f32 %f57, %f56;
mov.f32 %f58, %f57;
mov.f32 %f59, %f50;
mov.f32 %f60, 0f3dff301b; // 0.124603
mov.f32 %f61, %f60;
mad.f32 %f62, %f58, %f59, %f61;
mov.f32 %f57, %f62;
mov.f32 %f63, %f57;
mov.f32 %f64, %f50;
mov.f32 %f65, 0f3e079e1d; // 0.132439
mov.f32 %f66, %f65;
mad.f32 %f67, %f63, %f64, %f66;
mov.f32 %f57, %f67;
mov.f32 %f68, %f57;
mov.f32 %f69, %f50;
mov.f32 %f70, 0f3d091fcf; // 0.0334776
mov.f32 %f71, %f70;
mad.f32 %f72, %f68, %f69, %f71;
mov.f32 %f73, %f72;
mov.f32 %f74, 0f401045e9; // 2.25427
add.f32 %f75, %f50, %f74;
mov.f32 %f76, %f75;
mov.f32 %f77, %f50;
mov.f32 %f78, 0f4009b13f; // 2.15144
mov.f32 %f79, %f78;
mad.f32 %f80, %f76, %f77, %f79;
mov.f32 %f57, %f80;
mov.f32 %f81, %f57;
mov.f32 %f82, %f50;
mov.f32 %f83, 0f3f83a2f6; // 1.02841
mov.f32 %f84, %f83;
mad.f32 %f85, %f81, %f82, %f84;
mov.f32 %f57, %f85;
mov.f32 %f86, %f57;
mov.f32 %f87, %f50;
mov.f32 %f88, 0f3e859a52; // 0.260943
mov.f32 %f89, %f88;
mad.f32 %f90, %f86, %f87, %f89;
mov.f32 %f57, %f90;
mov.f32 %f91, %f57;
mov.f32 %f92, %f50;
mov.f32 %f93, 0fb6860e0b; // -3.99515e-006
mov.f32 %f94, %f93;
mad.f32 %f95, %f91, %f92, %f94;
mov.f32 %f57, %f95;
.loc 17 10076 0
div.approx.f32 %f96, %f73, %f57;
.loc 17 8429 0
mov.f32 %f97, %f96;
mov.f32 %f98, %f50;
mov.f32 %f99, 0f3f800000; // 1
mov.f32 %f100, %f99;
mad.f32 %f101, %f97, %f98, %f100;
mov.f32 %f11, %f101;
.loc 17 10169 0
mul.f32 %f102, %f11, %f50;
mov.f32 %f103, 0f3f000000; // 0.5
mul.f32 %f47, %f102, %f103;
bra.uni $Lt_39_6146;
$Lt_39_6402:
.loc 17 8437 0
mov.f32 %f104, %f2;
rcp.approx.ftz.f32 %f105,%f104;
mov.f32 %f106, %f105;
.loc 17 8429 0
mul.f32 %f107, %f106, %f106;
mov.f32 %f108, 0f40d20000; // 6.5625
mov.f32 %f109, %f108;
mov.f32 %f110, %f107;
mov.f32 %f111, 0fbff00000; // -1.875
mov.f32 %f112, %f111;
mad.f32 %f113, %f109, %f110, %f112;
mov.f32 %f11, %f113;
mov.f32 %f114, %f11;
mov.f32 %f115, %f107;
mov.f32 %f116, 0f3f400000; // 0.75
mov.f32 %f117, %f116;
mad.f32 %f118, %f114, %f115, %f117;
mov.f32 %f11, %f118;
mov.f32 %f119, %f11;
mov.f32 %f120, %f107;
mov.f32 %f121, 0fbf000000; // -0.5
mov.f32 %f122, %f121;
mad.f32 %f123, %f119, %f120, %f122;
mov.f32 %f11, %f123;
mov.f32 %f124, %f11;
mov.f32 %f125, %f107;
mov.f32 %f126, 0f3f800000; // 1
mov.f32 %f127, %f126;
mad.f32 %f128, %f124, %f125, %f127;
mov.f32 %f11, %f128;
.loc 17 10181 0
mov.f32 %f129, 0f3f106ebb; // 0.56419
mul.f32 %f130, %f106, %f129;
mul.f32 %f47, %f11, %f130;
$Lt_39_6146:
mov.f32 %f131, 0f00000000; // 0
setp.le.f32 %p4, %f1, %f131;
@!%p4 bra $Lt_39_7170;
.loc 17 8429 0
mov.b32 %r4, %f2;
and.b32 %r5, %r4, -4096;
mov.b32 %f132, %r5;
mul.f32 %f133, %f132, %f132;
mov.f32 %f134, 0f3fb8aa3b; // 1.4427
mul.f32 %f135, %f133, %f134;
cvt.rzi.f32.f32 %f136, %f135;
mov.f32 %f137, %f136;
mov.f32 %f138, 0fbf317200; // -0.693146
mov.f32 %f139, %f138;
mov.f32 %f140, %f133;
mad.f32 %f141, %f137, %f139, %f140;
mov.f32 %f142, %f141;
mov.f32 %f143, %f136;
mov.f32 %f144, 0fb5bfbe8e; // -1.42861e-006
mov.f32 %f145, %f144;
mov.f32 %f146, %f142;
mad.f32 %f147, %f143, %f145, %f146;
mov.f32 %f148, %f147;
.loc 17 8782 0
mov.f32 %f149, 0f7f800000; // 1.#INF
mov.f32 %f150, 0f00000000; // 0
ex2.approx.f32 %f151, %f136;
mov.f32 %f152, 0f3fb8aa3b; // 1.4427
mul.f32 %f153, %f148, %f152;
ex2.approx.f32 %f154, %f153;
mul.f32 %f155, %f151, %f154;
mov.f32 %f156, 0fc2d20000; // -105
setp.lt.f32 %p5, %f133, %f156;
selp.f32 %f157, %f150, %f155, %p5;
mov.f32 %f158, 0f42d20000; // 105
setp.gt.f32 %p6, %f133, %f158;
selp.f32 %f159, %f149, %f157, %p6;
.loc 17 10193 0
add.f32 %f160, %f2, %f132;
sub.f32 %f161, %f2, %f132;
mul.f32 %f162, %f160, %f161;
mov.f32 %f163, 0f3fb8aa3b; // 1.4427
mul.f32 %f164, %f162, %f163;
ex2.approx.f32 %f165, %f164;
mul.rn.f32 %f166, %f159, %f165;
add.f32 %f167, %f166, %f166;
.loc 17 10194 0
sub.f32 %f168, %f167, %f47;
.loc 17 8783 0
mov.f32 %f169, 0f7f800000; // 1.#INF
setp.eq.f32 %p7, %f159, %f169;
selp.f32 %f47, %f159, %f168, %p7;
$Lt_39_7170:
.loc 15 486 0
ld.param.u64 %rd6, [__cudaparm_vec_erfcxf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f47;
$Lt_39_5634:
.loc 15 488 0
exit;
$LDWend_vec_erfcxf:
} // vec_erfcxf
.entry vec_erff (
.param .u64 __cudaparm_vec_erff_n,
.param .u64 __cudaparm_vec_erff_result,
.param .u64 __cudaparm_vec_erff_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<9>;
.reg .u64 %rd<9>;
.reg .f32 %f<93>;
.reg .pred %p<5>;
.loc 15 493 0
$LDWbegin_vec_erff:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_erff_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_40_2562;
.loc 15 498 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_erff_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
abs.f32 %f2, %f1;
mul.f32 %f3, %f1, %f1;
mov.f32 %f4, 0f3f800000; // 1
setp.ge.f32 %p2, %f2, %f4;
@!%p2 bra $Lt_40_3330;
.loc 17 8429 0
mov.f32 %f5, %f2;
mov.f32 %f6, 0f3ea7ba05; // 0.327591
mov.f32 %f7, %f6;
mov.f32 %f8, 0f3f800000; // 1
mov.f32 %f9, %f8;
mad.f32 %f10, %f5, %f7, %f9;
mov.f32 %f11, %f10;
.loc 17 9924 0
rcp.approx.f32 %f12, %f11;
mov.f32 %f13, %f12;
.loc 17 8429 0
mov.f32 %f14, 0f3f87dc22; // 1.06141
mov.f32 %f15, %f14;
mov.f32 %f16, %f12;
mov.f32 %f17, 0fbfba00e3; // -1.45315
mov.f32 %f18, %f17;
mad.f32 %f19, %f15, %f16, %f18;
mov.f32 %f11, %f19;
mov.f32 %f20, %f11;
mov.f32 %f21, %f13;
mov.f32 %f22, 0f3fb5f0e3; // 1.42141
mov.f32 %f23, %f22;
mad.f32 %f24, %f20, %f21, %f23;
mov.f32 %f11, %f24;
mov.f32 %f25, %f11;
mov.f32 %f26, %f13;
mov.f32 %f27, 0fbe91a98e; // -0.284497
mov.f32 %f28, %f27;
mad.f32 %f29, %f25, %f26, %f28;
mov.f32 %f11, %f29;
mov.f32 %f30, %f11;
mov.f32 %f31, %f13;
mov.f32 %f32, 0f3e827906; // 0.25483
mov.f32 %f33, %f32;
mad.f32 %f34, %f30, %f31, %f33;
mov.f32 %f11, %f34;
neg.f32 %f35, %f3;
mov.f32 %f36, 0f3fb8aa3b; // 1.4427
mul.f32 %f37, %f35, %f36;
cvt.rzi.f32.f32 %f38, %f37;
mov.f32 %f39, %f38;
mov.f32 %f40, 0fbf317200; // -0.693146
mov.f32 %f41, %f40;
mov.f32 %f42, %f35;
mad.f32 %f43, %f39, %f41, %f42;
mov.f32 %f44, %f43;
mov.f32 %f45, %f38;
mov.f32 %f46, 0fb5bfbe8e; // -1.42861e-006
mov.f32 %f47, %f46;
mov.f32 %f48, %f44;
mad.f32 %f49, %f45, %f47, %f48;
mov.f32 %f50, %f49;
ex2.approx.f32 %f51, %f38;
mov.f32 %f52, 0f3fb8aa3b; // 1.4427
mul.f32 %f53, %f50, %f52;
ex2.approx.f32 %f54, %f53;
mul.f32 %f55, %f51, %f54;
neg.f32 %f56, %f55;
mov.f32 %f57, %f56;
mul.f32 %f58, %f12, %f11;
mov.f32 %f59, %f58;
mov.f32 %f60, 0f3f800000; // 1
mov.f32 %f61, %f60;
mad.f32 %f62, %f57, %f59, %f61;
mov.f32 %f11, %f62;
.loc 17 9936 0
mov.f32 %f63, 0f3f800000; // 1
mov.f32 %f64, 0f40b00000; // 5.5
setp.ge.f32 %p3, %f2, %f64;
selp.f32 %f65, %f63, %f11, %p3;
mov.b32 %r4, %f65;
mov.b32 %r5, %f1;
and.b32 %r6, %r5, -2147483648;
or.b32 %r7, %r4, %r6;
mov.b32 %f1, %r7;
bra.uni $Lt_40_3074;
$Lt_40_3330:
.loc 17 8429 0
mov.f32 %f66, 0fba1268fb; // -0.00055851
mov.f32 %f67, %f66;
mov.f32 %f68, %f3;
mov.f32 %f69, 0f3ba0c9f8; // 0.00490689
mov.f32 %f70, %f69;
mad.f32 %f71, %f67, %f68, %f70;
mov.f32 %f11, %f71;
mov.f32 %f72, %f11;
mov.f32 %f73, %f3;
mov.f32 %f74, 0fbcdabfd4; // -0.0267028
mov.f32 %f75, %f74;
mad.f32 %f76, %f72, %f73, %f75;
mov.f32 %f11, %f76;
mov.f32 %f77, %f11;
mov.f32 %f78, %f3;
mov.f32 %f79, 0f3de70331; // 0.112799
mov.f32 %f80, %f79;
mad.f32 %f81, %f77, %f78, %f80;
mov.f32 %f11, %f81;
mov.f32 %f82, %f11;
mov.f32 %f83, %f3;
mov.f32 %f84, 0fbec09330; // -0.376123
mov.f32 %f85, %f84;
mad.f32 %f86, %f82, %f83, %f85;
mov.f32 %f11, %f86;
mov.f32 %f87, %f11;
mov.f32 %f88, %f3;
mov.f32 %f89, 0f3f906eba; // 1.12838
mov.f32 %f90, %f89;
mad.f32 %f91, %f87, %f88, %f90;
mov.f32 %f11, %f91;
.loc 17 9945 0
mul.f32 %f1, %f1, %f11;
$Lt_40_3074:
.loc 15 498 0
ld.param.u64 %rd6, [__cudaparm_vec_erff_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f1;
$Lt_40_2562:
.loc 15 500 0
exit;
$LDWend_vec_erff:
} // vec_erff
.entry vec_erfinvf (
.param .u64 __cudaparm_vec_erfinvf_n,
.param .u64 __cudaparm_vec_erfinvf_result,
.param .u64 __cudaparm_vec_erfinvf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<9>;
.reg .f32 %f<91>;
.reg .pred %p<5>;
.loc 15 505 0
$LDWbegin_vec_erfinvf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_erfinvf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_41_2562;
.loc 15 510 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_erfinvf_y];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
.loc 17 9995 0
mov.f32 %f2, 0f3f800000; // 1
add.f32 %f3, %f1, %f2;
mov.f32 %f4, 0f3f800000; // 1
sub.f32 %f5, %f4, %f1;
mul.f32 %f6, %f3, %f5;
lg2.approx.f32 %f7, %f6;
neg.f32 %f8, %f7;
mov.f32 %f9, 0f41033333; // 8.2
setp.gt.f32 %p2, %f8, %f9;
@!%p2 bra $Lt_41_3330;
.loc 17 8429 0
rsqrt.approx.f32 %f10, %f8;
mov.f32 %f11, 0fbf1704a1; // -0.589914
mov.f32 %f12, %f11;
mov.f32 %f13, %f10;
mov.f32 %f14, 0fbf29baa5; // -0.663004
mov.f32 %f15, %f14;
mad.f32 %f16, %f12, %f13, %f15;
mov.f32 %f17, %f16;
mov.f32 %f18, %f17;
mov.f32 %f19, %f10;
mov.f32 %f20, 0f3fcc6adc; // 1.59701
mov.f32 %f21, %f20;
mad.f32 %f22, %f18, %f19, %f21;
mov.f32 %f17, %f22;
mov.f32 %f23, %f17;
mov.f32 %f24, %f10;
mov.f32 %f25, 0fbf2cdaed; // -0.675216
mov.f32 %f26, %f25;
mad.f32 %f27, %f23, %f24, %f26;
mov.f32 %f17, %f27;
mov.f32 %f28, %f17;
mov.f32 %f29, %f10;
mov.f32 %f30, 0fbdc30537; // -0.0952248
mov.f32 %f31, %f30;
mad.f32 %f32, %f28, %f29, %f31;
mov.f32 %f17, %f32;
mov.f32 %f33, %f17;
mov.f32 %f34, %f10;
mov.f32 %f35, 0f3f55d9b9; // 0.835353
mov.f32 %f36, %f35;
mad.f32 %f37, %f33, %f34, %f36;
mov.f32 %f17, %f37;
.loc 17 9997 0
rcp.approx.f32 %f38, %f10;
mul.f32 %f39, %f38, %f17;
neg.f32 %f40, %f39;
mov.f32 %f41, 0f00000000; // 0
setp.lt.f32 %p3, %f1, %f41;
selp.f32 %f42, %f40, %f39, %p3;
bra.uni $Lt_41_3074;
$Lt_41_3330:
.loc 17 8429 0
mov.f32 %f43, 0faf8a6370; // -2.51727e-010
mov.f32 %f44, %f43;
mov.f32 %f45, %f8;
mov.f32 %f46, 0f3221f645; // 9.42743e-009
mov.f32 %f47, %f46;
mad.f32 %f48, %f44, %f45, %f47;
mov.f32 %f49, %f48;
mov.f32 %f50, %f49;
mov.f32 %f51, %f8;
mov.f32 %f52, 0fb4016fda; // -1.20548e-007
mov.f32 %f53, %f52;
mad.f32 %f54, %f50, %f51, %f53;
mov.f32 %f49, %f54;
mov.f32 %f55, %f49;
mov.f32 %f56, %f8;
mov.f32 %f57, 0f3468f846; // 2.1697e-007
mov.f32 %f58, %f57;
mad.f32 %f59, %f55, %f56, %f58;
mov.f32 %f49, %f59;
mov.f32 %f60, %f49;
mov.f32 %f61, %f8;
mov.f32 %f62, 0f370742aa; // 8.06215e-006
mov.f32 %f63, %f62;
mad.f32 %f64, %f60, %f61, %f63;
mov.f32 %f49, %f64;
mov.f32 %f65, %f49;
mov.f32 %f66, %f8;
mov.f32 %f67, 0fb804db4d; // -3.16755e-005
mov.f32 %f68, %f67;
mad.f32 %f69, %f65, %f66, %f68;
mov.f32 %f49, %f69;
mov.f32 %f70, %f49;
mov.f32 %f71, %f8;
mov.f32 %f72, 0fba4afea1; // -0.000774363
mov.f32 %f73, %f72;
mad.f32 %f74, %f70, %f71, %f73;
mov.f32 %f49, %f74;
mov.f32 %f75, %f49;
mov.f32 %f76, %f8;
mov.f32 %f77, 0f3bb5c027; // 0.00554659
mov.f32 %f78, %f77;
mad.f32 %f79, %f75, %f76, %f78;
mov.f32 %f49, %f79;
mov.f32 %f80, %f49;
mov.f32 %f81, %f8;
mov.f32 %f82, 0f3e24ae0f; // 0.16082
mov.f32 %f83, %f82;
mad.f32 %f84, %f80, %f81, %f83;
mov.f32 %f49, %f84;
mov.f32 %f85, %f49;
mov.f32 %f86, %f8;
mov.f32 %f87, 0f3f62dfc4; // 0.886227
mov.f32 %f88, %f87;
mad.f32 %f89, %f85, %f86, %f88;
mov.f32 %f49, %f89;
.loc 17 10008 0
mul.f32 %f42, %f1, %f49;
$Lt_41_3074:
.loc 15 510 0
ld.param.u64 %rd6, [__cudaparm_vec_erfinvf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f42;
$Lt_41_2562:
.loc 15 512 0
exit;
$LDWend_vec_erfinvf:
} // vec_erfinvf
.entry vec_exp10f (
.param .u64 __cudaparm_vec_exp10f_n,
.param .u64 __cudaparm_vec_exp10f_result,
.param .u64 __cudaparm_vec_exp10f_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<9>;
.reg .f32 %f<29>;
.reg .pred %p<5>;
.loc 15 517 0
$LDWbegin_vec_exp10f:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_exp10f_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_42_2562;
.loc 15 522 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_exp10f_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
.loc 17 8429 0
mov.f32 %f2, 0f40549a78; // 3.32193
mul.f32 %f3, %f1, %f2;
cvt.rzi.f32.f32 %f4, %f3;
mov.f32 %f5, %f4;
mov.f32 %f6, 0fbe9a2080; // -0.301029
mov.f32 %f7, %f6;
mov.f32 %f8, %f1;
mad.f32 %f9, %f5, %f7, %f8;
mov.f32 %f10, %f9;
mov.f32 %f11, %f4;
mov.f32 %f12, 0fb55427de; // -7.90342e-007
mov.f32 %f13, %f12;
mov.f32 %f14, %f10;
mad.f32 %f15, %f11, %f13, %f14;
mov.f32 %f16, %f15;
.loc 15 522 0
mov.f32 %f17, 0f7f800000; // 1.#INF
mov.f32 %f18, 0f00000000; // 0
ex2.approx.f32 %f19, %f4;
mov.f32 %f20, 0f40549a78; // 3.32193
mul.f32 %f21, %f16, %f20;
ex2.approx.f32 %f22, %f21;
mul.f32 %f23, %f19, %f22;
mov.f32 %f24, 0fc2380000; // -46
setp.lt.f32 %p2, %f1, %f24;
selp.f32 %f25, %f18, %f23, %p2;
mov.f32 %f26, 0f42380000; // 46
setp.gt.f32 %p3, %f1, %f26;
selp.f32 %f27, %f17, %f25, %p3;
ld.param.u64 %rd6, [__cudaparm_vec_exp10f_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f27;
$Lt_42_2562:
.loc 15 524 0
exit;
$LDWend_vec_exp10f:
} // vec_exp10f
.entry vec_exp2f (
.param .u64 __cudaparm_vec_exp2f_n,
.param .u64 __cudaparm_vec_exp2f_result,
.param .u64 __cudaparm_vec_exp2f_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<9>;
.reg .f32 %f<4>;
.reg .pred %p<3>;
.loc 15 529 0
$LDWbegin_vec_exp2f:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_exp2f_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_43_1026;
.loc 15 534 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_exp2f_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
ex2.approx.f32 %f2, %f1;
ld.param.u64 %rd6, [__cudaparm_vec_exp2f_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f2;
$Lt_43_1026:
.loc 15 536 0
exit;
$LDWend_vec_exp2f:
} // vec_exp2f
.entry vec_expf (
.param .u64 __cudaparm_vec_expf_n,
.param .u64 __cudaparm_vec_expf_result,
.param .u64 __cudaparm_vec_expf_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<9>;
.reg .f32 %f<29>;
.reg .pred %p<5>;
.loc 15 541 0
$LDWbegin_vec_expf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_expf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_44_2562;
.loc 15 546 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_expf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
.loc 17 8429 0
mov.f32 %f2, 0f3fb8aa3b; // 1.4427
mul.f32 %f3, %f1, %f2;
cvt.rzi.f32.f32 %f4, %f3;
mov.f32 %f5, %f4;
mov.f32 %f6, 0fbf317200; // -0.693146
mov.f32 %f7, %f6;
mov.f32 %f8, %f1;
mad.f32 %f9, %f5, %f7, %f8;
mov.f32 %f10, %f9;
mov.f32 %f11, %f4;
mov.f32 %f12, 0fb5bfbe8e; // -1.42861e-006
mov.f32 %f13, %f12;
mov.f32 %f14, %f10;
mad.f32 %f15, %f11, %f13, %f14;
mov.f32 %f16, %f15;
.loc 15 546 0
mov.f32 %f17, 0f7f800000; // 1.#INF
mov.f32 %f18, 0f00000000; // 0
ex2.approx.f32 %f19, %f4;
mov.f32 %f20, 0f3fb8aa3b; // 1.4427
mul.f32 %f21, %f16, %f20;
ex2.approx.f32 %f22, %f21;
mul.f32 %f23, %f19, %f22;
mov.f32 %f24, 0fc2d20000; // -105
setp.lt.f32 %p2, %f1, %f24;
selp.f32 %f25, %f18, %f23, %p2;
mov.f32 %f26, 0f42d20000; // 105
setp.gt.f32 %p3, %f1, %f26;
selp.f32 %f27, %f17, %f25, %p3;
ld.param.u64 %rd6, [__cudaparm_vec_expf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f27;
$Lt_44_2562:
.loc 15 548 0
exit;
$LDWend_vec_expf:
} // vec_expf
.entry vec_expm1f (
.param .u64 __cudaparm_vec_expm1f_n,
.param .u64 __cudaparm_vec_expm1f_result,
.param .u64 __cudaparm_vec_expm1f_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<7>;
.reg .u64 %rd<9>;
.reg .f32 %f<69>;
.reg .pred %p<8>;
.loc 15 553 0
$LDWbegin_vec_expm1f:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_expm1f_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_45_5634;
.loc 15 558 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_expm1f_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
.loc 17 8429 0
abs.f32 %f2, %f1;
mov.f32 %f3, 0f3fb8aa3b; // 1.4427
mul.f32 %f4, %f1, %f3;
mov.f32 %f5, 0f3ed1eb85; // 0.41
setp.lt.f32 %p2, %f2, %f5;
cvt.rni.f32.f32 %f6, %f4;
mov.f32 %f7, 0f00000000; // 0
selp.f32 %f8, %f7, %f6, %p2;
neg.f32 %f9, %f8;
mov.f32 %f10, %f9;
mov.f32 %f11, 0f3f317200; // 0.693146
mov.f32 %f12, %f11;
mov.f32 %f13, %f1;
mad.f32 %f14, %f10, %f12, %f13;
mov.f32 %f15, %f14;
mov.f32 %f16, %f9;
mov.f32 %f17, 0f35bfbe8e; // 1.42861e-006
mov.f32 %f18, %f17;
mov.f32 %f19, %f15;
mad.f32 %f20, %f16, %f18, %f19;
mov.f32 %f15, %f20;
.loc 17 9450 0
mov.f32 %f21, %f15;
.loc 17 8429 0
mov.f32 %f22, 0f3ab5ebe6; // 0.00138795
mov.f32 %f23, %f22;
mov.f32 %f24, %f15;
mov.f32 %f25, 0f3c095663; // 0.00838241
mov.f32 %f26, %f25;
mad.f32 %f27, %f23, %f24, %f26;
mov.f32 %f15, %f27;
mov.f32 %f28, %f15;
mov.f32 %f29, %f21;
mov.f32 %f30, 0f3d2aabe3; // 0.0416678
mov.f32 %f31, %f30;
mad.f32 %f32, %f28, %f29, %f31;
mov.f32 %f15, %f32;
mov.f32 %f33, %f15;
mov.f32 %f34, %f21;
mov.f32 %f35, 0f3e2aa9f6; // 0.166664
mov.f32 %f36, %f35;
mad.f32 %f37, %f33, %f34, %f36;
mov.f32 %f15, %f37;
mov.f32 %f38, %f15;
mov.f32 %f39, %f21;
mov.f32 %f40, 0f3efffffe; // 0.5
mov.f32 %f41, %f40;
mad.f32 %f42, %f38, %f39, %f41;
mov.f32 %f15, %f42;
mul.f32 %f43, %f15, %f21;
mov.f32 %f44, %f43;
mov.f32 %f45, %f21;
mov.f32 %f46, %f21;
mad.f32 %f47, %f44, %f45, %f46;
mov.f32 %f15, %f47;
mov.f32 %f48, 0f43000000; // 128
setp.eq.f32 %p3, %f8, %f48;
mov.f32 %f49, 0fbf800000; // -1
add.f32 %f50, %f8, %f49;
selp.f32 %f51, %f50, %f8, %p3;
ex2.approx.f32 %f52, %f51;
mov.f32 %f53, %f15;
mov.f32 %f54, %f52;
mov.f32 %f55, 0fbf800000; // -1
add.f32 %f56, %f52, %f55;
mov.f32 %f57, %f56;
mad.f32 %f58, %f53, %f54, %f57;
mov.f32 %f15, %f58;
.loc 17 9468 0
mov.f32 %f59, 0fbf800000; // -1
mov.f32 %f60, 0f7f800000; // 1.#INF
add.f32 %f61, %f15, %f15;
selp.f32 %f62, %f61, %f15, %p3;
mov.f32 %f63, 0f43000000; // 128
setp.gt.f32 %p4, %f51, %f63;
selp.f32 %f64, %f60, %f62, %p4;
mov.f32 %f65, 0fc1c80000; // -25
setp.lt.f32 %p5, %f51, %f65;
selp.f32 %f66, %f59, %f64, %p5;
mov.f32 %f67, 0f00000000; // 0
setp.eq.f32 %p6, %f1, %f67;
@!%p6 bra $Lt_45_6146;
.loc 17 9471 0
mov.b32 %r4, %f1;
and.b32 %r5, %r4, -2147483648;
mov.b32 %f66, %r5;
$Lt_45_6146:
.loc 15 558 0
ld.param.u64 %rd6, [__cudaparm_vec_expm1f_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f66;
$Lt_45_5634:
.loc 15 560 0
exit;
$LDWend_vec_expm1f:
} // vec_expm1f
.entry vec_fabsf (
.param .u64 __cudaparm_vec_fabsf_n,
.param .u64 __cudaparm_vec_fabsf_result,
.param .u64 __cudaparm_vec_fabsf_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<9>;
.reg .f32 %f<4>;
.reg .pred %p<3>;
.loc 15 565 0
$LDWbegin_vec_fabsf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_fabsf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_46_1026;
.loc 15 570 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_fabsf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
abs.f32 %f2, %f1;
ld.param.u64 %rd6, [__cudaparm_vec_fabsf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f2;
$Lt_46_1026:
.loc 15 572 0
exit;
$LDWend_vec_fabsf:
} // vec_fabsf
.entry vec_floorf (
.param .u64 __cudaparm_vec_floorf_n,
.param .u64 __cudaparm_vec_floorf_result,
.param .u64 __cudaparm_vec_floorf_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<9>;
.reg .f32 %f<4>;
.reg .pred %p<3>;
.loc 15 577 0
$LDWbegin_vec_floorf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_floorf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_47_1026;
.loc 15 582 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_floorf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
cvt.rmi.f32.f32 %f2, %f1;
ld.param.u64 %rd6, [__cudaparm_vec_floorf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f2;
$Lt_47_1026:
.loc 15 584 0
exit;
$LDWend_vec_floorf:
} // vec_floorf
.entry vec_j0f (
.param .u64 __cudaparm_vec_j0f_n,
.param .u64 __cudaparm_vec_j0f_result,
.param .u64 __cudaparm_vec_j0f_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<153>;
.reg .u64 %rd<22>;
.reg .f32 %f<264>;
.reg .pred %p<24>;
.local .align 4 .b8 __cuda___cuda_result_161400[28];
.local .align 4 .b8 __cuda___cuda_result_441428[28];
.loc 15 589 0
$LDWbegin_vec_j0f:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_j0f_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_48_18690;
.loc 15 594 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_j0f_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
abs.f32 %f2, %f1;
mov.f32 %f3, 0f41000000; // 8
setp.le.f32 %p2, %f2, %f3;
@!%p2 bra $Lt_48_19458;
.loc 17 8429 0
mov.f32 %f4, 0fc019e8a9; // -2.40483
add.f32 %f5, %f2, %f4;
mov.f32 %f6, 0fb3e971b3; // -1.08706e-007
add.f32 %f7, %f5, %f6;
mov.f32 %f8, 0fa6b3b8e7; // -1.24707e-015
mov.f32 %f9, %f8;
mov.f32 %f10, %f7;
mov.f32 %f11, 0fa9aca9b3; // -7.66777e-014
mov.f32 %f12, %f11;
mad.f32 %f13, %f9, %f10, %f12;
mov.f32 %f14, %f13;
mov.f32 %f15, %f14;
mov.f32 %f16, %f7;
mov.f32 %f17, 0f2c3f0e18; // 2.71506e-012
mov.f32 %f18, %f17;
mad.f32 %f19, %f15, %f16, %f18;
mov.f32 %f14, %f19;
mov.f32 %f20, %f14;
mov.f32 %f21, %f7;
mov.f32 %f22, 0facd41781; // -6.02801e-012
mov.f32 %f23, %f22;
mad.f32 %f24, %f20, %f21, %f23;
mov.f32 %f14, %f24;
mov.f32 %f25, %f14;
mov.f32 %f26, %f7;
mov.f32 %f27, 0fafe90f38; // -4.23933e-010
mov.f32 %f28, %f27;
mad.f32 %f29, %f25, %f26, %f28;
mov.f32 %f14, %f29;
mov.f32 %f30, %f14;
mov.f32 %f31, %f7;
mov.f32 %f32, 0f3020305b; // 5.82764e-010
mov.f32 %f33, %f32;
mad.f32 %f34, %f30, %f31, %f33;
mov.f32 %f14, %f34;
mov.f32 %f35, %f14;
mov.f32 %f36, %f7;
mov.f32 %f37, 0f33797143; // 5.80778e-008
mov.f32 %f38, %f37;
mad.f32 %f39, %f35, %f36, %f38;
mov.f32 %f14, %f39;
mov.f32 %f40, %f14;
mov.f32 %f41, %f7;
mov.f32 %f42, 0f30f76f85; // 1.80033e-009
mov.f32 %f43, %f42;
mad.f32 %f44, %f40, %f41, %f43;
mov.f32 %f14, %f44;
mov.f32 %f45, %f14;
mov.f32 %f46, %f7;
mov.f32 %f47, 0fb6b6dfc6; // -5.45007e-006
mov.f32 %f48, %f47;
mad.f32 %f49, %f45, %f46, %f48;
mov.f32 %f14, %f49;
mov.f32 %f50, %f14;
mov.f32 %f51, %f7;
mov.f32 %f52, 0fb6f665c9; // -7.34322e-006
mov.f32 %f53, %f52;
mad.f32 %f54, %f50, %f51, %f53;
mov.f32 %f14, %f54;
mov.f32 %f55, %f14;
mov.f32 %f56, %f7;
mov.f32 %f57, 0f399e2deb; // 0.000301703
mov.f32 %f58, %f57;
mad.f32 %f59, %f55, %f56, %f58;
mov.f32 %f14, %f59;
mov.f32 %f60, %f14;
mov.f32 %f61, %f7;
mov.f32 %f62, 0f3a4ae334; // 0.000773954
mov.f32 %f63, %f62;
mad.f32 %f64, %f60, %f61, %f63;
mov.f32 %f14, %f64;
mov.f32 %f65, %f14;
mov.f32 %f66, %f7;
mov.f32 %f67, 0fbbeeaa1b; // -0.00728346
mov.f32 %f68, %f67;
mad.f32 %f69, %f65, %f66, %f68;
mov.f32 %f14, %f69;
mov.f32 %f70, %f14;
mov.f32 %f71, %f7;
mov.f32 %f72, 0fbcda7747; // -0.0266682
mov.f32 %f73, %f72;
mad.f32 %f74, %f70, %f71, %f73;
mov.f32 %f14, %f74;
.loc 17 9562 0
mov.f32 %f75, 0fc10a75ab; // -8.65373
add.f32 %f76, %f2, %f75;
mov.f32 %f77, 0fb4cccded; // -3.81478e-007
add.f32 %f78, %f76, %f77;
mov.f32 %f79, 0fc0b0a47b; // -5.52008
add.f32 %f80, %f2, %f79;
mov.f32 %f81, 0f339a7a37; // 7.19341e-008
add.f32 %f82, %f80, %f81;
mul.f32 %f83, %f7, %f14;
mul.f32 %f84, %f82, %f83;
mul.f32 %f85, %f78, %f84;
bra.uni $Lt_48_19202;
$Lt_48_19458:
.loc 17 9563 0
mov.f32 %f86, 0f7f800000; // 1.#INF
setp.eq.f32 %p3, %f2, %f86;
@%p3 bra $Lt_48_19970;
.loc 17 8437 0
mov.f32 %f87, %f2;
rcp.approx.ftz.f32 %f88,%f87;
mov.f32 %f89, %f88;
.loc 17 8429 0
mul.f32 %f90, %f89, %f89;
mov.f32 %f91, 0f4056fe93; // 3.35929
mov.f32 %f92, %f91;
mov.f32 %f93, %f90;
mov.f32 %f94, 0fbf03b7c2; // -0.514523
mov.f32 %f95, %f94;
mad.f32 %f96, %f92, %f93, %f95;
mov.f32 %f14, %f96;
mov.f32 %f97, %f14;
mov.f32 %f98, %f90;
mov.f32 %f99, 0f3dd3b3f3; // 0.103371
mov.f32 %f100, %f99;
mad.f32 %f101, %f97, %f98, %f100;
mov.f32 %f14, %f101;
mov.f32 %f102, %f14;
mov.f32 %f103, %f90;
mov.f32 %f104, 0fbd7fffb6; // -0.0624997
mov.f32 %f105, %f104;
mad.f32 %f106, %f102, %f103, %f105;
mov.f32 %f14, %f106;
mov.f32 %f107, %f14;
mov.f32 %f108, %f90;
mov.f32 %f109, 0f3f800000; // 1
mov.f32 %f110, %f109;
mad.f32 %f111, %f107, %f108, %f110;
mov.f32 %f112, %f111;
mov.f32 %f113, 0f3f91e009; // 1.13965
mov.f32 %f114, %f113;
mov.f32 %f115, %f90;
mov.f32 %f116, 0fbe52412d; // -0.205327
mov.f32 %f117, %f116;
mad.f32 %f118, %f114, %f115, %f117;
mov.f32 %f14, %f118;
mov.f32 %f119, %f14;
mov.f32 %f120, %f90;
mov.f32 %f121, 0f3d854ed1; // 0.0650917
mov.f32 %f122, %f121;
mad.f32 %f123, %f119, %f120, %f122;
mov.f32 %f14, %f123;
mov.f32 %f124, %f14;
mov.f32 %f125, %f90;
mov.f32 %f126, 0fbdffffff; // -0.125
mov.f32 %f127, %f126;
mad.f32 %f128, %f124, %f125, %f127;
mov.f32 %f14, %f128;
mov.f32 %f129, %f14;
mov.f32 %f130, %f89;
mov.f32 %f131, %f2;
mad.f32 %f132, %f129, %f130, %f131;
mov.f32 %f14, %f132;
.loc 17 8726 0
mov.f32 %f133, 0f3f22f983; // 0.63662
mul.f32 %f134, %f14, %f133;
cvt.rni.s32.f32 %r4, %f134;
mov.s32 %r5, %r4;
.loc 17 8429 0
cvt.rn.f32.s32 %f135, %r4;
neg.f32 %f136, %f135;
mov.f32 %f137, %f136;
mov.f32 %f138, 0f3fc90000; // 1.57031
mov.f32 %f139, %f138;
mov.f32 %f140, %f14;
mad.f32 %f141, %f137, %f139, %f140;
mov.f32 %f142, %f141;
mov.f32 %f143, %f136;
mov.f32 %f144, 0f39fd8000; // 0.000483513
mov.f32 %f145, %f144;
mov.f32 %f146, %f142;
mad.f32 %f147, %f143, %f145, %f146;
mov.f32 %f148, %f147;
mov.f32 %f149, %f136;
mov.f32 %f150, 0f34a88000; // 3.13856e-007
mov.f32 %f151, %f150;
mov.f32 %f152, %f148;
mad.f32 %f153, %f149, %f151, %f152;
mov.f32 %f154, %f153;
mov.f32 %f155, %f136;
mov.f32 %f156, 0f2e85a309; // 6.0771e-011
mov.f32 %f157, %f156;
mov.f32 %f158, %f154;
mad.f32 %f159, %f155, %f157, %f158;
mov.f32 %f160, %f159;
.loc 17 8737 0
mov.f32 %f161, %f160;
abs.f32 %f162, %f14;
mov.f32 %f163, 0f473ba700; // 48039
setp.gt.f32 %p4, %f162, %f163;
@!%p4 bra $Lt_48_20226;
.loc 17 8740 0
mov.u64 %rd6, __cudart_i2opi_f;
.loc 17 8658 0
mov.b32 %r6, %f14;
and.b32 %r7, %r6, -2147483648;
mov.s32 %r8, %r7;
.loc 17 24 0
shl.b32 %r9, %r6, 8;
or.b32 %r10, %r9, -2147483648;
mov.s64 %rd7, %rd6;
mov.u64 %rd8, __cuda___cuda_result_161400;
mov.s32 %r11, 0;
mov.u32 %r12, 0;
$Lt_48_21250:
// Loop body line 24, nesting depth: 1, iterations: 6
.loc 17 8674 0
ld.const.u32 %r13, [%rd7+0];
mul.lo.u32 %r14, %r10, %r13;
add.u32 %r15, %r14, %r12;
.loc 17 8675 0
set.gt.u32.u32 %r16, %r14, %r15;
neg.s32 %r17, %r16;
mul.hi.u32 %r18, %r13, %r10;
add.u32 %r12, %r17, %r18;
.loc 17 8676 0
st.local.u32 [%rd8+0], %r15;
add.s32 %r11, %r11, 1;
add.u64 %rd8, %rd8, 4;
add.u64 %rd7, %rd7, 4;
mov.u32 %r19, 6;
setp.ne.s32 %p5, %r11, %r19;
@%p5 bra $Lt_48_21250;
.loc 17 8678 0
st.local.u32 [__cuda___cuda_result_161400+24], %r12;
.loc 17 8683 0
shl.b32 %r20, %r6, 1;
shr.u32 %r21, %r20, 24;
sub.u32 %r22, %r21, 128;
mov.u64 %rd9, __cuda___cuda_result_161400;
shr.u32 %r23, %r22, 5;
mov.s32 %r24, 4;
sub.s32 %r25, %r24, %r23;
cvt.s64.s32 %rd10, %r25;
mul.wide.s32 %rd11, %r25, 4;
add.u64 %rd12, %rd9, %rd11;
ld.local.u32 %r12, [%rd12+8];
.loc 17 8684 0
ld.local.u32 %r26, [%rd12+4];
and.b32 %r27, %r22, 31;
mov.u32 %r28, 0;
setp.eq.u32 %p6, %r27, %r28;
@%p6 bra $Lt_48_21762;
.loc 17 8687 0
mov.s32 %r29, 32;
sub.s32 %r30, %r29, %r27;
shr.u32 %r31, %r26, %r30;
shl.b32 %r32, %r12, %r27;
add.u32 %r12, %r31, %r32;
.loc 17 8688 0
ld.local.u32 %r33, [%rd12+0];
shr.u32 %r34, %r33, %r30;
shl.b32 %r35, %r26, %r27;
add.u32 %r26, %r34, %r35;
$Lt_48_21762:
.loc 17 8690 0
shr.u32 %r36, %r12, 30;
.loc 17 8692 0
shr.u32 %r37, %r26, 30;
shl.b32 %r38, %r12, 2;
add.u32 %r12, %r37, %r38;
.loc 17 8693 0
shl.b32 %r26, %r26, 2;
.loc 17 8695 0
shr.u32 %r39, %r12, 31;
add.u32 %r40, %r36, %r39;
.loc 17 8690 0
neg.s32 %r41, %r40;
mov.u32 %r42, 0;
setp.ne.u32 %p7, %r7, %r42;
selp.s32 %r11, %r41, %r40, %p7;
.loc 17 8697 0
mov.s32 %r5, %r11;
mov.u32 %r43, 0;
setp.eq.u32 %p8, %r39, %r43;
@%p8 bra $Lt_48_22274;
.loc 17 8701 0
neg.s32 %r26, %r26;
.loc 17 8703 0
mov.u32 %r44, 0;
set.eq.u32.u32 %r45, %r26, %r44;
neg.s32 %r46, %r45;
not.b32 %r47, %r12;
add.u32 %r12, %r46, %r47;
.loc 17 8704 0
xor.b32 %r8, %r7, -2147483648;
$Lt_48_22274:
.loc 17 8707 0
mov.u32 %r48, 0;
setp.eq.s32 %p9, %r12, %r48;
@%p9 bra $Lt_48_23042;
.loc 19 4479 0
cvt.rz.f32.u32 %f164, %r12;
mov.b32 %r49, %f164;
shr.s32 %r50, %r49, 23;
mov.s32 %r51, 158;
sub.s32 %r52, %r51, %r50;
bra.uni $Lt_48_22786;
$Lt_48_23042:
mov.s32 %r52, 32;
$Lt_48_22786:
.loc 17 8707 0
mov.s32 %r53, %r52;
mov.s32 %r54, %r53;
.loc 19 4479 0
mov.s32 %r55, 32;
sub.s32 %r56, %r55, %r53;
shr.u32 %r57, %r26, %r56;
shl.b32 %r58, %r12, %r53;
add.u32 %r59, %r57, %r58;
mov.u32 %r60, 0;
setp.ne.u32 %p10, %r53, %r60;
selp.u32 %r61, %r59, %r12, %p10;
.loc 17 8711 0
mul.lo.u32 %r26, %r61, -921707870;
.loc 17 8712 0
mov.u32 %r62, -921707870;
mul.hi.u32 %r12, %r61, %r62;
mov.u32 %r63, 0;
setp.le.s32 %p11, %r12, %r63;
@%p11 bra $Lt_48_23298;
.loc 17 8714 0
shr.u32 %r64, %r26, 31;
shl.b32 %r65, %r12, 1;
add.u32 %r12, %r64, %r65;
.loc 17 8715 0
add.u32 %r54, %r53, 1;
$Lt_48_23298:
.loc 17 8740 0
add.u32 %r66, %r12, 1;
shr.u32 %r67, %r66, 7;
add.u32 %r68, %r67, 1;
shr.u32 %r69, %r68, 1;
mov.s32 %r70, 126;
sub.s32 %r71, %r70, %r54;
shl.b32 %r72, %r71, 23;
add.u32 %r73, %r69, %r72;
or.b32 %r74, %r8, %r73;
mov.b32 %f161, %r74;
$Lt_48_20226:
.loc 17 8990 0
mov.u64 %rd6, __cudart_i2opi_f;
mov.f32 %f165, 0fbf490fdb; // -0.785398
add.f32 %f166, %f161, %f165;
and.b32 %r75, %r5, 3;
cvt.rn.f32.s32 %f167, %r75;
mov.f32 %f168, 0f3fc90fdb; // 1.5708
mad.f32 %f169, %f167, %f168, %f166;
mov.f32 %f170, %f169;
.loc 17 8970 0
abs.f32 %f171, %f169;
mov.f32 %f172, 0f7f800000; // 1.#INF
setp.eq.f32 %p12, %f171, %f172;
@!%p12 bra $Lt_48_23810;
.loc 17 8971 0
mov.f32 %f173, 0f00000000; // 0
mul.rn.f32 %f170, %f169, %f173;
$Lt_48_23810:
.loc 17 8726 0
mov.f32 %f174, 0f3f22f983; // 0.63662
mul.f32 %f175, %f170, %f174;
cvt.rni.s32.f32 %r76, %f175;
mov.s32 %r77, %r76;
.loc 17 8429 0
cvt.rn.f32.s32 %f176, %r76;
neg.f32 %f177, %f176;
mov.f32 %f178, %f177;
mov.f32 %f179, 0f3fc90000; // 1.57031
mov.f32 %f180, %f179;
mov.f32 %f181, %f170;
mad.f32 %f182, %f178, %f180, %f181;
mov.f32 %f183, %f182;
mov.f32 %f184, %f177;
mov.f32 %f185, 0f39fd8000; // 0.000483513
mov.f32 %f186, %f185;
mov.f32 %f187, %f183;
mad.f32 %f188, %f184, %f186, %f187;
mov.f32 %f189, %f188;
mov.f32 %f190, %f177;
mov.f32 %f191, 0f34a88000; // 3.13856e-007
mov.f32 %f192, %f191;
mov.f32 %f193, %f189;
mad.f32 %f194, %f190, %f192, %f193;
mov.f32 %f195, %f194;
mov.f32 %f196, %f177;
mov.f32 %f197, 0f2e85a309; // 6.0771e-011
mov.f32 %f198, %f197;
mov.f32 %f199, %f195;
mad.f32 %f200, %f196, %f198, %f199;
mov.f32 %f201, %f200;
.loc 17 8737 0
mov.f32 %f202, %f201;
abs.f32 %f203, %f170;
mov.f32 %f204, 0f473ba700; // 48039
setp.gt.f32 %p13, %f203, %f204;
@!%p13 bra $Lt_48_24322;
.loc 17 8658 0
mov.b32 %r78, %f170;
and.b32 %r79, %r78, -2147483648;
mov.s32 %r80, %r79;
.loc 17 24 0
shl.b32 %r81, %r78, 8;
or.b32 %r82, %r81, -2147483648;
mov.s64 %rd13, %rd6;
mov.u64 %rd14, __cuda___cuda_result_441428;
mov.s32 %r83, 0;
mov.u32 %r84, 0;
$Lt_48_25346:
// Loop body line 24, nesting depth: 1, iterations: 6
.loc 17 8674 0
ld.const.u32 %r85, [%rd13+0];
mul.lo.u32 %r86, %r82, %r85;
add.u32 %r87, %r86, %r84;
.loc 17 8675 0
set.gt.u32.u32 %r88, %r86, %r87;
neg.s32 %r89, %r88;
mul.hi.u32 %r90, %r85, %r82;
add.u32 %r84, %r89, %r90;
.loc 17 8676 0
st.local.u32 [%rd14+0], %r87;
add.s32 %r83, %r83, 1;
add.u64 %rd14, %rd14, 4;
add.u64 %rd13, %rd13, 4;
mov.u32 %r91, 6;
setp.ne.s32 %p14, %r83, %r91;
@%p14 bra $Lt_48_25346;
.loc 17 8678 0
st.local.u32 [__cuda___cuda_result_441428+24], %r84;
.loc 17 8683 0
shl.b32 %r92, %r78, 1;
shr.u32 %r93, %r92, 24;
sub.u32 %r94, %r93, 128;
mov.u64 %rd15, __cuda___cuda_result_441428;
shr.u32 %r95, %r94, 5;
mov.s32 %r96, 4;
sub.s32 %r97, %r96, %r95;
cvt.s64.s32 %rd16, %r97;
mul.wide.s32 %rd17, %r97, 4;
add.u64 %rd18, %rd15, %rd17;
ld.local.u32 %r84, [%rd18+8];
.loc 17 8684 0
ld.local.u32 %r98, [%rd18+4];
and.b32 %r99, %r94, 31;
mov.u32 %r100, 0;
setp.eq.u32 %p15, %r99, %r100;
@%p15 bra $Lt_48_25858;
.loc 17 8687 0
mov.s32 %r101, 32;
sub.s32 %r102, %r101, %r99;
shr.u32 %r103, %r98, %r102;
shl.b32 %r104, %r84, %r99;
add.u32 %r84, %r103, %r104;
.loc 17 8688 0
ld.local.u32 %r105, [%rd18+0];
shr.u32 %r106, %r105, %r102;
shl.b32 %r107, %r98, %r99;
add.u32 %r98, %r106, %r107;
$Lt_48_25858:
.loc 17 8690 0
shr.u32 %r108, %r84, 30;
.loc 17 8692 0
shr.u32 %r109, %r98, 30;
shl.b32 %r110, %r84, 2;
add.u32 %r84, %r109, %r110;
.loc 17 8693 0
shl.b32 %r98, %r98, 2;
.loc 17 8695 0
shr.u32 %r111, %r84, 31;
add.u32 %r112, %r108, %r111;
.loc 17 8690 0
neg.s32 %r113, %r112;
mov.u32 %r114, 0;
setp.ne.u32 %p16, %r79, %r114;
selp.s32 %r83, %r113, %r112, %p16;
.loc 17 8697 0
mov.s32 %r77, %r83;
mov.u32 %r115, 0;
setp.eq.u32 %p17, %r111, %r115;
@%p17 bra $Lt_48_26370;
.loc 17 8701 0
neg.s32 %r98, %r98;
.loc 17 8703 0
mov.u32 %r116, 0;
set.eq.u32.u32 %r117, %r98, %r116;
neg.s32 %r118, %r117;
not.b32 %r119, %r84;
add.u32 %r84, %r118, %r119;
.loc 17 8704 0
xor.b32 %r80, %r79, -2147483648;
$Lt_48_26370:
.loc 17 8707 0
mov.u32 %r120, 0;
setp.eq.s32 %p18, %r84, %r120;
@%p18 bra $Lt_48_27138;
.loc 19 4479 0
cvt.rz.f32.u32 %f205, %r84;
mov.b32 %r121, %f205;
shr.s32 %r122, %r121, 23;
mov.s32 %r123, 158;
sub.s32 %r124, %r123, %r122;
bra.uni $Lt_48_26882;
$Lt_48_27138:
mov.s32 %r124, 32;
$Lt_48_26882:
.loc 17 8707 0
mov.s32 %r125, %r124;
mov.s32 %r126, %r125;
.loc 19 4479 0
mov.s32 %r127, 32;
sub.s32 %r128, %r127, %r125;
shr.u32 %r129, %r98, %r128;
shl.b32 %r130, %r84, %r125;
add.u32 %r131, %r129, %r130;
mov.u32 %r132, 0;
setp.ne.u32 %p19, %r125, %r132;
selp.u32 %r133, %r131, %r84, %p19;
.loc 17 8711 0
mul.lo.u32 %r98, %r133, -921707870;
.loc 17 8712 0
mov.u32 %r134, -921707870;
mul.hi.u32 %r84, %r133, %r134;
mov.u32 %r135, 0;
setp.le.s32 %p20, %r84, %r135;
@%p20 bra $Lt_48_27394;
.loc 17 8714 0
shr.u32 %r136, %r98, 31;
shl.b32 %r137, %r84, 1;
add.u32 %r84, %r136, %r137;
.loc 17 8715 0
add.u32 %r126, %r125, 1;
$Lt_48_27394:
.loc 17 8740 0
add.u32 %r138, %r84, 1;
shr.u32 %r139, %r138, 7;
add.u32 %r140, %r139, 1;
shr.u32 %r141, %r140, 1;
mov.s32 %r142, 126;
sub.s32 %r143, %r142, %r126;
shl.b32 %r144, %r143, 23;
add.u32 %r145, %r141, %r144;
or.b32 %r146, %r80, %r145;
mov.b32 %f202, %r146;
$Lt_48_24322:
.loc 17 8975 0
add.s32 %r147, %r77, 1;
mul.f32 %f206, %f202, %f202;
and.b32 %r148, %r147, 1;
mov.u32 %r149, 0;
setp.eq.s32 %p21, %r148, %r149;
@%p21 bra $Lt_48_28162;
.loc 17 8429 0
mov.f32 %f207, 0f37ccf5ce; // 2.44332e-005
mov.f32 %f208, %f207;
mov.f32 %f209, %f206;
mov.f32 %f210, 0fbab6061a; // -0.00138873
mov.f32 %f211, %f210;
mad.f32 %f212, %f208, %f209, %f211;
mov.f32 %f213, %f212;
mov.f32 %f214, %f213;
mov.f32 %f215, %f206;
mov.f32 %f216, 0f3d2aaaa5; // 0.0416666
mov.f32 %f217, %f216;
mad.f32 %f218, %f214, %f215, %f217;
mov.f32 %f219, %f218;
mov.f32 %f220, %f219;
mov.f32 %f221, %f206;
mov.f32 %f222, 0fbf000000; // -0.5
mov.f32 %f223, %f222;
mad.f32 %f224, %f220, %f221, %f223;
mov.f32 %f225, %f224;
mov.f32 %f226, %f225;
mov.f32 %f227, %f206;
mov.f32 %f228, 0f3f800000; // 1
mov.f32 %f229, %f228;
mad.f32 %f230, %f226, %f227, %f229;
mov.f32 %f231, %f230;
.loc 17 8936 0
mov.f32 %f232, %f231;
bra.uni $Lt_48_27906;
$Lt_48_28162:
.loc 17 8429 0
mov.f32 %f233, 0fb94ca1f9; // -0.000195153
mov.f32 %f234, %f233;
mov.f32 %f235, %f206;
mov.f32 %f236, 0f3c08839e; // 0.00833216
mov.f32 %f237, %f236;
mad.f32 %f238, %f234, %f235, %f237;
mov.f32 %f239, %f238;
mov.f32 %f240, %f239;
mov.f32 %f241, %f206;
mov.f32 %f242, 0fbe2aaaa3; // -0.166667
mov.f32 %f243, %f242;
mad.f32 %f244, %f240, %f241, %f243;
mov.f32 %f245, %f244;
mul.f32 %f246, %f206, %f245;
mov.f32 %f247, %f246;
mov.f32 %f248, %f202;
mov.f32 %f249, %f202;
mad.f32 %f250, %f247, %f248, %f249;
mov.f32 %f251, %f250;
.loc 17 8938 0
mov.f32 %f232, %f251;
$Lt_48_27906:
and.b32 %r150, %r147, 2;
mov.u32 %r151, 0;
setp.eq.s32 %p22, %r150, %r151;
@%p22 bra $Lt_48_28418;
.loc 17 8429 0
mov.f32 %f252, %f232;
mov.f32 %f253, 0fbf800000; // -1
mov.f32 %f254, %f253;
mov.f32 %f255, 0f00000000; // 0
mov.f32 %f256, %f255;
mad.f32 %f257, %f252, %f254, %f256;
mov.f32 %f258, %f257;
.loc 17 8941 0
mov.f32 %f232, %f258;
$Lt_48_28418:
.loc 17 9581 0
rsqrt.approx.f32 %f259, %f2;
mov.f32 %f260, 0f3f4c422a; // 0.797885
mul.f32 %f261, %f259, %f260;
mul.f32 %f262, %f112, %f261;
mul.f32 %f85, %f232, %f262;
bra.uni $Lt_48_19714;
$Lt_48_19970:
.loc 17 9584 0
mov.f32 %f85, 0f00000000; // 0
$Lt_48_19714:
$Lt_48_19202:
.loc 15 594 0
ld.param.u64 %rd19, [__cudaparm_vec_j0f_result];
add.u64 %rd20, %rd19, %rd3;
st.global.f32 [%rd20+0], %f85;
$Lt_48_18690:
.loc 15 596 0
exit;
$LDWend_vec_j0f:
} // vec_j0f
.entry vec_j1f (
.param .u64 __cudaparm_vec_j1f_n,
.param .u64 __cudaparm_vec_j1f_result,
.param .u64 __cudaparm_vec_j1f_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<158>;
.reg .u64 %rd<22>;
.reg .f32 %f<258>;
.reg .pred %p<26>;
.local .align 4 .b8 __cuda___cuda_result_161480[28];
.local .align 4 .b8 __cuda___cuda_result_441508[28];
.loc 15 601 0
$LDWbegin_vec_j1f:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_j1f_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_49_20226;
.loc 15 606 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_j1f_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
abs.f32 %f2, %f1;
mov.f32 %f3, 0f40fb3333; // 7.85
setp.le.f32 %p2, %f2, %f3;
@!%p2 bra $Lt_49_20994;
.loc 17 8429 0
mov.f32 %f4, 0fc0753aac; // -3.83171
add.f32 %f5, %f2, %f4;
mov.f32 %f6, 0f33a5090f; // 7.68506e-008
add.f32 %f7, %f5, %f6;
mov.f32 %f8, 0f29af3463; // 7.78065e-014
mov.f32 %f9, %f8;
mov.f32 %f10, %f7;
mov.f32 %f11, 0f2b81bf42; // 9.21909e-013
mov.f32 %f12, %f11;
mad.f32 %f13, %f9, %f10, %f12;
mov.f32 %f14, %f13;
mov.f32 %f15, %f14;
mov.f32 %f16, %f7;
mov.f32 %f17, 0fade21ec1; // -2.57069e-011
mov.f32 %f18, %f17;
mad.f32 %f19, %f15, %f16, %f18;
mov.f32 %f14, %f19;
mov.f32 %f20, %f14;
mov.f32 %f21, %f7;
mov.f32 %f22, 0faf5ddeff; // -2.01791e-010
mov.f32 %f23, %f22;
mad.f32 %f24, %f20, %f21, %f23;
mov.f32 %f14, %f24;
mov.f32 %f25, %f14;
mov.f32 %f26, %f7;
mov.f32 %f27, 0f319b0c9d; // 4.51253e-009
mov.f32 %f28, %f27;
mad.f32 %f29, %f25, %f26, %f28;
mov.f32 %f14, %f29;
mov.f32 %f30, %f14;
mov.f32 %f31, %f7;
mov.f32 %f32, 0f32e81173; // 2.70163e-008
mov.f32 %f33, %f32;
mad.f32 %f34, %f30, %f31, %f33;
mov.f32 %f14, %f34;
mov.f32 %f35, %f14;
mov.f32 %f36, %f7;
mov.f32 %f37, 0fb50f8dc8; // -5.3478e-007
mov.f32 %f38, %f37;
mad.f32 %f39, %f35, %f36, %f38;
mov.f32 %f14, %f39;
mov.f32 %f40, %f14;
mov.f32 %f41, %f7;
mov.f32 %f42, 0fb61e653d; // -2.36028e-006
mov.f32 %f43, %f42;
mad.f32 %f44, %f40, %f41, %f43;
mov.f32 %f14, %f44;
mov.f32 %f45, %f14;
mov.f32 %f46, %f7;
mov.f32 %f47, 0f382cd9c5; // 4.12108e-005
mov.f32 %f48, %f47;
mad.f32 %f49, %f45, %f46, %f48;
mov.f32 %f14, %f49;
mov.f32 %f50, %f14;
mov.f32 %f51, %f7;
mov.f32 %f52, 0f38f9eb10; // 0.00011917
mov.f32 %f53, %f52;
mad.f32 %f54, %f50, %f51, %f53;
mov.f32 %f14, %f54;
mov.f32 %f55, %f14;
mov.f32 %f56, %f7;
mov.f32 %f57, 0fbaeceb9c; // -0.00180756
mov.f32 %f58, %f57;
mad.f32 %f59, %f55, %f56, %f58;
mov.f32 %f14, %f59;
mov.f32 %f60, %f14;
mov.f32 %f61, %f7;
mov.f32 %f62, 0fbb276ffd; // -0.00255489
mov.f32 %f63, %f62;
mad.f32 %f64, %f60, %f61, %f63;
mov.f32 %f14, %f64;
mov.f32 %f65, %f14;
mov.f32 %f66, %f7;
mov.f32 %f67, 0f3d073993; // 0.0330139
mov.f32 %f68, %f67;
mad.f32 %f69, %f65, %f66, %f68;
mov.f32 %f14, %f69;
.loc 17 9616 0
mov.f32 %f70, 0fc0e07fb0; // -7.01559
add.f32 %f71, %f2, %f70;
mov.f32 %f72, 0f3444b8db; // 1.83212e-007
add.f32 %f73, %f71, %f72;
mul.f32 %f74, %f14, %f73;
mul.f32 %f75, %f7, %f74;
mul.f32 %f76, %f2, %f75;
bra.uni $Lt_49_20738;
$Lt_49_20994:
.loc 17 9617 0
mov.f32 %f77, 0f7f800000; // 1.#INF
setp.eq.f32 %p3, %f2, %f77;
@%p3 bra $Lt_49_21506;
.loc 17 8437 0
mov.f32 %f78, %f2;
rcp.approx.ftz.f32 %f79,%f78;
mov.f32 %f80, %f79;
.loc 17 8429 0
mul.f32 %f81, %f80, %f80;
mov.f32 %f82, 0fc082cb37; // -4.08731
mov.f32 %f83, %f82;
mov.f32 %f84, %f81;
mov.f32 %f85, 0f3f3ff7e9; // 0.749877
mov.f32 %f86, %f85;
mad.f32 %f87, %f83, %f84, %f86;
mov.f32 %f14, %f87;
mov.f32 %f88, %f14;
mov.f32 %f89, %f81;
mov.f32 %f90, 0fbe458bae; // -0.192916
mov.f32 %f91, %f90;
mad.f32 %f92, %f88, %f89, %f91;
mov.f32 %f14, %f92;
mov.f32 %f93, %f14;
mov.f32 %f94, %f81;
mov.f32 %f95, 0f3e3fff8b; // 0.187498
mov.f32 %f96, %f95;
mad.f32 %f97, %f93, %f94, %f96;
mov.f32 %f14, %f97;
mov.f32 %f98, %f14;
mov.f32 %f99, %f81;
mov.f32 %f100, 0f3f800000; // 1
mov.f32 %f101, %f100;
mad.f32 %f102, %f98, %f99, %f101;
mov.f32 %f103, %f102;
mov.f32 %f104, 0fbfca3ba2; // -1.57994
mov.f32 %f105, %f104;
mov.f32 %f106, %f81;
mov.f32 %f107, 0f3eb914ad; // 0.361486
mov.f32 %f108, %f107;
mad.f32 %f109, %f105, %f106, %f108;
mov.f32 %f14, %f109;
mov.f32 %f110, %f14;
mov.f32 %f111, %f81;
mov.f32 %f112, 0fbe27f2ec; // -0.164013
mov.f32 %f113, %f112;
mad.f32 %f114, %f110, %f111, %f113;
mov.f32 %f14, %f114;
mov.f32 %f115, %f14;
mov.f32 %f116, %f81;
mov.f32 %f117, 0f3ebffffd; // 0.375
mov.f32 %f118, %f117;
mad.f32 %f119, %f115, %f116, %f118;
mov.f32 %f14, %f119;
mov.f32 %f120, %f14;
mov.f32 %f121, %f80;
mov.f32 %f122, %f2;
mad.f32 %f123, %f120, %f121, %f122;
mov.f32 %f14, %f123;
.loc 17 8726 0
mov.f32 %f124, 0f3f22f983; // 0.63662
mul.f32 %f125, %f14, %f124;
cvt.rni.s32.f32 %r4, %f125;
mov.s32 %r5, %r4;
.loc 17 8429 0
cvt.rn.f32.s32 %f126, %r4;
neg.f32 %f127, %f126;
mov.f32 %f128, %f127;
mov.f32 %f129, 0f3fc90000; // 1.57031
mov.f32 %f130, %f129;
mov.f32 %f131, %f14;
mad.f32 %f132, %f128, %f130, %f131;
mov.f32 %f133, %f132;
mov.f32 %f134, %f127;
mov.f32 %f135, 0f39fd8000; // 0.000483513
mov.f32 %f136, %f135;
mov.f32 %f137, %f133;
mad.f32 %f138, %f134, %f136, %f137;
mov.f32 %f139, %f138;
mov.f32 %f140, %f127;
mov.f32 %f141, 0f34a88000; // 3.13856e-007
mov.f32 %f142, %f141;
mov.f32 %f143, %f139;
mad.f32 %f144, %f140, %f142, %f143;
mov.f32 %f145, %f144;
mov.f32 %f146, %f127;
mov.f32 %f147, 0f2e85a309; // 6.0771e-011
mov.f32 %f148, %f147;
mov.f32 %f149, %f145;
mad.f32 %f150, %f146, %f148, %f149;
mov.f32 %f151, %f150;
.loc 17 8737 0
mov.f32 %f152, %f151;
abs.f32 %f153, %f14;
mov.f32 %f154, 0f473ba700; // 48039
setp.gt.f32 %p4, %f153, %f154;
@!%p4 bra $Lt_49_21762;
.loc 17 8740 0
mov.u64 %rd6, __cudart_i2opi_f;
.loc 17 8658 0
mov.b32 %r6, %f14;
and.b32 %r7, %r6, -2147483648;
mov.s32 %r8, %r7;
.loc 17 24 0
shl.b32 %r9, %r6, 8;
or.b32 %r10, %r9, -2147483648;
mov.s64 %rd7, %rd6;
mov.u64 %rd8, __cuda___cuda_result_161480;
mov.s32 %r11, 0;
mov.u32 %r12, 0;
$Lt_49_22786:
// Loop body line 24, nesting depth: 1, iterations: 6
.loc 17 8674 0
ld.const.u32 %r13, [%rd7+0];
mul.lo.u32 %r14, %r10, %r13;
add.u32 %r15, %r14, %r12;
.loc 17 8675 0
set.gt.u32.u32 %r16, %r14, %r15;
neg.s32 %r17, %r16;
mul.hi.u32 %r18, %r13, %r10;
add.u32 %r12, %r17, %r18;
.loc 17 8676 0
st.local.u32 [%rd8+0], %r15;
add.s32 %r11, %r11, 1;
add.u64 %rd8, %rd8, 4;
add.u64 %rd7, %rd7, 4;
mov.u32 %r19, 6;
setp.ne.s32 %p5, %r11, %r19;
@%p5 bra $Lt_49_22786;
.loc 17 8678 0
st.local.u32 [__cuda___cuda_result_161480+24], %r12;
.loc 17 8683 0
shl.b32 %r20, %r6, 1;
shr.u32 %r21, %r20, 24;
sub.u32 %r22, %r21, 128;
mov.u64 %rd9, __cuda___cuda_result_161480;
shr.u32 %r23, %r22, 5;
mov.s32 %r24, 4;
sub.s32 %r25, %r24, %r23;
cvt.s64.s32 %rd10, %r25;
mul.wide.s32 %rd11, %r25, 4;
add.u64 %rd12, %rd9, %rd11;
ld.local.u32 %r12, [%rd12+8];
.loc 17 8684 0
ld.local.u32 %r26, [%rd12+4];
and.b32 %r27, %r22, 31;
mov.u32 %r28, 0;
setp.eq.u32 %p6, %r27, %r28;
@%p6 bra $Lt_49_23298;
.loc 17 8687 0
mov.s32 %r29, 32;
sub.s32 %r30, %r29, %r27;
shr.u32 %r31, %r26, %r30;
shl.b32 %r32, %r12, %r27;
add.u32 %r12, %r31, %r32;
.loc 17 8688 0
ld.local.u32 %r33, [%rd12+0];
shr.u32 %r34, %r33, %r30;
shl.b32 %r35, %r26, %r27;
add.u32 %r26, %r34, %r35;
$Lt_49_23298:
.loc 17 8690 0
shr.u32 %r36, %r12, 30;
.loc 17 8692 0
shr.u32 %r37, %r26, 30;
shl.b32 %r38, %r12, 2;
add.u32 %r12, %r37, %r38;
.loc 17 8693 0
shl.b32 %r26, %r26, 2;
.loc 17 8695 0
shr.u32 %r39, %r12, 31;
add.u32 %r40, %r36, %r39;
.loc 17 8690 0
neg.s32 %r41, %r40;
mov.u32 %r42, 0;
setp.ne.u32 %p7, %r7, %r42;
selp.s32 %r11, %r41, %r40, %p7;
.loc 17 8697 0
mov.s32 %r5, %r11;
mov.u32 %r43, 0;
setp.eq.u32 %p8, %r39, %r43;
@%p8 bra $Lt_49_23810;
.loc 17 8701 0
neg.s32 %r26, %r26;
.loc 17 8703 0
mov.u32 %r44, 0;
set.eq.u32.u32 %r45, %r26, %r44;
neg.s32 %r46, %r45;
not.b32 %r47, %r12;
add.u32 %r12, %r46, %r47;
.loc 17 8704 0
xor.b32 %r8, %r7, -2147483648;
$Lt_49_23810:
.loc 17 8707 0
mov.u32 %r48, 0;
setp.eq.s32 %p9, %r12, %r48;
@%p9 bra $Lt_49_24578;
.loc 19 4479 0
cvt.rz.f32.u32 %f155, %r12;
mov.b32 %r49, %f155;
shr.s32 %r50, %r49, 23;
mov.s32 %r51, 158;
sub.s32 %r52, %r51, %r50;
bra.uni $Lt_49_24322;
$Lt_49_24578:
mov.s32 %r52, 32;
$Lt_49_24322:
.loc 17 8707 0
mov.s32 %r53, %r52;
mov.s32 %r54, %r53;
.loc 19 4479 0
mov.s32 %r55, 32;
sub.s32 %r56, %r55, %r53;
shr.u32 %r57, %r26, %r56;
shl.b32 %r58, %r12, %r53;
add.u32 %r59, %r57, %r58;
mov.u32 %r60, 0;
setp.ne.u32 %p10, %r53, %r60;
selp.u32 %r61, %r59, %r12, %p10;
.loc 17 8711 0
mul.lo.u32 %r26, %r61, -921707870;
.loc 17 8712 0
mov.u32 %r62, -921707870;
mul.hi.u32 %r12, %r61, %r62;
mov.u32 %r63, 0;
setp.le.s32 %p11, %r12, %r63;
@%p11 bra $Lt_49_24834;
.loc 17 8714 0
shr.u32 %r64, %r26, 31;
shl.b32 %r65, %r12, 1;
add.u32 %r12, %r64, %r65;
.loc 17 8715 0
add.u32 %r54, %r53, 1;
$Lt_49_24834:
.loc 17 8740 0
add.u32 %r66, %r12, 1;
shr.u32 %r67, %r66, 7;
add.u32 %r68, %r67, 1;
shr.u32 %r69, %r68, 1;
mov.s32 %r70, 126;
sub.s32 %r71, %r70, %r54;
shl.b32 %r72, %r71, 23;
add.u32 %r73, %r69, %r72;
or.b32 %r74, %r8, %r73;
mov.b32 %f152, %r74;
$Lt_49_21762:
.loc 17 8990 0
mov.u64 %rd6, __cudart_i2opi_f;
mov.f32 %f156, 0fc016cbe4; // -2.35619
add.f32 %f157, %f152, %f156;
and.b32 %r75, %r5, 3;
cvt.rn.f32.s32 %f158, %r75;
mov.f32 %f159, 0f3fc90fdb; // 1.5708
mad.f32 %f160, %f158, %f159, %f157;
mov.f32 %f161, %f160;
.loc 17 8970 0
abs.f32 %f162, %f160;
mov.f32 %f163, 0f7f800000; // 1.#INF
setp.eq.f32 %p12, %f162, %f163;
@!%p12 bra $Lt_49_25346;
.loc 17 8971 0
mov.f32 %f164, 0f00000000; // 0
mul.rn.f32 %f161, %f160, %f164;
$Lt_49_25346:
.loc 17 8726 0
mov.f32 %f165, 0f3f22f983; // 0.63662
mul.f32 %f166, %f161, %f165;
cvt.rni.s32.f32 %r76, %f166;
mov.s32 %r77, %r76;
.loc 17 8429 0
cvt.rn.f32.s32 %f167, %r76;
neg.f32 %f168, %f167;
mov.f32 %f169, %f168;
mov.f32 %f170, 0f3fc90000; // 1.57031
mov.f32 %f171, %f170;
mov.f32 %f172, %f161;
mad.f32 %f173, %f169, %f171, %f172;
mov.f32 %f174, %f173;
mov.f32 %f175, %f168;
mov.f32 %f176, 0f39fd8000; // 0.000483513
mov.f32 %f177, %f176;
mov.f32 %f178, %f174;
mad.f32 %f179, %f175, %f177, %f178;
mov.f32 %f180, %f179;
mov.f32 %f181, %f168;
mov.f32 %f182, 0f34a88000; // 3.13856e-007
mov.f32 %f183, %f182;
mov.f32 %f184, %f180;
mad.f32 %f185, %f181, %f183, %f184;
mov.f32 %f186, %f185;
mov.f32 %f187, %f168;
mov.f32 %f188, 0f2e85a309; // 6.0771e-011
mov.f32 %f189, %f188;
mov.f32 %f190, %f186;
mad.f32 %f191, %f187, %f189, %f190;
mov.f32 %f192, %f191;
.loc 17 8737 0
mov.f32 %f193, %f192;
abs.f32 %f194, %f161;
mov.f32 %f195, 0f473ba700; // 48039
setp.gt.f32 %p13, %f194, %f195;
@!%p13 bra $Lt_49_25858;
.loc 17 8658 0
mov.b32 %r78, %f161;
and.b32 %r79, %r78, -2147483648;
mov.s32 %r80, %r79;
.loc 17 24 0
shl.b32 %r81, %r78, 8;
or.b32 %r82, %r81, -2147483648;
mov.s64 %rd13, %rd6;
mov.u64 %rd14, __cuda___cuda_result_441508;
mov.s32 %r83, 0;
mov.u32 %r84, 0;
$Lt_49_26882:
// Loop body line 24, nesting depth: 1, iterations: 6
.loc 17 8674 0
ld.const.u32 %r85, [%rd13+0];
mul.lo.u32 %r86, %r82, %r85;
add.u32 %r87, %r86, %r84;
.loc 17 8675 0
set.gt.u32.u32 %r88, %r86, %r87;
neg.s32 %r89, %r88;
mul.hi.u32 %r90, %r85, %r82;
add.u32 %r84, %r89, %r90;
.loc 17 8676 0
st.local.u32 [%rd14+0], %r87;
add.s32 %r83, %r83, 1;
add.u64 %rd14, %rd14, 4;
add.u64 %rd13, %rd13, 4;
mov.u32 %r91, 6;
setp.ne.s32 %p14, %r83, %r91;
@%p14 bra $Lt_49_26882;
.loc 17 8678 0
st.local.u32 [__cuda___cuda_result_441508+24], %r84;
.loc 17 8683 0
shl.b32 %r92, %r78, 1;
shr.u32 %r93, %r92, 24;
sub.u32 %r94, %r93, 128;
mov.u64 %rd15, __cuda___cuda_result_441508;
shr.u32 %r95, %r94, 5;
mov.s32 %r96, 4;
sub.s32 %r97, %r96, %r95;
cvt.s64.s32 %rd16, %r97;
mul.wide.s32 %rd17, %r97, 4;
add.u64 %rd18, %rd15, %rd17;
ld.local.u32 %r84, [%rd18+8];
.loc 17 8684 0
ld.local.u32 %r98, [%rd18+4];
and.b32 %r99, %r94, 31;
mov.u32 %r100, 0;
setp.eq.u32 %p15, %r99, %r100;
@%p15 bra $Lt_49_27394;
.loc 17 8687 0
mov.s32 %r101, 32;
sub.s32 %r102, %r101, %r99;
shr.u32 %r103, %r98, %r102;
shl.b32 %r104, %r84, %r99;
add.u32 %r84, %r103, %r104;
.loc 17 8688 0
ld.local.u32 %r105, [%rd18+0];
shr.u32 %r106, %r105, %r102;
shl.b32 %r107, %r98, %r99;
add.u32 %r98, %r106, %r107;
$Lt_49_27394:
.loc 17 8690 0
shr.u32 %r108, %r84, 30;
.loc 17 8692 0
shr.u32 %r109, %r98, 30;
shl.b32 %r110, %r84, 2;
add.u32 %r84, %r109, %r110;
.loc 17 8693 0
shl.b32 %r98, %r98, 2;
.loc 17 8695 0
shr.u32 %r111, %r84, 31;
add.u32 %r112, %r108, %r111;
.loc 17 8690 0
neg.s32 %r113, %r112;
mov.u32 %r114, 0;
setp.ne.u32 %p16, %r79, %r114;
selp.s32 %r83, %r113, %r112, %p16;
.loc 17 8697 0
mov.s32 %r77, %r83;
mov.u32 %r115, 0;
setp.eq.u32 %p17, %r111, %r115;
@%p17 bra $Lt_49_27906;
.loc 17 8701 0
neg.s32 %r98, %r98;
.loc 17 8703 0
mov.u32 %r116, 0;
set.eq.u32.u32 %r117, %r98, %r116;
neg.s32 %r118, %r117;
not.b32 %r119, %r84;
add.u32 %r84, %r118, %r119;
.loc 17 8704 0
xor.b32 %r80, %r79, -2147483648;
$Lt_49_27906:
.loc 17 8707 0
mov.u32 %r120, 0;
setp.eq.s32 %p18, %r84, %r120;
@%p18 bra $Lt_49_28674;
.loc 19 4479 0
cvt.rz.f32.u32 %f196, %r84;
mov.b32 %r121, %f196;
shr.s32 %r122, %r121, 23;
mov.s32 %r123, 158;
sub.s32 %r124, %r123, %r122;
bra.uni $Lt_49_28418;
$Lt_49_28674:
mov.s32 %r124, 32;
$Lt_49_28418:
.loc 17 8707 0
mov.s32 %r125, %r124;
mov.s32 %r126, %r125;
.loc 19 4479 0
mov.s32 %r127, 32;
sub.s32 %r128, %r127, %r125;
shr.u32 %r129, %r98, %r128;
shl.b32 %r130, %r84, %r125;
add.u32 %r131, %r129, %r130;
mov.u32 %r132, 0;
setp.ne.u32 %p19, %r125, %r132;
selp.u32 %r133, %r131, %r84, %p19;
.loc 17 8711 0
mul.lo.u32 %r98, %r133, -921707870;
.loc 17 8712 0
mov.u32 %r134, -921707870;
mul.hi.u32 %r84, %r133, %r134;
mov.u32 %r135, 0;
setp.le.s32 %p20, %r84, %r135;
@%p20 bra $Lt_49_28930;
.loc 17 8714 0
shr.u32 %r136, %r98, 31;
shl.b32 %r137, %r84, 1;
add.u32 %r84, %r136, %r137;
.loc 17 8715 0
add.u32 %r126, %r125, 1;
$Lt_49_28930:
.loc 17 8740 0
add.u32 %r138, %r84, 1;
shr.u32 %r139, %r138, 7;
add.u32 %r140, %r139, 1;
shr.u32 %r141, %r140, 1;
mov.s32 %r142, 126;
sub.s32 %r143, %r142, %r126;
shl.b32 %r144, %r143, 23;
add.u32 %r145, %r141, %r144;
or.b32 %r146, %r80, %r145;
mov.b32 %f193, %r146;
$Lt_49_25858:
.loc 17 8975 0
add.s32 %r147, %r77, 1;
mul.f32 %f197, %f193, %f193;
and.b32 %r148, %r147, 1;
mov.u32 %r149, 0;
setp.eq.s32 %p21, %r148, %r149;
@%p21 bra $Lt_49_29698;
.loc 17 8429 0
mov.f32 %f198, 0f37ccf5ce; // 2.44332e-005
mov.f32 %f199, %f198;
mov.f32 %f200, %f197;
mov.f32 %f201, 0fbab6061a; // -0.00138873
mov.f32 %f202, %f201;
mad.f32 %f203, %f199, %f200, %f202;
mov.f32 %f204, %f203;
mov.f32 %f205, %f204;
mov.f32 %f206, %f197;
mov.f32 %f207, 0f3d2aaaa5; // 0.0416666
mov.f32 %f208, %f207;
mad.f32 %f209, %f205, %f206, %f208;
mov.f32 %f210, %f209;
mov.f32 %f211, %f210;
mov.f32 %f212, %f197;
mov.f32 %f213, 0fbf000000; // -0.5
mov.f32 %f214, %f213;
mad.f32 %f215, %f211, %f212, %f214;
mov.f32 %f216, %f215;
mov.f32 %f217, %f216;
mov.f32 %f218, %f197;
mov.f32 %f219, 0f3f800000; // 1
mov.f32 %f220, %f219;
mad.f32 %f221, %f217, %f218, %f220;
mov.f32 %f222, %f221;
.loc 17 8936 0
mov.f32 %f223, %f222;
bra.uni $Lt_49_29442;
$Lt_49_29698:
.loc 17 8429 0
mov.f32 %f224, 0fb94ca1f9; // -0.000195153
mov.f32 %f225, %f224;
mov.f32 %f226, %f197;
mov.f32 %f227, 0f3c08839e; // 0.00833216
mov.f32 %f228, %f227;
mad.f32 %f229, %f225, %f226, %f228;
mov.f32 %f230, %f229;
mov.f32 %f231, %f230;
mov.f32 %f232, %f197;
mov.f32 %f233, 0fbe2aaaa3; // -0.166667
mov.f32 %f234, %f233;
mad.f32 %f235, %f231, %f232, %f234;
mov.f32 %f236, %f235;
mul.f32 %f237, %f197, %f236;
mov.f32 %f238, %f237;
mov.f32 %f239, %f193;
mov.f32 %f240, %f193;
mad.f32 %f241, %f238, %f239, %f240;
mov.f32 %f242, %f241;
.loc 17 8938 0
mov.f32 %f223, %f242;
$Lt_49_29442:
and.b32 %r150, %r147, 2;
mov.u32 %r151, 0;
setp.eq.s32 %p22, %r150, %r151;
@%p22 bra $Lt_49_29954;
.loc 17 8429 0
mov.f32 %f243, %f223;
mov.f32 %f244, 0fbf800000; // -1
mov.f32 %f245, %f244;
mov.f32 %f246, 0f00000000; // 0
mov.f32 %f247, %f246;
mad.f32 %f248, %f243, %f245, %f247;
mov.f32 %f249, %f248;
.loc 17 8941 0
mov.f32 %f223, %f249;
$Lt_49_29954:
.loc 17 9631 0
rsqrt.approx.f32 %f250, %f2;
mov.f32 %f251, 0f3f4c422a; // 0.797885
mul.f32 %f252, %f250, %f251;
mul.f32 %f253, %f103, %f252;
mul.f32 %f76, %f223, %f253;
bra.uni $Lt_49_21250;
$Lt_49_21506:
.loc 17 9633 0
mov.f32 %f76, 0f00000000; // 0
$Lt_49_21250:
$Lt_49_20738:
.loc 17 9635 0
neg.f32 %f254, %f76;
mov.f32 %f255, 0f00000000; // 0
setp.lt.f32 %p23, %f1, %f255;
selp.f32 %f76, %f254, %f76, %p23;
mov.f32 %f256, 0f0da24260; // 1e-030
setp.lt.f32 %p24, %f2, %f256;
@!%p24 bra $Lt_49_30466;
.loc 17 9639 0
mov.b32 %r152, %f1;
and.b32 %r153, %r152, -2147483648;
mov.b32 %r154, %f76;
and.b32 %r155, %r154, 2147483647;
or.b32 %r156, %r153, %r155;
mov.b32 %f76, %r156;
$Lt_49_30466:
.loc 15 606 0
ld.param.u64 %rd19, [__cudaparm_vec_j1f_result];
add.u64 %rd20, %rd19, %rd3;
st.global.f32 [%rd20+0], %f76;
$Lt_49_20226:
.loc 15 608 0
exit;
$LDWend_vec_j1f:
} // vec_j1f
.entry vec_lgammaf (
.param .u64 __cudaparm_vec_lgammaf_n,
.param .u64 __cudaparm_vec_lgammaf_result,
.param .u64 __cudaparm_vec_lgammaf_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<53>;
.reg .u64 %rd<9>;
.reg .f32 %f<461>;
.reg .pred %p<21>;
.loc 15 613 0
$LDWbegin_vec_lgammaf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_lgammaf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_50_16386;
.loc 15 618 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_lgammaf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
.loc 17 10276 0
abs.f32 %f2, %f1;
mov.f32 %f3, 0f40400000; // 3
setp.ge.f32 %p2, %f2, %f3;
@!%p2 bra $Lt_50_17154;
mov.f32 %f4, 0f40f9999a; // 7.8
setp.ge.f32 %p3, %f2, %f4;
@!%p3 bra $Lt_50_17666;
.loc 17 8437 0
mov.f32 %f5, %f2;
rcp.approx.ftz.f32 %f6,%f5;
mov.f32 %f7, %f6;
.loc 17 8429 0
mul.f32 %f8, %f7, %f7;
mov.f32 %f9, 0f3a4be755; // 0.000777831
mov.f32 %f10, %f9;
mov.f32 %f11, %f8;
mov.f32 %f12, 0fbb360953; // -0.00277766
mov.f32 %f13, %f12;
mad.f32 %f14, %f10, %f11, %f13;
mov.f32 %f15, %f14;
mov.f32 %f16, %f15;
mov.f32 %f17, %f8;
mov.f32 %f18, 0f3daaaaa3; // 0.0833333
mov.f32 %f19, %f18;
mad.f32 %f20, %f16, %f17, %f19;
mov.f32 %f15, %f20;
mov.f32 %f21, %f15;
mov.f32 %f22, %f7;
mov.f32 %f23, 0f3f6b3f8e; // 0.918939
mov.f32 %f24, %f23;
mad.f32 %f25, %f21, %f22, %f24;
mov.f32 %f15, %f25;
.loc 17 8816 0
mov.f32 %f26, 0f00000000; // 0
set.gt.u32.f32 %r4, %f2, %f26;
neg.s32 %r5, %r4;
mov.f32 %f27, 0f7f800000; // 1.#INF
set.lt.u32.f32 %r6, %f2, %f27;
neg.s32 %r7, %r6;
and.b32 %r8, %r5, %r7;
mov.u32 %r9, 0;
setp.eq.s32 %p4, %r8, %r9;
@%p4 bra $Lt_50_18178;
.loc 17 8512 0
mov.b32 %r10, %f2;
and.b32 %r11, %r10, -2139095041;
or.b32 %r12, %r11, 1065353216;
mov.b32 %f28, %r12;
mov.f32 %f29, %f28;
.loc 17 8513 0
shr.u32 %r13, %r10, 23;
sub.u32 %r14, %r13, 127;
mov.s32 %r15, %r14;
mov.f32 %f30, 0f3fb504f3; // 1.41421
setp.gt.f32 %p5, %f28, %f30;
@!%p5 bra $Lt_50_18434;
.loc 17 8515 0
mov.f32 %f31, 0f3f000000; // 0.5
mul.f32 %f29, %f28, %f31;
.loc 17 8516 0
add.s32 %r15, %r14, 1;
$Lt_50_18434:
.loc 17 8429 0
mov.f32 %f32, 0fbf800000; // -1
add.f32 %f33, %f29, %f32;
mov.f32 %f34, 0f3f800000; // 1
add.f32 %f35, %f29, %f34;
neg.f32 %f36, %f33;
div.approx.f32 %f37, %f33, %f35;
mul.rn.f32 %f38, %f36, %f37;
add.rn.f32 %f39, %f33, %f38;
mul.f32 %f40, %f39, %f39;
mov.f32 %f41, 0f3b2063c3; // 0.00244735
mov.f32 %f42, %f41;
mov.f32 %f43, %f40;
mov.f32 %f44, 0f3c4c4be0; // 0.0124693
mov.f32 %f45, %f44;
mad.f32 %f46, %f42, %f43, %f45;
mov.f32 %f47, %f46;
mov.f32 %f48, %f47;
mov.f32 %f49, %f40;
mov.f32 %f50, 0f3daaab50; // 0.0833346
mov.f32 %f51, %f50;
mad.f32 %f52, %f48, %f49, %f51;
mov.f32 %f47, %f52;
mul.f32 %f53, %f40, %f47;
mov.f32 %f54, %f53;
mov.f32 %f55, %f39;
mov.f32 %f56, %f38;
mad.f32 %f57, %f54, %f55, %f56;
mov.f32 %f47, %f57;
cvt.rn.f32.s32 %f58, %r15;
mov.f32 %f59, %f58;
mov.f32 %f60, 0f3f317218; // 0.693147
mov.f32 %f61, %f60;
add.f32 %f62, %f33, %f47;
mov.f32 %f63, %f62;
mad.f32 %f64, %f59, %f61, %f63;
mov.f32 %f65, %f64;
.loc 17 8523 0
mov.f32 %f66, %f65;
bra.uni $Lt_50_17922;
$Lt_50_18178:
.loc 17 8526 0
lg2.approx.f32 %f67, %f2;
mov.f32 %f68, 0f3f317218; // 0.693147
mul.f32 %f66, %f67, %f68;
$Lt_50_17922:
.loc 17 8528 0
mov.f32 %f69, 0f3f000000; // 0.5
mul.f32 %f70, %f66, %f69;
mov.f32 %f71, 0fbf000000; // -0.5
add.f32 %f72, %f2, %f71;
mul.rn.f32 %f73, %f70, %f72;
add.rn.f32 %f74, %f73, %f15;
sub.f32 %f75, %f73, %f2;
add.f32 %f76, %f74, %f75;
mov.f32 %f77, 0f7f800000; // 1.#INF
setp.eq.f32 %p6, %f2, %f77;
selp.f32 %f78, %f2, %f76, %p6;
bra.uni $Lt_50_19458;
$Lt_50_17666:
.loc 17 8429 0
mov.f32 %f79, 0fc0400000; // -3
add.f32 %f80, %f2, %f79;
mov.f32 %f81, 0fc43b38fb; // -748.89
mov.f32 %f82, %f81;
mov.f32 %f83, %f80;
mov.f32 %f84, 0fc640f6f8; // -12349.7
mov.f32 %f85, %f84;
mad.f32 %f86, %f82, %f83, %f85;
mov.f32 %f15, %f86;
mov.f32 %f87, %f15;
mov.f32 %f88, %f80;
mov.f32 %f89, 0fc7206560; // -41061.4
mov.f32 %f90, %f89;
mad.f32 %f91, %f87, %f88, %f90;
mov.f32 %f15, %f91;
mov.f32 %f92, %f15;
mov.f32 %f93, %f80;
mov.f32 %f94, 0fc73cb6aa; // -48310.7
mov.f32 %f95, %f94;
mad.f32 %f96, %f92, %f93, %f95;
mov.f32 %f15, %f96;
mov.f32 %f97, %f15;
mov.f32 %f98, %f80;
mov.f32 %f99, 0fc80bae5a; // -143033
mov.f32 %f100, %f99;
mad.f32 %f101, %f97, %f98, %f100;
mov.f32 %f15, %f101;
.loc 17 8831 0
mov.f32 %f102, %f15;
.loc 17 8429 0
mov.f32 %f103, 0fc381a020; // -259.251
add.f32 %f104, %f80, %f103;
mov.f32 %f105, %f104;
mov.f32 %f106, %f80;
mov.f32 %f107, 0fc62864b8; // -10777.2
mov.f32 %f108, %f107;
mad.f32 %f109, %f105, %f106, %f108;
mov.f32 %f15, %f109;
mov.f32 %f110, %f15;
mov.f32 %f111, %f80;
mov.f32 %f112, 0fc7b50686; // -92685
mov.f32 %f113, %f112;
mad.f32 %f114, %f110, %f111, %f113;
mov.f32 %f15, %f114;
mov.f32 %f115, %f15;
mov.f32 %f116, %f80;
mov.f32 %f117, 0fc8498465; // -206354
mov.f32 %f118, %f117;
mad.f32 %f119, %f115, %f116, %f118;
mov.f32 %f15, %f119;
.loc 17 8437 0
mov.f32 %f120, %f15;
rcp.approx.ftz.f32 %f121,%f120;
mov.f32 %f122, %f121;
.loc 17 8429 0
mov.f32 %f123, %f102;
mov.f32 %f124, %f122;
mov.f32 %f125, %f80;
mad.f32 %f126, %f123, %f124, %f125;
mov.f32 %f15, %f126;
.loc 17 8836 0
mov.f32 %f78, %f15;
bra.uni $Lt_50_19458;
$Lt_50_17154:
mov.f32 %f127, 0f3fc00000; // 1.5
setp.ge.f32 %p7, %f2, %f127;
@!%p7 bra $Lt_50_19202;
.loc 17 8429 0
mov.f32 %f128, 0fc0000000; // -2
add.f32 %f129, %f2, %f128;
mov.f32 %f130, 0f385007fa; // 4.95985e-005
mov.f32 %f131, %f130;
mov.f32 %f132, %f129;
mov.f32 %f133, 0fb967a002; // -0.000220895
mov.f32 %f134, %f133;
mad.f32 %f135, %f131, %f132, %f134;
mov.f32 %f15, %f135;
mov.f32 %f136, %f15;
mov.f32 %f137, %f129;
mov.f32 %f138, 0f3a0de6fc; // 0.000541314
mov.f32 %f139, %f138;
mad.f32 %f140, %f136, %f137, %f139;
mov.f32 %f15, %f140;
mov.f32 %f141, %f15;
mov.f32 %f142, %f129;
mov.f32 %f143, 0fba9de0e2; // -0.00120452
mov.f32 %f144, %f143;
mad.f32 %f145, %f141, %f142, %f144;
mov.f32 %f15, %f145;
mov.f32 %f146, %f15;
mov.f32 %f147, %f129;
mov.f32 %f148, 0f3b3d05b7; // 0.00288425
mov.f32 %f149, %f148;
mad.f32 %f150, %f146, %f147, %f149;
mov.f32 %f15, %f150;
mov.f32 %f151, %f15;
mov.f32 %f152, %f129;
mov.f32 %f153, 0fbbf1eb10; // -0.00738276
mov.f32 %f154, %f153;
mad.f32 %f155, %f151, %f152, %f154;
mov.f32 %f15, %f155;
mov.f32 %f156, %f15;
mov.f32 %f157, %f129;
mov.f32 %f158, 0f3ca89a28; // 0.0205813
mov.f32 %f159, %f158;
mad.f32 %f160, %f156, %f157, %f159;
mov.f32 %f15, %f160;
mov.f32 %f161, %f15;
mov.f32 %f162, %f129;
mov.f32 %f163, 0fbd89f01a; // -0.0673525
mov.f32 %f164, %f163;
mad.f32 %f165, %f161, %f162, %f164;
mov.f32 %f15, %f165;
mov.f32 %f166, %f15;
mov.f32 %f167, %f129;
mov.f32 %f168, 0f3ea51a66; // 0.322467
mov.f32 %f169, %f168;
mad.f32 %f170, %f166, %f167, %f169;
mov.f32 %f15, %f170;
mov.f32 %f171, %f15;
mov.f32 %f172, %f129;
mov.f32 %f173, 0f3ed87730; // 0.422784
mov.f32 %f174, %f173;
mad.f32 %f175, %f171, %f172, %f174;
mov.f32 %f15, %f175;
.loc 17 8850 0
mul.f32 %f78, %f129, %f15;
bra.uni $Lt_50_19458;
$Lt_50_19202:
mov.f32 %f176, 0f3f333333; // 0.7
setp.ge.f32 %p8, %f2, %f176;
@!%p8 bra $Lt_50_19714;
.loc 17 8429 0
mov.f32 %f177, 0f3f800000; // 1
sub.f32 %f178, %f177, %f2;
mov.f32 %f179, 0f3d3bef76; // 0.0458827
mov.f32 %f180, %f179;
mov.f32 %f181, %f178;
mov.f32 %f182, 0f3dd47577; // 0.10374
mov.f32 %f183, %f182;
mad.f32 %f184, %f180, %f181, %f183;
mov.f32 %f15, %f184;
mov.f32 %f185, %f15;
mov.f32 %f186, %f178;
mov.f32 %f187, 0f3dfb8079; // 0.122804
mov.f32 %f188, %f187;
mad.f32 %f189, %f185, %f186, %f188;
mov.f32 %f15, %f189;
mov.f32 %f190, %f15;
mov.f32 %f191, %f178;
mov.f32 %f192, 0f3e0295b5; // 0.127524
mov.f32 %f193, %f192;
mad.f32 %f194, %f190, %f191, %f193;
mov.f32 %f15, %f194;
mov.f32 %f195, %f15;
mov.f32 %f196, %f178;
mov.f32 %f197, 0f3e12a765; // 0.143217
mov.f32 %f198, %f197;
mad.f32 %f199, %f195, %f196, %f198;
mov.f32 %f15, %f199;
mov.f32 %f200, %f15;
mov.f32 %f201, %f178;
mov.f32 %f202, 0f3e2d6867; // 0.169344
mov.f32 %f203, %f202;
mad.f32 %f204, %f200, %f201, %f203;
mov.f32 %f15, %f204;
mov.f32 %f205, %f15;
mov.f32 %f206, %f178;
mov.f32 %f207, 0f3e5462bf; // 0.207408
mov.f32 %f208, %f207;
mad.f32 %f209, %f205, %f206, %f208;
mov.f32 %f15, %f209;
mov.f32 %f210, %f15;
mov.f32 %f211, %f178;
mov.f32 %f212, 0f3e8a8a72; // 0.270588
mov.f32 %f213, %f212;
mad.f32 %f214, %f210, %f211, %f213;
mov.f32 %f15, %f214;
mov.f32 %f215, %f15;
mov.f32 %f216, %f178;
mov.f32 %f217, 0f3ecd26a4; // 0.400685
mov.f32 %f218, %f217;
mad.f32 %f219, %f215, %f216, %f218;
mov.f32 %f15, %f219;
mov.f32 %f220, %f15;
mov.f32 %f221, %f178;
mov.f32 %f222, 0f3f528d32; // 0.822467
mov.f32 %f223, %f222;
mad.f32 %f224, %f220, %f221, %f223;
mov.f32 %f15, %f224;
mov.f32 %f225, %f15;
mov.f32 %f226, %f178;
mov.f32 %f227, 0f3f13c468; // 0.577216
mov.f32 %f228, %f227;
mad.f32 %f229, %f225, %f226, %f228;
mov.f32 %f15, %f229;
.loc 17 8864 0
mul.f32 %f78, %f178, %f15;
bra.uni $Lt_50_19458;
$Lt_50_19714:
.loc 17 8429 0
mov.f32 %f230, 0f3b6b1c86; // 0.00358752
mov.f32 %f231, %f230;
mov.f32 %f232, %f2;
mov.f32 %f233, 0fbbb34878; // -0.00547129
mov.f32 %f234, %f233;
mad.f32 %f235, %f231, %f232, %f234;
mov.f32 %f15, %f235;
mov.f32 %f236, %f15;
mov.f32 %f237, %f2;
mov.f32 %f238, 0fbd36caef; // -0.0446271
mov.f32 %f239, %f238;
mad.f32 %f240, %f236, %f237, %f239;
mov.f32 %f15, %f240;
mov.f32 %f241, %f15;
mov.f32 %f242, %f2;
mov.f32 %f243, 0f3e2b5555; // 0.167318
mov.f32 %f244, %f243;
mad.f32 %f245, %f241, %f242, %f244;
mov.f32 %f15, %f245;
mov.f32 %f246, %f15;
mov.f32 %f247, %f2;
mov.f32 %f248, 0fbd2c96c7; // -0.042136
mov.f32 %f249, %f248;
mad.f32 %f250, %f246, %f247, %f249;
mov.f32 %f15, %f250;
mov.f32 %f251, %f15;
mov.f32 %f252, %f2;
mov.f32 %f253, 0fbf27e6eb; // -0.655867
mov.f32 %f254, %f253;
mad.f32 %f255, %f251, %f252, %f254;
mov.f32 %f15, %f255;
mov.f32 %f256, %f15;
mov.f32 %f257, %f2;
mov.f32 %f258, 0f3f13c463; // 0.577215
mov.f32 %f259, %f258;
mad.f32 %f260, %f256, %f257, %f259;
mov.f32 %f15, %f260;
mul.f32 %f261, %f2, %f15;
mov.f32 %f262, %f261;
mov.f32 %f263, %f2;
mov.f32 %f264, %f2;
mad.f32 %f265, %f262, %f263, %f264;
mov.f32 %f15, %f265;
.loc 17 8875 0
mov.f32 %f266, 0f00000000; // 0
set.gt.u32.f32 %r16, %f15, %f266;
neg.s32 %r17, %r16;
mov.f32 %f267, 0f7f800000; // 1.#INF
set.lt.u32.f32 %r18, %f15, %f267;
neg.s32 %r19, %r18;
and.b32 %r20, %r17, %r19;
mov.u32 %r21, 0;
setp.eq.s32 %p9, %r20, %r21;
@%p9 bra $Lt_50_20226;
.loc 17 8512 0
mov.b32 %r22, %f15;
and.b32 %r23, %r22, -2139095041;
or.b32 %r24, %r23, 1065353216;
mov.b32 %f268, %r24;
mov.f32 %f29, %f268;
.loc 17 8513 0
shr.u32 %r25, %r22, 23;
sub.u32 %r15, %r25, 127;
mov.f32 %f269, 0f3fb504f3; // 1.41421
setp.gt.f32 %p10, %f268, %f269;
@!%p10 bra $Lt_50_20482;
.loc 17 8515 0
mov.f32 %f270, 0f3f000000; // 0.5
mul.f32 %f29, %f268, %f270;
.loc 17 8516 0
add.s32 %r15, %r15, 1;
$Lt_50_20482:
.loc 17 8429 0
mov.f32 %f271, 0fbf800000; // -1
add.f32 %f272, %f29, %f271;
mov.f32 %f273, 0f3f800000; // 1
add.f32 %f274, %f29, %f273;
neg.f32 %f275, %f272;
div.approx.f32 %f276, %f272, %f274;
mul.rn.f32 %f277, %f275, %f276;
add.rn.f32 %f278, %f272, %f277;
mul.f32 %f279, %f278, %f278;
mov.f32 %f280, 0f3b2063c3; // 0.00244735
mov.f32 %f281, %f280;
mov.f32 %f282, %f279;
mov.f32 %f283, 0f3c4c4be0; // 0.0124693
mov.f32 %f284, %f283;
mad.f32 %f285, %f281, %f282, %f284;
mov.f32 %f47, %f285;
mov.f32 %f286, %f47;
mov.f32 %f287, %f279;
mov.f32 %f288, 0f3daaab50; // 0.0833346
mov.f32 %f289, %f288;
mad.f32 %f290, %f286, %f287, %f289;
mov.f32 %f47, %f290;
mul.f32 %f291, %f279, %f47;
mov.f32 %f292, %f291;
mov.f32 %f293, %f278;
mov.f32 %f294, %f277;
mad.f32 %f295, %f292, %f293, %f294;
mov.f32 %f47, %f295;
cvt.rn.f32.s32 %f296, %r15;
mov.f32 %f297, %f296;
mov.f32 %f298, 0f3f317218; // 0.693147
mov.f32 %f299, %f298;
add.f32 %f300, %f272, %f47;
mov.f32 %f301, %f300;
mad.f32 %f302, %f297, %f299, %f301;
mov.f32 %f303, %f302;
.loc 17 8523 0
mov.f32 %f66, %f303;
bra.uni $Lt_50_19970;
$Lt_50_20226:
.loc 17 8526 0
lg2.approx.f32 %f304, %f15;
mov.f32 %f305, 0f3f317218; // 0.693147
mul.f32 %f66, %f304, %f305;
$Lt_50_19970:
.loc 17 8875 0
neg.f32 %f78, %f66;
$Lt_50_19458:
$Lt_50_18946:
$Lt_50_16898:
.loc 17 10276 0
mov.f32 %f306, 0f00000000; // 0
setp.ge.f32 %p11, %f1, %f306;
@!%p11 bra $Lt_50_20994;
.loc 17 10277 0
mov.f32 %f307, %f78;
bra.uni $LDWendi___internal_fast_rcpf_293_1;
$Lt_50_20994:
cvt.rmi.f32.f32 %f308, %f2;
setp.eq.f32 %p12, %f308, %f2;
@!%p12 bra $Lt_50_21506;
.loc 17 10280 0
mov.f32 %f307, 0f7f800000; // 1.#INF
bra.uni $LDWendi___internal_fast_rcpf_293_1;
$Lt_50_21506:
mov.f32 %f309, 0f1fec1e4a; // 1e-019
setp.lt.f32 %p13, %f2, %f309;
@!%p13 bra $Lt_50_22018;
.loc 17 10281 0
mov.f32 %f310, 0f00000000; // 0
set.gt.u32.f32 %r26, %f2, %f310;
neg.s32 %r27, %r26;
mov.f32 %f311, 0f7f800000; // 1.#INF
set.lt.u32.f32 %r28, %f2, %f311;
neg.s32 %r29, %r28;
and.b32 %r30, %r27, %r29;
mov.u32 %r31, 0;
setp.eq.s32 %p14, %r30, %r31;
@%p14 bra $Lt_50_22786;
.loc 17 8512 0
mov.b32 %r32, %f2;
and.b32 %r33, %r32, -2139095041;
or.b32 %r34, %r33, 1065353216;
mov.b32 %f28, %r34;
mov.f32 %f312, %f28;
.loc 17 8513 0
shr.u32 %r35, %r32, 23;
sub.u32 %r14, %r35, 127;
mov.s32 %r36, %r14;
mov.f32 %f313, 0f3fb504f3; // 1.41421
setp.gt.f32 %p15, %f28, %f313;
@!%p15 bra $Lt_50_23042;
.loc 17 8515 0
mov.f32 %f314, 0f3f000000; // 0.5
mul.f32 %f312, %f28, %f314;
.loc 17 8516 0
add.s32 %r36, %r14, 1;
$Lt_50_23042:
.loc 17 8429 0
mov.f32 %f315, 0fbf800000; // -1
add.f32 %f316, %f312, %f315;
mov.f32 %f317, 0f3f800000; // 1
add.f32 %f318, %f312, %f317;
neg.f32 %f319, %f316;
div.approx.f32 %f320, %f316, %f318;
mul.rn.f32 %f321, %f319, %f320;
add.rn.f32 %f322, %f316, %f321;
mul.f32 %f323, %f322, %f322;
mov.f32 %f324, 0f3b2063c3; // 0.00244735
mov.f32 %f325, %f324;
mov.f32 %f326, %f323;
mov.f32 %f327, 0f3c4c4be0; // 0.0124693
mov.f32 %f328, %f327;
mad.f32 %f329, %f325, %f326, %f328;
mov.f32 %f330, %f329;
mov.f32 %f331, %f330;
mov.f32 %f332, %f323;
mov.f32 %f333, 0f3daaab50; // 0.0833346
mov.f32 %f334, %f333;
mad.f32 %f335, %f331, %f332, %f334;
mov.f32 %f330, %f335;
mul.f32 %f336, %f323, %f330;
mov.f32 %f337, %f336;
mov.f32 %f338, %f322;
mov.f32 %f339, %f321;
mad.f32 %f340, %f337, %f338, %f339;
mov.f32 %f330, %f340;
cvt.rn.f32.s32 %f341, %r36;
mov.f32 %f342, %f341;
mov.f32 %f343, 0f3f317218; // 0.693147
mov.f32 %f344, %f343;
add.f32 %f345, %f316, %f330;
mov.f32 %f346, %f345;
mad.f32 %f347, %f342, %f344, %f346;
mov.f32 %f348, %f347;
.loc 17 8523 0
mov.f32 %f349, %f348;
bra.uni $Lt_50_22530;
$Lt_50_22786:
.loc 17 8526 0
lg2.approx.f32 %f350, %f2;
mov.f32 %f351, 0f3f317218; // 0.693147
mul.f32 %f349, %f350, %f351;
$Lt_50_22530:
.loc 17 10281 0
neg.f32 %f307, %f349;
bra.uni $LDWendi___internal_fast_rcpf_293_1;
$Lt_50_22018:
.loc 17 8429 0
add.f32 %f352, %f2, %f2;
cvt.rni.f32.f32 %f353, %f352;
neg.f32 %f354, %f353;
mov.f32 %f355, %f354;
mov.f32 %f356, 0f3f000000; // 0.5
mov.f32 %f357, %f356;
mov.f32 %f358, %f2;
mad.f32 %f359, %f355, %f357, %f358;
mov.f32 %f360, %f359;
.loc 17 10286 0
mov.f32 %f361, 0f40490fdb; // 3.14159
mul.f32 %f362, %f360, %f361;
mul.f32 %f363, %f362, %f362;
cvt.rzi.s32.f32 %r37, %f353;
and.b32 %r38, %r37, 1;
mov.u32 %r39, 0;
setp.eq.s32 %p16, %r38, %r39;
@%p16 bra $Lt_50_23810;
.loc 17 8429 0
mov.f32 %f364, 0f37ccf5ce; // 2.44332e-005
mov.f32 %f365, %f364;
mov.f32 %f366, %f363;
mov.f32 %f367, 0fbab6061a; // -0.00138873
mov.f32 %f368, %f367;
mad.f32 %f369, %f365, %f366, %f368;
mov.f32 %f370, %f369;
mov.f32 %f371, %f370;
mov.f32 %f372, %f363;
mov.f32 %f373, 0f3d2aaaa5; // 0.0416666
mov.f32 %f374, %f373;
mad.f32 %f375, %f371, %f372, %f374;
mov.f32 %f376, %f375;
mov.f32 %f377, %f376;
mov.f32 %f378, %f363;
mov.f32 %f379, 0fbf000000; // -0.5
mov.f32 %f380, %f379;
mad.f32 %f381, %f377, %f378, %f380;
mov.f32 %f382, %f381;
mov.f32 %f383, %f382;
mov.f32 %f384, %f363;
mov.f32 %f385, 0f3f800000; // 1
mov.f32 %f386, %f385;
mad.f32 %f387, %f383, %f384, %f386;
mov.f32 %f388, %f387;
.loc 17 8936 0
mov.f32 %f389, %f388;
bra.uni $Lt_50_23554;
$Lt_50_23810:
.loc 17 8429 0
mov.f32 %f390, 0fb94ca1f9; // -0.000195153
mov.f32 %f391, %f390;
mov.f32 %f392, %f363;
mov.f32 %f393, 0f3c08839e; // 0.00833216
mov.f32 %f394, %f393;
mad.f32 %f395, %f391, %f392, %f394;
mov.f32 %f396, %f395;
mov.f32 %f397, %f396;
mov.f32 %f398, %f363;
mov.f32 %f399, 0fbe2aaaa3; // -0.166667
mov.f32 %f400, %f399;
mad.f32 %f401, %f397, %f398, %f400;
mov.f32 %f402, %f401;
mul.f32 %f403, %f363, %f402;
mov.f32 %f404, %f403;
mov.f32 %f405, %f362;
mov.f32 %f406, %f362;
mad.f32 %f407, %f404, %f405, %f406;
mov.f32 %f408, %f407;
.loc 17 8938 0
mov.f32 %f389, %f408;
$Lt_50_23554:
and.b32 %r40, %r37, 2;
mov.u32 %r41, 0;
setp.eq.s32 %p17, %r40, %r41;
@%p17 bra $Lt_50_24066;
.loc 17 8429 0
mov.f32 %f409, %f389;
mov.f32 %f410, 0fbf800000; // -1
mov.f32 %f411, %f410;
mov.f32 %f412, 0f00000000; // 0
mov.f32 %f413, %f412;
mad.f32 %f414, %f409, %f411, %f413;
mov.f32 %f415, %f414;
.loc 17 8941 0
mov.f32 %f389, %f415;
$Lt_50_24066:
.loc 17 10288 0
abs.f32 %f416, %f389;
mul.f32 %f417, %f2, %f416;
mov.f32 %f418, 0f00000000; // 0
set.gt.u32.f32 %r42, %f417, %f418;
neg.s32 %r43, %r42;
mov.f32 %f419, 0f7f800000; // 1.#INF
set.lt.u32.f32 %r44, %f417, %f419;
neg.s32 %r45, %r44;
and.b32 %r46, %r43, %r45;
mov.u32 %r47, 0;
setp.eq.s32 %p18, %r46, %r47;
@%p18 bra $Lt_50_24834;
.loc 17 8512 0
mov.b32 %r48, %f417;
and.b32 %r49, %r48, -2139095041;
or.b32 %r50, %r49, 1065353216;
mov.b32 %f420, %r50;
mov.f32 %f312, %f420;
.loc 17 8513 0
shr.u32 %r51, %r48, 23;
sub.u32 %r36, %r51, 127;
mov.f32 %f421, 0f3fb504f3; // 1.41421
setp.gt.f32 %p19, %f420, %f421;
@!%p19 bra $Lt_50_25090;
.loc 17 8515 0
mov.f32 %f422, 0f3f000000; // 0.5
mul.f32 %f312, %f420, %f422;
.loc 17 8516 0
add.s32 %r36, %r36, 1;
$Lt_50_25090:
.loc 17 8429 0
mov.f32 %f423, 0fbf800000; // -1
add.f32 %f424, %f312, %f423;
mov.f32 %f425, 0f3f800000; // 1
add.f32 %f426, %f312, %f425;
neg.f32 %f427, %f424;
div.approx.f32 %f428, %f424, %f426;
mul.rn.f32 %f429, %f427, %f428;
add.rn.f32 %f430, %f424, %f429;
mul.f32 %f431, %f430, %f430;
mov.f32 %f432, 0f3b2063c3; // 0.00244735
mov.f32 %f433, %f432;
mov.f32 %f434, %f431;
mov.f32 %f435, 0f3c4c4be0; // 0.0124693
mov.f32 %f436, %f435;
mad.f32 %f437, %f433, %f434, %f436;
mov.f32 %f330, %f437;
mov.f32 %f438, %f330;
mov.f32 %f439, %f431;
mov.f32 %f440, 0f3daaab50; // 0.0833346
mov.f32 %f441, %f440;
mad.f32 %f442, %f438, %f439, %f441;
mov.f32 %f330, %f442;
mul.f32 %f443, %f431, %f330;
mov.f32 %f444, %f443;
mov.f32 %f445, %f430;
mov.f32 %f446, %f429;
mad.f32 %f447, %f444, %f445, %f446;
mov.f32 %f330, %f447;
cvt.rn.f32.s32 %f448, %r36;
mov.f32 %f449, %f448;
mov.f32 %f450, 0f3f317218; // 0.693147
mov.f32 %f451, %f450;
add.f32 %f452, %f424, %f330;
mov.f32 %f453, %f452;
mad.f32 %f454, %f449, %f451, %f453;
mov.f32 %f455, %f454;
.loc 17 8523 0
mov.f32 %f349, %f455;
bra.uni $Lt_50_24578;
$Lt_50_24834:
.loc 17 8526 0
lg2.approx.f32 %f456, %f417;
mov.f32 %f457, 0f3f317218; // 0.693147
mul.f32 %f349, %f456, %f457;
$Lt_50_24578:
.loc 17 10289 0
mov.f32 %f458, 0f3f928682; // 1.14473
sub.f32 %f459, %f458, %f349;
sub.f32 %f307, %f459, %f78;
$LDWendi___internal_fast_rcpf_293_1:
.loc 15 618 0
ld.param.u64 %rd6, [__cudaparm_vec_lgammaf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f307;
$Lt_50_16386:
.loc 15 620 0
exit;
$LDWend_vec_lgammaf:
} // vec_lgammaf
.entry vec_log10f (
.param .u64 __cudaparm_vec_log10f_n,
.param .u64 __cudaparm_vec_log10f_result,
.param .u64 __cudaparm_vec_log10f_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<16>;
.reg .u64 %rd<9>;
.reg .f32 %f<50>;
.reg .pred %p<5>;
.loc 15 625 0
$LDWbegin_vec_log10f:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_log10f_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_51_2818;
.loc 15 630 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_log10f_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
.loc 17 9374 0
mov.f32 %f2, 0f00000000; // 0
set.gt.u32.f32 %r4, %f1, %f2;
neg.s32 %r5, %r4;
mov.f32 %f3, 0f7f800000; // 1.#INF
set.lt.u32.f32 %r6, %f1, %f3;
neg.s32 %r7, %r6;
and.b32 %r8, %r5, %r7;
mov.u32 %r9, 0;
setp.eq.s32 %p2, %r8, %r9;
@%p2 bra $Lt_51_3586;
.loc 17 8512 0
mov.b32 %r10, %f1;
and.b32 %r11, %r10, -2139095041;
or.b32 %r12, %r11, 1065353216;
mov.b32 %f4, %r12;
mov.f32 %f5, %f4;
.loc 17 8513 0
shr.u32 %r13, %r10, 23;
sub.u32 %r14, %r13, 127;
mov.f32 %f6, 0f3fb504f3; // 1.41421
setp.gt.f32 %p3, %f4, %f6;
@!%p3 bra $Lt_51_3842;
.loc 17 8515 0
mov.f32 %f7, 0f3f000000; // 0.5
mul.f32 %f5, %f4, %f7;
.loc 17 8516 0
add.s32 %r14, %r14, 1;
$Lt_51_3842:
.loc 17 8429 0
mov.f32 %f8, 0fbf800000; // -1
add.f32 %f9, %f5, %f8;
mov.f32 %f10, 0f3f800000; // 1
add.f32 %f11, %f5, %f10;
neg.f32 %f12, %f9;
div.approx.f32 %f13, %f9, %f11;
mul.rn.f32 %f14, %f12, %f13;
add.rn.f32 %f15, %f9, %f14;
mul.f32 %f16, %f15, %f15;
mov.f32 %f17, 0f3b2063c3; // 0.00244735
mov.f32 %f18, %f17;
mov.f32 %f19, %f16;
mov.f32 %f20, 0f3c4c4be0; // 0.0124693
mov.f32 %f21, %f20;
mad.f32 %f22, %f18, %f19, %f21;
mov.f32 %f23, %f22;
mov.f32 %f24, %f23;
mov.f32 %f25, %f16;
mov.f32 %f26, 0f3daaab50; // 0.0833346
mov.f32 %f27, %f26;
mad.f32 %f28, %f24, %f25, %f27;
mov.f32 %f29, %f28;
mul.f32 %f30, %f16, %f29;
mov.f32 %f31, %f30;
mov.f32 %f32, %f15;
mov.f32 %f33, %f14;
mad.f32 %f34, %f31, %f32, %f33;
mov.f32 %f35, %f34;
cvt.rn.f32.s32 %f36, %r14;
mov.f32 %f37, %f36;
mov.f32 %f38, 0f3f317218; // 0.693147
mov.f32 %f39, %f38;
add.f32 %f40, %f9, %f35;
mov.f32 %f41, %f40;
mad.f32 %f42, %f37, %f39, %f41;
mov.f32 %f43, %f42;
.loc 17 8523 0
mov.f32 %f44, %f43;
bra.uni $Lt_51_3330;
$Lt_51_3586:
.loc 17 8526 0
lg2.approx.f32 %f45, %f1;
mov.f32 %f46, 0f3f317218; // 0.693147
mul.f32 %f44, %f45, %f46;
$Lt_51_3330:
.loc 15 630 0
mov.f32 %f47, 0f3ede5bd9; // 0.434294
mul.f32 %f48, %f44, %f47;
ld.param.u64 %rd6, [__cudaparm_vec_log10f_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f48;
$Lt_51_2818:
.loc 15 632 0
exit;
$LDWend_vec_log10f:
} // vec_log10f
.entry vec_log1pf (
.param .u64 __cudaparm_vec_log1pf_n,
.param .u64 __cudaparm_vec_log1pf_result,
.param .u64 __cudaparm_vec_log1pf_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<22>;
.reg .u64 %rd<9>;
.reg .f32 %f<79>;
.reg .pred %p<6>;
.loc 15 637 0
$LDWbegin_vec_log1pf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_log1pf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_52_3842;
.loc 15 642 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_log1pf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
mov.f32 %f2, 0fbec9ba5e; // -0.394
set.ge.u32.f32 %r4, %f1, %f2;
neg.s32 %r5, %r4;
mov.f32 %f3, 0f3f266666; // 0.65
set.le.u32.f32 %r6, %f1, %f3;
neg.s32 %r7, %r6;
and.b32 %r8, %r5, %r7;
mov.u32 %r9, 0;
setp.eq.s32 %p2, %r8, %r9;
@%p2 bra $Lt_52_4610;
.loc 17 8429 0
neg.f32 %f4, %f1;
mov.f32 %f5, 0f40000000; // 2
add.f32 %f6, %f1, %f5;
div.approx.f32 %f7, %f1, %f6;
mul.rn.f32 %f8, %f4, %f7;
add.rn.f32 %f9, %f1, %f8;
mul.f32 %f10, %f9, %f9;
mov.f32 %f11, 0f3b2063c3; // 0.00244735
mov.f32 %f12, %f11;
mov.f32 %f13, %f10;
mov.f32 %f14, 0f3c4c4be0; // 0.0124693
mov.f32 %f15, %f14;
mad.f32 %f16, %f12, %f13, %f15;
mov.f32 %f17, %f16;
mov.f32 %f18, %f17;
mov.f32 %f19, %f10;
mov.f32 %f20, 0f3daaab50; // 0.0833346
mov.f32 %f21, %f20;
mad.f32 %f22, %f18, %f19, %f21;
mov.f32 %f23, %f22;
mul.f32 %f24, %f10, %f23;
mov.f32 %f25, %f24;
mov.f32 %f26, %f9;
mov.f32 %f27, %f8;
mad.f32 %f28, %f25, %f26, %f27;
mov.f32 %f29, %f28;
.loc 17 9386 0
add.f32 %f30, %f1, %f29;
bra.uni $Lt_52_4354;
$Lt_52_4610:
.loc 17 9388 0
mov.f32 %f31, 0f3f800000; // 1
add.f32 %f32, %f1, %f31;
mov.f32 %f33, 0f00000000; // 0
set.gt.u32.f32 %r10, %f32, %f33;
neg.s32 %r11, %r10;
mov.f32 %f34, 0f7f800000; // 1.#INF
set.lt.u32.f32 %r12, %f32, %f34;
neg.s32 %r13, %r12;
and.b32 %r14, %r11, %r13;
mov.u32 %r15, 0;
setp.eq.s32 %p3, %r14, %r15;
@%p3 bra $Lt_52_5122;
.loc 17 8512 0
mov.b32 %r16, %f32;
and.b32 %r17, %r16, -2139095041;
or.b32 %r18, %r17, 1065353216;
mov.b32 %f35, %r18;
mov.f32 %f36, %f35;
.loc 17 8513 0
shr.u32 %r19, %r16, 23;
sub.u32 %r20, %r19, 127;
mov.f32 %f37, 0f3fb504f3; // 1.41421
setp.gt.f32 %p4, %f35, %f37;
@!%p4 bra $Lt_52_5378;
.loc 17 8515 0
mov.f32 %f38, 0f3f000000; // 0.5
mul.f32 %f36, %f35, %f38;
.loc 17 8516 0
add.s32 %r20, %r20, 1;
$Lt_52_5378:
.loc 17 8429 0
mov.f32 %f39, 0fbf800000; // -1
add.f32 %f40, %f36, %f39;
mov.f32 %f41, 0f3f800000; // 1
add.f32 %f42, %f36, %f41;
neg.f32 %f43, %f40;
div.approx.f32 %f44, %f40, %f42;
mul.rn.f32 %f45, %f43, %f44;
add.rn.f32 %f46, %f40, %f45;
mul.f32 %f47, %f46, %f46;
mov.f32 %f48, 0f3b2063c3; // 0.00244735
mov.f32 %f49, %f48;
mov.f32 %f50, %f47;
mov.f32 %f51, 0f3c4c4be0; // 0.0124693
mov.f32 %f52, %f51;
mad.f32 %f53, %f49, %f50, %f52;
mov.f32 %f54, %f53;
mov.f32 %f55, %f54;
mov.f32 %f56, %f47;
mov.f32 %f57, 0f3daaab50; // 0.0833346
mov.f32 %f58, %f57;
mad.f32 %f59, %f55, %f56, %f58;
mov.f32 %f60, %f59;
mul.f32 %f61, %f47, %f60;
mov.f32 %f62, %f61;
mov.f32 %f63, %f46;
mov.f32 %f64, %f45;
mad.f32 %f65, %f62, %f63, %f64;
mov.f32 %f66, %f65;
cvt.rn.f32.s32 %f67, %r20;
mov.f32 %f68, %f67;
mov.f32 %f69, 0f3f317218; // 0.693147
mov.f32 %f70, %f69;
add.f32 %f71, %f40, %f66;
mov.f32 %f72, %f71;
mad.f32 %f73, %f68, %f70, %f72;
mov.f32 %f74, %f73;
.loc 17 8523 0
mov.f32 %f75, %f74;
bra.uni $Lt_52_4866;
$Lt_52_5122:
.loc 17 8526 0
lg2.approx.f32 %f76, %f32;
mov.f32 %f77, 0f3f317218; // 0.693147
mul.f32 %f75, %f76, %f77;
$Lt_52_4866:
.loc 17 9388 0
mov.f32 %f30, %f75;
$Lt_52_4354:
.loc 15 642 0
ld.param.u64 %rd6, [__cudaparm_vec_log1pf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f30;
$Lt_52_3842:
.loc 15 644 0
exit;
$LDWend_vec_log1pf:
} // vec_log1pf
.entry vec_log2f (
.param .u64 __cudaparm_vec_log2f_n,
.param .u64 __cudaparm_vec_log2f_result,
.param .u64 __cudaparm_vec_log2f_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<16>;
.reg .u64 %rd<9>;
.reg .f32 %f<50>;
.reg .pred %p<5>;
.loc 15 649 0
$LDWbegin_vec_log2f:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_log2f_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_53_2818;
.loc 15 654 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_log2f_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
.loc 17 8605 0
mov.f32 %f2, 0f00000000; // 0
set.gt.u32.f32 %r4, %f1, %f2;
neg.s32 %r5, %r4;
mov.f32 %f3, 0f7f800000; // 1.#INF
set.lt.u32.f32 %r6, %f1, %f3;
neg.s32 %r7, %r6;
and.b32 %r8, %r5, %r7;
mov.u32 %r9, 0;
setp.eq.s32 %p2, %r8, %r9;
@%p2 bra $Lt_53_3586;
.loc 17 8512 0
mov.b32 %r10, %f1;
and.b32 %r11, %r10, -2139095041;
or.b32 %r12, %r11, 1065353216;
mov.b32 %f4, %r12;
mov.f32 %f5, %f4;
.loc 17 8513 0
shr.u32 %r13, %r10, 23;
sub.u32 %r14, %r13, 127;
mov.f32 %f6, 0f3fb504f3; // 1.41421
setp.gt.f32 %p3, %f4, %f6;
@!%p3 bra $Lt_53_3842;
.loc 17 8515 0
mov.f32 %f7, 0f3f000000; // 0.5
mul.f32 %f5, %f4, %f7;
.loc 17 8516 0
add.s32 %r14, %r14, 1;
$Lt_53_3842:
.loc 17 8429 0
mov.f32 %f8, 0fbf800000; // -1
add.f32 %f9, %f5, %f8;
mov.f32 %f10, 0f3f800000; // 1
add.f32 %f11, %f5, %f10;
neg.f32 %f12, %f9;
div.approx.f32 %f13, %f9, %f11;
mul.rn.f32 %f14, %f12, %f13;
add.rn.f32 %f15, %f9, %f14;
mul.f32 %f16, %f15, %f15;
mov.f32 %f17, 0f3b2063c3; // 0.00244735
mov.f32 %f18, %f17;
mov.f32 %f19, %f16;
mov.f32 %f20, 0f3c4c4be0; // 0.0124693
mov.f32 %f21, %f20;
mad.f32 %f22, %f18, %f19, %f21;
mov.f32 %f23, %f22;
mov.f32 %f24, %f23;
mov.f32 %f25, %f16;
mov.f32 %f26, 0f3daaab50; // 0.0833346
mov.f32 %f27, %f26;
mad.f32 %f28, %f24, %f25, %f27;
mov.f32 %f29, %f28;
mul.f32 %f30, %f16, %f29;
mov.f32 %f31, %f30;
mov.f32 %f32, %f15;
mov.f32 %f33, %f14;
mad.f32 %f34, %f31, %f32, %f33;
mov.f32 %f35, %f34;
cvt.rn.f32.s32 %f36, %r14;
mov.f32 %f37, %f36;
mov.f32 %f38, 0f3f317218; // 0.693147
mov.f32 %f39, %f38;
add.f32 %f40, %f9, %f35;
mov.f32 %f41, %f40;
mad.f32 %f42, %f37, %f39, %f41;
mov.f32 %f43, %f42;
.loc 17 8523 0
mov.f32 %f44, %f43;
bra.uni $Lt_53_3330;
$Lt_53_3586:
.loc 17 8526 0
lg2.approx.f32 %f45, %f1;
mov.f32 %f46, 0f3f317218; // 0.693147
mul.f32 %f44, %f45, %f46;
$Lt_53_3330:
.loc 15 654 0
mov.f32 %f47, 0f3fb8aa3b; // 1.4427
mul.f32 %f48, %f44, %f47;
ld.param.u64 %rd6, [__cudaparm_vec_log2f_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f48;
$Lt_53_2818:
.loc 15 656 0
exit;
$LDWend_vec_log2f:
} // vec_log2f
.entry vec_logbf (
.param .u64 __cudaparm_vec_logbf_n,
.param .u64 __cudaparm_vec_logbf_result,
.param .u64 __cudaparm_vec_logbf_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<18>;
.reg .u64 %rd<9>;
.reg .f32 %f<11>;
.reg .pred %p<7>;
.loc 15 661 0
$LDWbegin_vec_logbf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_logbf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_54_4098;
.loc 15 666 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_logbf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
abs.f32 %f2, %f1;
mov.b32 %r4, %f2;
mov.u32 %r5, 8388607;
setp.gt.u32 %p2, %r4, %r5;
@%p2 bra $Lt_54_4866;
.loc 17 10885 0
mov.u32 %r6, 0;
setp.eq.s32 %p3, %r4, %r6;
@%p3 bra $Lt_54_5378;
.loc 19 4479 0
cvt.rz.f32.u32 %f3, %r4;
mov.b32 %r7, %f3;
shr.s32 %r8, %r7, 23;
mov.s32 %r9, 158;
sub.s32 %r10, %r9, %r8;
bra.uni $Lt_54_5122;
$Lt_54_5378:
mov.s32 %r10, 32;
$Lt_54_5122:
mov.f32 %f4, 0fff800000; // -1.#INF
mov.s32 %r11, -118;
sub.s32 %r12, %r11, %r10;
cvt.rn.f32.s32 %f5, %r12;
mov.f32 %f6, 0f00000000; // 0
setp.eq.f32 %p4, %f1, %f6;
selp.f32 %f7, %f4, %f5, %p4;
bra.uni $Lt_54_4610;
$Lt_54_4866:
.loc 17 10891 0
mul.f32 %f8, %f1, %f1;
shl.b32 %r13, %r4, 1;
shr.u32 %r14, %r13, 24;
sub.s32 %r15, %r14, 127;
cvt.rn.f32.s32 %f9, %r15;
mov.u32 %r16, 2139095039;
setp.gt.u32 %p5, %r4, %r16;
selp.f32 %f7, %f8, %f9, %p5;
$Lt_54_4610:
.loc 15 666 0
ld.param.u64 %rd6, [__cudaparm_vec_logbf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f7;
$Lt_54_4098:
.loc 15 668 0
exit;
$LDWend_vec_logbf:
} // vec_logbf
.entry vec_logf (
.param .u64 __cudaparm_vec_logf_n,
.param .u64 __cudaparm_vec_logf_result,
.param .u64 __cudaparm_vec_logf_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<16>;
.reg .u64 %rd<9>;
.reg .f32 %f<48>;
.reg .pred %p<5>;
.loc 15 673 0
$LDWbegin_vec_logf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_logf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_55_2818;
.loc 15 678 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_logf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
.loc 17 9365 0
mov.f32 %f2, 0f00000000; // 0
set.gt.u32.f32 %r4, %f1, %f2;
neg.s32 %r5, %r4;
mov.f32 %f3, 0f7f800000; // 1.#INF
set.lt.u32.f32 %r6, %f1, %f3;
neg.s32 %r7, %r6;
and.b32 %r8, %r5, %r7;
mov.u32 %r9, 0;
setp.eq.s32 %p2, %r8, %r9;
@%p2 bra $Lt_55_3586;
.loc 17 8512 0
mov.b32 %r10, %f1;
and.b32 %r11, %r10, -2139095041;
or.b32 %r12, %r11, 1065353216;
mov.b32 %f4, %r12;
mov.f32 %f5, %f4;
.loc 17 8513 0
shr.u32 %r13, %r10, 23;
sub.u32 %r14, %r13, 127;
mov.f32 %f6, 0f3fb504f3; // 1.41421
setp.gt.f32 %p3, %f4, %f6;
@!%p3 bra $Lt_55_3842;
.loc 17 8515 0
mov.f32 %f7, 0f3f000000; // 0.5
mul.f32 %f5, %f4, %f7;
.loc 17 8516 0
add.s32 %r14, %r14, 1;
$Lt_55_3842:
.loc 17 8429 0
mov.f32 %f8, 0fbf800000; // -1
add.f32 %f9, %f5, %f8;
mov.f32 %f10, 0f3f800000; // 1
add.f32 %f11, %f5, %f10;
neg.f32 %f12, %f9;
div.approx.f32 %f13, %f9, %f11;
mul.rn.f32 %f14, %f12, %f13;
add.rn.f32 %f15, %f9, %f14;
mul.f32 %f16, %f15, %f15;
mov.f32 %f17, 0f3b2063c3; // 0.00244735
mov.f32 %f18, %f17;
mov.f32 %f19, %f16;
mov.f32 %f20, 0f3c4c4be0; // 0.0124693
mov.f32 %f21, %f20;
mad.f32 %f22, %f18, %f19, %f21;
mov.f32 %f23, %f22;
mov.f32 %f24, %f23;
mov.f32 %f25, %f16;
mov.f32 %f26, 0f3daaab50; // 0.0833346
mov.f32 %f27, %f26;
mad.f32 %f28, %f24, %f25, %f27;
mov.f32 %f29, %f28;
mul.f32 %f30, %f16, %f29;
mov.f32 %f31, %f30;
mov.f32 %f32, %f15;
mov.f32 %f33, %f14;
mad.f32 %f34, %f31, %f32, %f33;
mov.f32 %f35, %f34;
cvt.rn.f32.s32 %f36, %r14;
mov.f32 %f37, %f36;
mov.f32 %f38, 0f3f317218; // 0.693147
mov.f32 %f39, %f38;
add.f32 %f40, %f9, %f35;
mov.f32 %f41, %f40;
mad.f32 %f42, %f37, %f39, %f41;
mov.f32 %f43, %f42;
.loc 17 8523 0
mov.f32 %f44, %f43;
bra.uni $Lt_55_3330;
$Lt_55_3586:
.loc 17 8526 0
lg2.approx.f32 %f45, %f1;
mov.f32 %f46, 0f3f317218; // 0.693147
mul.f32 %f44, %f45, %f46;
$Lt_55_3330:
.loc 15 678 0
ld.param.u64 %rd6, [__cudaparm_vec_logf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f44;
$Lt_55_2818:
.loc 15 680 0
exit;
$LDWend_vec_logf:
} // vec_logf
.entry vec_normcdff (
.param .u64 __cudaparm_vec_normcdff_n,
.param .u64 __cudaparm_vec_normcdff_result,
.param .u64 __cudaparm_vec_normcdff_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<14>;
.reg .u64 %rd<9>;
.reg .f32 %f<244>;
.reg .pred %p<9>;
.loc 15 685 0
$LDWbegin_vec_normcdff:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_normcdff_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_56_5634;
.loc 15 690 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_normcdff_y];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
abs.f32 %f2, %f1;
mov.f32 %f3, 0f41680000; // 14.5
setp.gt.f32 %p2, %f2, %f3;
@!%p2 bra $Lt_56_6146;
.loc 17 10245 0
mov.b32 %r4, %f1;
and.b32 %r5, %r4, -2147483648;
or.b32 %r6, %r5, 1097334784;
mov.b32 %f1, %r6;
$Lt_56_6146:
.loc 17 8429 0
neg.f32 %f4, %f1;
mov.f32 %f5, %f4;
mov.f32 %f6, 0f45800800; // 4097
mov.f32 %f7, %f6;
mov.f32 %f8, %f1;
mad.f32 %f9, %f5, %f7, %f8;
mov.f32 %f10, %f9;
mov.f32 %f11, %f1;
mov.f32 %f12, 0f45800800; // 4097
mov.f32 %f13, %f12;
mov.f32 %f14, %f10;
mad.f32 %f15, %f11, %f13, %f14;
mov.f32 %f10, %f15;
.loc 17 10253 0
sub.f32 %f16, %f1, %f10;
.loc 17 10257 0
mov.f32 %f17, %f10;
.loc 17 8429 0
mov.f32 %f18, 0fbf3504f3; // -0.707107
mul.rn.f32 %f19, %f1, %f18;
mov.f32 %f20, %f10;
mov.f32 %f21, 0fbf350000; // -0.707031
mov.f32 %f22, %f21;
neg.f32 %f23, %f19;
mov.f32 %f24, %f23;
mad.f32 %f25, %f20, %f22, %f24;
mov.f32 %f10, %f25;
mov.f32 %f26, %f17;
mov.f32 %f27, 0fb89e6000; // -7.55191e-005
mov.f32 %f28, %f27;
mov.f32 %f29, %f10;
mad.f32 %f30, %f26, %f28, %f29;
mov.f32 %f10, %f30;
mov.f32 %f31, 0fbf350000; // -0.707031
mov.f32 %f32, %f31;
mov.f32 %f33, %f16;
mov.f32 %f34, %f10;
mad.f32 %f35, %f32, %f33, %f34;
mov.f32 %f10, %f35;
mov.f32 %f36, %f16;
mov.f32 %f37, 0fb89e6000; // -7.55191e-005
mov.f32 %f38, %f37;
mov.f32 %f39, %f10;
mad.f32 %f40, %f36, %f38, %f39;
mov.f32 %f10, %f40;
.loc 17 10262 0
mov.f32 %f41, 0fb24fe77a; // -1.21016e-008
mul.rn.f32 %f42, %f1, %f41;
add.rn.f32 %f43, %f42, %f10;
add.rn.f32 %f44, %f19, %f43;
mov.f32 %f45, 0f3f5020c5; // 0.813
setp.le.f32 %p3, %f44, %f45;
@!%p3 bra $Lt_56_6914;
.loc 17 10098 0
abs.f32 %f46, %f44;
mul.f32 %f47, %f44, %f44;
mov.f32 %f48, 0f3f800000; // 1
setp.ge.f32 %p4, %f46, %f48;
@!%p4 bra $Lt_56_7426;
.loc 17 8429 0
mov.f32 %f49, %f46;
mov.f32 %f50, 0f3ea7ba05; // 0.327591
mov.f32 %f51, %f50;
mov.f32 %f52, 0f3f800000; // 1
mov.f32 %f53, %f52;
mad.f32 %f54, %f49, %f51, %f53;
mov.f32 %f55, %f54;
.loc 17 9924 0
rcp.approx.f32 %f56, %f55;
mov.f32 %f57, %f56;
.loc 17 8429 0
mov.f32 %f58, 0f3f87dc22; // 1.06141
mov.f32 %f59, %f58;
mov.f32 %f60, %f56;
mov.f32 %f61, 0fbfba00e3; // -1.45315
mov.f32 %f62, %f61;
mad.f32 %f63, %f59, %f60, %f62;
mov.f32 %f55, %f63;
mov.f32 %f64, %f55;
mov.f32 %f65, %f57;
mov.f32 %f66, 0f3fb5f0e3; // 1.42141
mov.f32 %f67, %f66;
mad.f32 %f68, %f64, %f65, %f67;
mov.f32 %f55, %f68;
mov.f32 %f69, %f55;
mov.f32 %f70, %f57;
mov.f32 %f71, 0fbe91a98e; // -0.284497
mov.f32 %f72, %f71;
mad.f32 %f73, %f69, %f70, %f72;
mov.f32 %f55, %f73;
mov.f32 %f74, %f55;
mov.f32 %f75, %f57;
mov.f32 %f76, 0f3e827906; // 0.25483
mov.f32 %f77, %f76;
mad.f32 %f78, %f74, %f75, %f77;
mov.f32 %f55, %f78;
neg.f32 %f79, %f47;
mov.f32 %f80, 0f3fb8aa3b; // 1.4427
mul.f32 %f81, %f79, %f80;
cvt.rzi.f32.f32 %f82, %f81;
mov.f32 %f83, %f82;
mov.f32 %f84, 0fbf317200; // -0.693146
mov.f32 %f85, %f84;
mov.f32 %f86, %f79;
mad.f32 %f87, %f83, %f85, %f86;
mov.f32 %f88, %f87;
mov.f32 %f89, %f82;
mov.f32 %f90, 0fb5bfbe8e; // -1.42861e-006
mov.f32 %f91, %f90;
mov.f32 %f92, %f88;
mad.f32 %f93, %f89, %f91, %f92;
mov.f32 %f94, %f93;
.loc 17 8763 0
ex2.approx.f32 %f95, %f82;
mov.f32 %f96, 0f3fb8aa3b; // 1.4427
mul.f32 %f97, %f94, %f96;
ex2.approx.f32 %f98, %f97;
mul.f32 %f99, %f95, %f98;
.loc 17 8429 0
neg.f32 %f100, %f99;
mov.f32 %f101, %f100;
mul.f32 %f102, %f56, %f55;
mov.f32 %f103, %f102;
mov.f32 %f104, 0f3f800000; // 1
mov.f32 %f105, %f104;
mad.f32 %f106, %f101, %f103, %f105;
mov.f32 %f55, %f106;
.loc 17 9936 0
mov.f32 %f107, 0f3f800000; // 1
mov.f32 %f108, 0f40b00000; // 5.5
setp.ge.f32 %p5, %f46, %f108;
selp.f32 %f109, %f107, %f55, %p5;
mov.b32 %r7, %f109;
mov.b32 %r8, %f44;
and.b32 %r9, %r8, -2147483648;
or.b32 %r10, %r7, %r9;
mov.b32 %f110, %r10;
bra.uni $Lt_56_7170;
$Lt_56_7426:
.loc 17 8429 0
mov.f32 %f111, 0fba1268fb; // -0.00055851
mov.f32 %f112, %f111;
mov.f32 %f113, %f47;
mov.f32 %f114, 0f3ba0c9f8; // 0.00490689
mov.f32 %f115, %f114;
mad.f32 %f116, %f112, %f113, %f115;
mov.f32 %f55, %f116;
mov.f32 %f117, %f55;
mov.f32 %f118, %f47;
mov.f32 %f119, 0fbcdabfd4; // -0.0267028
mov.f32 %f120, %f119;
mad.f32 %f121, %f117, %f118, %f120;
mov.f32 %f55, %f121;
mov.f32 %f122, %f55;
mov.f32 %f123, %f47;
mov.f32 %f124, 0f3de70331; // 0.112799
mov.f32 %f125, %f124;
mad.f32 %f126, %f122, %f123, %f125;
mov.f32 %f55, %f126;
mov.f32 %f127, %f55;
mov.f32 %f128, %f47;
mov.f32 %f129, 0fbec09330; // -0.376123
mov.f32 %f130, %f129;
mad.f32 %f131, %f127, %f128, %f130;
mov.f32 %f55, %f131;
mov.f32 %f132, %f55;
mov.f32 %f133, %f47;
mov.f32 %f134, 0f3f906eba; // 1.12838
mov.f32 %f135, %f134;
mad.f32 %f136, %f132, %f133, %f135;
mov.f32 %f55, %f136;
.loc 17 9945 0
mul.f32 %f110, %f44, %f55;
$Lt_56_7170:
.loc 17 10098 0
mov.f32 %f137, 0f3f800000; // 1
sub.f32 %f138, %f137, %f110;
bra.uni $Lt_56_6658;
$Lt_56_6914:
.loc 17 8437 0
mov.f32 %f139, %f44;
rcp.approx.ftz.f32 %f140,%f139;
mov.f32 %f141, %f140;
.loc 17 8429 0
mov.f32 %f142, 0fbf7fc509; // -0.9991
mov.f32 %f143, %f142;
mov.f32 %f144, %f141;
mov.f32 %f145, 0fbe85acdf; // -0.261085
mov.f32 %f146, %f145;
mad.f32 %f147, %f143, %f144, %f146;
mov.f32 %f148, %f147;
mov.f32 %f149, %f148;
mov.f32 %f150, %f141;
mov.f32 %f151, 0f3dff301b; // 0.124603
mov.f32 %f152, %f151;
mad.f32 %f153, %f149, %f150, %f152;
mov.f32 %f148, %f153;
mov.f32 %f154, %f148;
mov.f32 %f155, %f141;
mov.f32 %f156, 0f3e079e1d; // 0.132439
mov.f32 %f157, %f156;
mad.f32 %f158, %f154, %f155, %f157;
mov.f32 %f148, %f158;
mov.f32 %f159, %f148;
mov.f32 %f160, %f141;
mov.f32 %f161, 0f3d091fcf; // 0.0334776
mov.f32 %f162, %f161;
mad.f32 %f163, %f159, %f160, %f162;
mov.f32 %f164, %f163;
mov.f32 %f165, 0f401045e9; // 2.25427
add.f32 %f166, %f141, %f165;
mov.f32 %f167, %f166;
mov.f32 %f168, %f141;
mov.f32 %f169, 0f4009b13f; // 2.15144
mov.f32 %f170, %f169;
mad.f32 %f171, %f167, %f168, %f170;
mov.f32 %f148, %f171;
mov.f32 %f172, %f148;
mov.f32 %f173, %f141;
mov.f32 %f174, 0f3f83a2f6; // 1.02841
mov.f32 %f175, %f174;
mad.f32 %f176, %f172, %f173, %f175;
mov.f32 %f148, %f176;
mov.f32 %f177, %f148;
mov.f32 %f178, %f141;
mov.f32 %f179, 0f3e859a52; // 0.260943
mov.f32 %f180, %f179;
mad.f32 %f181, %f177, %f178, %f180;
mov.f32 %f148, %f181;
mov.f32 %f182, %f148;
mov.f32 %f183, %f141;
mov.f32 %f184, 0fb6860e0b; // -3.99515e-006
mov.f32 %f185, %f184;
mad.f32 %f186, %f182, %f183, %f185;
mov.f32 %f148, %f186;
.loc 17 10076 0
div.approx.f32 %f187, %f164, %f148;
.loc 17 8750 0
mov.b32 %r11, %f44;
and.b32 %r12, %r11, -4096;
mov.b32 %f188, %r12;
mul.f32 %f189, %f188, %f188;
neg.f32 %f190, %f189;
mov.f32 %f191, 0f3fb8aa3b; // 1.4427
mul.f32 %f192, %f190, %f191;
cvt.rzi.f32.f32 %f193, %f192;
.loc 17 8429 0
mov.f32 %f194, %f193;
mov.f32 %f195, 0fbf317200; // -0.693146
mov.f32 %f196, %f195;
mov.f32 %f197, %f190;
mad.f32 %f198, %f194, %f196, %f197;
mov.f32 %f199, %f198;
mov.f32 %f200, %f193;
mov.f32 %f201, 0fb5bfbe8e; // -1.42861e-006
mov.f32 %f202, %f201;
mov.f32 %f203, %f199;
mad.f32 %f204, %f200, %f202, %f203;
mov.f32 %f205, %f204;
.loc 17 10108 0
add.f32 %f206, %f44, %f188;
sub.f32 %f207, %f44, %f188;
mul.f32 %f208, %f206, %f207;
neg.f32 %f209, %f208;
.loc 17 8429 0
mul.f32 %f210, %f141, %f187;
mov.f32 %f211, %f210;
mov.f32 %f212, %f141;
mov.f32 %f213, %f141;
mad.f32 %f214, %f211, %f212, %f213;
mov.f32 %f215, %f214;
.loc 17 10100 0
mov.f32 %f216, 0f00000000; // 0
ex2.approx.f32 %f217, %f193;
mov.f32 %f218, 0f3fb8aa3b; // 1.4427
mul.f32 %f219, %f205, %f218;
ex2.approx.f32 %f220, %f219;
mul.f32 %f221, %f217, %f220;
mov.f32 %f222, 0f3fb8aa3b; // 1.4427
mul.f32 %f223, %f209, %f222;
ex2.approx.f32 %f224, %f223;
mov.f32 %f225, 0f3f000000; // 0.5
mul.f32 %f226, %f224, %f225;
mul.f32 %f227, %f221, %f226;
mul.f32 %f228, %f215, %f227;
mov.f32 %f229, 0f4120e148; // 10.055
setp.gt.f32 %p6, %f44, %f229;
selp.f32 %f138, %f216, %f228, %p6;
$Lt_56_6658:
.loc 17 10262 0
mov.f32 %f230, %f138;
mov.f32 %f231, 0fbf800000; // -1
setp.lt.f32 %p7, %f1, %f231;
@!%p7 bra $Lt_56_7682;
.loc 17 8429 0
mov.f32 %f232, 0fc0000000; // -2
mul.f32 %f233, %f44, %f232;
mul.f32 %f234, %f230, %f233;
mov.f32 %f235, %f234;
sub.f32 %f236, %f19, %f44;
add.rn.f32 %f237, %f236, %f43;
mov.f32 %f238, %f237;
mov.f32 %f239, %f230;
mad.f32 %f240, %f235, %f238, %f239;
mov.f32 %f10, %f240;
.loc 17 10266 0
mov.f32 %f230, %f10;
$Lt_56_7682:
.loc 15 690 0
mov.f32 %f241, 0f3f000000; // 0.5
mul.f32 %f242, %f230, %f241;
ld.param.u64 %rd6, [__cudaparm_vec_normcdff_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f242;
$Lt_56_5634:
.loc 15 692 0
exit;
$LDWend_vec_normcdff:
} // vec_normcdff
.entry vec_normcdfinvf (
.param .u64 __cudaparm_vec_normcdfinvf_n,
.param .u64 __cudaparm_vec_normcdfinvf_result,
.param .u64 __cudaparm_vec_normcdfinvf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<11>;
.reg .u64 %rd<9>;
.reg .f32 %f<118>;
.reg .pred %p<5>;
.loc 15 697 0
$LDWbegin_vec_normcdfinvf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_normcdfinvf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_57_3586;
.loc 15 702 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_normcdfinvf_y];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
.loc 17 10235 0
add.f32 %f2, %f1, %f1;
neg.f32 %f3, %f2;
mov.f32 %f4, 0f3b5ed289; // 0.0034
set.ge.u32.f32 %r4, %f2, %f4;
neg.s32 %r5, %r4;
mov.f32 %f5, 0f3fff9097; // 1.9966
set.le.u32.f32 %r6, %f2, %f5;
neg.s32 %r7, %r6;
and.b32 %r8, %r5, %r7;
mov.u32 %r9, 0;
setp.eq.s32 %p2, %r8, %r9;
@%p2 bra $Lt_57_4354;
.loc 17 8429 0
mov.f32 %f6, 0f40000000; // 2
add.rn.f32 %f7, %f6, %f3;
mul.rn.f32 %f8, %f7, %f2;
lg2.approx.f32 %f9, %f8;
neg.f32 %f10, %f9;
mov.f32 %f11, 0faf8a6370; // -2.51727e-010
mov.f32 %f12, %f11;
mov.f32 %f13, %f10;
mov.f32 %f14, 0f3221f645; // 9.42743e-009
mov.f32 %f15, %f14;
mad.f32 %f16, %f12, %f13, %f15;
mov.f32 %f17, %f16;
mov.f32 %f18, %f17;
mov.f32 %f19, %f10;
mov.f32 %f20, 0fb4016fda; // -1.20548e-007
mov.f32 %f21, %f20;
mad.f32 %f22, %f18, %f19, %f21;
mov.f32 %f17, %f22;
mov.f32 %f23, %f17;
mov.f32 %f24, %f10;
mov.f32 %f25, 0f3468f846; // 2.1697e-007
mov.f32 %f26, %f25;
mad.f32 %f27, %f23, %f24, %f26;
mov.f32 %f17, %f27;
mov.f32 %f28, %f17;
mov.f32 %f29, %f10;
mov.f32 %f30, 0f370742aa; // 8.06215e-006
mov.f32 %f31, %f30;
mad.f32 %f32, %f28, %f29, %f31;
mov.f32 %f17, %f32;
mov.f32 %f33, %f17;
mov.f32 %f34, %f10;
mov.f32 %f35, 0fb804db4d; // -3.16755e-005
mov.f32 %f36, %f35;
mad.f32 %f37, %f33, %f34, %f36;
mov.f32 %f17, %f37;
mov.f32 %f38, %f17;
mov.f32 %f39, %f10;
mov.f32 %f40, 0fba4afea1; // -0.000774363
mov.f32 %f41, %f40;
mad.f32 %f42, %f38, %f39, %f41;
mov.f32 %f17, %f42;
mov.f32 %f43, %f17;
mov.f32 %f44, %f10;
mov.f32 %f45, 0f3bb5c027; // 0.00554659
mov.f32 %f46, %f45;
mad.f32 %f47, %f43, %f44, %f46;
mov.f32 %f17, %f47;
mov.f32 %f48, %f17;
mov.f32 %f49, %f10;
mov.f32 %f50, 0f3e24ae0f; // 0.16082
mov.f32 %f51, %f50;
mad.f32 %f52, %f48, %f49, %f51;
mov.f32 %f17, %f52;
mov.f32 %f53, %f17;
mov.f32 %f54, %f10;
mov.f32 %f55, 0f3f62dfc4; // 0.886227
mov.f32 %f56, %f55;
mad.f32 %f57, %f53, %f54, %f56;
mov.f32 %f17, %f57;
.loc 17 10211 0
mov.f32 %f58, 0f3f800000; // 1
add.rn.f32 %f59, %f58, %f3;
mul.rn.f32 %f60, %f59, %f17;
bra.uni $Lt_57_4098;
$Lt_57_4354:
.loc 17 8429 0
mov.f32 %f61, 0f3f800000; // 1
setp.gt.f32 %p3, %f2, %f61;
mov.f32 %f62, 0f40000000; // 2
add.rn.f32 %f63, %f62, %f3;
selp.f32 %f64, %f63, %f2, %p3;
lg2.approx.f32 %f65, %f64;
neg.f32 %f66, %f65;
rsqrt.approx.f32 %f67, %f66;
mov.f32 %f68, 0fc27c73f1; // -63.1132
mov.f32 %f69, %f68;
mov.f32 %f70, %f67;
mov.f32 %f71, 0f42fef829; // 127.485
mov.f32 %f72, %f71;
mad.f32 %f73, %f69, %f70, %f72;
mov.f32 %f74, %f73;
mov.f32 %f75, %f74;
mov.f32 %f76, %f67;
mov.f32 %f77, 0fc2e4361c; // -114.106
mov.f32 %f78, %f77;
mad.f32 %f79, %f75, %f76, %f78;
mov.f32 %f74, %f79;
mov.f32 %f80, %f74;
mov.f32 %f81, %f67;
mov.f32 %f82, 0f42714d9b; // 60.3258
mov.f32 %f83, %f82;
mad.f32 %f84, %f80, %f81, %f83;
mov.f32 %f74, %f84;
mov.f32 %f85, %f74;
mov.f32 %f86, %f67;
mov.f32 %f87, 0fc1ae51b3; // -21.7899
mov.f32 %f88, %f87;
mad.f32 %f89, %f85, %f86, %f88;
mov.f32 %f74, %f89;
mov.f32 %f90, %f74;
mov.f32 %f91, %f67;
mov.f32 %f92, 0f40cef504; // 6.46741
mov.f32 %f93, %f92;
mad.f32 %f94, %f90, %f91, %f93;
mov.f32 %f74, %f94;
mov.f32 %f95, %f74;
mov.f32 %f96, %f67;
mov.f32 %f97, 0fbfea9e05; // -1.83295
mov.f32 %f98, %f97;
mad.f32 %f99, %f95, %f96, %f98;
mov.f32 %f74, %f99;
mov.f32 %f100, %f74;
mov.f32 %f101, %f67;
mov.f32 %f102, 0fbcf871f4; // -0.0303278
mov.f32 %f103, %f102;
mad.f32 %f104, %f100, %f101, %f103;
mov.f32 %f74, %f104;
mov.f32 %f105, %f74;
mov.f32 %f106, %f67;
mov.f32 %f107, 0f3f553775; // 0.832877
mov.f32 %f108, %f107;
mad.f32 %f109, %f105, %f106, %f108;
mov.f32 %f74, %f109;
.loc 17 8437 0
mov.f32 %f110, %f67;
rcp.approx.ftz.f32 %f111,%f110;
mov.f32 %f112, %f111;
.loc 17 10216 0
mul.rn.f32 %f113, %f74, %f112;
neg.f32 %f114, %f113;
selp.f32 %f60, %f114, %f113, %p3;
$Lt_57_4098:
.loc 15 702 0
mov.f32 %f115, 0fbfb504f3; // -1.41421
mul.f32 %f116, %f60, %f115;
ld.param.u64 %rd6, [__cudaparm_vec_normcdfinvf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f116;
$Lt_57_3586:
.loc 15 704 0
exit;
$LDWend_vec_normcdfinvf:
} // vec_normcdfinvf
.entry vec_rcbrtf (
.param .u64 __cudaparm_vec_rcbrtf_n,
.param .u64 __cudaparm_vec_rcbrtf_result,
.param .u64 __cudaparm_vec_rcbrtf_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<7>;
.reg .u64 %rd<9>;
.reg .f32 %f<30>;
.reg .pred %p<5>;
.loc 15 709 0
$LDWbegin_vec_rcbrtf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_rcbrtf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_58_2562;
.loc 15 714 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_rcbrtf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
.loc 17 8429 0
abs.f32 %f2, %f1;
lg2.approx.f32 %f3, %f2;
mov.f32 %f4, 0fbeaaaaab; // -0.333333
mul.f32 %f5, %f3, %f4;
ex2.approx.f32 %f6, %f5;
mul.f32 %f7, %f6, %f6;
mov.f32 %f8, %f7;
mul.f32 %f9, %f2, %f6;
neg.f32 %f10, %f9;
mov.f32 %f11, %f10;
mov.f32 %f12, 0f3f800000; // 1
mov.f32 %f13, %f12;
mad.f32 %f14, %f8, %f11, %f13;
mov.f32 %f15, %f14;
mov.f32 %f16, %f15;
mov.f32 %f17, 0f3eaaaaab; // 0.333333
mul.f32 %f18, %f6, %f17;
mov.f32 %f19, %f18;
mov.f32 %f20, %f6;
mad.f32 %f21, %f16, %f19, %f20;
mov.f32 %f22, %f21;
.loc 15 714 0
neg.f32 %f23, %f22;
mov.b32 %r4, %f1;
mov.s32 %r5, 0;
setp.lt.s32 %p2, %r4, %r5;
selp.f32 %f24, %f23, %f22, %p2;
add.f32 %f25, %f1, %f1;
setp.eq.f32 %p3, %f1, %f25;
@!%p3 bra $Lt_58_3074;
.loc 17 8437 0
mov.f32 %f26, %f1;
rcp.approx.ftz.f32 %f27,%f26;
mov.f32 %f28, %f27;
.loc 17 9530 0
mov.f32 %f24, %f28;
$Lt_58_3074:
.loc 15 714 0
ld.param.u64 %rd6, [__cudaparm_vec_rcbrtf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f24;
$Lt_58_2562:
.loc 15 716 0
exit;
$LDWend_vec_rcbrtf:
} // vec_rcbrtf
.entry vec_rintf (
.param .u64 __cudaparm_vec_rintf_n,
.param .u64 __cudaparm_vec_rintf_result,
.param .u64 __cudaparm_vec_rintf_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<9>;
.reg .f32 %f<4>;
.reg .pred %p<3>;
.loc 15 721 0
$LDWbegin_vec_rintf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_rintf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_59_1026;
.loc 15 726 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_rintf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
cvt.rni.f32.f32 %f2, %f1;
ld.param.u64 %rd6, [__cudaparm_vec_rintf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f2;
$Lt_59_1026:
.loc 15 728 0
exit;
$LDWend_vec_rintf:
} // vec_rintf
.entry vec_roundf (
.param .u64 __cudaparm_vec_roundf_n,
.param .u64 __cudaparm_vec_roundf_result,
.param .u64 __cudaparm_vec_roundf_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<8>;
.reg .u64 %rd<9>;
.reg .f32 %f<10>;
.reg .pred %p<5>;
.loc 15 733 0
$LDWbegin_vec_roundf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_roundf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_60_2562;
.loc 15 738 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_roundf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
abs.f32 %f2, %f1;
mov.b32 %r4, %f1;
and.b32 %r5, %r4, -2147483648;
or.b32 %r6, %r5, 1056964608;
mov.b32 %f3, %r6;
add.f32 %f4, %f1, %f3;
cvt.rzi.f32.f32 %f5, %f4;
mov.f32 %f6, 0f4b000000; // 8.38861e+006
setp.gt.f32 %p2, %f2, %f6;
selp.f32 %f7, %f1, %f5, %p2;
mov.f32 %f8, 0f3f000000; // 0.5
setp.lt.f32 %p3, %f2, %f8;
@!%p3 bra $Lt_60_3074;
.loc 17 10798 0
cvt.rzi.f32.f32 %f7, %f1;
$Lt_60_3074:
.loc 15 738 0
ld.param.u64 %rd6, [__cudaparm_vec_roundf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f7;
$Lt_60_2562:
.loc 15 740 0
exit;
$LDWend_vec_roundf:
} // vec_roundf
.entry vec_rsqrtf (
.param .u64 __cudaparm_vec_rsqrtf_n,
.param .u64 __cudaparm_vec_rsqrtf_result,
.param .u64 __cudaparm_vec_rsqrtf_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<9>;
.reg .f32 %f<4>;
.reg .pred %p<3>;
.loc 15 745 0
$LDWbegin_vec_rsqrtf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_rsqrtf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_61_1026;
.loc 15 750 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_rsqrtf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
rsqrt.approx.f32 %f2, %f1;
ld.param.u64 %rd6, [__cudaparm_vec_rsqrtf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f2;
$Lt_61_1026:
.loc 15 752 0
exit;
$LDWend_vec_rsqrtf:
} // vec_rsqrtf
.entry vec_sinf (
.param .u64 __cudaparm_vec_sinf_n,
.param .u64 __cudaparm_vec_sinf_result,
.param .u64 __cudaparm_vec_sinf_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<80>;
.reg .u64 %rd<15>;
.reg .f32 %f<95>;
.reg .pred %p<15>;
.local .align 4 .b8 __cuda___cuda_result_161848[28];
.loc 15 757 0
$LDWbegin_vec_sinf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_sinf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_62_11010;
.loc 15 762 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_sinf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
.loc 17 9004 0
mov.f32 %f2, %f1;
.loc 17 8952 0
abs.f32 %f3, %f1;
mov.f32 %f4, 0f7f800000; // 1.#INF
setp.eq.f32 %p2, %f3, %f4;
@!%p2 bra $Lt_62_11522;
.loc 17 8953 0
mov.f32 %f5, 0f00000000; // 0
mul.rn.f32 %f2, %f1, %f5;
$Lt_62_11522:
.loc 17 8726 0
mov.f32 %f6, 0f3f22f983; // 0.63662
mul.f32 %f7, %f2, %f6;
cvt.rni.s32.f32 %r4, %f7;
mov.s32 %r5, %r4;
.loc 17 8429 0
cvt.rn.f32.s32 %f8, %r4;
neg.f32 %f9, %f8;
mov.f32 %f10, %f9;
mov.f32 %f11, 0f3fc90000; // 1.57031
mov.f32 %f12, %f11;
mov.f32 %f13, %f2;
mad.f32 %f14, %f10, %f12, %f13;
mov.f32 %f15, %f14;
mov.f32 %f16, %f9;
mov.f32 %f17, 0f39fd8000; // 0.000483513
mov.f32 %f18, %f17;
mov.f32 %f19, %f15;
mad.f32 %f20, %f16, %f18, %f19;
mov.f32 %f21, %f20;
mov.f32 %f22, %f9;
mov.f32 %f23, 0f34a88000; // 3.13856e-007
mov.f32 %f24, %f23;
mov.f32 %f25, %f21;
mad.f32 %f26, %f22, %f24, %f25;
mov.f32 %f27, %f26;
mov.f32 %f28, %f9;
mov.f32 %f29, 0f2e85a309; // 6.0771e-011
mov.f32 %f30, %f29;
mov.f32 %f31, %f27;
mad.f32 %f32, %f28, %f30, %f31;
mov.f32 %f33, %f32;
.loc 17 8737 0
mov.f32 %f34, %f33;
abs.f32 %f35, %f2;
mov.f32 %f36, 0f473ba700; // 48039
setp.gt.f32 %p3, %f35, %f36;
@!%p3 bra $Lt_62_12034;
.loc 17 8658 0
mov.b32 %r6, %f2;
and.b32 %r7, %r6, -2147483648;
mov.s32 %r8, %r7;
.loc 17 24 0
shl.b32 %r9, %r6, 8;
or.b32 %r10, %r9, -2147483648;
mov.u64 %rd6, __cudart_i2opi_f;
mov.u64 %rd7, __cuda___cuda_result_161848;
mov.s32 %r11, 0;
mov.u32 %r12, 0;
$Lt_62_13058:
// Loop body line 24, nesting depth: 1, iterations: 6
.loc 17 8674 0
ld.const.u32 %r13, [%rd6+0];
mul.lo.u32 %r14, %r10, %r13;
add.u32 %r15, %r14, %r12;
.loc 17 8675 0
set.gt.u32.u32 %r16, %r14, %r15;
neg.s32 %r17, %r16;
mul.hi.u32 %r18, %r13, %r10;
add.u32 %r12, %r17, %r18;
.loc 17 8676 0
st.local.u32 [%rd7+0], %r15;
add.s32 %r11, %r11, 1;
add.u64 %rd7, %rd7, 4;
add.u64 %rd6, %rd6, 4;
mov.u32 %r19, 6;
setp.ne.s32 %p4, %r11, %r19;
@%p4 bra $Lt_62_13058;
.loc 17 8678 0
st.local.u32 [__cuda___cuda_result_161848+24], %r12;
.loc 17 8683 0
shl.b32 %r20, %r6, 1;
shr.u32 %r21, %r20, 24;
sub.u32 %r22, %r21, 128;
mov.u64 %rd8, __cuda___cuda_result_161848;
shr.u32 %r23, %r22, 5;
mov.s32 %r24, 4;
sub.s32 %r25, %r24, %r23;
cvt.s64.s32 %rd9, %r25;
mul.wide.s32 %rd10, %r25, 4;
add.u64 %rd11, %rd8, %rd10;
ld.local.u32 %r12, [%rd11+8];
.loc 17 8684 0
ld.local.u32 %r26, [%rd11+4];
and.b32 %r27, %r22, 31;
mov.u32 %r28, 0;
setp.eq.u32 %p5, %r27, %r28;
@%p5 bra $Lt_62_13570;
.loc 17 8687 0
mov.s32 %r29, 32;
sub.s32 %r30, %r29, %r27;
shr.u32 %r31, %r26, %r30;
shl.b32 %r32, %r12, %r27;
add.u32 %r12, %r31, %r32;
.loc 17 8688 0
ld.local.u32 %r33, [%rd11+0];
shr.u32 %r34, %r33, %r30;
shl.b32 %r35, %r26, %r27;
add.u32 %r26, %r34, %r35;
$Lt_62_13570:
.loc 17 8690 0
shr.u32 %r36, %r12, 30;
.loc 17 8692 0
shr.u32 %r37, %r26, 30;
shl.b32 %r38, %r12, 2;
add.u32 %r12, %r37, %r38;
.loc 17 8693 0
shl.b32 %r26, %r26, 2;
.loc 17 8695 0
shr.u32 %r39, %r12, 31;
add.u32 %r40, %r36, %r39;
.loc 17 8690 0
neg.s32 %r41, %r40;
mov.u32 %r42, 0;
setp.ne.u32 %p6, %r7, %r42;
selp.s32 %r11, %r41, %r40, %p6;
.loc 17 8697 0
mov.s32 %r5, %r11;
mov.u32 %r43, 0;
setp.eq.u32 %p7, %r39, %r43;
@%p7 bra $Lt_62_14082;
.loc 17 8701 0
neg.s32 %r26, %r26;
.loc 17 8703 0
mov.u32 %r44, 0;
set.eq.u32.u32 %r45, %r26, %r44;
neg.s32 %r46, %r45;
not.b32 %r47, %r12;
add.u32 %r12, %r46, %r47;
.loc 17 8704 0
xor.b32 %r8, %r7, -2147483648;
$Lt_62_14082:
.loc 17 8707 0
mov.u32 %r48, 0;
setp.eq.s32 %p8, %r12, %r48;
@%p8 bra $Lt_62_14850;
.loc 19 4479 0
cvt.rz.f32.u32 %f37, %r12;
mov.b32 %r49, %f37;
shr.s32 %r50, %r49, 23;
mov.s32 %r51, 158;
sub.s32 %r52, %r51, %r50;
bra.uni $Lt_62_14594;
$Lt_62_14850:
mov.s32 %r52, 32;
$Lt_62_14594:
.loc 17 8707 0
mov.s32 %r53, %r52;
mov.s32 %r54, %r53;
.loc 19 4479 0
mov.s32 %r55, 32;
sub.s32 %r56, %r55, %r53;
shr.u32 %r57, %r26, %r56;
shl.b32 %r58, %r12, %r53;
add.u32 %r59, %r57, %r58;
mov.u32 %r60, 0;
setp.ne.u32 %p9, %r53, %r60;
selp.u32 %r61, %r59, %r12, %p9;
.loc 17 8711 0
mul.lo.u32 %r26, %r61, -921707870;
.loc 17 8712 0
mov.u32 %r62, -921707870;
mul.hi.u32 %r12, %r61, %r62;
mov.u32 %r63, 0;
setp.le.s32 %p10, %r12, %r63;
@%p10 bra $Lt_62_15106;
.loc 17 8714 0
shr.u32 %r64, %r26, 31;
shl.b32 %r65, %r12, 1;
add.u32 %r12, %r64, %r65;
.loc 17 8715 0
add.u32 %r54, %r53, 1;
$Lt_62_15106:
.loc 17 8740 0
add.u32 %r66, %r12, 1;
shr.u32 %r67, %r66, 7;
add.u32 %r68, %r67, 1;
shr.u32 %r69, %r68, 1;
mov.s32 %r70, 126;
sub.s32 %r71, %r70, %r54;
shl.b32 %r72, %r71, 23;
add.u32 %r73, %r69, %r72;
or.b32 %r74, %r8, %r73;
mov.b32 %f34, %r74;
$Lt_62_12034:
.loc 17 8956 0
mul.f32 %f38, %f34, %f34;
and.b32 %r75, %r5, 1;
mov.u32 %r76, 0;
setp.eq.s32 %p11, %r75, %r76;
@%p11 bra $Lt_62_15874;
.loc 17 8429 0
mov.f32 %f39, 0f37ccf5ce; // 2.44332e-005
mov.f32 %f40, %f39;
mov.f32 %f41, %f38;
mov.f32 %f42, 0fbab6061a; // -0.00138873
mov.f32 %f43, %f42;
mad.f32 %f44, %f40, %f41, %f43;
mov.f32 %f45, %f44;
mov.f32 %f46, %f45;
mov.f32 %f47, %f38;
mov.f32 %f48, 0f3d2aaaa5; // 0.0416666
mov.f32 %f49, %f48;
mad.f32 %f50, %f46, %f47, %f49;
mov.f32 %f51, %f50;
mov.f32 %f52, %f51;
mov.f32 %f53, %f38;
mov.f32 %f54, 0fbf000000; // -0.5
mov.f32 %f55, %f54;
mad.f32 %f56, %f52, %f53, %f55;
mov.f32 %f57, %f56;
mov.f32 %f58, %f57;
mov.f32 %f59, %f38;
mov.f32 %f60, 0f3f800000; // 1
mov.f32 %f61, %f60;
mad.f32 %f62, %f58, %f59, %f61;
mov.f32 %f63, %f62;
.loc 17 8936 0
mov.f32 %f64, %f63;
bra.uni $Lt_62_15618;
$Lt_62_15874:
.loc 17 8429 0
mov.f32 %f65, 0fb94ca1f9; // -0.000195153
mov.f32 %f66, %f65;
mov.f32 %f67, %f38;
mov.f32 %f68, 0f3c08839e; // 0.00833216
mov.f32 %f69, %f68;
mad.f32 %f70, %f66, %f67, %f69;
mov.f32 %f71, %f70;
mov.f32 %f72, %f71;
mov.f32 %f73, %f38;
mov.f32 %f74, 0fbe2aaaa3; // -0.166667
mov.f32 %f75, %f74;
mad.f32 %f76, %f72, %f73, %f75;
mov.f32 %f77, %f76;
mul.f32 %f78, %f38, %f77;
mov.f32 %f79, %f78;
mov.f32 %f80, %f34;
mov.f32 %f81, %f34;
mad.f32 %f82, %f79, %f80, %f81;
mov.f32 %f83, %f82;
.loc 17 8938 0
mov.f32 %f64, %f83;
$Lt_62_15618:
and.b32 %r77, %r5, 2;
mov.u32 %r78, 0;
setp.eq.s32 %p12, %r77, %r78;
@%p12 bra $Lt_62_16130;
.loc 17 8429 0
mov.f32 %f84, %f64;
mov.f32 %f85, 0fbf800000; // -1
mov.f32 %f86, %f85;
mov.f32 %f87, 0f00000000; // 0
mov.f32 %f88, %f87;
mad.f32 %f89, %f84, %f86, %f88;
mov.f32 %f90, %f89;
.loc 17 8941 0
mov.f32 %f64, %f90;
$Lt_62_16130:
.loc 17 8956 0
mov.f32 %f91, %f64;
mov.f32 %f92, 0f00000000; // 0
setp.eq.f32 %p13, %f34, %f92;
@!%p13 bra $Lt_62_16642;
.loc 17 8959 0
mov.f32 %f93, 0f00000000; // 0
mul.rn.f32 %f91, %f34, %f93;
$Lt_62_16642:
.loc 15 762 0
ld.param.u64 %rd12, [__cudaparm_vec_sinf_result];
add.u64 %rd13, %rd12, %rd3;
st.global.f32 [%rd13+0], %f91;
$Lt_62_11010:
.loc 15 764 0
exit;
$LDWend_vec_sinf:
} // vec_sinf
.entry vec_sinhf (
.param .u64 __cudaparm_vec_sinhf_n,
.param .u64 __cudaparm_vec_sinhf_result,
.param .u64 __cudaparm_vec_sinhf_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<9>;
.reg .u64 %rd<9>;
.reg .f32 %f<62>;
.reg .pred %p<5>;
.loc 15 769 0
$LDWbegin_vec_sinhf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_sinhf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_63_2562;
.loc 15 774 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_sinhf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
abs.f32 %f2, %f1;
mov.f32 %f3, 0f3f800000; // 1
setp.ge.f32 %p2, %f2, %f3;
@!%p2 bra $Lt_63_3330;
.loc 17 8429 0
mov.f32 %f4, 0f3fb8aa3b; // 1.4427
mul.f32 %f5, %f2, %f4;
cvt.rzi.f32.f32 %f6, %f5;
mov.f32 %f7, %f6;
mov.f32 %f8, 0fbf317200; // -0.693146
mov.f32 %f9, %f8;
mov.f32 %f10, %f2;
mad.f32 %f11, %f7, %f9, %f10;
mov.f32 %f12, %f11;
mov.f32 %f13, %f6;
mov.f32 %f14, 0fb5bfbe8e; // -1.42861e-006
mov.f32 %f15, %f14;
mov.f32 %f16, %f12;
mad.f32 %f17, %f13, %f15, %f16;
mov.f32 %f18, %f17;
mov.f32 %f19, 0f3fb8aa3b; // 1.4427
mul.f32 %f20, %f18, %f19;
ex2.approx.f32 %f21, %f20;
mov.f32 %f22, 0fc0000000; // -2
add.f32 %f23, %f6, %f22;
ex2.approx.f32 %f24, %f23;
mul.f32 %f25, %f21, %f24;
mov.f32 %f26, 0f40000000; // 2
mov.f32 %f27, %f26;
mov.f32 %f28, %f25;
mov.f32 %f29, 0f3e000000; // 0.125
div.approx.f32 %f30, %f29, %f25;
neg.f32 %f31, %f30;
mov.f32 %f32, %f31;
mad.f32 %f33, %f27, %f28, %f32;
mov.f32 %f34, %f33;
.loc 17 9212 0
mov.f32 %f35, 0f7f800000; // 1.#INF
mov.f32 %f36, 0f42b40000; // 90
setp.ge.f32 %p3, %f2, %f36;
selp.f32 %f37, %f35, %f34, %p3;
mov.b32 %r4, %f37;
mov.b32 %r5, %f1;
and.b32 %r6, %r5, -2147483648;
or.b32 %r7, %r4, %r6;
mov.b32 %f38, %r7;
bra.uni $Lt_63_3074;
$Lt_63_3330:
.loc 17 8429 0
mul.f32 %f39, %f1, %f1;
mov.f32 %f40, 0f363d0ada; // 2.81695e-006
mov.f32 %f41, %f40;
mov.f32 %f42, %f39;
mov.f32 %f43, 0f394fff49; // 0.000198362
mov.f32 %f44, %f43;
mad.f32 %f45, %f41, %f42, %f44;
mov.f32 %f34, %f45;
mov.f32 %f46, %f34;
mov.f32 %f47, %f39;
mov.f32 %f48, 0f3c08889a; // 0.00833335
mov.f32 %f49, %f48;
mad.f32 %f50, %f46, %f47, %f49;
mov.f32 %f34, %f50;
mov.f32 %f51, %f34;
mov.f32 %f52, %f39;
mov.f32 %f53, 0f3e2aaaab; // 0.166667
mov.f32 %f54, %f53;
mad.f32 %f55, %f51, %f52, %f54;
mov.f32 %f34, %f55;
mul.f32 %f56, %f39, %f34;
mov.f32 %f57, %f56;
mov.f32 %f58, %f1;
mov.f32 %f59, %f1;
mad.f32 %f60, %f57, %f58, %f59;
mov.f32 %f34, %f60;
.loc 17 9221 0
mov.f32 %f38, %f34;
$Lt_63_3074:
.loc 15 774 0
ld.param.u64 %rd6, [__cudaparm_vec_sinhf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f38;
$Lt_63_2562:
.loc 15 776 0
exit;
$LDWend_vec_sinhf:
} // vec_sinhf
.entry vec_sinpif (
.param .u64 __cudaparm_vec_sinpif_n,
.param .u64 __cudaparm_vec_sinpif_result,
.param .u64 __cudaparm_vec_sinpif_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<10>;
.reg .u64 %rd<9>;
.reg .f32 %f<70>;
.reg .pred %p<6>;
.loc 15 781 0
$LDWbegin_vec_sinpif:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_sinpif_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_64_3330;
.loc 15 786 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_sinpif_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
.loc 17 8429 0
add.f32 %f2, %f1, %f1;
cvt.rni.f32.f32 %f3, %f2;
neg.f32 %f4, %f3;
mov.f32 %f5, %f4;
mov.f32 %f6, 0f3f000000; // 0.5
mov.f32 %f7, %f6;
mov.f32 %f8, %f1;
mad.f32 %f9, %f5, %f7, %f8;
mov.f32 %f10, %f9;
.loc 17 9070 0
mov.f32 %f11, 0f40490fdb; // 3.14159
mul.f32 %f12, %f10, %f11;
mul.f32 %f13, %f12, %f12;
cvt.rzi.s32.f32 %r4, %f3;
and.b32 %r5, %r4, 1;
mov.u32 %r6, 0;
setp.eq.s32 %p2, %r5, %r6;
@%p2 bra $Lt_64_4098;
.loc 17 8429 0
mov.f32 %f14, 0f37ccf5ce; // 2.44332e-005
mov.f32 %f15, %f14;
mov.f32 %f16, %f13;
mov.f32 %f17, 0fbab6061a; // -0.00138873
mov.f32 %f18, %f17;
mad.f32 %f19, %f15, %f16, %f18;
mov.f32 %f20, %f19;
mov.f32 %f21, %f20;
mov.f32 %f22, %f13;
mov.f32 %f23, 0f3d2aaaa5; // 0.0416666
mov.f32 %f24, %f23;
mad.f32 %f25, %f21, %f22, %f24;
mov.f32 %f26, %f25;
mov.f32 %f27, %f26;
mov.f32 %f28, %f13;
mov.f32 %f29, 0fbf000000; // -0.5
mov.f32 %f30, %f29;
mad.f32 %f31, %f27, %f28, %f30;
mov.f32 %f32, %f31;
mov.f32 %f33, %f32;
mov.f32 %f34, %f13;
mov.f32 %f35, 0f3f800000; // 1
mov.f32 %f36, %f35;
mad.f32 %f37, %f33, %f34, %f36;
mov.f32 %f38, %f37;
.loc 17 8936 0
mov.f32 %f39, %f38;
bra.uni $Lt_64_3842;
$Lt_64_4098:
.loc 17 8429 0
mov.f32 %f40, 0fb94ca1f9; // -0.000195153
mov.f32 %f41, %f40;
mov.f32 %f42, %f13;
mov.f32 %f43, 0f3c08839e; // 0.00833216
mov.f32 %f44, %f43;
mad.f32 %f45, %f41, %f42, %f44;
mov.f32 %f46, %f45;
mov.f32 %f47, %f46;
mov.f32 %f48, %f13;
mov.f32 %f49, 0fbe2aaaa3; // -0.166667
mov.f32 %f50, %f49;
mad.f32 %f51, %f47, %f48, %f50;
mov.f32 %f52, %f51;
mul.f32 %f53, %f13, %f52;
mov.f32 %f54, %f53;
mov.f32 %f55, %f12;
mov.f32 %f56, %f12;
mad.f32 %f57, %f54, %f55, %f56;
mov.f32 %f58, %f57;
.loc 17 8938 0
mov.f32 %f39, %f58;
$Lt_64_3842:
and.b32 %r7, %r4, 2;
mov.u32 %r8, 0;
setp.eq.s32 %p3, %r7, %r8;
@%p3 bra $Lt_64_4354;
.loc 17 8429 0
mov.f32 %f59, %f39;
mov.f32 %f60, 0fbf800000; // -1
mov.f32 %f61, %f60;
mov.f32 %f62, 0f00000000; // 0
mov.f32 %f63, %f62;
mad.f32 %f64, %f59, %f61, %f63;
mov.f32 %f65, %f64;
.loc 17 8941 0
mov.f32 %f39, %f65;
$Lt_64_4354:
.loc 17 9070 0
mov.f32 %f66, %f39;
cvt.rzi.f32.f32 %f67, %f1;
setp.eq.f32 %p4, %f1, %f67;
@!%p4 bra $Lt_64_4866;
.loc 17 9072 0
mov.f32 %f68, 0f00000000; // 0
mul.rn.f32 %f66, %f1, %f68;
$Lt_64_4866:
.loc 15 786 0
ld.param.u64 %rd6, [__cudaparm_vec_sinpif_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f66;
$Lt_64_3330:
.loc 15 788 0
exit;
$LDWend_vec_sinpif:
} // vec_sinpif
.entry vec_sqrtf (
.param .u64 __cudaparm_vec_sqrtf_n,
.param .u64 __cudaparm_vec_sqrtf_result,
.param .u64 __cudaparm_vec_sqrtf_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<9>;
.reg .f32 %f<4>;
.reg .pred %p<3>;
.loc 15 793 0
$LDWbegin_vec_sqrtf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_sqrtf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_65_1026;
.loc 15 798 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_sqrtf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
sqrt.approx.f32 %f2, %f1;
ld.param.u64 %rd6, [__cudaparm_vec_sqrtf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f2;
$Lt_65_1026:
.loc 15 800 0
exit;
$LDWend_vec_sqrtf:
} // vec_sqrtf
.entry vec_tanf (
.param .u64 __cudaparm_vec_tanf_n,
.param .u64 __cudaparm_vec_tanf_result,
.param .u64 __cudaparm_vec_tanf_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<78>;
.reg .u64 %rd<15>;
.reg .f32 %f<58>;
.reg .pred %p<12>;
.local .align 4 .b8 __cuda___cuda_result_161976[28];
.loc 15 805 0
$LDWbegin_vec_tanf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_tanf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_66_9474;
.loc 15 810 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_tanf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
.loc 17 9147 0
abs.f32 %f2, %f1;
mov.f32 %f3, 0f7f800000; // 1.#INF
setp.eq.f32 %p2, %f2, %f3;
@!%p2 bra $Lt_66_9986;
.loc 17 9148 0
mov.f32 %f4, 0f00000000; // 0
mul.rn.f32 %f1, %f1, %f4;
abs.f32 %f2, %f1;
$Lt_66_9986:
.loc 17 8726 0
mov.f32 %f5, 0f3f22f983; // 0.63662
mul.f32 %f6, %f1, %f5;
cvt.rni.s32.f32 %r4, %f6;
mov.s32 %r5, %r4;
.loc 17 8429 0
cvt.rn.f32.s32 %f7, %r4;
neg.f32 %f8, %f7;
mov.f32 %f9, %f8;
mov.f32 %f10, 0f3fc90000; // 1.57031
mov.f32 %f11, %f10;
mov.f32 %f12, %f1;
mad.f32 %f13, %f9, %f11, %f12;
mov.f32 %f14, %f13;
mov.f32 %f15, %f8;
mov.f32 %f16, 0f39fd8000; // 0.000483513
mov.f32 %f17, %f16;
mov.f32 %f18, %f14;
mad.f32 %f19, %f15, %f17, %f18;
mov.f32 %f20, %f19;
mov.f32 %f21, %f8;
mov.f32 %f22, 0f34a88000; // 3.13856e-007
mov.f32 %f23, %f22;
mov.f32 %f24, %f20;
mad.f32 %f25, %f21, %f23, %f24;
mov.f32 %f26, %f25;
mov.f32 %f27, %f8;
mov.f32 %f28, 0f2e85a309; // 6.0771e-011
mov.f32 %f29, %f28;
mov.f32 %f30, %f26;
mad.f32 %f31, %f27, %f29, %f30;
mov.f32 %f32, %f31;
.loc 17 8737 0
mov.f32 %f33, %f32;
mov.f32 %f34, 0f473ba700; // 48039
setp.gt.f32 %p3, %f2, %f34;
@!%p3 bra $Lt_66_10498;
.loc 17 8658 0
mov.b32 %r6, %f1;
and.b32 %r7, %r6, -2147483648;
mov.s32 %r8, %r7;
.loc 17 24 0
shl.b32 %r9, %r6, 8;
or.b32 %r10, %r9, -2147483648;
mov.u64 %rd6, __cudart_i2opi_f;
mov.u64 %rd7, __cuda___cuda_result_161976;
mov.s32 %r11, 0;
mov.u32 %r12, 0;
$Lt_66_11522:
// Loop body line 24, nesting depth: 1, iterations: 6
.loc 17 8674 0
ld.const.u32 %r13, [%rd6+0];
mul.lo.u32 %r14, %r10, %r13;
add.u32 %r15, %r14, %r12;
.loc 17 8675 0
set.gt.u32.u32 %r16, %r14, %r15;
neg.s32 %r17, %r16;
mul.hi.u32 %r18, %r13, %r10;
add.u32 %r12, %r17, %r18;
.loc 17 8676 0
st.local.u32 [%rd7+0], %r15;
add.s32 %r11, %r11, 1;
add.u64 %rd7, %rd7, 4;
add.u64 %rd6, %rd6, 4;
mov.u32 %r19, 6;
setp.ne.s32 %p4, %r11, %r19;
@%p4 bra $Lt_66_11522;
.loc 17 8678 0
st.local.u32 [__cuda___cuda_result_161976+24], %r12;
.loc 17 8683 0
shl.b32 %r20, %r6, 1;
shr.u32 %r21, %r20, 24;
sub.u32 %r22, %r21, 128;
mov.u64 %rd8, __cuda___cuda_result_161976;
shr.u32 %r23, %r22, 5;
mov.s32 %r24, 4;
sub.s32 %r25, %r24, %r23;
cvt.s64.s32 %rd9, %r25;
mul.wide.s32 %rd10, %r25, 4;
add.u64 %rd11, %rd8, %rd10;
ld.local.u32 %r12, [%rd11+8];
.loc 17 8684 0
ld.local.u32 %r26, [%rd11+4];
and.b32 %r27, %r22, 31;
mov.u32 %r28, 0;
setp.eq.u32 %p5, %r27, %r28;
@%p5 bra $Lt_66_12034;
.loc 17 8687 0
mov.s32 %r29, 32;
sub.s32 %r30, %r29, %r27;
shr.u32 %r31, %r26, %r30;
shl.b32 %r32, %r12, %r27;
add.u32 %r12, %r31, %r32;
.loc 17 8688 0
ld.local.u32 %r33, [%rd11+0];
shr.u32 %r34, %r33, %r30;
shl.b32 %r35, %r26, %r27;
add.u32 %r26, %r34, %r35;
$Lt_66_12034:
.loc 17 8690 0
shr.u32 %r36, %r12, 30;
.loc 17 8692 0
shr.u32 %r37, %r26, 30;
shl.b32 %r38, %r12, 2;
add.u32 %r12, %r37, %r38;
.loc 17 8693 0
shl.b32 %r26, %r26, 2;
.loc 17 8695 0
shr.u32 %r39, %r12, 31;
add.u32 %r40, %r36, %r39;
.loc 17 8690 0
neg.s32 %r41, %r40;
mov.u32 %r42, 0;
setp.ne.u32 %p6, %r7, %r42;
selp.s32 %r11, %r41, %r40, %p6;
.loc 17 8697 0
mov.s32 %r5, %r11;
mov.u32 %r43, 0;
setp.eq.u32 %p7, %r39, %r43;
@%p7 bra $Lt_66_12546;
.loc 17 8701 0
neg.s32 %r26, %r26;
.loc 17 8703 0
mov.u32 %r44, 0;
set.eq.u32.u32 %r45, %r26, %r44;
neg.s32 %r46, %r45;
not.b32 %r47, %r12;
add.u32 %r12, %r46, %r47;
.loc 17 8704 0
xor.b32 %r8, %r7, -2147483648;
$Lt_66_12546:
.loc 17 8707 0
mov.u32 %r48, 0;
setp.eq.s32 %p8, %r12, %r48;
@%p8 bra $Lt_66_13314;
.loc 19 4479 0
cvt.rz.f32.u32 %f35, %r12;
mov.b32 %r49, %f35;
shr.s32 %r50, %r49, 23;
mov.s32 %r51, 158;
sub.s32 %r52, %r51, %r50;
bra.uni $Lt_66_13058;
$Lt_66_13314:
mov.s32 %r52, 32;
$Lt_66_13058:
.loc 17 8707 0
mov.s32 %r53, %r52;
mov.s32 %r54, %r53;
.loc 19 4479 0
mov.s32 %r55, 32;
sub.s32 %r56, %r55, %r53;
shr.u32 %r57, %r26, %r56;
shl.b32 %r58, %r12, %r53;
add.u32 %r59, %r57, %r58;
mov.u32 %r60, 0;
setp.ne.u32 %p9, %r53, %r60;
selp.u32 %r61, %r59, %r12, %p9;
.loc 17 8711 0
mul.lo.u32 %r26, %r61, -921707870;
.loc 17 8712 0
mov.u32 %r62, -921707870;
mul.hi.u32 %r12, %r61, %r62;
mov.u32 %r63, 0;
setp.le.s32 %p10, %r12, %r63;
@%p10 bra $Lt_66_13570;
.loc 17 8714 0
shr.u32 %r64, %r26, 31;
shl.b32 %r65, %r12, 1;
add.u32 %r12, %r64, %r65;
.loc 17 8715 0
add.u32 %r54, %r53, 1;
$Lt_66_13570:
.loc 17 8740 0
add.u32 %r66, %r12, 1;
shr.u32 %r67, %r66, 7;
add.u32 %r68, %r67, 1;
shr.u32 %r69, %r68, 1;
mov.s32 %r70, 126;
sub.s32 %r71, %r70, %r54;
shl.b32 %r72, %r71, 23;
add.u32 %r73, %r69, %r72;
or.b32 %r74, %r8, %r73;
mov.b32 %f33, %r74;
$Lt_66_10498:
.loc 17 8429 0
mul.f32 %f36, %f33, %f33;
mov.f32 %f37, 0f3b86d46d; // 0.00411468
mov.f32 %f38, %f37;
mov.f32 %f39, %f36;
mov.f32 %f40, 0fbf52b7f4; // -0.823119
mov.f32 %f41, %f40;
mad.f32 %f42, %f38, %f39, %f41;
mov.f32 %f43, %f42;
mov.f32 %f44, 0fc01e09d0; // -2.46935
add.f32 %f45, %f36, %f44;
rcp.approx.f32 %f46, %f45;
mul.f32 %f47, %f43, %f46;
mul.f32 %f48, %f36, %f47;
mov.f32 %f49, %f48;
mov.f32 %f50, %f33;
mov.f32 %f51, %f33;
mad.f32 %f52, %f49, %f50, %f51;
mov.f32 %f53, %f52;
.loc 15 810 0
rcp.approx.f32 %f54, %f53;
neg.f32 %f55, %f54;
and.b32 %r75, %r5, 1;
neg.s32 %r76, %r75;
slct.f32.s32 %f56, %f53, %f55, %r76;
ld.param.u64 %rd12, [__cudaparm_vec_tanf_result];
add.u64 %rd13, %rd12, %rd3;
st.global.f32 [%rd13+0], %f56;
$Lt_66_9474:
.loc 15 812 0
exit;
$LDWend_vec_tanf:
} // vec_tanf
.entry vec_tanhf (
.param .u64 __cudaparm_vec_tanhf_n,
.param .u64 __cudaparm_vec_tanhf_result,
.param .u64 __cudaparm_vec_tanhf_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<9>;
.reg .u64 %rd<9>;
.reg .f32 %f<69>;
.reg .pred %p<6>;
.loc 15 817 0
$LDWbegin_vec_tanhf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_tanhf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_67_3330;
.loc 15 822 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_tanhf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
abs.f32 %f2, %f1;
mov.f32 %f3, 0f3f0ccccd; // 0.55
setp.ge.f32 %p2, %f2, %f3;
@!%p2 bra $Lt_67_4098;
.loc 17 8429 0
add.f32 %f4, %f2, %f2;
mov.f32 %f5, 0f3fb8aa3b; // 1.4427
mul.f32 %f6, %f4, %f5;
cvt.rzi.f32.f32 %f7, %f6;
mov.f32 %f8, %f7;
mov.f32 %f9, 0fbf317200; // -0.693146
mov.f32 %f10, %f9;
mov.f32 %f11, %f4;
mad.f32 %f12, %f8, %f10, %f11;
mov.f32 %f13, %f12;
mov.f32 %f14, %f7;
mov.f32 %f15, 0fb5bfbe8e; // -1.42861e-006
mov.f32 %f16, %f15;
mov.f32 %f17, %f13;
mad.f32 %f18, %f14, %f16, %f17;
mov.f32 %f19, %f18;
mov.f32 %f20, 0f3fb8aa3b; // 1.4427
mul.f32 %f21, %f19, %f20;
ex2.approx.f32 %f22, %f21;
mov.f32 %f23, %f22;
ex2.approx.f32 %f24, %f7;
mov.f32 %f25, %f24;
mov.f32 %f26, 0f3f800000; // 1
mov.f32 %f27, %f26;
mad.f32 %f28, %f23, %f25, %f27;
mov.f32 %f29, %f28;
.loc 17 8437 0
mov.f32 %f30, %f29;
rcp.approx.ftz.f32 %f31,%f30;
mov.f32 %f32, %f31;
.loc 17 8429 0
mov.f32 %f33, %f32;
mov.f32 %f34, 0fc0000000; // -2
mov.f32 %f35, %f34;
mov.f32 %f36, 0f3f800000; // 1
mov.f32 %f37, %f36;
mad.f32 %f38, %f33, %f35, %f37;
mov.f32 %f39, %f38;
.loc 17 9237 0
mov.f32 %f40, 0f3f800000; // 1
mov.f32 %f41, 0f42b00000; // 88
setp.ge.f32 %p3, %f2, %f41;
selp.f32 %f42, %f40, %f39, %p3;
mov.b32 %r4, %f42;
mov.b32 %r5, %f1;
and.b32 %r6, %r5, -2147483648;
or.b32 %r7, %r4, %r6;
mov.b32 %f43, %r7;
bra.uni $Lt_67_3842;
$Lt_67_4098:
.loc 17 8429 0
mul.f32 %f44, %f1, %f1;
mov.f32 %f45, 0f3c86a81b; // 0.0164376
mov.f32 %f46, %f45;
mov.f32 %f47, %f44;
mov.f32 %f48, 0fbd57be66; // -0.0526718
mov.f32 %f49, %f48;
mad.f32 %f50, %f46, %f47, %f49;
mov.f32 %f39, %f50;
mov.f32 %f51, %f39;
mov.f32 %f52, %f44;
mov.f32 %f53, 0f3e08677b; // 0.133207
mov.f32 %f54, %f53;
mad.f32 %f55, %f51, %f52, %f54;
mov.f32 %f39, %f55;
mov.f32 %f56, %f39;
mov.f32 %f57, %f44;
mov.f32 %f58, 0fbeaaaa29; // -0.333329
mov.f32 %f59, %f58;
mad.f32 %f60, %f56, %f57, %f59;
mov.f32 %f39, %f60;
mul.f32 %f61, %f44, %f39;
mov.f32 %f62, %f61;
mov.f32 %f63, %f1;
mov.f32 %f64, %f1;
mad.f32 %f65, %f62, %f63, %f64;
mov.f32 %f39, %f65;
.loc 17 9240 0
add.f32 %f66, %f1, %f1;
mov.f32 %f67, 0f00000000; // 0
setp.eq.f32 %p4, %f1, %f67;
selp.f32 %f43, %f66, %f39, %p4;
$Lt_67_3842:
.loc 15 822 0
ld.param.u64 %rd6, [__cudaparm_vec_tanhf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f43;
$Lt_67_3330:
.loc 15 824 0
exit;
$LDWend_vec_tanhf:
} // vec_tanhf
.entry vec_tgammaf (
.param .u64 __cudaparm_vec_tgammaf_n,
.param .u64 __cudaparm_vec_tgammaf_result,
.param .u64 __cudaparm_vec_tgammaf_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<14>;
.reg .u64 %rd<9>;
.reg .f32 %f<139>;
.reg .pred %p<15>;
.loc 15 829 0
$LDWbegin_vec_tgammaf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_tgammaf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_68_11778;
.loc 15 834 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_tgammaf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
.loc 17 10732 0
mov.f32 %f2, %f1;
mov.f32 %f3, 0f00000000; // 0
setp.ge.f32 %p2, %f1, %f3;
@!%p2 bra $Lt_68_12546;
.loc 17 10735 0
mov.f32 %f4, 0f42100000; // 36
setp.gt.f32 %p3, %f1, %f4;
mov.f32 %f5, 0f42100000; // 36
selp.f32 %f6, %f5, %f1, %p3;
mov.f32 %f7, 0f42081eb8; // 34.03
setp.gt.f32 %p4, %f6, %f7;
mov.f32 %f8, 0fbf800000; // -1
add.f32 %f9, %f6, %f8;
selp.f32 %f10, %f9, %f6, %p4;
mov.f32 %f11, %f10;
mov.f32 %f12, 0f3fc00000; // 1.5
setp.gt.f32 %p5, %f10, %f12;
@!%p5 bra $Lt_68_16386;
mov.f32 %f13, 0f3f800000; // 1
$Lt_68_13314:
.loc 17 10741 0
mov.f32 %f14, 0fbf800000; // -1
add.f32 %f11, %f11, %f14;
.loc 17 10742 0
mul.f32 %f13, %f11, %f13;
mov.f32 %f15, 0f3fc00000; // 1.5
setp.gt.f32 %p6, %f11, %f15;
@%p6 bra $Lt_68_13314;
bra.uni $Lt_68_12802;
$Lt_68_16386:
mov.f32 %f13, 0f3f800000; // 1
$Lt_68_12802:
.loc 17 10744 0
mov.f32 %f16, 0fbf800000; // -1
add.f32 %f17, %f11, %f16;
mov.f32 %f18, 0f3f000000; // 0.5
setp.ge.f32 %p7, %f6, %f18;
selp.f32 %f11, %f17, %f11, %p7;
.loc 17 8429 0
mov.f32 %f19, 0fba8aa19e; // -0.00105767
mov.f32 %f20, %f19;
mov.f32 %f21, %f11;
mov.f32 %f22, 0f3be86aa4; // 0.00709279
mov.f32 %f23, %f22;
mad.f32 %f24, %f20, %f21, %f23;
mov.f32 %f25, %f24;
mov.f32 %f26, %f25;
mov.f32 %f27, %f11;
mov.f32 %f28, 0fbc1e2998; // -0.00965347
mov.f32 %f29, %f28;
mad.f32 %f30, %f26, %f27, %f29;
mov.f32 %f25, %f30;
mov.f32 %f31, %f25;
mov.f32 %f32, %f11;
mov.f32 %f33, 0fbd2cbe4a; // -0.0421737
mov.f32 %f34, %f33;
mad.f32 %f35, %f31, %f32, %f34;
mov.f32 %f25, %f35;
mov.f32 %f36, %f25;
mov.f32 %f37, %f11;
mov.f32 %f38, 0f3e2a8a17; // 0.166542
mov.f32 %f39, %f38;
mad.f32 %f40, %f36, %f37, %f39;
mov.f32 %f25, %f40;
mov.f32 %f41, %f25;
mov.f32 %f42, %f11;
mov.f32 %f43, 0fbd2c0cbb; // -0.0420043
mov.f32 %f44, %f43;
mad.f32 %f45, %f41, %f42, %f44;
mov.f32 %f25, %f45;
mov.f32 %f46, %f25;
mov.f32 %f47, %f11;
mov.f32 %f48, 0fbf27e7a3; // -0.655878
mov.f32 %f49, %f48;
mad.f32 %f50, %f46, %f47, %f49;
mov.f32 %f25, %f50;
mov.f32 %f51, %f25;
mov.f32 %f52, %f11;
mov.f32 %f53, 0f3f13c468; // 0.577216
mov.f32 %f54, %f53;
mad.f32 %f55, %f51, %f52, %f54;
mov.f32 %f25, %f55;
mov.f32 %f56, %f25;
mov.f32 %f57, %f11;
mov.f32 %f58, 0f3f800000; // 1
mov.f32 %f59, %f58;
mad.f32 %f60, %f56, %f57, %f59;
mov.f32 %f25, %f60;
.loc 17 10751 0
mul.f32 %f61, %f6, %f25;
mov.f32 %f62, 0f3f000000; // 0.5
setp.lt.f32 %p8, %f6, %f62;
selp.f32 %f63, %f61, %f25, %p8;
div.approx.f32 %f13, %f13, %f63;
@!%p4 bra $Lt_68_13826;
.loc 17 10755 0
mul.f32 %f13, %f9, %f13;
$Lt_68_13826:
mov.f32 %f64, %f13;
bra.uni $Lt_68_12290;
$Lt_68_12546:
cvt.rmi.f32.f32 %f65, %f1;
setp.eq.f32 %p9, %f65, %f1;
@!%p9 bra $Lt_68_14338;
.loc 17 10760 0
mov.f32 %f66, 0fffc00000; // -1.#IND
rsqrt.approx.f32 %f2, %f66;
$Lt_68_14338:
.loc 17 10763 0
mov.f32 %f67, 0fc2246666; // -41.1
setp.lt.f32 %p10, %f2, %f67;
mov.f32 %f68, 0fc2246666; // -41.1
selp.f32 %f69, %f68, %f2, %p10;
mov.f32 %f70, 0fc2081eb8; // -34.03
setp.lt.f32 %p11, %f69, %f70;
mov.f32 %f71, 0f40c00000; // 6
add.f32 %f72, %f69, %f71;
selp.f32 %f73, %f72, %f69, %p11;
mov.f32 %f11, %f73;
.loc 17 10767 0
mov.f32 %f13, %f73;
mov.f32 %f74, 0fbf000000; // -0.5
setp.lt.f32 %p12, %f73, %f74;
@!%p12 bra $Lt_68_14850;
$Lt_68_15362:
.loc 17 10769 0
mov.f32 %f75, 0f3f800000; // 1
add.f32 %f11, %f11, %f75;
.loc 17 10770 0
mul.f32 %f13, %f11, %f13;
mov.f32 %f76, 0fbf000000; // -0.5
setp.lt.f32 %p13, %f11, %f76;
@%p13 bra $Lt_68_15362;
$Lt_68_14850:
.loc 17 8429 0
mov.f32 %f77, 0fba8aa19e; // -0.00105767
mov.f32 %f78, %f77;
mov.f32 %f79, %f11;
mov.f32 %f80, 0f3be86aa4; // 0.00709279
mov.f32 %f81, %f80;
mad.f32 %f82, %f78, %f79, %f81;
mov.f32 %f25, %f82;
mov.f32 %f83, %f25;
mov.f32 %f84, %f11;
mov.f32 %f85, 0fbc1e2998; // -0.00965347
mov.f32 %f86, %f85;
mad.f32 %f87, %f83, %f84, %f86;
mov.f32 %f25, %f87;
mov.f32 %f88, %f25;
mov.f32 %f89, %f11;
mov.f32 %f90, 0fbd2cbe4a; // -0.0421737
mov.f32 %f91, %f90;
mad.f32 %f92, %f88, %f89, %f91;
mov.f32 %f25, %f92;
mov.f32 %f93, %f25;
mov.f32 %f94, %f11;
mov.f32 %f95, 0f3e2a8a17; // 0.166542
mov.f32 %f96, %f95;
mad.f32 %f97, %f93, %f94, %f96;
mov.f32 %f25, %f97;
mov.f32 %f98, %f25;
mov.f32 %f99, %f11;
mov.f32 %f100, 0fbd2c0cbb; // -0.0420043
mov.f32 %f101, %f100;
mad.f32 %f102, %f98, %f99, %f101;
mov.f32 %f25, %f102;
mov.f32 %f103, %f25;
mov.f32 %f104, %f11;
mov.f32 %f105, 0fbf27e7a3; // -0.655878
mov.f32 %f106, %f105;
mad.f32 %f107, %f103, %f104, %f106;
mov.f32 %f25, %f107;
mov.f32 %f108, %f25;
mov.f32 %f109, %f11;
mov.f32 %f110, 0f3f13c468; // 0.577216
mov.f32 %f111, %f110;
mad.f32 %f112, %f108, %f109, %f111;
mov.f32 %f25, %f112;
mov.f32 %f113, %f25;
mov.f32 %f114, %f11;
mov.f32 %f115, 0f3f800000; // 1
mov.f32 %f116, %f115;
mad.f32 %f117, %f113, %f114, %f116;
mov.f32 %f25, %f117;
.loc 17 10773 0
mul.f32 %f118, %f25, %f13;
.loc 17 10774 0
rcp.approx.f32 %f13, %f118;
@!%p11 bra $Lt_68_15874;
.loc 17 10783 0
mov.f32 %f119, 0f40a00000; // 5
add.f32 %f120, %f69, %f119;
mov.f32 %f121, 0f40800000; // 4
add.f32 %f122, %f69, %f121;
mov.f32 %f123, 0f40400000; // 3
add.f32 %f124, %f69, %f123;
mov.f32 %f125, 0f40000000; // 2
add.f32 %f126, %f69, %f125;
mov.f32 %f127, 0f3f800000; // 1
add.f32 %f128, %f69, %f127;
mul.f32 %f129, %f69, %f128;
mul.f32 %f130, %f126, %f129;
mul.f32 %f131, %f124, %f130;
mul.f32 %f132, %f122, %f131;
mul.f32 %f133, %f120, %f132;
rcp.approx.f32 %f134, %f133;
mul.f32 %f135, %f13, %f134;
.loc 17 10776 0
mov.f32 %f136, 0f80000000; // -0
cvt.rzi.s32.f32 %r4, %f1;
and.b32 %r5, %r4, 1;
mov.s32 %r6, 0;
set.eq.u32.s32 %r7, %r5, %r6;
neg.s32 %r8, %r7;
mov.f32 %f137, 0fc2280000; // -42
set.lt.u32.f32 %r9, %f1, %f137;
neg.s32 %r10, %r9;
and.b32 %r11, %r8, %r10;
neg.s32 %r12, %r11;
slct.f32.s32 %f13, %f135, %f136, %r12;
$Lt_68_15874:
mov.f32 %f64, %f13;
$Lt_68_12290:
.loc 15 834 0
ld.param.u64 %rd6, [__cudaparm_vec_tgammaf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f64;
$Lt_68_11778:
.loc 15 836 0
exit;
$LDWend_vec_tgammaf:
} // vec_tgammaf
.entry vec_truncf (
.param .u64 __cudaparm_vec_truncf_n,
.param .u64 __cudaparm_vec_truncf_result,
.param .u64 __cudaparm_vec_truncf_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<9>;
.reg .f32 %f<4>;
.reg .pred %p<3>;
.loc 15 841 0
$LDWbegin_vec_truncf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_truncf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_69_1026;
.loc 15 846 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_truncf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
cvt.rzi.f32.f32 %f2, %f1;
ld.param.u64 %rd6, [__cudaparm_vec_truncf_result];
add.u64 %rd7, %rd6, %rd3;
st.global.f32 [%rd7+0], %f2;
$Lt_69_1026:
.loc 15 848 0
exit;
$LDWend_vec_truncf:
} // vec_truncf
.entry vec_y0f (
.param .u64 __cudaparm_vec_y0f_n,
.param .u64 __cudaparm_vec_y0f_result,
.param .u64 __cudaparm_vec_y0f_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<312>;
.reg .u64 %rd<34>;
.reg .f32 %f<678>;
.reg .pred %p<51>;
.local .align 4 .b8 __cuda___cuda_result_162104[28];
.local .align 4 .b8 __cuda___cuda_result_442132[28];
.local .align 4 .b8 __cuda___cuda_result_722160[28];
.local .align 4 .b8 __cuda___cuda_result_1002188[28];
.loc 15 853 0
$LDWbegin_vec_y0f:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_y0f_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_70_41218;
.loc 15 858 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_y0f_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
abs.f32 %f2, %f1;
mov.f32 %f3, 0f3ee4c176; // 0.446788
setp.le.f32 %p2, %f2, %f3;
@!%p2 bra $Lt_70_41986;
.loc 17 8429 0
mul.f32 %f4, %f2, %f2;
mov.f32 %f5, 0f33dbe5ac; // 1.02398e-007
mov.f32 %f6, %f5;
mov.f32 %f7, %f4;
mov.f32 %f8, 0fb71f49b6; // -9.4943e-006
mov.f32 %f9, %f8;
mad.f32 %f10, %f6, %f7, %f9;
mov.f32 %f11, %f10;
mov.f32 %f12, %f11;
mov.f32 %f13, %f4;
mov.f32 %f14, 0f3a0d3100; // 0.000538602
mov.f32 %f15, %f14;
mad.f32 %f16, %f12, %f13, %f15;
mov.f32 %f11, %f16;
mov.f32 %f17, %f11;
mov.f32 %f18, %f4;
mov.f32 %f19, 0fbc83ad8e; // -0.016074
mov.f32 %f20, %f19;
mad.f32 %f21, %f17, %f18, %f20;
mov.f32 %f11, %f21;
mov.f32 %f22, %f11;
mov.f32 %f23, %f4;
mov.f32 %f24, 0f3e35de5a; // 0.177606
mov.f32 %f25, %f24;
mad.f32 %f26, %f22, %f23, %f25;
mov.f32 %f11, %f26;
mov.f32 %f27, %f11;
mov.f32 %f28, %f4;
mov.f32 %f29, 0fbd9726b5; // -0.0738043
mov.f32 %f30, %f29;
mad.f32 %f31, %f27, %f28, %f30;
mov.f32 %f11, %f31;
.loc 17 9365 0
mov.f32 %f32, 0f00000000; // 0
set.gt.u32.f32 %r4, %f2, %f32;
neg.s32 %r5, %r4;
mov.f32 %f33, 0f7f800000; // 1.#INF
set.lt.u32.f32 %r6, %f2, %f33;
neg.s32 %r7, %r6;
and.b32 %r8, %r5, %r7;
mov.u32 %r9, 0;
setp.eq.s32 %p3, %r8, %r9;
@%p3 bra $Lt_70_42498;
.loc 17 8512 0
mov.b32 %r10, %f2;
and.b32 %r11, %r10, -2139095041;
or.b32 %r12, %r11, 1065353216;
mov.b32 %f34, %r12;
mov.f32 %f35, %f34;
.loc 17 8513 0
shr.u32 %r13, %r10, 23;
sub.u32 %r14, %r13, 127;
mov.f32 %f36, 0f3fb504f3; // 1.41421
setp.gt.f32 %p4, %f34, %f36;
@!%p4 bra $Lt_70_42754;
.loc 17 8515 0
mov.f32 %f37, 0f3f000000; // 0.5
mul.f32 %f35, %f34, %f37;
.loc 17 8516 0
add.s32 %r14, %r14, 1;
$Lt_70_42754:
.loc 17 8429 0
mov.f32 %f38, 0fbf800000; // -1
add.f32 %f39, %f35, %f38;
mov.f32 %f40, 0f3f800000; // 1
add.f32 %f41, %f35, %f40;
neg.f32 %f42, %f39;
div.approx.f32 %f43, %f39, %f41;
mul.rn.f32 %f44, %f42, %f43;
add.rn.f32 %f45, %f39, %f44;
mul.f32 %f46, %f45, %f45;
mov.f32 %f47, 0f3b2063c3; // 0.00244735
mov.f32 %f48, %f47;
mov.f32 %f49, %f46;
mov.f32 %f50, 0f3c4c4be0; // 0.0124693
mov.f32 %f51, %f50;
mad.f32 %f52, %f48, %f49, %f51;
mov.f32 %f53, %f52;
mov.f32 %f54, %f53;
mov.f32 %f55, %f46;
mov.f32 %f56, 0f3daaab50; // 0.0833346
mov.f32 %f57, %f56;
mad.f32 %f58, %f54, %f55, %f57;
mov.f32 %f59, %f58;
mul.f32 %f60, %f46, %f59;
mov.f32 %f61, %f60;
mov.f32 %f62, %f45;
mov.f32 %f63, %f44;
mad.f32 %f64, %f61, %f62, %f63;
mov.f32 %f65, %f64;
cvt.rn.f32.s32 %f66, %r14;
mov.f32 %f67, %f66;
mov.f32 %f68, 0f3f317218; // 0.693147
mov.f32 %f69, %f68;
add.f32 %f70, %f39, %f65;
mov.f32 %f71, %f70;
mad.f32 %f72, %f67, %f69, %f71;
mov.f32 %f73, %f72;
.loc 17 8523 0
mov.f32 %f74, %f73;
bra.uni $Lt_70_42242;
$Lt_70_42498:
.loc 17 8526 0
lg2.approx.f32 %f75, %f2;
mov.f32 %f76, 0f3f317218; // 0.693147
mul.f32 %f74, %f75, %f76;
$Lt_70_42242:
.loc 17 9663 0
mov.f32 %f77, 0f41000000; // 8
setp.le.f32 %p5, %f2, %f77;
@!%p5 bra $Lt_70_43522;
.loc 17 8429 0
mov.f32 %f78, 0fc019e8a9; // -2.40483
add.f32 %f79, %f2, %f78;
mov.f32 %f80, 0fb3e971b3; // -1.08706e-007
add.f32 %f81, %f79, %f80;
mov.f32 %f82, 0fa6b3b8e7; // -1.24707e-015
mov.f32 %f83, %f82;
mov.f32 %f84, %f81;
mov.f32 %f85, 0fa9aca9b3; // -7.66777e-014
mov.f32 %f86, %f85;
mad.f32 %f87, %f83, %f84, %f86;
mov.f32 %f88, %f87;
mov.f32 %f89, %f88;
mov.f32 %f90, %f81;
mov.f32 %f91, 0f2c3f0e18; // 2.71506e-012
mov.f32 %f92, %f91;
mad.f32 %f93, %f89, %f90, %f92;
mov.f32 %f88, %f93;
mov.f32 %f94, %f88;
mov.f32 %f95, %f81;
mov.f32 %f96, 0facd41781; // -6.02801e-012
mov.f32 %f97, %f96;
mad.f32 %f98, %f94, %f95, %f97;
mov.f32 %f88, %f98;
mov.f32 %f99, %f88;
mov.f32 %f100, %f81;
mov.f32 %f101, 0fafe90f38; // -4.23933e-010
mov.f32 %f102, %f101;
mad.f32 %f103, %f99, %f100, %f102;
mov.f32 %f88, %f103;
mov.f32 %f104, %f88;
mov.f32 %f105, %f81;
mov.f32 %f106, 0f3020305b; // 5.82764e-010
mov.f32 %f107, %f106;
mad.f32 %f108, %f104, %f105, %f107;
mov.f32 %f88, %f108;
mov.f32 %f109, %f88;
mov.f32 %f110, %f81;
mov.f32 %f111, 0f33797143; // 5.80778e-008
mov.f32 %f112, %f111;
mad.f32 %f113, %f109, %f110, %f112;
mov.f32 %f88, %f113;
mov.f32 %f114, %f88;
mov.f32 %f115, %f81;
mov.f32 %f116, 0f30f76f85; // 1.80033e-009
mov.f32 %f117, %f116;
mad.f32 %f118, %f114, %f115, %f117;
mov.f32 %f88, %f118;
mov.f32 %f119, %f88;
mov.f32 %f120, %f81;
mov.f32 %f121, 0fb6b6dfc6; // -5.45007e-006
mov.f32 %f122, %f121;
mad.f32 %f123, %f119, %f120, %f122;
mov.f32 %f88, %f123;
mov.f32 %f124, %f88;
mov.f32 %f125, %f81;
mov.f32 %f126, 0fb6f665c9; // -7.34322e-006
mov.f32 %f127, %f126;
mad.f32 %f128, %f124, %f125, %f127;
mov.f32 %f88, %f128;
mov.f32 %f129, %f88;
mov.f32 %f130, %f81;
mov.f32 %f131, 0f399e2deb; // 0.000301703
mov.f32 %f132, %f131;
mad.f32 %f133, %f129, %f130, %f132;
mov.f32 %f88, %f133;
mov.f32 %f134, %f88;
mov.f32 %f135, %f81;
mov.f32 %f136, 0f3a4ae334; // 0.000773954
mov.f32 %f137, %f136;
mad.f32 %f138, %f134, %f135, %f137;
mov.f32 %f88, %f138;
mov.f32 %f139, %f88;
mov.f32 %f140, %f81;
mov.f32 %f141, 0fbbeeaa1b; // -0.00728346
mov.f32 %f142, %f141;
mad.f32 %f143, %f139, %f140, %f142;
mov.f32 %f88, %f143;
mov.f32 %f144, %f88;
mov.f32 %f145, %f81;
mov.f32 %f146, 0fbcda7747; // -0.0266682
mov.f32 %f147, %f146;
mad.f32 %f148, %f144, %f145, %f147;
mov.f32 %f88, %f148;
.loc 17 9562 0
mov.f32 %f149, 0fc10a75ab; // -8.65373
add.f32 %f150, %f2, %f149;
mov.f32 %f151, 0fb4cccded; // -3.81478e-007
add.f32 %f152, %f150, %f151;
mov.f32 %f153, 0fc0b0a47b; // -5.52008
add.f32 %f154, %f2, %f153;
mov.f32 %f155, 0f339a7a37; // 7.19341e-008
add.f32 %f156, %f154, %f155;
mul.f32 %f157, %f81, %f88;
mul.f32 %f158, %f156, %f157;
mul.f32 %f159, %f152, %f158;
bra.uni $Lt_70_43266;
$Lt_70_43522:
.loc 17 9563 0
mov.f32 %f160, 0f7f800000; // 1.#INF
setp.eq.f32 %p6, %f2, %f160;
@%p6 bra $Lt_70_44034;
.loc 17 8437 0
mov.f32 %f161, %f2;
rcp.approx.ftz.f32 %f162,%f161;
mov.f32 %f163, %f162;
.loc 17 8429 0
mul.f32 %f164, %f163, %f163;
mov.f32 %f165, 0f4056fe93; // 3.35929
mov.f32 %f166, %f165;
mov.f32 %f167, %f164;
mov.f32 %f168, 0fbf03b7c2; // -0.514523
mov.f32 %f169, %f168;
mad.f32 %f170, %f166, %f167, %f169;
mov.f32 %f88, %f170;
mov.f32 %f171, %f88;
mov.f32 %f172, %f164;
mov.f32 %f173, 0f3dd3b3f3; // 0.103371
mov.f32 %f174, %f173;
mad.f32 %f175, %f171, %f172, %f174;
mov.f32 %f88, %f175;
mov.f32 %f176, %f88;
mov.f32 %f177, %f164;
mov.f32 %f178, 0fbd7fffb6; // -0.0624997
mov.f32 %f179, %f178;
mad.f32 %f180, %f176, %f177, %f179;
mov.f32 %f88, %f180;
mov.f32 %f181, %f88;
mov.f32 %f182, %f164;
mov.f32 %f183, 0f3f800000; // 1
mov.f32 %f184, %f183;
mad.f32 %f185, %f181, %f182, %f184;
mov.f32 %f186, %f185;
mov.f32 %f187, 0f3f91e009; // 1.13965
mov.f32 %f188, %f187;
mov.f32 %f189, %f164;
mov.f32 %f190, 0fbe52412d; // -0.205327
mov.f32 %f191, %f190;
mad.f32 %f192, %f188, %f189, %f191;
mov.f32 %f88, %f192;
mov.f32 %f193, %f88;
mov.f32 %f194, %f164;
mov.f32 %f195, 0f3d854ed1; // 0.0650917
mov.f32 %f196, %f195;
mad.f32 %f197, %f193, %f194, %f196;
mov.f32 %f88, %f197;
mov.f32 %f198, %f88;
mov.f32 %f199, %f164;
mov.f32 %f200, 0fbdffffff; // -0.125
mov.f32 %f201, %f200;
mad.f32 %f202, %f198, %f199, %f201;
mov.f32 %f88, %f202;
mov.f32 %f203, %f88;
mov.f32 %f204, %f163;
mov.f32 %f205, %f2;
mad.f32 %f206, %f203, %f204, %f205;
mov.f32 %f88, %f206;
.loc 17 8726 0
mov.f32 %f207, 0f3f22f983; // 0.63662
mul.f32 %f208, %f88, %f207;
cvt.rni.s32.f32 %r15, %f208;
mov.s32 %r16, %r15;
.loc 17 8429 0
cvt.rn.f32.s32 %f209, %r15;
neg.f32 %f210, %f209;
mov.f32 %f211, %f210;
mov.f32 %f212, 0f3fc90000; // 1.57031
mov.f32 %f213, %f212;
mov.f32 %f214, %f88;
mad.f32 %f215, %f211, %f213, %f214;
mov.f32 %f216, %f215;
mov.f32 %f217, %f210;
mov.f32 %f218, 0f39fd8000; // 0.000483513
mov.f32 %f219, %f218;
mov.f32 %f220, %f216;
mad.f32 %f221, %f217, %f219, %f220;
mov.f32 %f222, %f221;
mov.f32 %f223, %f210;
mov.f32 %f224, 0f34a88000; // 3.13856e-007
mov.f32 %f225, %f224;
mov.f32 %f226, %f222;
mad.f32 %f227, %f223, %f225, %f226;
mov.f32 %f228, %f227;
mov.f32 %f229, %f210;
mov.f32 %f230, 0f2e85a309; // 6.0771e-011
mov.f32 %f231, %f230;
mov.f32 %f232, %f228;
mad.f32 %f233, %f229, %f231, %f232;
mov.f32 %f234, %f233;
.loc 17 8737 0
mov.f32 %f235, %f234;
abs.f32 %f236, %f88;
mov.f32 %f237, 0f473ba700; // 48039
setp.gt.f32 %p7, %f236, %f237;
@!%p7 bra $Lt_70_44290;
.loc 17 8740 0
mov.u64 %rd6, __cudart_i2opi_f;
.loc 17 8658 0
mov.b32 %r17, %f88;
and.b32 %r18, %r17, -2147483648;
mov.s32 %r19, %r18;
.loc 17 24 0
shl.b32 %r20, %r17, 8;
or.b32 %r21, %r20, -2147483648;
mov.s64 %rd7, %rd6;
mov.u64 %rd8, __cuda___cuda_result_162104;
mov.s32 %r22, 0;
mov.u32 %r23, 0;
$Lt_70_45314:
// Loop body line 24, nesting depth: 1, iterations: 6
.loc 17 8674 0
ld.const.u32 %r24, [%rd7+0];
mul.lo.u32 %r25, %r21, %r24;
add.u32 %r26, %r25, %r23;
.loc 17 8675 0
set.gt.u32.u32 %r27, %r25, %r26;
neg.s32 %r28, %r27;
mul.hi.u32 %r29, %r24, %r21;
add.u32 %r23, %r28, %r29;
.loc 17 8676 0
st.local.u32 [%rd8+0], %r26;
add.s32 %r22, %r22, 1;
add.u64 %rd8, %rd8, 4;
add.u64 %rd7, %rd7, 4;
mov.u32 %r30, 6;
setp.ne.s32 %p8, %r22, %r30;
@%p8 bra $Lt_70_45314;
.loc 17 8678 0
st.local.u32 [__cuda___cuda_result_162104+24], %r23;
.loc 17 8683 0
shl.b32 %r31, %r17, 1;
shr.u32 %r32, %r31, 24;
sub.u32 %r33, %r32, 128;
mov.u64 %rd9, __cuda___cuda_result_162104;
shr.u32 %r34, %r33, 5;
mov.s32 %r35, 4;
sub.s32 %r36, %r35, %r34;
cvt.s64.s32 %rd10, %r36;
mul.wide.s32 %rd11, %r36, 4;
add.u64 %rd12, %rd9, %rd11;
ld.local.u32 %r23, [%rd12+8];
.loc 17 8684 0
ld.local.u32 %r37, [%rd12+4];
and.b32 %r38, %r33, 31;
mov.u32 %r39, 0;
setp.eq.u32 %p9, %r38, %r39;
@%p9 bra $Lt_70_45826;
.loc 17 8687 0
mov.s32 %r40, 32;
sub.s32 %r41, %r40, %r38;
shr.u32 %r42, %r37, %r41;
shl.b32 %r43, %r23, %r38;
add.u32 %r23, %r42, %r43;
.loc 17 8688 0
ld.local.u32 %r44, [%rd12+0];
shr.u32 %r45, %r44, %r41;
shl.b32 %r46, %r37, %r38;
add.u32 %r37, %r45, %r46;
$Lt_70_45826:
.loc 17 8690 0
shr.u32 %r47, %r23, 30;
.loc 17 8692 0
shr.u32 %r48, %r37, 30;
shl.b32 %r49, %r23, 2;
add.u32 %r23, %r48, %r49;
.loc 17 8693 0
shl.b32 %r37, %r37, 2;
.loc 17 8695 0
shr.u32 %r50, %r23, 31;
add.u32 %r51, %r47, %r50;
.loc 17 8690 0
neg.s32 %r52, %r51;
mov.u32 %r53, 0;
setp.ne.u32 %p10, %r18, %r53;
selp.s32 %r22, %r52, %r51, %p10;
.loc 17 8697 0
mov.s32 %r16, %r22;
mov.u32 %r54, 0;
setp.eq.u32 %p11, %r50, %r54;
@%p11 bra $Lt_70_46338;
.loc 17 8701 0
neg.s32 %r37, %r37;
.loc 17 8703 0
mov.u32 %r55, 0;
set.eq.u32.u32 %r56, %r37, %r55;
neg.s32 %r57, %r56;
not.b32 %r58, %r23;
add.u32 %r23, %r57, %r58;
.loc 17 8704 0
xor.b32 %r19, %r18, -2147483648;
$Lt_70_46338:
.loc 17 8707 0
mov.u32 %r59, 0;
setp.eq.s32 %p12, %r23, %r59;
@%p12 bra $Lt_70_47106;
.loc 19 4479 0
cvt.rz.f32.u32 %f238, %r23;
mov.b32 %r60, %f238;
shr.s32 %r61, %r60, 23;
mov.s32 %r62, 158;
sub.s32 %r63, %r62, %r61;
bra.uni $Lt_70_46850;
$Lt_70_47106:
mov.s32 %r63, 32;
$Lt_70_46850:
.loc 17 8707 0
mov.s32 %r64, %r63;
mov.s32 %r65, %r64;
.loc 19 4479 0
mov.s32 %r66, 32;
sub.s32 %r67, %r66, %r64;
shr.u32 %r68, %r37, %r67;
shl.b32 %r69, %r23, %r64;
add.u32 %r70, %r68, %r69;
mov.u32 %r71, 0;
setp.ne.u32 %p13, %r64, %r71;
selp.u32 %r72, %r70, %r23, %p13;
.loc 17 8711 0
mul.lo.u32 %r37, %r72, -921707870;
.loc 17 8712 0
mov.u32 %r73, -921707870;
mul.hi.u32 %r23, %r72, %r73;
mov.u32 %r74, 0;
setp.le.s32 %p14, %r23, %r74;
@%p14 bra $Lt_70_47362;
.loc 17 8714 0
shr.u32 %r75, %r37, 31;
shl.b32 %r76, %r23, 1;
add.u32 %r23, %r75, %r76;
.loc 17 8715 0
add.u32 %r65, %r64, 1;
$Lt_70_47362:
.loc 17 8740 0
add.u32 %r77, %r23, 1;
shr.u32 %r78, %r77, 7;
add.u32 %r79, %r78, 1;
shr.u32 %r80, %r79, 1;
mov.s32 %r81, 126;
sub.s32 %r82, %r81, %r65;
shl.b32 %r83, %r82, 23;
add.u32 %r84, %r80, %r83;
or.b32 %r85, %r19, %r84;
mov.b32 %f235, %r85;
$Lt_70_44290:
.loc 17 8990 0
mov.u64 %rd6, __cudart_i2opi_f;
mov.f32 %f239, 0fbf490fdb; // -0.785398
add.f32 %f240, %f235, %f239;
and.b32 %r86, %r16, 3;
cvt.rn.f32.s32 %f241, %r86;
mov.f32 %f242, 0f3fc90fdb; // 1.5708
mad.f32 %f243, %f241, %f242, %f240;
mov.f32 %f244, %f243;
.loc 17 8970 0
abs.f32 %f245, %f243;
mov.f32 %f246, 0f7f800000; // 1.#INF
setp.eq.f32 %p15, %f245, %f246;
@!%p15 bra $Lt_70_47874;
.loc 17 8971 0
mov.f32 %f247, 0f00000000; // 0
mul.rn.f32 %f244, %f243, %f247;
$Lt_70_47874:
.loc 17 8726 0
mov.f32 %f248, 0f3f22f983; // 0.63662
mul.f32 %f249, %f244, %f248;
cvt.rni.s32.f32 %r87, %f249;
mov.s32 %r88, %r87;
.loc 17 8429 0
cvt.rn.f32.s32 %f250, %r87;
neg.f32 %f251, %f250;
mov.f32 %f252, %f251;
mov.f32 %f253, 0f3fc90000; // 1.57031
mov.f32 %f254, %f253;
mov.f32 %f255, %f244;
mad.f32 %f256, %f252, %f254, %f255;
mov.f32 %f257, %f256;
mov.f32 %f258, %f251;
mov.f32 %f259, 0f39fd8000; // 0.000483513
mov.f32 %f260, %f259;
mov.f32 %f261, %f257;
mad.f32 %f262, %f258, %f260, %f261;
mov.f32 %f263, %f262;
mov.f32 %f264, %f251;
mov.f32 %f265, 0f34a88000; // 3.13856e-007
mov.f32 %f266, %f265;
mov.f32 %f267, %f263;
mad.f32 %f268, %f264, %f266, %f267;
mov.f32 %f269, %f268;
mov.f32 %f270, %f251;
mov.f32 %f271, 0f2e85a309; // 6.0771e-011
mov.f32 %f272, %f271;
mov.f32 %f273, %f269;
mad.f32 %f274, %f270, %f272, %f273;
mov.f32 %f275, %f274;
.loc 17 8737 0
mov.f32 %f276, %f275;
abs.f32 %f277, %f244;
mov.f32 %f278, 0f473ba700; // 48039
setp.gt.f32 %p16, %f277, %f278;
@!%p16 bra $Lt_70_48386;
.loc 17 8658 0
mov.b32 %r89, %f244;
and.b32 %r90, %r89, -2147483648;
mov.s32 %r91, %r90;
.loc 17 24 0
shl.b32 %r92, %r89, 8;
or.b32 %r93, %r92, -2147483648;
mov.s64 %rd13, %rd6;
mov.u64 %rd14, __cuda___cuda_result_442132;
mov.s32 %r94, 0;
mov.u32 %r95, 0;
$Lt_70_49410:
// Loop body line 24, nesting depth: 1, iterations: 6
.loc 17 8674 0
ld.const.u32 %r96, [%rd13+0];
mul.lo.u32 %r97, %r93, %r96;
add.u32 %r98, %r97, %r95;
.loc 17 8675 0
set.gt.u32.u32 %r99, %r97, %r98;
neg.s32 %r100, %r99;
mul.hi.u32 %r101, %r96, %r93;
add.u32 %r95, %r100, %r101;
.loc 17 8676 0
st.local.u32 [%rd14+0], %r98;
add.s32 %r94, %r94, 1;
add.u64 %rd14, %rd14, 4;
add.u64 %rd13, %rd13, 4;
mov.u32 %r102, 6;
setp.ne.s32 %p17, %r94, %r102;
@%p17 bra $Lt_70_49410;
.loc 17 8678 0
st.local.u32 [__cuda___cuda_result_442132+24], %r95;
.loc 17 8683 0
shl.b32 %r103, %r89, 1;
shr.u32 %r104, %r103, 24;
sub.u32 %r105, %r104, 128;
mov.u64 %rd15, __cuda___cuda_result_442132;
shr.u32 %r106, %r105, 5;
mov.s32 %r107, 4;
sub.s32 %r108, %r107, %r106;
cvt.s64.s32 %rd16, %r108;
mul.wide.s32 %rd17, %r108, 4;
add.u64 %rd18, %rd15, %rd17;
ld.local.u32 %r95, [%rd18+8];
.loc 17 8684 0
ld.local.u32 %r109, [%rd18+4];
and.b32 %r110, %r105, 31;
mov.u32 %r111, 0;
setp.eq.u32 %p18, %r110, %r111;
@%p18 bra $Lt_70_49922;
.loc 17 8687 0
mov.s32 %r112, 32;
sub.s32 %r113, %r112, %r110;
shr.u32 %r114, %r109, %r113;
shl.b32 %r115, %r95, %r110;
add.u32 %r95, %r114, %r115;
.loc 17 8688 0
ld.local.u32 %r116, [%rd18+0];
shr.u32 %r117, %r116, %r113;
shl.b32 %r118, %r109, %r110;
add.u32 %r109, %r117, %r118;
$Lt_70_49922:
.loc 17 8690 0
shr.u32 %r119, %r95, 30;
.loc 17 8692 0
shr.u32 %r120, %r109, 30;
shl.b32 %r121, %r95, 2;
add.u32 %r95, %r120, %r121;
.loc 17 8693 0
shl.b32 %r109, %r109, 2;
.loc 17 8695 0
shr.u32 %r122, %r95, 31;
add.u32 %r123, %r119, %r122;
.loc 17 8690 0
neg.s32 %r124, %r123;
mov.u32 %r125, 0;
setp.ne.u32 %p19, %r90, %r125;
selp.s32 %r94, %r124, %r123, %p19;
.loc 17 8697 0
mov.s32 %r88, %r94;
mov.u32 %r126, 0;
setp.eq.u32 %p20, %r122, %r126;
@%p20 bra $Lt_70_50434;
.loc 17 8701 0
neg.s32 %r109, %r109;
.loc 17 8703 0
mov.u32 %r127, 0;
set.eq.u32.u32 %r128, %r109, %r127;
neg.s32 %r129, %r128;
not.b32 %r130, %r95;
add.u32 %r95, %r129, %r130;
.loc 17 8704 0
xor.b32 %r91, %r90, -2147483648;
$Lt_70_50434:
.loc 17 8707 0
mov.u32 %r131, 0;
setp.eq.s32 %p21, %r95, %r131;
@%p21 bra $Lt_70_51202;
.loc 19 4479 0
cvt.rz.f32.u32 %f279, %r95;
mov.b32 %r132, %f279;
shr.s32 %r133, %r132, 23;
mov.s32 %r134, 158;
sub.s32 %r135, %r134, %r133;
bra.uni $Lt_70_50946;
$Lt_70_51202:
mov.s32 %r135, 32;
$Lt_70_50946:
.loc 17 8707 0
mov.s32 %r136, %r135;
mov.s32 %r137, %r136;
.loc 19 4479 0
mov.s32 %r138, 32;
sub.s32 %r139, %r138, %r136;
shr.u32 %r140, %r109, %r139;
shl.b32 %r141, %r95, %r136;
add.u32 %r142, %r140, %r141;
mov.u32 %r143, 0;
setp.ne.u32 %p22, %r136, %r143;
selp.u32 %r144, %r142, %r95, %p22;
.loc 17 8711 0
mul.lo.u32 %r109, %r144, -921707870;
.loc 17 8712 0
mov.u32 %r145, -921707870;
mul.hi.u32 %r95, %r144, %r145;
mov.u32 %r146, 0;
setp.le.s32 %p23, %r95, %r146;
@%p23 bra $Lt_70_51458;
.loc 17 8714 0
shr.u32 %r147, %r109, 31;
shl.b32 %r148, %r95, 1;
add.u32 %r95, %r147, %r148;
.loc 17 8715 0
add.u32 %r137, %r136, 1;
$Lt_70_51458:
.loc 17 8740 0
add.u32 %r149, %r95, 1;
shr.u32 %r150, %r149, 7;
add.u32 %r151, %r150, 1;
shr.u32 %r152, %r151, 1;
mov.s32 %r153, 126;
sub.s32 %r154, %r153, %r137;
shl.b32 %r155, %r154, 23;
add.u32 %r156, %r152, %r155;
or.b32 %r157, %r91, %r156;
mov.b32 %f276, %r157;
$Lt_70_48386:
.loc 17 8975 0
add.s32 %r158, %r88, 1;
mul.f32 %f280, %f276, %f276;
and.b32 %r159, %r158, 1;
mov.u32 %r160, 0;
setp.eq.s32 %p24, %r159, %r160;
@%p24 bra $Lt_70_52226;
.loc 17 8429 0
mov.f32 %f281, 0f37ccf5ce; // 2.44332e-005
mov.f32 %f282, %f281;
mov.f32 %f283, %f280;
mov.f32 %f284, 0fbab6061a; // -0.00138873
mov.f32 %f285, %f284;
mad.f32 %f286, %f282, %f283, %f285;
mov.f32 %f287, %f286;
mov.f32 %f288, %f287;
mov.f32 %f289, %f280;
mov.f32 %f290, 0f3d2aaaa5; // 0.0416666
mov.f32 %f291, %f290;
mad.f32 %f292, %f288, %f289, %f291;
mov.f32 %f293, %f292;
mov.f32 %f294, %f293;
mov.f32 %f295, %f280;
mov.f32 %f296, 0fbf000000; // -0.5
mov.f32 %f297, %f296;
mad.f32 %f298, %f294, %f295, %f297;
mov.f32 %f299, %f298;
mov.f32 %f300, %f299;
mov.f32 %f301, %f280;
mov.f32 %f302, 0f3f800000; // 1
mov.f32 %f303, %f302;
mad.f32 %f304, %f300, %f301, %f303;
mov.f32 %f305, %f304;
.loc 17 8936 0
mov.f32 %f306, %f305;
bra.uni $Lt_70_51970;
$Lt_70_52226:
.loc 17 8429 0
mov.f32 %f307, 0fb94ca1f9; // -0.000195153
mov.f32 %f308, %f307;
mov.f32 %f309, %f280;
mov.f32 %f310, 0f3c08839e; // 0.00833216
mov.f32 %f311, %f310;
mad.f32 %f312, %f308, %f309, %f311;
mov.f32 %f313, %f312;
mov.f32 %f314, %f313;
mov.f32 %f315, %f280;
mov.f32 %f316, 0fbe2aaaa3; // -0.166667
mov.f32 %f317, %f316;
mad.f32 %f318, %f314, %f315, %f317;
mov.f32 %f319, %f318;
mul.f32 %f320, %f280, %f319;
mov.f32 %f321, %f320;
mov.f32 %f322, %f276;
mov.f32 %f323, %f276;
mad.f32 %f324, %f321, %f322, %f323;
mov.f32 %f325, %f324;
.loc 17 8938 0
mov.f32 %f306, %f325;
$Lt_70_51970:
and.b32 %r161, %r158, 2;
mov.u32 %r162, 0;
setp.eq.s32 %p25, %r161, %r162;
@%p25 bra $Lt_70_52482;
.loc 17 8429 0
mov.f32 %f326, %f306;
mov.f32 %f327, 0fbf800000; // -1
mov.f32 %f328, %f327;
mov.f32 %f329, 0f00000000; // 0
mov.f32 %f330, %f329;
mad.f32 %f331, %f326, %f328, %f330;
mov.f32 %f332, %f331;
.loc 17 8941 0
mov.f32 %f306, %f332;
$Lt_70_52482:
.loc 17 9581 0
rsqrt.approx.f32 %f333, %f2;
mov.f32 %f334, 0f3f4c422a; // 0.797885
mul.f32 %f335, %f333, %f334;
mul.f32 %f336, %f186, %f335;
mul.f32 %f159, %f306, %f336;
bra.uni $Lt_70_43778;
$Lt_70_44034:
.loc 17 9584 0
mov.f32 %f159, 0f00000000; // 0
$Lt_70_43778:
$Lt_70_43266:
.loc 17 9663 0
mov.f32 %f337, 0f3f22f983; // 0.63662
mul.f32 %f338, %f74, %f337;
mad.f32 %f339, %f159, %f338, %f11;
bra.uni $Lt_70_41730;
$Lt_70_41986:
mov.f32 %f340, 0f3ff67af8; // 1.92563
setp.le.f32 %p26, %f2, %f340;
@!%p26 bra $Lt_70_53250;
.loc 17 8429 0
mov.f32 %f341, 0fbf64c176; // -0.893577
add.f32 %f342, %f2, %f341;
mov.f32 %f343, 0f32657d03; // 1.3358e-008
add.f32 %f344, %f342, %f343;
mov.f32 %f345, 0f3cddc8b3; // 0.0270732
mov.f32 %f346, %f345;
mov.f32 %f347, %f344;
mov.f32 %f348, 0fbe02574c; // -0.127286
mov.f32 %f349, %f348;
mad.f32 %f350, %f346, %f347, %f349;
mov.f32 %f11, %f350;
mov.f32 %f351, %f11;
mov.f32 %f352, %f344;
mov.f32 %f353, 0f3e7f2cc9; // 0.249194
mov.f32 %f354, %f353;
mad.f32 %f355, %f351, %f352, %f354;
mov.f32 %f11, %f355;
mov.f32 %f356, %f11;
mov.f32 %f357, %f344;
mov.f32 %f358, 0fbe8bf29b; // -0.273335
mov.f32 %f359, %f358;
mad.f32 %f360, %f356, %f357, %f359;
mov.f32 %f11, %f360;
mov.f32 %f361, %f11;
mov.f32 %f362, %f344;
mov.f32 %f363, 0f3e5bce93; // 0.214655
mov.f32 %f364, %f363;
mad.f32 %f365, %f361, %f362, %f364;
mov.f32 %f11, %f365;
mov.f32 %f366, %f11;
mov.f32 %f367, %f344;
mov.f32 %f368, 0fbe38c4ff; // -0.180439
mov.f32 %f369, %f368;
mad.f32 %f370, %f366, %f367, %f369;
mov.f32 %f11, %f370;
mov.f32 %f371, %f11;
mov.f32 %f372, %f344;
mov.f32 %f373, 0f3e42774d; // 0.189908
mov.f32 %f374, %f373;
mad.f32 %f375, %f371, %f372, %f374;
mov.f32 %f11, %f375;
mov.f32 %f376, %f11;
mov.f32 %f377, %f344;
mov.f32 %f378, 0fbe525cb2; // -0.205432
mov.f32 %f379, %f378;
mad.f32 %f380, %f376, %f377, %f379;
mov.f32 %f11, %f380;
mov.f32 %f381, %f11;
mov.f32 %f382, %f344;
mov.f32 %f383, 0f3e60f43d; // 0.219682
mov.f32 %f384, %f383;
mad.f32 %f385, %f381, %f382, %f384;
mov.f32 %f11, %f385;
mov.f32 %f386, %f11;
mov.f32 %f387, %f344;
mov.f32 %f388, 0fbe679145; // -0.22614
mov.f32 %f389, %f388;
mad.f32 %f390, %f386, %f387, %f389;
mov.f32 %f11, %f390;
mov.f32 %f391, %f11;
mov.f32 %f392, %f344;
mov.f32 %f393, 0f3e61d24a; // 0.220529
mov.f32 %f394, %f393;
mad.f32 %f395, %f391, %f392, %f394;
mov.f32 %f11, %f395;
mov.f32 %f396, %f11;
mov.f32 %f397, %f344;
mov.f32 %f398, 0fbefbf1ad; // -0.492078
mov.f32 %f399, %f398;
mad.f32 %f400, %f396, %f397, %f399;
mov.f32 %f11, %f400;
mov.f32 %f401, %f11;
mov.f32 %f402, %f344;
mov.f32 %f403, 0f3f6121bb; // 0.879421
mov.f32 %f404, %f403;
mad.f32 %f405, %f401, %f402, %f404;
mov.f32 %f11, %f405;
.loc 17 9682 0
mul.f32 %f339, %f344, %f11;
bra.uni $Lt_70_52994;
$Lt_70_53250:
mov.f32 %f406, 0f40b0b31e; // 5.52186
setp.le.f32 %p27, %f2, %f406;
@!%p27 bra $Lt_70_53762;
.loc 17 8429 0
mov.f32 %f407, 0fc07d4a9a; // -3.95768
add.f32 %f408, %f2, %f407;
mov.f32 %f409, 0fb3d9856a; // -1.01291e-007
add.f32 %f410, %f408, %f409;
mov.f32 %f411, 0fb449dd3f; // -1.88001e-007
mov.f32 %f412, %f411;
mov.f32 %f413, %f410;
mov.f32 %f414, 0fb45e2607; // -2.06892e-007
mov.f32 %f415, %f414;
mad.f32 %f416, %f412, %f413, %f415;
mov.f32 %f11, %f416;
mov.f32 %f417, %f11;
mov.f32 %f418, %f410;
mov.f32 %f419, 0fb6857064; // -3.97679e-006
mov.f32 %f420, %f419;
mad.f32 %f421, %f417, %f418, %f420;
mov.f32 %f11, %f421;
mov.f32 %f422, %f11;
mov.f32 %f423, %f410;
mov.f32 %f424, 0f38554610; // 5.08484e-005
mov.f32 %f425, %f424;
mad.f32 %f426, %f422, %f423, %f425;
mov.f32 %f11, %f426;
mov.f32 %f427, %f11;
mov.f32 %f428, %f410;
mov.f32 %f429, 0f394aced7; // 0.000193413
mov.f32 %f430, %f429;
mad.f32 %f431, %f427, %f428, %f430;
mov.f32 %f11, %f431;
mov.f32 %f432, %f11;
mov.f32 %f433, %f410;
mov.f32 %f434, 0fbb0f1a0c; // -0.00218356
mov.f32 %f435, %f434;
mad.f32 %f436, %f432, %f433, %f435;
mov.f32 %f11, %f436;
mov.f32 %f437, %f11;
mov.f32 %f438, %f410;
mov.f32 %f439, 0fbbe07f2e; // -0.0068511
mov.f32 %f440, %f439;
mad.f32 %f441, %f437, %f438, %f440;
mov.f32 %f11, %f441;
mov.f32 %f442, %f11;
mov.f32 %f443, %f410;
mov.f32 %f444, 0f3d6fb6b5; // 0.0585239
mov.f32 %f445, %f444;
mad.f32 %f446, %f442, %f443, %f445;
mov.f32 %f11, %f446;
mov.f32 %f447, %f11;
mov.f32 %f448, %f410;
mov.f32 %f449, 0f3d504df1; // 0.0508556
mov.f32 %f450, %f449;
mad.f32 %f451, %f447, %f448, %f450;
mov.f32 %f11, %f451;
mov.f32 %f452, %f11;
mov.f32 %f453, %f410;
mov.f32 %f454, 0fbece1a13; // -0.402543
mov.f32 %f455, %f454;
mad.f32 %f456, %f452, %f453, %f455;
mov.f32 %f11, %f456;
.loc 17 9695 0
mul.f32 %f339, %f410, %f11;
bra.uni $Lt_70_53506;
$Lt_70_53762:
mov.f32 %f457, 0f410a7798; // 8.6542
setp.le.f32 %p28, %f2, %f457;
@!%p28 bra $Lt_70_54274;
.loc 17 8429 0
mov.f32 %f458, 0fc0e2c0ee; // -7.08605
add.f32 %f459, %f2, %f458;
mov.f32 %f460, 0fb39ce420; // -7.30581e-008
add.f32 %f461, %f459, %f460;
mov.f32 %f462, 0f3510cebe; // 5.3945e-007
mov.f32 %f463, %f462;
mov.f32 %f464, %f461;
mov.f32 %f465, 0f3629da6c; // 2.53101e-006
mov.f32 %f466, %f465;
mad.f32 %f467, %f463, %f464, %f466;
mov.f32 %f11, %f467;
mov.f32 %f468, %f11;
mov.f32 %f469, %f461;
mov.f32 %f470, 0fb84054c0; // -4.58553e-005
mov.f32 %f471, %f470;
mad.f32 %f472, %f468, %f469, %f471;
mov.f32 %f11, %f472;
mov.f32 %f473, %f11;
mov.f32 %f474, %f461;
mov.f32 %f475, 0fb91318ab; // -0.000140282
mov.f32 %f476, %f475;
mad.f32 %f477, %f473, %f474, %f476;
mov.f32 %f11, %f477;
mov.f32 %f478, %f11;
mov.f32 %f479, %f461;
mov.f32 %f480, 0f3b0e9921; // 0.00217588
mov.f32 %f481, %f480;
mad.f32 %f482, %f478, %f479, %f481;
mov.f32 %f11, %f482;
mov.f32 %f483, %f11;
mov.f32 %f484, %f461;
mov.f32 %f485, 0f3b5974d5; // 0.00331812
mov.f32 %f486, %f485;
mad.f32 %f487, %f483, %f484, %f486;
mov.f32 %f11, %f487;
mov.f32 %f488, %f11;
mov.f32 %f489, %f461;
mov.f32 %f490, 0fbd44b4d7; // -0.048024
mov.f32 %f491, %f490;
mad.f32 %f492, %f488, %f489, %f491;
mov.f32 %f11, %f492;
mov.f32 %f493, %f11;
mov.f32 %f494, %f461;
mov.f32 %f495, 0fbcad7799; // -0.0211752
mov.f32 %f496, %f495;
mad.f32 %f497, %f493, %f494, %f496;
mov.f32 %f11, %f497;
mov.f32 %f498, %f11;
mov.f32 %f499, %f461;
mov.f32 %f500, 0f3e99a665; // 0.300098
mov.f32 %f501, %f500;
mad.f32 %f502, %f498, %f499, %f501;
mov.f32 %f11, %f502;
.loc 17 9707 0
mul.f32 %f339, %f461, %f11;
bra.uni $Lt_70_54018;
$Lt_70_54274:
.loc 17 9708 0
mov.f32 %f503, 0f7f800000; // 1.#INF
setp.eq.f32 %p29, %f2, %f503;
@%p29 bra $Lt_70_54786;
.loc 17 8437 0
mov.f32 %f504, %f2;
rcp.approx.ftz.f32 %f505,%f504;
mov.f32 %f506, %f505;
.loc 17 8429 0
mul.f32 %f507, %f506, %f506;
mov.f32 %f508, 0fbecc69f3; // -0.399246
mov.f32 %f509, %f508;
mov.f32 %f510, %f507;
mov.f32 %f511, 0f3dd0d5f0; // 0.101971
mov.f32 %f512, %f511;
mad.f32 %f513, %f509, %f510, %f512;
mov.f32 %f11, %f513;
mov.f32 %f514, %f11;
mov.f32 %f515, %f507;
mov.f32 %f516, 0fbd7ff855; // -0.0624927
mov.f32 %f517, %f516;
mad.f32 %f518, %f514, %f515, %f517;
mov.f32 %f11, %f518;
mov.f32 %f519, %f11;
mov.f32 %f520, %f507;
mov.f32 %f521, 0f3f800000; // 1
mov.f32 %f522, %f521;
mad.f32 %f523, %f519, %f520, %f522;
mov.f32 %f524, %f523;
mov.f32 %f525, 0f3f8ccd61; // 1.10002
mov.f32 %f526, %f525;
mov.f32 %f527, %f507;
mov.f32 %f528, 0fbe50d31c; // -0.20393
mov.f32 %f529, %f528;
mad.f32 %f530, %f526, %f527, %f529;
mov.f32 %f11, %f530;
mov.f32 %f531, %f11;
mov.f32 %f532, %f507;
mov.f32 %f533, 0f3d854783; // 0.0650778
mov.f32 %f534, %f533;
mad.f32 %f535, %f531, %f532, %f534;
mov.f32 %f11, %f535;
mov.f32 %f536, %f11;
mov.f32 %f537, %f507;
mov.f32 %f538, 0fbdfffffb; // -0.125
mov.f32 %f539, %f538;
mad.f32 %f540, %f536, %f537, %f539;
mov.f32 %f11, %f540;
mov.f32 %f541, %f11;
mov.f32 %f542, %f506;
mov.f32 %f543, %f2;
mad.f32 %f544, %f541, %f542, %f543;
mov.f32 %f11, %f544;
.loc 17 8726 0
mov.f32 %f545, 0f3f22f983; // 0.63662
mul.f32 %f546, %f11, %f545;
cvt.rni.s32.f32 %r163, %f546;
mov.s32 %r164, %r163;
.loc 17 8429 0
cvt.rn.f32.s32 %f547, %r163;
neg.f32 %f548, %f547;
mov.f32 %f549, %f548;
mov.f32 %f550, 0f3fc90000; // 1.57031
mov.f32 %f551, %f550;
mov.f32 %f552, %f11;
mad.f32 %f553, %f549, %f551, %f552;
mov.f32 %f554, %f553;
mov.f32 %f555, %f548;
mov.f32 %f556, 0f39fd8000; // 0.000483513
mov.f32 %f557, %f556;
mov.f32 %f558, %f554;
mad.f32 %f559, %f555, %f557, %f558;
mov.f32 %f560, %f559;
mov.f32 %f561, %f548;
mov.f32 %f562, 0f34a88000; // 3.13856e-007
mov.f32 %f563, %f562;
mov.f32 %f564, %f560;
mad.f32 %f565, %f561, %f563, %f564;
mov.f32 %f566, %f565;
mov.f32 %f567, %f548;
mov.f32 %f568, 0f2e85a309; // 6.0771e-011
mov.f32 %f569, %f568;
mov.f32 %f570, %f566;
mad.f32 %f571, %f567, %f569, %f570;
mov.f32 %f572, %f571;
.loc 17 8737 0
mov.f32 %f573, %f572;
abs.f32 %f574, %f11;
mov.f32 %f575, 0f473ba700; // 48039
setp.gt.f32 %p30, %f574, %f575;
@!%p30 bra $Lt_70_55042;
.loc 17 8740 0
mov.u64 %rd6, __cudart_i2opi_f;
.loc 17 8658 0
mov.b32 %r165, %f11;
and.b32 %r166, %r165, -2147483648;
mov.s32 %r167, %r166;
.loc 17 24 0
shl.b32 %r168, %r165, 8;
or.b32 %r169, %r168, -2147483648;
mov.s64 %rd19, %rd6;
mov.u64 %rd20, __cuda___cuda_result_722160;
mov.s32 %r170, 0;
mov.u32 %r171, 0;
$Lt_70_56066:
// Loop body line 24, nesting depth: 1, iterations: 6
.loc 17 8674 0
ld.const.u32 %r172, [%rd19+0];
mul.lo.u32 %r173, %r169, %r172;
add.u32 %r174, %r173, %r171;
.loc 17 8675 0
set.gt.u32.u32 %r175, %r173, %r174;
neg.s32 %r176, %r175;
mul.hi.u32 %r177, %r172, %r169;
add.u32 %r171, %r176, %r177;
.loc 17 8676 0
st.local.u32 [%rd20+0], %r174;
add.s32 %r170, %r170, 1;
add.u64 %rd20, %rd20, 4;
add.u64 %rd19, %rd19, 4;
mov.u32 %r178, 6;
setp.ne.s32 %p31, %r170, %r178;
@%p31 bra $Lt_70_56066;
.loc 17 8678 0
st.local.u32 [__cuda___cuda_result_722160+24], %r171;
.loc 17 8683 0
shl.b32 %r179, %r165, 1;
shr.u32 %r180, %r179, 24;
sub.u32 %r181, %r180, 128;
mov.u64 %rd21, __cuda___cuda_result_722160;
shr.u32 %r182, %r181, 5;
mov.s32 %r183, 4;
sub.s32 %r184, %r183, %r182;
cvt.s64.s32 %rd22, %r184;
mul.wide.s32 %rd23, %r184, 4;
add.u64 %rd24, %rd21, %rd23;
ld.local.u32 %r171, [%rd24+8];
.loc 17 8684 0
ld.local.u32 %r185, [%rd24+4];
and.b32 %r186, %r181, 31;
mov.u32 %r187, 0;
setp.eq.u32 %p32, %r186, %r187;
@%p32 bra $Lt_70_56578;
.loc 17 8687 0
mov.s32 %r188, 32;
sub.s32 %r189, %r188, %r186;
shr.u32 %r190, %r185, %r189;
shl.b32 %r191, %r171, %r186;
add.u32 %r171, %r190, %r191;
.loc 17 8688 0
ld.local.u32 %r192, [%rd24+0];
shr.u32 %r193, %r192, %r189;
shl.b32 %r194, %r185, %r186;
add.u32 %r185, %r193, %r194;
$Lt_70_56578:
.loc 17 8690 0
shr.u32 %r195, %r171, 30;
.loc 17 8692 0
shr.u32 %r196, %r185, 30;
shl.b32 %r197, %r171, 2;
add.u32 %r171, %r196, %r197;
.loc 17 8693 0
shl.b32 %r185, %r185, 2;
.loc 17 8695 0
shr.u32 %r198, %r171, 31;
add.u32 %r199, %r195, %r198;
.loc 17 8690 0
neg.s32 %r200, %r199;
mov.u32 %r201, 0;
setp.ne.u32 %p33, %r166, %r201;
selp.s32 %r170, %r200, %r199, %p33;
.loc 17 8697 0
mov.s32 %r164, %r170;
mov.u32 %r202, 0;
setp.eq.u32 %p34, %r198, %r202;
@%p34 bra $Lt_70_57090;
.loc 17 8701 0
neg.s32 %r185, %r185;
.loc 17 8703 0
mov.u32 %r203, 0;
set.eq.u32.u32 %r204, %r185, %r203;
neg.s32 %r205, %r204;
not.b32 %r206, %r171;
add.u32 %r171, %r205, %r206;
.loc 17 8704 0
xor.b32 %r167, %r166, -2147483648;
$Lt_70_57090:
.loc 17 8707 0
mov.u32 %r207, 0;
setp.eq.s32 %p35, %r171, %r207;
@%p35 bra $Lt_70_57858;
.loc 19 4479 0
cvt.rz.f32.u32 %f576, %r171;
mov.b32 %r208, %f576;
shr.s32 %r209, %r208, 23;
mov.s32 %r210, 158;
sub.s32 %r211, %r210, %r209;
bra.uni $Lt_70_57602;
$Lt_70_57858:
mov.s32 %r211, 32;
$Lt_70_57602:
.loc 17 8707 0
mov.s32 %r212, %r211;
mov.s32 %r213, %r212;
.loc 19 4479 0
mov.s32 %r214, 32;
sub.s32 %r215, %r214, %r212;
shr.u32 %r216, %r185, %r215;
shl.b32 %r217, %r171, %r212;
add.u32 %r218, %r216, %r217;
mov.u32 %r219, 0;
setp.ne.u32 %p36, %r212, %r219;
selp.u32 %r220, %r218, %r171, %p36;
.loc 17 8711 0
mul.lo.u32 %r185, %r220, -921707870;
.loc 17 8712 0
mov.u32 %r221, -921707870;
mul.hi.u32 %r171, %r220, %r221;
mov.u32 %r222, 0;
setp.le.s32 %p37, %r171, %r222;
@%p37 bra $Lt_70_58114;
.loc 17 8714 0
shr.u32 %r223, %r185, 31;
shl.b32 %r224, %r171, 1;
add.u32 %r171, %r223, %r224;
.loc 17 8715 0
add.u32 %r213, %r212, 1;
$Lt_70_58114:
.loc 17 8740 0
add.u32 %r225, %r171, 1;
shr.u32 %r226, %r225, 7;
add.u32 %r227, %r226, 1;
shr.u32 %r228, %r227, 1;
mov.s32 %r229, 126;
sub.s32 %r230, %r229, %r213;
shl.b32 %r231, %r230, 23;
add.u32 %r232, %r228, %r231;
or.b32 %r233, %r167, %r232;
mov.b32 %f573, %r233;
$Lt_70_55042:
.loc 17 8990 0
mov.u64 %rd6, __cudart_i2opi_f;
mov.f32 %f577, 0fc016cbe4; // -2.35619
add.f32 %f578, %f573, %f577;
and.b32 %r234, %r164, 3;
cvt.rn.f32.s32 %f579, %r234;
mov.f32 %f580, 0f3fc90fdb; // 1.5708
mad.f32 %f581, %f579, %f580, %f578;
mov.f32 %f582, %f581;
.loc 17 8970 0
abs.f32 %f583, %f581;
mov.f32 %f584, 0f7f800000; // 1.#INF
setp.eq.f32 %p38, %f583, %f584;
@!%p38 bra $Lt_70_58626;
.loc 17 8971 0
mov.f32 %f585, 0f00000000; // 0
mul.rn.f32 %f582, %f581, %f585;
$Lt_70_58626:
.loc 17 8726 0
mov.f32 %f586, 0f3f22f983; // 0.63662
mul.f32 %f587, %f582, %f586;
cvt.rni.s32.f32 %r235, %f587;
mov.s32 %r236, %r235;
.loc 17 8429 0
cvt.rn.f32.s32 %f588, %r235;
neg.f32 %f589, %f588;
mov.f32 %f590, %f589;
mov.f32 %f591, 0f3fc90000; // 1.57031
mov.f32 %f592, %f591;
mov.f32 %f593, %f582;
mad.f32 %f594, %f590, %f592, %f593;
mov.f32 %f595, %f594;
mov.f32 %f596, %f589;
mov.f32 %f597, 0f39fd8000; // 0.000483513
mov.f32 %f598, %f597;
mov.f32 %f599, %f595;
mad.f32 %f600, %f596, %f598, %f599;
mov.f32 %f601, %f600;
mov.f32 %f602, %f589;
mov.f32 %f603, 0f34a88000; // 3.13856e-007
mov.f32 %f604, %f603;
mov.f32 %f605, %f601;
mad.f32 %f606, %f602, %f604, %f605;
mov.f32 %f607, %f606;
mov.f32 %f608, %f589;
mov.f32 %f609, 0f2e85a309; // 6.0771e-011
mov.f32 %f610, %f609;
mov.f32 %f611, %f607;
mad.f32 %f612, %f608, %f610, %f611;
mov.f32 %f613, %f612;
.loc 17 8737 0
mov.f32 %f614, %f613;
abs.f32 %f615, %f582;
mov.f32 %f616, 0f473ba700; // 48039
setp.gt.f32 %p39, %f615, %f616;
@!%p39 bra $Lt_70_59138;
.loc 17 8658 0
mov.b32 %r237, %f582;
and.b32 %r238, %r237, -2147483648;
mov.s32 %r239, %r238;
.loc 17 24 0
shl.b32 %r240, %r237, 8;
or.b32 %r241, %r240, -2147483648;
mov.s64 %rd25, %rd6;
mov.u64 %rd26, __cuda___cuda_result_1002188;
mov.s32 %r242, 0;
mov.u32 %r243, 0;
$Lt_70_60162:
// Loop body line 24, nesting depth: 1, iterations: 6
.loc 17 8674 0
ld.const.u32 %r244, [%rd25+0];
mul.lo.u32 %r245, %r241, %r244;
add.u32 %r246, %r245, %r243;
.loc 17 8675 0
set.gt.u32.u32 %r247, %r245, %r246;
neg.s32 %r248, %r247;
mul.hi.u32 %r249, %r244, %r241;
add.u32 %r243, %r248, %r249;
.loc 17 8676 0
st.local.u32 [%rd26+0], %r246;
add.s32 %r242, %r242, 1;
add.u64 %rd26, %rd26, 4;
add.u64 %rd25, %rd25, 4;
mov.u32 %r250, 6;
setp.ne.s32 %p40, %r242, %r250;
@%p40 bra $Lt_70_60162;
.loc 17 8678 0
st.local.u32 [__cuda___cuda_result_1002188+24], %r243;
.loc 17 8683 0
shl.b32 %r251, %r237, 1;
shr.u32 %r252, %r251, 24;
sub.u32 %r253, %r252, 128;
mov.u64 %rd27, __cuda___cuda_result_1002188;
shr.u32 %r254, %r253, 5;
mov.s32 %r255, 4;
sub.s32 %r256, %r255, %r254;
cvt.s64.s32 %rd28, %r256;
mul.wide.s32 %rd29, %r256, 4;
add.u64 %rd30, %rd27, %rd29;
ld.local.u32 %r243, [%rd30+8];
.loc 17 8684 0
ld.local.u32 %r257, [%rd30+4];
and.b32 %r258, %r253, 31;
mov.u32 %r259, 0;
setp.eq.u32 %p41, %r258, %r259;
@%p41 bra $Lt_70_60674;
.loc 17 8687 0
mov.s32 %r260, 32;
sub.s32 %r261, %r260, %r258;
shr.u32 %r262, %r257, %r261;
shl.b32 %r263, %r243, %r258;
add.u32 %r243, %r262, %r263;
.loc 17 8688 0
ld.local.u32 %r264, [%rd30+0];
shr.u32 %r265, %r264, %r261;
shl.b32 %r266, %r257, %r258;
add.u32 %r257, %r265, %r266;
$Lt_70_60674:
.loc 17 8690 0
shr.u32 %r267, %r243, 30;
.loc 17 8692 0
shr.u32 %r268, %r257, 30;
shl.b32 %r269, %r243, 2;
add.u32 %r243, %r268, %r269;
.loc 17 8693 0
shl.b32 %r257, %r257, 2;
.loc 17 8695 0
shr.u32 %r270, %r243, 31;
add.u32 %r271, %r267, %r270;
.loc 17 8690 0
neg.s32 %r272, %r271;
mov.u32 %r273, 0;
setp.ne.u32 %p42, %r238, %r273;
selp.s32 %r242, %r272, %r271, %p42;
.loc 17 8697 0
mov.s32 %r236, %r242;
mov.u32 %r274, 0;
setp.eq.u32 %p43, %r270, %r274;
@%p43 bra $Lt_70_61186;
.loc 17 8701 0
neg.s32 %r257, %r257;
.loc 17 8703 0
mov.u32 %r275, 0;
set.eq.u32.u32 %r276, %r257, %r275;
neg.s32 %r277, %r276;
not.b32 %r278, %r243;
add.u32 %r243, %r277, %r278;
.loc 17 8704 0
xor.b32 %r239, %r238, -2147483648;
$Lt_70_61186:
.loc 17 8707 0
mov.u32 %r279, 0;
setp.eq.s32 %p44, %r243, %r279;
@%p44 bra $Lt_70_61954;
.loc 19 4479 0
cvt.rz.f32.u32 %f617, %r243;
mov.b32 %r280, %f617;
shr.s32 %r281, %r280, 23;
mov.s32 %r282, 158;
sub.s32 %r283, %r282, %r281;
bra.uni $Lt_70_61698;
$Lt_70_61954:
mov.s32 %r283, 32;
$Lt_70_61698:
.loc 17 8707 0
mov.s32 %r284, %r283;
mov.s32 %r285, %r284;
.loc 19 4479 0
mov.s32 %r286, 32;
sub.s32 %r287, %r286, %r284;
shr.u32 %r288, %r257, %r287;
shl.b32 %r289, %r243, %r284;
add.u32 %r290, %r288, %r289;
mov.u32 %r291, 0;
setp.ne.u32 %p45, %r284, %r291;
selp.u32 %r292, %r290, %r243, %p45;
.loc 17 8711 0
mul.lo.u32 %r257, %r292, -921707870;
.loc 17 8712 0
mov.u32 %r293, -921707870;
mul.hi.u32 %r243, %r292, %r293;
mov.u32 %r294, 0;
setp.le.s32 %p46, %r243, %r294;
@%p46 bra $Lt_70_62210;
.loc 17 8714 0
shr.u32 %r295, %r257, 31;
shl.b32 %r296, %r243, 1;
add.u32 %r243, %r295, %r296;
.loc 17 8715 0
add.u32 %r285, %r284, 1;
$Lt_70_62210:
.loc 17 8740 0
add.u32 %r297, %r243, 1;
shr.u32 %r298, %r297, 7;
add.u32 %r299, %r298, 1;
shr.u32 %r300, %r299, 1;
mov.s32 %r301, 126;
sub.s32 %r302, %r301, %r285;
shl.b32 %r303, %r302, 23;
add.u32 %r304, %r300, %r303;
or.b32 %r305, %r239, %r304;
mov.b32 %f614, %r305;
$Lt_70_59138:
.loc 17 8975 0
add.s32 %r306, %r236, 1;
mul.f32 %f618, %f614, %f614;
and.b32 %r307, %r306, 1;
mov.u32 %r308, 0;
setp.eq.s32 %p47, %r307, %r308;
@%p47 bra $Lt_70_62978;
.loc 17 8429 0
mov.f32 %f619, 0f37ccf5ce; // 2.44332e-005
mov.f32 %f620, %f619;
mov.f32 %f621, %f618;
mov.f32 %f622, 0fbab6061a; // -0.00138873
mov.f32 %f623, %f622;
mad.f32 %f624, %f620, %f621, %f623;
mov.f32 %f625, %f624;
mov.f32 %f626, %f625;
mov.f32 %f627, %f618;
mov.f32 %f628, 0f3d2aaaa5; // 0.0416666
mov.f32 %f629, %f628;
mad.f32 %f630, %f626, %f627, %f629;
mov.f32 %f631, %f630;
mov.f32 %f632, %f631;
mov.f32 %f633, %f618;
mov.f32 %f634, 0fbf000000; // -0.5
mov.f32 %f635, %f634;
mad.f32 %f636, %f632, %f633, %f635;
mov.f32 %f637, %f636;
mov.f32 %f638, %f637;
mov.f32 %f639, %f618;
mov.f32 %f640, 0f3f800000; // 1
mov.f32 %f641, %f640;
mad.f32 %f642, %f638, %f639, %f641;
mov.f32 %f643, %f642;
.loc 17 8936 0
mov.f32 %f644, %f643;
bra.uni $Lt_70_62722;
$Lt_70_62978:
.loc 17 8429 0
mov.f32 %f645, 0fb94ca1f9; // -0.000195153
mov.f32 %f646, %f645;
mov.f32 %f647, %f618;
mov.f32 %f648, 0f3c08839e; // 0.00833216
mov.f32 %f649, %f648;
mad.f32 %f650, %f646, %f647, %f649;
mov.f32 %f651, %f650;
mov.f32 %f652, %f651;
mov.f32 %f653, %f618;
mov.f32 %f654, 0fbe2aaaa3; // -0.166667
mov.f32 %f655, %f654;
mad.f32 %f656, %f652, %f653, %f655;
mov.f32 %f657, %f656;
mul.f32 %f658, %f618, %f657;
mov.f32 %f659, %f658;
mov.f32 %f660, %f614;
mov.f32 %f661, %f614;
mad.f32 %f662, %f659, %f660, %f661;
mov.f32 %f663, %f662;
.loc 17 8938 0
mov.f32 %f644, %f663;
$Lt_70_62722:
and.b32 %r309, %r306, 2;
mov.u32 %r310, 0;
setp.eq.s32 %p48, %r309, %r310;
@%p48 bra $Lt_70_63234;
.loc 17 8429 0
mov.f32 %f664, %f644;
mov.f32 %f665, 0fbf800000; // -1
mov.f32 %f666, %f665;
mov.f32 %f667, 0f00000000; // 0
mov.f32 %f668, %f667;
mad.f32 %f669, %f664, %f666, %f668;
mov.f32 %f670, %f669;
.loc 17 8941 0
mov.f32 %f644, %f670;
$Lt_70_63234:
.loc 17 9721 0
rsqrt.approx.f32 %f671, %f2;
mov.f32 %f672, 0f3f4c422a; // 0.797885
mul.f32 %f673, %f671, %f672;
mul.f32 %f674, %f524, %f673;
mul.f32 %f339, %f644, %f674;
bra.uni $Lt_70_54530;
$Lt_70_54786:
.loc 17 9724 0
mov.f32 %f339, 0f00000000; // 0
$Lt_70_54530:
$Lt_70_54018:
$Lt_70_53506:
$Lt_70_52994:
$Lt_70_41730:
mov.f32 %f675, 0f00000000; // 0
setp.lt.f32 %p49, %f1, %f675;
@!%p49 bra $Lt_70_63746;
.loc 17 9727 0
mov.f32 %f676, 0fbf800000; // -1
sqrt.approx.f32 %f339, %f676;
$Lt_70_63746:
.loc 15 858 0
ld.param.u64 %rd31, [__cudaparm_vec_y0f_result];
add.u64 %rd32, %rd31, %rd3;
st.global.f32 [%rd32+0], %f339;
$Lt_70_41218:
.loc 15 860 0
exit;
$LDWend_vec_y0f:
} // vec_y0f
.entry vec_y1f (
.param .u64 __cudaparm_vec_y1f_n,
.param .u64 __cudaparm_vec_y1f_result,
.param .u64 __cudaparm_vec_y1f_x)
{
.reg .u16 %rh<4>;
.reg .u32 %r<317>;
.reg .u64 %rd<34>;
.reg .f32 %f<662>;
.reg .pred %p<54>;
.local .align 4 .b8 __cuda___cuda_result_162240[28];
.local .align 4 .b8 __cuda___cuda_result_442268[28];
.local .align 4 .b8 __cuda___cuda_result_722296[28];
.local .align 4 .b8 __cuda___cuda_result_1002324[28];
.loc 15 865 0
$LDWbegin_vec_y1f:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_y1f_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_71_43522;
.loc 15 870 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_y1f_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
abs.f32 %f2, %f1;
mov.f32 %f3, 0f00800000; // 1.17549e-038
setp.lt.f32 %p2, %f2, %f3;
@!%p2 bra $Lt_71_44290;
.loc 17 9739 0
mov.f32 %f4, 0fbf22f983; // -0.63662
div.full.f32 %f5, %f4, %f2;
bra.uni $Lt_71_44034;
$Lt_71_44290:
mov.f32 %f6, 0f3fd96ac4; // 1.69857
setp.le.f32 %p3, %f2, %f6;
@!%p3 bra $Lt_71_44802;
.loc 17 8429 0
mul.f32 %f7, %f2, %f2;
mov.f32 %f8, 0f321462cc; // 8.6372e-009
mov.f32 %f9, %f8;
mov.f32 %f10, %f7;
mov.f32 %f11, 0fb58527da; // -9.92087e-007
mov.f32 %f12, %f11;
mad.f32 %f13, %f9, %f10, %f12;
mov.f32 %f14, %f13;
mov.f32 %f15, %f14;
mov.f32 %f16, %f7;
mov.f32 %f17, 0f38963e95; // 7.16421e-005
mov.f32 %f18, %f17;
mad.f32 %f19, %f15, %f16, %f18;
mov.f32 %f14, %f19;
mov.f32 %f20, %f14;
mov.f32 %f21, %f7;
mov.f32 %f22, 0fbb41adcb; // -0.00295531
mov.f32 %f23, %f22;
mad.f32 %f24, %f20, %f21, %f23;
mov.f32 %f14, %f24;
mov.f32 %f25, %f14;
mov.f32 %f26, %f7;
mov.f32 %f27, 0f3d5e9cbb; // 0.0543487
mov.f32 %f28, %f27;
mad.f32 %f29, %f25, %f26, %f28;
mov.f32 %f14, %f29;
mov.f32 %f30, %f14;
mov.f32 %f31, %f7;
mov.f32 %f32, 0fbe48c331; // -0.196057
mov.f32 %f33, %f32;
mad.f32 %f34, %f30, %f31, %f33;
mov.f32 %f14, %f34;
.loc 17 9365 0
mov.f32 %f35, 0f00000000; // 0
set.gt.u32.f32 %r4, %f2, %f35;
neg.s32 %r5, %r4;
mov.f32 %f36, 0f7f800000; // 1.#INF
set.lt.u32.f32 %r6, %f2, %f36;
neg.s32 %r7, %r6;
and.b32 %r8, %r5, %r7;
mov.u32 %r9, 0;
setp.eq.s32 %p4, %r8, %r9;
@%p4 bra $Lt_71_45314;
.loc 17 8512 0
mov.b32 %r10, %f2;
and.b32 %r11, %r10, -2139095041;
or.b32 %r12, %r11, 1065353216;
mov.b32 %f37, %r12;
mov.f32 %f38, %f37;
.loc 17 8513 0
shr.u32 %r13, %r10, 23;
sub.u32 %r14, %r13, 127;
mov.f32 %f39, 0f3fb504f3; // 1.41421
setp.gt.f32 %p5, %f37, %f39;
@!%p5 bra $Lt_71_45570;
.loc 17 8515 0
mov.f32 %f40, 0f3f000000; // 0.5
mul.f32 %f38, %f37, %f40;
.loc 17 8516 0
add.s32 %r14, %r14, 1;
$Lt_71_45570:
.loc 17 8429 0
mov.f32 %f41, 0fbf800000; // -1
add.f32 %f42, %f38, %f41;
mov.f32 %f43, 0f3f800000; // 1
add.f32 %f44, %f38, %f43;
neg.f32 %f45, %f42;
div.approx.f32 %f46, %f42, %f44;
mul.rn.f32 %f47, %f45, %f46;
add.rn.f32 %f48, %f42, %f47;
mul.f32 %f49, %f48, %f48;
mov.f32 %f50, 0f3b2063c3; // 0.00244735
mov.f32 %f51, %f50;
mov.f32 %f52, %f49;
mov.f32 %f53, 0f3c4c4be0; // 0.0124693
mov.f32 %f54, %f53;
mad.f32 %f55, %f51, %f52, %f54;
mov.f32 %f56, %f55;
mov.f32 %f57, %f56;
mov.f32 %f58, %f49;
mov.f32 %f59, 0f3daaab50; // 0.0833346
mov.f32 %f60, %f59;
mad.f32 %f61, %f57, %f58, %f60;
mov.f32 %f62, %f61;
mul.f32 %f63, %f49, %f62;
mov.f32 %f64, %f63;
mov.f32 %f65, %f48;
mov.f32 %f66, %f47;
mad.f32 %f67, %f64, %f65, %f66;
mov.f32 %f68, %f67;
cvt.rn.f32.s32 %f69, %r14;
mov.f32 %f70, %f69;
mov.f32 %f71, 0f3f317218; // 0.693147
mov.f32 %f72, %f71;
add.f32 %f73, %f42, %f68;
mov.f32 %f74, %f73;
mad.f32 %f75, %f70, %f72, %f74;
mov.f32 %f76, %f75;
.loc 17 8523 0
mov.f32 %f77, %f76;
bra.uni $Lt_71_45058;
$Lt_71_45314:
.loc 17 8526 0
lg2.approx.f32 %f78, %f2;
mov.f32 %f79, 0f3f317218; // 0.693147
mul.f32 %f77, %f78, %f79;
$Lt_71_45058:
.loc 17 9755 0
mov.f32 %f80, 0f40fb3333; // 7.85
setp.le.f32 %p6, %f2, %f80;
@!%p6 bra $Lt_71_46338;
.loc 17 8429 0
mov.f32 %f81, 0fc0753aac; // -3.83171
add.f32 %f82, %f2, %f81;
mov.f32 %f83, 0f33a5090f; // 7.68506e-008
add.f32 %f84, %f82, %f83;
mov.f32 %f85, 0f29af3463; // 7.78065e-014
mov.f32 %f86, %f85;
mov.f32 %f87, %f84;
mov.f32 %f88, 0f2b81bf42; // 9.21909e-013
mov.f32 %f89, %f88;
mad.f32 %f90, %f86, %f87, %f89;
mov.f32 %f91, %f90;
mov.f32 %f92, %f91;
mov.f32 %f93, %f84;
mov.f32 %f94, 0fade21ec1; // -2.57069e-011
mov.f32 %f95, %f94;
mad.f32 %f96, %f92, %f93, %f95;
mov.f32 %f91, %f96;
mov.f32 %f97, %f91;
mov.f32 %f98, %f84;
mov.f32 %f99, 0faf5ddeff; // -2.01791e-010
mov.f32 %f100, %f99;
mad.f32 %f101, %f97, %f98, %f100;
mov.f32 %f91, %f101;
mov.f32 %f102, %f91;
mov.f32 %f103, %f84;
mov.f32 %f104, 0f319b0c9d; // 4.51253e-009
mov.f32 %f105, %f104;
mad.f32 %f106, %f102, %f103, %f105;
mov.f32 %f91, %f106;
mov.f32 %f107, %f91;
mov.f32 %f108, %f84;
mov.f32 %f109, 0f32e81173; // 2.70163e-008
mov.f32 %f110, %f109;
mad.f32 %f111, %f107, %f108, %f110;
mov.f32 %f91, %f111;
mov.f32 %f112, %f91;
mov.f32 %f113, %f84;
mov.f32 %f114, 0fb50f8dc8; // -5.3478e-007
mov.f32 %f115, %f114;
mad.f32 %f116, %f112, %f113, %f115;
mov.f32 %f91, %f116;
mov.f32 %f117, %f91;
mov.f32 %f118, %f84;
mov.f32 %f119, 0fb61e653d; // -2.36028e-006
mov.f32 %f120, %f119;
mad.f32 %f121, %f117, %f118, %f120;
mov.f32 %f91, %f121;
mov.f32 %f122, %f91;
mov.f32 %f123, %f84;
mov.f32 %f124, 0f382cd9c5; // 4.12108e-005
mov.f32 %f125, %f124;
mad.f32 %f126, %f122, %f123, %f125;
mov.f32 %f91, %f126;
mov.f32 %f127, %f91;
mov.f32 %f128, %f84;
mov.f32 %f129, 0f38f9eb10; // 0.00011917
mov.f32 %f130, %f129;
mad.f32 %f131, %f127, %f128, %f130;
mov.f32 %f91, %f131;
mov.f32 %f132, %f91;
mov.f32 %f133, %f84;
mov.f32 %f134, 0fbaeceb9c; // -0.00180756
mov.f32 %f135, %f134;
mad.f32 %f136, %f132, %f133, %f135;
mov.f32 %f91, %f136;
mov.f32 %f137, %f91;
mov.f32 %f138, %f84;
mov.f32 %f139, 0fbb276ffd; // -0.00255489
mov.f32 %f140, %f139;
mad.f32 %f141, %f137, %f138, %f140;
mov.f32 %f91, %f141;
mov.f32 %f142, %f91;
mov.f32 %f143, %f84;
mov.f32 %f144, 0f3d073993; // 0.0330139
mov.f32 %f145, %f144;
mad.f32 %f146, %f142, %f143, %f145;
mov.f32 %f91, %f146;
.loc 17 9616 0
mov.f32 %f147, 0fc0e07fb0; // -7.01559
add.f32 %f148, %f2, %f147;
mov.f32 %f149, 0f3444b8db; // 1.83212e-007
add.f32 %f150, %f148, %f149;
mul.f32 %f151, %f91, %f150;
mul.f32 %f152, %f84, %f151;
mul.f32 %f153, %f2, %f152;
bra.uni $Lt_71_46082;
$Lt_71_46338:
.loc 17 9617 0
mov.f32 %f154, 0f7f800000; // 1.#INF
setp.eq.f32 %p7, %f2, %f154;
@%p7 bra $Lt_71_46850;
.loc 17 8437 0
mov.f32 %f155, %f2;
rcp.approx.ftz.f32 %f156,%f155;
mov.f32 %f157, %f156;
.loc 17 8429 0
mul.f32 %f158, %f157, %f157;
mov.f32 %f159, 0fc082cb37; // -4.08731
mov.f32 %f160, %f159;
mov.f32 %f161, %f158;
mov.f32 %f162, 0f3f3ff7e9; // 0.749877
mov.f32 %f163, %f162;
mad.f32 %f164, %f160, %f161, %f163;
mov.f32 %f91, %f164;
mov.f32 %f165, %f91;
mov.f32 %f166, %f158;
mov.f32 %f167, 0fbe458bae; // -0.192916
mov.f32 %f168, %f167;
mad.f32 %f169, %f165, %f166, %f168;
mov.f32 %f91, %f169;
mov.f32 %f170, %f91;
mov.f32 %f171, %f158;
mov.f32 %f172, 0f3e3fff8b; // 0.187498
mov.f32 %f173, %f172;
mad.f32 %f174, %f170, %f171, %f173;
mov.f32 %f91, %f174;
mov.f32 %f175, %f91;
mov.f32 %f176, %f158;
mov.f32 %f177, 0f3f800000; // 1
mov.f32 %f178, %f177;
mad.f32 %f179, %f175, %f176, %f178;
mov.f32 %f180, %f179;
mov.f32 %f181, 0fbfca3ba2; // -1.57994
mov.f32 %f182, %f181;
mov.f32 %f183, %f158;
mov.f32 %f184, 0f3eb914ad; // 0.361486
mov.f32 %f185, %f184;
mad.f32 %f186, %f182, %f183, %f185;
mov.f32 %f91, %f186;
mov.f32 %f187, %f91;
mov.f32 %f188, %f158;
mov.f32 %f189, 0fbe27f2ec; // -0.164013
mov.f32 %f190, %f189;
mad.f32 %f191, %f187, %f188, %f190;
mov.f32 %f91, %f191;
mov.f32 %f192, %f91;
mov.f32 %f193, %f158;
mov.f32 %f194, 0f3ebffffd; // 0.375
mov.f32 %f195, %f194;
mad.f32 %f196, %f192, %f193, %f195;
mov.f32 %f91, %f196;
mov.f32 %f197, %f91;
mov.f32 %f198, %f157;
mov.f32 %f199, %f2;
mad.f32 %f200, %f197, %f198, %f199;
mov.f32 %f91, %f200;
.loc 17 8726 0
mov.f32 %f201, 0f3f22f983; // 0.63662
mul.f32 %f202, %f91, %f201;
cvt.rni.s32.f32 %r15, %f202;
mov.s32 %r16, %r15;
.loc 17 8429 0
cvt.rn.f32.s32 %f203, %r15;
neg.f32 %f204, %f203;
mov.f32 %f205, %f204;
mov.f32 %f206, 0f3fc90000; // 1.57031
mov.f32 %f207, %f206;
mov.f32 %f208, %f91;
mad.f32 %f209, %f205, %f207, %f208;
mov.f32 %f210, %f209;
mov.f32 %f211, %f204;
mov.f32 %f212, 0f39fd8000; // 0.000483513
mov.f32 %f213, %f212;
mov.f32 %f214, %f210;
mad.f32 %f215, %f211, %f213, %f214;
mov.f32 %f216, %f215;
mov.f32 %f217, %f204;
mov.f32 %f218, 0f34a88000; // 3.13856e-007
mov.f32 %f219, %f218;
mov.f32 %f220, %f216;
mad.f32 %f221, %f217, %f219, %f220;
mov.f32 %f222, %f221;
mov.f32 %f223, %f204;
mov.f32 %f224, 0f2e85a309; // 6.0771e-011
mov.f32 %f225, %f224;
mov.f32 %f226, %f222;
mad.f32 %f227, %f223, %f225, %f226;
mov.f32 %f228, %f227;
.loc 17 8737 0
mov.f32 %f229, %f228;
abs.f32 %f230, %f91;
mov.f32 %f231, 0f473ba700; // 48039
setp.gt.f32 %p8, %f230, %f231;
@!%p8 bra $Lt_71_47106;
.loc 17 8740 0
mov.u64 %rd6, __cudart_i2opi_f;
.loc 17 8658 0
mov.b32 %r17, %f91;
and.b32 %r18, %r17, -2147483648;
mov.s32 %r19, %r18;
.loc 17 24 0
shl.b32 %r20, %r17, 8;
or.b32 %r21, %r20, -2147483648;
mov.s64 %rd7, %rd6;
mov.u64 %rd8, __cuda___cuda_result_162240;
mov.s32 %r22, 0;
mov.u32 %r23, 0;
$Lt_71_48130:
// Loop body line 24, nesting depth: 1, iterations: 6
.loc 17 8674 0
ld.const.u32 %r24, [%rd7+0];
mul.lo.u32 %r25, %r21, %r24;
add.u32 %r26, %r25, %r23;
.loc 17 8675 0
set.gt.u32.u32 %r27, %r25, %r26;
neg.s32 %r28, %r27;
mul.hi.u32 %r29, %r24, %r21;
add.u32 %r23, %r28, %r29;
.loc 17 8676 0
st.local.u32 [%rd8+0], %r26;
add.s32 %r22, %r22, 1;
add.u64 %rd8, %rd8, 4;
add.u64 %rd7, %rd7, 4;
mov.u32 %r30, 6;
setp.ne.s32 %p9, %r22, %r30;
@%p9 bra $Lt_71_48130;
.loc 17 8678 0
st.local.u32 [__cuda___cuda_result_162240+24], %r23;
.loc 17 8683 0
shl.b32 %r31, %r17, 1;
shr.u32 %r32, %r31, 24;
sub.u32 %r33, %r32, 128;
mov.u64 %rd9, __cuda___cuda_result_162240;
shr.u32 %r34, %r33, 5;
mov.s32 %r35, 4;
sub.s32 %r36, %r35, %r34;
cvt.s64.s32 %rd10, %r36;
mul.wide.s32 %rd11, %r36, 4;
add.u64 %rd12, %rd9, %rd11;
ld.local.u32 %r23, [%rd12+8];
.loc 17 8684 0
ld.local.u32 %r37, [%rd12+4];
and.b32 %r38, %r33, 31;
mov.u32 %r39, 0;
setp.eq.u32 %p10, %r38, %r39;
@%p10 bra $Lt_71_48642;
.loc 17 8687 0
mov.s32 %r40, 32;
sub.s32 %r41, %r40, %r38;
shr.u32 %r42, %r37, %r41;
shl.b32 %r43, %r23, %r38;
add.u32 %r23, %r42, %r43;
.loc 17 8688 0
ld.local.u32 %r44, [%rd12+0];
shr.u32 %r45, %r44, %r41;
shl.b32 %r46, %r37, %r38;
add.u32 %r37, %r45, %r46;
$Lt_71_48642:
.loc 17 8690 0
shr.u32 %r47, %r23, 30;
.loc 17 8692 0
shr.u32 %r48, %r37, 30;
shl.b32 %r49, %r23, 2;
add.u32 %r23, %r48, %r49;
.loc 17 8693 0
shl.b32 %r37, %r37, 2;
.loc 17 8695 0
shr.u32 %r50, %r23, 31;
add.u32 %r51, %r47, %r50;
.loc 17 8690 0
neg.s32 %r52, %r51;
mov.u32 %r53, 0;
setp.ne.u32 %p11, %r18, %r53;
selp.s32 %r22, %r52, %r51, %p11;
.loc 17 8697 0
mov.s32 %r16, %r22;
mov.u32 %r54, 0;
setp.eq.u32 %p12, %r50, %r54;
@%p12 bra $Lt_71_49154;
.loc 17 8701 0
neg.s32 %r37, %r37;
.loc 17 8703 0
mov.u32 %r55, 0;
set.eq.u32.u32 %r56, %r37, %r55;
neg.s32 %r57, %r56;
not.b32 %r58, %r23;
add.u32 %r23, %r57, %r58;
.loc 17 8704 0
xor.b32 %r19, %r18, -2147483648;
$Lt_71_49154:
.loc 17 8707 0
mov.u32 %r59, 0;
setp.eq.s32 %p13, %r23, %r59;
@%p13 bra $Lt_71_49922;
.loc 19 4479 0
cvt.rz.f32.u32 %f232, %r23;
mov.b32 %r60, %f232;
shr.s32 %r61, %r60, 23;
mov.s32 %r62, 158;
sub.s32 %r63, %r62, %r61;
bra.uni $Lt_71_49666;
$Lt_71_49922:
mov.s32 %r63, 32;
$Lt_71_49666:
.loc 17 8707 0
mov.s32 %r64, %r63;
mov.s32 %r65, %r64;
.loc 19 4479 0
mov.s32 %r66, 32;
sub.s32 %r67, %r66, %r64;
shr.u32 %r68, %r37, %r67;
shl.b32 %r69, %r23, %r64;
add.u32 %r70, %r68, %r69;
mov.u32 %r71, 0;
setp.ne.u32 %p14, %r64, %r71;
selp.u32 %r72, %r70, %r23, %p14;
.loc 17 8711 0
mul.lo.u32 %r37, %r72, -921707870;
.loc 17 8712 0
mov.u32 %r73, -921707870;
mul.hi.u32 %r23, %r72, %r73;
mov.u32 %r74, 0;
setp.le.s32 %p15, %r23, %r74;
@%p15 bra $Lt_71_50178;
.loc 17 8714 0
shr.u32 %r75, %r37, 31;
shl.b32 %r76, %r23, 1;
add.u32 %r23, %r75, %r76;
.loc 17 8715 0
add.u32 %r65, %r64, 1;
$Lt_71_50178:
.loc 17 8740 0
add.u32 %r77, %r23, 1;
shr.u32 %r78, %r77, 7;
add.u32 %r79, %r78, 1;
shr.u32 %r80, %r79, 1;
mov.s32 %r81, 126;
sub.s32 %r82, %r81, %r65;
shl.b32 %r83, %r82, 23;
add.u32 %r84, %r80, %r83;
or.b32 %r85, %r19, %r84;
mov.b32 %f229, %r85;
$Lt_71_47106:
.loc 17 8990 0
mov.u64 %rd6, __cudart_i2opi_f;
mov.f32 %f233, 0fc016cbe4; // -2.35619
add.f32 %f234, %f229, %f233;
and.b32 %r86, %r16, 3;
cvt.rn.f32.s32 %f235, %r86;
mov.f32 %f236, 0f3fc90fdb; // 1.5708
mad.f32 %f237, %f235, %f236, %f234;
mov.f32 %f238, %f237;
.loc 17 8970 0
abs.f32 %f239, %f237;
mov.f32 %f240, 0f7f800000; // 1.#INF
setp.eq.f32 %p16, %f239, %f240;
@!%p16 bra $Lt_71_50690;
.loc 17 8971 0
mov.f32 %f241, 0f00000000; // 0
mul.rn.f32 %f238, %f237, %f241;
$Lt_71_50690:
.loc 17 8726 0
mov.f32 %f242, 0f3f22f983; // 0.63662
mul.f32 %f243, %f238, %f242;
cvt.rni.s32.f32 %r87, %f243;
mov.s32 %r88, %r87;
.loc 17 8429 0
cvt.rn.f32.s32 %f244, %r87;
neg.f32 %f245, %f244;
mov.f32 %f246, %f245;
mov.f32 %f247, 0f3fc90000; // 1.57031
mov.f32 %f248, %f247;
mov.f32 %f249, %f238;
mad.f32 %f250, %f246, %f248, %f249;
mov.f32 %f251, %f250;
mov.f32 %f252, %f245;
mov.f32 %f253, 0f39fd8000; // 0.000483513
mov.f32 %f254, %f253;
mov.f32 %f255, %f251;
mad.f32 %f256, %f252, %f254, %f255;
mov.f32 %f257, %f256;
mov.f32 %f258, %f245;
mov.f32 %f259, 0f34a88000; // 3.13856e-007
mov.f32 %f260, %f259;
mov.f32 %f261, %f257;
mad.f32 %f262, %f258, %f260, %f261;
mov.f32 %f263, %f262;
mov.f32 %f264, %f245;
mov.f32 %f265, 0f2e85a309; // 6.0771e-011
mov.f32 %f266, %f265;
mov.f32 %f267, %f263;
mad.f32 %f268, %f264, %f266, %f267;
mov.f32 %f269, %f268;
.loc 17 8737 0
mov.f32 %f270, %f269;
abs.f32 %f271, %f238;
mov.f32 %f272, 0f473ba700; // 48039
setp.gt.f32 %p17, %f271, %f272;
@!%p17 bra $Lt_71_51202;
.loc 17 8658 0
mov.b32 %r89, %f238;
and.b32 %r90, %r89, -2147483648;
mov.s32 %r91, %r90;
.loc 17 24 0
shl.b32 %r92, %r89, 8;
or.b32 %r93, %r92, -2147483648;
mov.s64 %rd13, %rd6;
mov.u64 %rd14, __cuda___cuda_result_442268;
mov.s32 %r94, 0;
mov.u32 %r95, 0;
$Lt_71_52226:
// Loop body line 24, nesting depth: 1, iterations: 6
.loc 17 8674 0
ld.const.u32 %r96, [%rd13+0];
mul.lo.u32 %r97, %r93, %r96;
add.u32 %r98, %r97, %r95;
.loc 17 8675 0
set.gt.u32.u32 %r99, %r97, %r98;
neg.s32 %r100, %r99;
mul.hi.u32 %r101, %r96, %r93;
add.u32 %r95, %r100, %r101;
.loc 17 8676 0
st.local.u32 [%rd14+0], %r98;
add.s32 %r94, %r94, 1;
add.u64 %rd14, %rd14, 4;
add.u64 %rd13, %rd13, 4;
mov.u32 %r102, 6;
setp.ne.s32 %p18, %r94, %r102;
@%p18 bra $Lt_71_52226;
.loc 17 8678 0
st.local.u32 [__cuda___cuda_result_442268+24], %r95;
.loc 17 8683 0
shl.b32 %r103, %r89, 1;
shr.u32 %r104, %r103, 24;
sub.u32 %r105, %r104, 128;
mov.u64 %rd15, __cuda___cuda_result_442268;
shr.u32 %r106, %r105, 5;
mov.s32 %r107, 4;
sub.s32 %r108, %r107, %r106;
cvt.s64.s32 %rd16, %r108;
mul.wide.s32 %rd17, %r108, 4;
add.u64 %rd18, %rd15, %rd17;
ld.local.u32 %r95, [%rd18+8];
.loc 17 8684 0
ld.local.u32 %r109, [%rd18+4];
and.b32 %r110, %r105, 31;
mov.u32 %r111, 0;
setp.eq.u32 %p19, %r110, %r111;
@%p19 bra $Lt_71_52738;
.loc 17 8687 0
mov.s32 %r112, 32;
sub.s32 %r113, %r112, %r110;
shr.u32 %r114, %r109, %r113;
shl.b32 %r115, %r95, %r110;
add.u32 %r95, %r114, %r115;
.loc 17 8688 0
ld.local.u32 %r116, [%rd18+0];
shr.u32 %r117, %r116, %r113;
shl.b32 %r118, %r109, %r110;
add.u32 %r109, %r117, %r118;
$Lt_71_52738:
.loc 17 8690 0
shr.u32 %r119, %r95, 30;
.loc 17 8692 0
shr.u32 %r120, %r109, 30;
shl.b32 %r121, %r95, 2;
add.u32 %r95, %r120, %r121;
.loc 17 8693 0
shl.b32 %r109, %r109, 2;
.loc 17 8695 0
shr.u32 %r122, %r95, 31;
add.u32 %r123, %r119, %r122;
.loc 17 8690 0
neg.s32 %r124, %r123;
mov.u32 %r125, 0;
setp.ne.u32 %p20, %r90, %r125;
selp.s32 %r94, %r124, %r123, %p20;
.loc 17 8697 0
mov.s32 %r88, %r94;
mov.u32 %r126, 0;
setp.eq.u32 %p21, %r122, %r126;
@%p21 bra $Lt_71_53250;
.loc 17 8701 0
neg.s32 %r109, %r109;
.loc 17 8703 0
mov.u32 %r127, 0;
set.eq.u32.u32 %r128, %r109, %r127;
neg.s32 %r129, %r128;
not.b32 %r130, %r95;
add.u32 %r95, %r129, %r130;
.loc 17 8704 0
xor.b32 %r91, %r90, -2147483648;
$Lt_71_53250:
.loc 17 8707 0
mov.u32 %r131, 0;
setp.eq.s32 %p22, %r95, %r131;
@%p22 bra $Lt_71_54018;
.loc 19 4479 0
cvt.rz.f32.u32 %f273, %r95;
mov.b32 %r132, %f273;
shr.s32 %r133, %r132, 23;
mov.s32 %r134, 158;
sub.s32 %r135, %r134, %r133;
bra.uni $Lt_71_53762;
$Lt_71_54018:
mov.s32 %r135, 32;
$Lt_71_53762:
.loc 17 8707 0
mov.s32 %r136, %r135;
mov.s32 %r137, %r136;
.loc 19 4479 0
mov.s32 %r138, 32;
sub.s32 %r139, %r138, %r136;
shr.u32 %r140, %r109, %r139;
shl.b32 %r141, %r95, %r136;
add.u32 %r142, %r140, %r141;
mov.u32 %r143, 0;
setp.ne.u32 %p23, %r136, %r143;
selp.u32 %r144, %r142, %r95, %p23;
.loc 17 8711 0
mul.lo.u32 %r109, %r144, -921707870;
.loc 17 8712 0
mov.u32 %r145, -921707870;
mul.hi.u32 %r95, %r144, %r145;
mov.u32 %r146, 0;
setp.le.s32 %p24, %r95, %r146;
@%p24 bra $Lt_71_54274;
.loc 17 8714 0
shr.u32 %r147, %r109, 31;
shl.b32 %r148, %r95, 1;
add.u32 %r95, %r147, %r148;
.loc 17 8715 0
add.u32 %r137, %r136, 1;
$Lt_71_54274:
.loc 17 8740 0
add.u32 %r149, %r95, 1;
shr.u32 %r150, %r149, 7;
add.u32 %r151, %r150, 1;
shr.u32 %r152, %r151, 1;
mov.s32 %r153, 126;
sub.s32 %r154, %r153, %r137;
shl.b32 %r155, %r154, 23;
add.u32 %r156, %r152, %r155;
or.b32 %r157, %r91, %r156;
mov.b32 %f270, %r157;
$Lt_71_51202:
.loc 17 8975 0
add.s32 %r158, %r88, 1;
mul.f32 %f274, %f270, %f270;
and.b32 %r159, %r158, 1;
mov.u32 %r160, 0;
setp.eq.s32 %p25, %r159, %r160;
@%p25 bra $Lt_71_55042;
.loc 17 8429 0
mov.f32 %f275, 0f37ccf5ce; // 2.44332e-005
mov.f32 %f276, %f275;
mov.f32 %f277, %f274;
mov.f32 %f278, 0fbab6061a; // -0.00138873
mov.f32 %f279, %f278;
mad.f32 %f280, %f276, %f277, %f279;
mov.f32 %f281, %f280;
mov.f32 %f282, %f281;
mov.f32 %f283, %f274;
mov.f32 %f284, 0f3d2aaaa5; // 0.0416666
mov.f32 %f285, %f284;
mad.f32 %f286, %f282, %f283, %f285;
mov.f32 %f287, %f286;
mov.f32 %f288, %f287;
mov.f32 %f289, %f274;
mov.f32 %f290, 0fbf000000; // -0.5
mov.f32 %f291, %f290;
mad.f32 %f292, %f288, %f289, %f291;
mov.f32 %f293, %f292;
mov.f32 %f294, %f293;
mov.f32 %f295, %f274;
mov.f32 %f296, 0f3f800000; // 1
mov.f32 %f297, %f296;
mad.f32 %f298, %f294, %f295, %f297;
mov.f32 %f299, %f298;
.loc 17 8936 0
mov.f32 %f300, %f299;
bra.uni $Lt_71_54786;
$Lt_71_55042:
.loc 17 8429 0
mov.f32 %f301, 0fb94ca1f9; // -0.000195153
mov.f32 %f302, %f301;
mov.f32 %f303, %f274;
mov.f32 %f304, 0f3c08839e; // 0.00833216
mov.f32 %f305, %f304;
mad.f32 %f306, %f302, %f303, %f305;
mov.f32 %f307, %f306;
mov.f32 %f308, %f307;
mov.f32 %f309, %f274;
mov.f32 %f310, 0fbe2aaaa3; // -0.166667
mov.f32 %f311, %f310;
mad.f32 %f312, %f308, %f309, %f311;
mov.f32 %f313, %f312;
mul.f32 %f314, %f274, %f313;
mov.f32 %f315, %f314;
mov.f32 %f316, %f270;
mov.f32 %f317, %f270;
mad.f32 %f318, %f315, %f316, %f317;
mov.f32 %f319, %f318;
.loc 17 8938 0
mov.f32 %f300, %f319;
$Lt_71_54786:
and.b32 %r161, %r158, 2;
mov.u32 %r162, 0;
setp.eq.s32 %p26, %r161, %r162;
@%p26 bra $Lt_71_55298;
.loc 17 8429 0
mov.f32 %f320, %f300;
mov.f32 %f321, 0fbf800000; // -1
mov.f32 %f322, %f321;
mov.f32 %f323, 0f00000000; // 0
mov.f32 %f324, %f323;
mad.f32 %f325, %f320, %f322, %f324;
mov.f32 %f326, %f325;
.loc 17 8941 0
mov.f32 %f300, %f326;
$Lt_71_55298:
.loc 17 9631 0
rsqrt.approx.f32 %f327, %f2;
mov.f32 %f328, 0f3f4c422a; // 0.797885
mul.f32 %f329, %f327, %f328;
mul.f32 %f330, %f180, %f329;
mul.f32 %f153, %f300, %f330;
bra.uni $Lt_71_46594;
$Lt_71_46850:
.loc 17 9633 0
mov.f32 %f153, 0f00000000; // 0
$Lt_71_46594:
$Lt_71_46082:
.loc 17 9635 0
neg.f32 %f331, %f153;
mov.f32 %f332, 0f00000000; // 0
setp.lt.f32 %p27, %f2, %f332;
selp.f32 %f153, %f331, %f153, %p27;
mov.f32 %f333, 0f0da24260; // 1e-030
setp.lt.f32 %p28, %f2, %f333;
@!%p28 bra $Lt_71_55810;
.loc 17 9639 0
mov.b32 %r163, %f2;
and.b32 %r164, %r163, -2147483648;
mov.b32 %r165, %f153;
and.b32 %r166, %r165, 2147483647;
or.b32 %r167, %r164, %r166;
mov.b32 %f153, %r167;
$Lt_71_55810:
.loc 17 9755 0
mul.f32 %f334, %f2, %f14;
rcp.approx.f32 %f335, %f2;
mul.f32 %f336, %f153, %f77;
sub.f32 %f337, %f336, %f335;
mov.f32 %f338, 0f3f22f983; // 0.63662
mad.f32 %f5, %f337, %f338, %f334;
bra.uni $Lt_71_44546;
$Lt_71_44802:
mov.f32 %f339, 0f40740eee; // 3.81341
setp.le.f32 %p29, %f2, %f339;
@!%p29 bra $Lt_71_56578;
.loc 17 8429 0
mov.f32 %f340, 0fc00c9df7; // -2.19714
add.f32 %f341, %f2, %f340;
mov.f32 %f342, 0f33b200dc; // 8.28893e-008
add.f32 %f343, %f341, %f342;
mov.f32 %f344, 0fb789e29d; // -1.64372e-005
mov.f32 %f345, %f344;
mov.f32 %f346, %f343;
mov.f32 %f347, 0f39064a88; // 0.00012807
mov.f32 %f348, %f347;
mad.f32 %f349, %f345, %f346, %f348;
mov.f32 %f14, %f349;
mov.f32 %f350, %f14;
mov.f32 %f351, %f343;
mov.f32 %f352, 0fb9f0ab0d; // -0.000459038
mov.f32 %f353, %f352;
mad.f32 %f354, %f350, %f351, %f353;
mov.f32 %f14, %f354;
mov.f32 %f355, %f14;
mov.f32 %f356, %f343;
mov.f32 %f357, 0f3a8f6102; // 0.00109389
mov.f32 %f358, %f357;
mad.f32 %f359, %f355, %f356, %f358;
mov.f32 %f14, %f359;
mov.f32 %f360, %f14;
mov.f32 %f361, %f343;
mov.f32 %f362, 0fbb2c7045; // -0.0026312
mov.f32 %f363, %f362;
mad.f32 %f364, %f360, %f361, %f363;
mov.f32 %f14, %f364;
mov.f32 %f365, %f14;
mov.f32 %f366, %f343;
mov.f32 %f367, 0f3bf35df7; // 0.00742697
mov.f32 %f368, %f367;
mad.f32 %f369, %f365, %f366, %f368;
mov.f32 %f14, %f369;
mov.f32 %f370, %f14;
mov.f32 %f371, %f343;
mov.f32 %f372, 0fbb9d097c; // -0.00479239
mov.f32 %f373, %f372;
mad.f32 %f374, %f370, %f371, %f373;
mov.f32 %f14, %f374;
mov.f32 %f375, %f14;
mov.f32 %f376, %f343;
mov.f32 %f377, 0fbd06968a; // -0.0328584
mov.f32 %f378, %f377;
mad.f32 %f379, %f375, %f376, %f378;
mov.f32 %f14, %f379;
mov.f32 %f380, %f14;
mov.f32 %f381, %f343;
mov.f32 %f382, 0fbdf2b7df; // -0.118515
mov.f32 %f383, %f382;
mad.f32 %f384, %f380, %f381, %f383;
mov.f32 %f14, %f384;
mov.f32 %f385, %f14;
mov.f32 %f386, %f343;
mov.f32 %f387, 0f3f055242; // 0.520786
mov.f32 %f388, %f387;
mad.f32 %f389, %f385, %f386, %f388;
mov.f32 %f14, %f389;
.loc 17 9771 0
mul.f32 %f5, %f343, %f14;
bra.uni $Lt_71_56322;
$Lt_71_56578:
mov.f32 %f390, 0f40e06937; // 7.01284
setp.le.f32 %p30, %f2, %f390;
@!%p30 bra $Lt_71_57090;
.loc 17 8429 0
mov.f32 %f391, 0fc0adbff2; // -5.42968
add.f32 %f392, %f2, %f391;
mov.f32 %f393, 0fb4687b03; // -2.16514e-007
add.f32 %f394, %f392, %f393;
mov.f32 %f395, 0f32be57d0; // 2.21588e-008
mov.f32 %f396, %f395;
mov.f32 %f397, %f394;
mov.f32 %f398, 0fb508a416; // -5.09027e-007
mov.f32 %f399, %f398;
mad.f32 %f400, %f396, %f397, %f399;
mov.f32 %f14, %f400;
mov.f32 %f401, %f14;
mov.f32 %f402, %f394;
mov.f32 %f403, 0fb63f8a14; // -2.85416e-006
mov.f32 %f404, %f403;
mad.f32 %f405, %f401, %f402, %f404;
mov.f32 %f14, %f405;
mov.f32 %f406, %f14;
mov.f32 %f407, %f394;
mov.f32 %f408, 0f38427e02; // 4.63706e-005
mov.f32 %f409, %f408;
mad.f32 %f410, %f406, %f407, %f409;
mov.f32 %f14, %f410;
mov.f32 %f411, %f14;
mov.f32 %f412, %f394;
mov.f32 %f413, 0f3919bb1c; // 0.000146609
mov.f32 %f414, %f413;
mad.f32 %f415, %f411, %f412, %f414;
mov.f32 %f14, %f415;
mov.f32 %f416, %f14;
mov.f32 %f417, %f394;
mov.f32 %f418, 0fbb0df1fd; // -0.00216591
mov.f32 %f419, %f418;
mad.f32 %f420, %f416, %f417, %f419;
mov.f32 %f14, %f420;
mov.f32 %f421, %f14;
mov.f32 %f422, %f394;
mov.f32 %f423, 0fbb885189; // -0.00416011
mov.f32 %f424, %f423;
mad.f32 %f425, %f421, %f422, %f424;
mov.f32 %f14, %f425;
mov.f32 %f426, %f14;
mov.f32 %f427, %f394;
mov.f32 %f428, 0f3d50aec1; // 0.0509479
mov.f32 %f429, %f428;
mad.f32 %f430, %f426, %f427, %f429;
mov.f32 %f14, %f430;
mov.f32 %f431, %f14;
mov.f32 %f432, %f394;
mov.f32 %f433, 0f3d005cfc; // 0.0313387
mov.f32 %f434, %f433;
mad.f32 %f435, %f431, %f432, %f434;
mov.f32 %f14, %f435;
mov.f32 %f436, %f14;
mov.f32 %f437, %f394;
mov.f32 %f438, 0fbeae3e2b; // -0.340318
mov.f32 %f439, %f438;
mad.f32 %f440, %f436, %f437, %f439;
mov.f32 %f14, %f440;
.loc 17 9784 0
mul.f32 %f5, %f394, %f14;
bra.uni $Lt_71_56834;
$Lt_71_57090:
mov.f32 %f441, 0f4122c2e3; // 10.1726
setp.le.f32 %p31, %f2, %f441;
@!%p31 bra $Lt_71_57602;
.loc 17 8429 0
mov.f32 %f442, 0fc109893d; // -8.59601
add.f32 %f443, %f2, %f442;
mov.f32 %f444, 0fb4e6169b; // -4.28573e-007
add.f32 %f445, %f443, %f444;
mov.f32 %f446, 0f350cf383; // 5.25084e-007
mov.f32 %f447, %f446;
mov.f32 %f448, %f445;
mov.f32 %f449, 0f3602902e; // 1.94554e-006
mov.f32 %f450, %f449;
mad.f32 %f451, %f447, %f448, %f450;
mov.f32 %f14, %f451;
mov.f32 %f452, %f14;
mov.f32 %f453, %f445;
mov.f32 %f454, 0fb8375f71; // -4.37195e-005
mov.f32 %f455, %f454;
mad.f32 %f456, %f452, %f453, %f455;
mov.f32 %f14, %f456;
mov.f32 %f457, %f14;
mov.f32 %f458, %f445;
mov.f32 %f459, 0fb8d9faa8; // -0.000103941
mov.f32 %f460, %f459;
mad.f32 %f461, %f457, %f458, %f460;
mov.f32 %f14, %f461;
mov.f32 %f462, %f14;
mov.f32 %f463, %f445;
mov.f32 %f464, 0f3b03d19a; // 0.00201139
mov.f32 %f465, %f464;
mad.f32 %f466, %f462, %f463, %f465;
mov.f32 %f14, %f466;
mov.f32 %f467, %f14;
mov.f32 %f468, %f445;
mov.f32 %f469, 0f3b1e736d; // 0.00241777
mov.f32 %f470, %f469;
mad.f32 %f471, %f467, %f468, %f470;
mov.f32 %f14, %f471;
mov.f32 %f472, %f14;
mov.f32 %f473, %f445;
mov.f32 %f474, 0fbd31cae5; // -0.0434064
mov.f32 %f475, %f474;
mad.f32 %f476, %f472, %f473, %f475;
mov.f32 %f14, %f476;
mov.f32 %f477, %f14;
mov.f32 %f478, %f445;
mov.f32 %f479, 0fbc8159b6; // -0.0157898
mov.f32 %f480, %f479;
mad.f32 %f481, %f477, %f478, %f480;
mov.f32 %f14, %f481;
mov.f32 %f482, %f14;
mov.f32 %f483, %f445;
mov.f32 %f484, 0f3e8afcca; // 0.27146
mov.f32 %f485, %f484;
mad.f32 %f486, %f482, %f483, %f485;
mov.f32 %f14, %f486;
.loc 17 9796 0
mul.f32 %f5, %f445, %f14;
bra.uni $Lt_71_57346;
$Lt_71_57602:
.loc 17 9797 0
mov.f32 %f487, 0f7f800000; // 1.#INF
setp.eq.f32 %p32, %f2, %f487;
@%p32 bra $Lt_71_58114;
.loc 17 8437 0
mov.f32 %f488, %f2;
rcp.approx.ftz.f32 %f489,%f488;
mov.f32 %f490, %f489;
.loc 17 8429 0
mul.f32 %f491, %f490, %f490;
mov.f32 %f492, 0f3f267f60; // 0.650381
mov.f32 %f493, %f492;
mov.f32 %f494, %f491;
mov.f32 %f495, 0fbe44ab90; // -0.192061
mov.f32 %f496, %f495;
mad.f32 %f497, %f493, %f494, %f496;
mov.f32 %f14, %f497;
mov.f32 %f498, %f14;
mov.f32 %f499, %f491;
mov.f32 %f500, 0f3e3ffebf; // 0.187495
mov.f32 %f501, %f500;
mad.f32 %f502, %f498, %f499, %f501;
mov.f32 %f14, %f502;
mov.f32 %f503, %f14;
mov.f32 %f504, %f491;
mov.f32 %f505, 0f3f800000; // 1
mov.f32 %f506, %f505;
mad.f32 %f507, %f503, %f504, %f506;
mov.f32 %f508, %f507;
mov.f32 %f509, 0fbfe4e1ab; // -1.78814
mov.f32 %f510, %f509;
mov.f32 %f511, %f491;
mov.f32 %f512, 0f3ebb73ab; // 0.366117
mov.f32 %f513, %f512;
mad.f32 %f514, %f510, %f511, %f513;
mov.f32 %f14, %f514;
mov.f32 %f515, %f14;
mov.f32 %f516, %f491;
mov.f32 %f517, 0fbe27fb6e; // -0.164045
mov.f32 %f518, %f517;
mad.f32 %f519, %f515, %f516, %f518;
mov.f32 %f14, %f519;
mov.f32 %f520, %f14;
mov.f32 %f521, %f491;
mov.f32 %f522, 0f3ebfffff; // 0.375
mov.f32 %f523, %f522;
mad.f32 %f524, %f520, %f521, %f523;
mov.f32 %f14, %f524;
mov.f32 %f525, %f14;
mov.f32 %f526, %f490;
mov.f32 %f527, %f2;
mad.f32 %f528, %f525, %f526, %f527;
mov.f32 %f14, %f528;
.loc 17 8726 0
mov.f32 %f529, 0f3f22f983; // 0.63662
mul.f32 %f530, %f14, %f529;
cvt.rni.s32.f32 %r168, %f530;
mov.s32 %r169, %r168;
.loc 17 8429 0
cvt.rn.f32.s32 %f531, %r168;
neg.f32 %f532, %f531;
mov.f32 %f533, %f532;
mov.f32 %f534, 0f3fc90000; // 1.57031
mov.f32 %f535, %f534;
mov.f32 %f536, %f14;
mad.f32 %f537, %f533, %f535, %f536;
mov.f32 %f538, %f537;
mov.f32 %f539, %f532;
mov.f32 %f540, 0f39fd8000; // 0.000483513
mov.f32 %f541, %f540;
mov.f32 %f542, %f538;
mad.f32 %f543, %f539, %f541, %f542;
mov.f32 %f544, %f543;
mov.f32 %f545, %f532;
mov.f32 %f546, 0f34a88000; // 3.13856e-007
mov.f32 %f547, %f546;
mov.f32 %f548, %f544;
mad.f32 %f549, %f545, %f547, %f548;
mov.f32 %f550, %f549;
mov.f32 %f551, %f532;
mov.f32 %f552, 0f2e85a309; // 6.0771e-011
mov.f32 %f553, %f552;
mov.f32 %f554, %f550;
mad.f32 %f555, %f551, %f553, %f554;
mov.f32 %f556, %f555;
.loc 17 8737 0
mov.f32 %f557, %f556;
abs.f32 %f558, %f14;
mov.f32 %f559, 0f473ba700; // 48039
setp.gt.f32 %p33, %f558, %f559;
@!%p33 bra $Lt_71_58370;
.loc 17 8740 0
mov.u64 %rd6, __cudart_i2opi_f;
.loc 17 8658 0
mov.b32 %r170, %f14;
and.b32 %r171, %r170, -2147483648;
mov.s32 %r172, %r171;
.loc 17 24 0
shl.b32 %r173, %r170, 8;
or.b32 %r174, %r173, -2147483648;
mov.s64 %rd19, %rd6;
mov.u64 %rd20, __cuda___cuda_result_722296;
mov.s32 %r175, 0;
mov.u32 %r176, 0;
$Lt_71_59394:
// Loop body line 24, nesting depth: 1, iterations: 6
.loc 17 8674 0
ld.const.u32 %r177, [%rd19+0];
mul.lo.u32 %r178, %r174, %r177;
add.u32 %r179, %r178, %r176;
.loc 17 8675 0
set.gt.u32.u32 %r180, %r178, %r179;
neg.s32 %r181, %r180;
mul.hi.u32 %r182, %r177, %r174;
add.u32 %r176, %r181, %r182;
.loc 17 8676 0
st.local.u32 [%rd20+0], %r179;
add.s32 %r175, %r175, 1;
add.u64 %rd20, %rd20, 4;
add.u64 %rd19, %rd19, 4;
mov.u32 %r183, 6;
setp.ne.s32 %p34, %r175, %r183;
@%p34 bra $Lt_71_59394;
.loc 17 8678 0
st.local.u32 [__cuda___cuda_result_722296+24], %r176;
.loc 17 8683 0
shl.b32 %r184, %r170, 1;
shr.u32 %r185, %r184, 24;
sub.u32 %r186, %r185, 128;
mov.u64 %rd21, __cuda___cuda_result_722296;
shr.u32 %r187, %r186, 5;
mov.s32 %r188, 4;
sub.s32 %r189, %r188, %r187;
cvt.s64.s32 %rd22, %r189;
mul.wide.s32 %rd23, %r189, 4;
add.u64 %rd24, %rd21, %rd23;
ld.local.u32 %r176, [%rd24+8];
.loc 17 8684 0
ld.local.u32 %r190, [%rd24+4];
and.b32 %r191, %r186, 31;
mov.u32 %r192, 0;
setp.eq.u32 %p35, %r191, %r192;
@%p35 bra $Lt_71_59906;
.loc 17 8687 0
mov.s32 %r193, 32;
sub.s32 %r194, %r193, %r191;
shr.u32 %r195, %r190, %r194;
shl.b32 %r196, %r176, %r191;
add.u32 %r176, %r195, %r196;
.loc 17 8688 0
ld.local.u32 %r197, [%rd24+0];
shr.u32 %r198, %r197, %r194;
shl.b32 %r199, %r190, %r191;
add.u32 %r190, %r198, %r199;
$Lt_71_59906:
.loc 17 8690 0
shr.u32 %r200, %r176, 30;
.loc 17 8692 0
shr.u32 %r201, %r190, 30;
shl.b32 %r202, %r176, 2;
add.u32 %r176, %r201, %r202;
.loc 17 8693 0
shl.b32 %r190, %r190, 2;
.loc 17 8695 0
shr.u32 %r203, %r176, 31;
add.u32 %r204, %r200, %r203;
.loc 17 8690 0
neg.s32 %r205, %r204;
mov.u32 %r206, 0;
setp.ne.u32 %p36, %r171, %r206;
selp.s32 %r175, %r205, %r204, %p36;
.loc 17 8697 0
mov.s32 %r169, %r175;
mov.u32 %r207, 0;
setp.eq.u32 %p37, %r203, %r207;
@%p37 bra $Lt_71_60418;
.loc 17 8701 0
neg.s32 %r190, %r190;
.loc 17 8703 0
mov.u32 %r208, 0;
set.eq.u32.u32 %r209, %r190, %r208;
neg.s32 %r210, %r209;
not.b32 %r211, %r176;
add.u32 %r176, %r210, %r211;
.loc 17 8704 0
xor.b32 %r172, %r171, -2147483648;
$Lt_71_60418:
.loc 17 8707 0
mov.u32 %r212, 0;
setp.eq.s32 %p38, %r176, %r212;
@%p38 bra $Lt_71_61186;
.loc 19 4479 0
cvt.rz.f32.u32 %f560, %r176;
mov.b32 %r213, %f560;
shr.s32 %r214, %r213, 23;
mov.s32 %r215, 158;
sub.s32 %r216, %r215, %r214;
bra.uni $Lt_71_60930;
$Lt_71_61186:
mov.s32 %r216, 32;
$Lt_71_60930:
.loc 17 8707 0
mov.s32 %r217, %r216;
mov.s32 %r218, %r217;
.loc 19 4479 0
mov.s32 %r219, 32;
sub.s32 %r220, %r219, %r217;
shr.u32 %r221, %r190, %r220;
shl.b32 %r222, %r176, %r217;
add.u32 %r223, %r221, %r222;
mov.u32 %r224, 0;
setp.ne.u32 %p39, %r217, %r224;
selp.u32 %r225, %r223, %r176, %p39;
.loc 17 8711 0
mul.lo.u32 %r190, %r225, -921707870;
.loc 17 8712 0
mov.u32 %r226, -921707870;
mul.hi.u32 %r176, %r225, %r226;
mov.u32 %r227, 0;
setp.le.s32 %p40, %r176, %r227;
@%p40 bra $Lt_71_61442;
.loc 17 8714 0
shr.u32 %r228, %r190, 31;
shl.b32 %r229, %r176, 1;
add.u32 %r176, %r228, %r229;
.loc 17 8715 0
add.u32 %r218, %r217, 1;
$Lt_71_61442:
.loc 17 8740 0
add.u32 %r230, %r176, 1;
shr.u32 %r231, %r230, 7;
add.u32 %r232, %r231, 1;
shr.u32 %r233, %r232, 1;
mov.s32 %r234, 126;
sub.s32 %r235, %r234, %r218;
shl.b32 %r236, %r235, 23;
add.u32 %r237, %r233, %r236;
or.b32 %r238, %r172, %r237;
mov.b32 %f557, %r238;
$Lt_71_58370:
.loc 17 8990 0
mov.u64 %rd6, __cudart_i2opi_f;
mov.f32 %f561, 0fc07b53d1; // -3.92699
add.f32 %f562, %f557, %f561;
and.b32 %r239, %r169, 3;
cvt.rn.f32.s32 %f563, %r239;
mov.f32 %f564, 0f3fc90fdb; // 1.5708
mad.f32 %f565, %f563, %f564, %f562;
mov.f32 %f566, %f565;
.loc 17 8970 0
abs.f32 %f567, %f565;
mov.f32 %f568, 0f7f800000; // 1.#INF
setp.eq.f32 %p41, %f567, %f568;
@!%p41 bra $Lt_71_61954;
.loc 17 8971 0
mov.f32 %f569, 0f00000000; // 0
mul.rn.f32 %f566, %f565, %f569;
$Lt_71_61954:
.loc 17 8726 0
mov.f32 %f570, 0f3f22f983; // 0.63662
mul.f32 %f571, %f566, %f570;
cvt.rni.s32.f32 %r240, %f571;
mov.s32 %r241, %r240;
.loc 17 8429 0
cvt.rn.f32.s32 %f572, %r240;
neg.f32 %f573, %f572;
mov.f32 %f574, %f573;
mov.f32 %f575, 0f3fc90000; // 1.57031
mov.f32 %f576, %f575;
mov.f32 %f577, %f566;
mad.f32 %f578, %f574, %f576, %f577;
mov.f32 %f579, %f578;
mov.f32 %f580, %f573;
mov.f32 %f581, 0f39fd8000; // 0.000483513
mov.f32 %f582, %f581;
mov.f32 %f583, %f579;
mad.f32 %f584, %f580, %f582, %f583;
mov.f32 %f585, %f584;
mov.f32 %f586, %f573;
mov.f32 %f587, 0f34a88000; // 3.13856e-007
mov.f32 %f588, %f587;
mov.f32 %f589, %f585;
mad.f32 %f590, %f586, %f588, %f589;
mov.f32 %f591, %f590;
mov.f32 %f592, %f573;
mov.f32 %f593, 0f2e85a309; // 6.0771e-011
mov.f32 %f594, %f593;
mov.f32 %f595, %f591;
mad.f32 %f596, %f592, %f594, %f595;
mov.f32 %f597, %f596;
.loc 17 8737 0
mov.f32 %f598, %f597;
abs.f32 %f599, %f566;
mov.f32 %f600, 0f473ba700; // 48039
setp.gt.f32 %p42, %f599, %f600;
@!%p42 bra $Lt_71_62466;
.loc 17 8658 0
mov.b32 %r242, %f566;
and.b32 %r243, %r242, -2147483648;
mov.s32 %r244, %r243;
.loc 17 24 0
shl.b32 %r245, %r242, 8;
or.b32 %r246, %r245, -2147483648;
mov.s64 %rd25, %rd6;
mov.u64 %rd26, __cuda___cuda_result_1002324;
mov.s32 %r247, 0;
mov.u32 %r248, 0;
$Lt_71_63490:
// Loop body line 24, nesting depth: 1, iterations: 6
.loc 17 8674 0
ld.const.u32 %r249, [%rd25+0];
mul.lo.u32 %r250, %r246, %r249;
add.u32 %r251, %r250, %r248;
.loc 17 8675 0
set.gt.u32.u32 %r252, %r250, %r251;
neg.s32 %r253, %r252;
mul.hi.u32 %r254, %r249, %r246;
add.u32 %r248, %r253, %r254;
.loc 17 8676 0
st.local.u32 [%rd26+0], %r251;
add.s32 %r247, %r247, 1;
add.u64 %rd26, %rd26, 4;
add.u64 %rd25, %rd25, 4;
mov.u32 %r255, 6;
setp.ne.s32 %p43, %r247, %r255;
@%p43 bra $Lt_71_63490;
.loc 17 8678 0
st.local.u32 [__cuda___cuda_result_1002324+24], %r248;
.loc 17 8683 0
shl.b32 %r256, %r242, 1;
shr.u32 %r257, %r256, 24;
sub.u32 %r258, %r257, 128;
mov.u64 %rd27, __cuda___cuda_result_1002324;
shr.u32 %r259, %r258, 5;
mov.s32 %r260, 4;
sub.s32 %r261, %r260, %r259;
cvt.s64.s32 %rd28, %r261;
mul.wide.s32 %rd29, %r261, 4;
add.u64 %rd30, %rd27, %rd29;
ld.local.u32 %r248, [%rd30+8];
.loc 17 8684 0
ld.local.u32 %r262, [%rd30+4];
and.b32 %r263, %r258, 31;
mov.u32 %r264, 0;
setp.eq.u32 %p44, %r263, %r264;
@%p44 bra $Lt_71_64002;
.loc 17 8687 0
mov.s32 %r265, 32;
sub.s32 %r266, %r265, %r263;
shr.u32 %r267, %r262, %r266;
shl.b32 %r268, %r248, %r263;
add.u32 %r248, %r267, %r268;
.loc 17 8688 0
ld.local.u32 %r269, [%rd30+0];
shr.u32 %r270, %r269, %r266;
shl.b32 %r271, %r262, %r263;
add.u32 %r262, %r270, %r271;
$Lt_71_64002:
.loc 17 8690 0
shr.u32 %r272, %r248, 30;
.loc 17 8692 0
shr.u32 %r273, %r262, 30;
shl.b32 %r274, %r248, 2;
add.u32 %r248, %r273, %r274;
.loc 17 8693 0
shl.b32 %r262, %r262, 2;
.loc 17 8695 0
shr.u32 %r275, %r248, 31;
add.u32 %r276, %r272, %r275;
.loc 17 8690 0
neg.s32 %r277, %r276;
mov.u32 %r278, 0;
setp.ne.u32 %p45, %r243, %r278;
selp.s32 %r247, %r277, %r276, %p45;
.loc 17 8697 0
mov.s32 %r241, %r247;
mov.u32 %r279, 0;
setp.eq.u32 %p46, %r275, %r279;
@%p46 bra $Lt_71_64514;
.loc 17 8701 0
neg.s32 %r262, %r262;
.loc 17 8703 0
mov.u32 %r280, 0;
set.eq.u32.u32 %r281, %r262, %r280;
neg.s32 %r282, %r281;
not.b32 %r283, %r248;
add.u32 %r248, %r282, %r283;
.loc 17 8704 0
xor.b32 %r244, %r243, -2147483648;
$Lt_71_64514:
.loc 17 8707 0
mov.u32 %r284, 0;
setp.eq.s32 %p47, %r248, %r284;
@%p47 bra $Lt_71_65282;
.loc 19 4479 0
cvt.rz.f32.u32 %f601, %r248;
mov.b32 %r285, %f601;
shr.s32 %r286, %r285, 23;
mov.s32 %r287, 158;
sub.s32 %r288, %r287, %r286;
bra.uni $Lt_71_65026;
$Lt_71_65282:
mov.s32 %r288, 32;
$Lt_71_65026:
.loc 17 8707 0
mov.s32 %r289, %r288;
mov.s32 %r290, %r289;
.loc 19 4479 0
mov.s32 %r291, 32;
sub.s32 %r292, %r291, %r289;
shr.u32 %r293, %r262, %r292;
shl.b32 %r294, %r248, %r289;
add.u32 %r295, %r293, %r294;
mov.u32 %r296, 0;
setp.ne.u32 %p48, %r289, %r296;
selp.u32 %r297, %r295, %r248, %p48;
.loc 17 8711 0
mul.lo.u32 %r262, %r297, -921707870;
.loc 17 8712 0
mov.u32 %r298, -921707870;
mul.hi.u32 %r248, %r297, %r298;
mov.u32 %r299, 0;
setp.le.s32 %p49, %r248, %r299;
@%p49 bra $Lt_71_65538;
.loc 17 8714 0
shr.u32 %r300, %r262, 31;
shl.b32 %r301, %r248, 1;
add.u32 %r248, %r300, %r301;
.loc 17 8715 0
add.u32 %r290, %r289, 1;
$Lt_71_65538:
.loc 17 8740 0
add.u32 %r302, %r248, 1;
shr.u32 %r303, %r302, 7;
add.u32 %r304, %r303, 1;
shr.u32 %r305, %r304, 1;
mov.s32 %r306, 126;
sub.s32 %r307, %r306, %r290;
shl.b32 %r308, %r307, 23;
add.u32 %r309, %r305, %r308;
or.b32 %r310, %r244, %r309;
mov.b32 %f598, %r310;
$Lt_71_62466:
.loc 17 8975 0
add.s32 %r311, %r241, 1;
mul.f32 %f602, %f598, %f598;
and.b32 %r312, %r311, 1;
mov.u32 %r313, 0;
setp.eq.s32 %p50, %r312, %r313;
@%p50 bra $Lt_71_66306;
.loc 17 8429 0
mov.f32 %f603, 0f37ccf5ce; // 2.44332e-005
mov.f32 %f604, %f603;
mov.f32 %f605, %f602;
mov.f32 %f606, 0fbab6061a; // -0.00138873
mov.f32 %f607, %f606;
mad.f32 %f608, %f604, %f605, %f607;
mov.f32 %f609, %f608;
mov.f32 %f610, %f609;
mov.f32 %f611, %f602;
mov.f32 %f612, 0f3d2aaaa5; // 0.0416666
mov.f32 %f613, %f612;
mad.f32 %f614, %f610, %f611, %f613;
mov.f32 %f615, %f614;
mov.f32 %f616, %f615;
mov.f32 %f617, %f602;
mov.f32 %f618, 0fbf000000; // -0.5
mov.f32 %f619, %f618;
mad.f32 %f620, %f616, %f617, %f619;
mov.f32 %f621, %f620;
mov.f32 %f622, %f621;
mov.f32 %f623, %f602;
mov.f32 %f624, 0f3f800000; // 1
mov.f32 %f625, %f624;
mad.f32 %f626, %f622, %f623, %f625;
mov.f32 %f627, %f626;
.loc 17 8936 0
mov.f32 %f628, %f627;
bra.uni $Lt_71_66050;
$Lt_71_66306:
.loc 17 8429 0
mov.f32 %f629, 0fb94ca1f9; // -0.000195153
mov.f32 %f630, %f629;
mov.f32 %f631, %f602;
mov.f32 %f632, 0f3c08839e; // 0.00833216
mov.f32 %f633, %f632;
mad.f32 %f634, %f630, %f631, %f633;
mov.f32 %f635, %f634;
mov.f32 %f636, %f635;
mov.f32 %f637, %f602;
mov.f32 %f638, 0fbe2aaaa3; // -0.166667
mov.f32 %f639, %f638;
mad.f32 %f640, %f636, %f637, %f639;
mov.f32 %f641, %f640;
mul.f32 %f642, %f602, %f641;
mov.f32 %f643, %f642;
mov.f32 %f644, %f598;
mov.f32 %f645, %f598;
mad.f32 %f646, %f643, %f644, %f645;
mov.f32 %f647, %f646;
.loc 17 8938 0
mov.f32 %f628, %f647;
$Lt_71_66050:
and.b32 %r314, %r311, 2;
mov.u32 %r315, 0;
setp.eq.s32 %p51, %r314, %r315;
@%p51 bra $Lt_71_66562;
.loc 17 8429 0
mov.f32 %f648, %f628;
mov.f32 %f649, 0fbf800000; // -1
mov.f32 %f650, %f649;
mov.f32 %f651, 0f00000000; // 0
mov.f32 %f652, %f651;
mad.f32 %f653, %f648, %f650, %f652;
mov.f32 %f654, %f653;
.loc 17 8941 0
mov.f32 %f628, %f654;
$Lt_71_66562:
.loc 17 9810 0
rsqrt.approx.f32 %f655, %f2;
mov.f32 %f656, 0f3f4c422a; // 0.797885
mul.f32 %f657, %f655, %f656;
mul.f32 %f658, %f508, %f657;
mul.f32 %f5, %f628, %f658;
bra.uni $Lt_71_57858;
$Lt_71_58114:
.loc 17 9813 0
mov.f32 %f5, 0f00000000; // 0
$Lt_71_57858:
$Lt_71_57346:
$Lt_71_56834:
$Lt_71_56322:
$Lt_71_44546:
$Lt_71_44034:
mov.f32 %f659, 0f00000000; // 0
setp.lt.f32 %p52, %f1, %f659;
@!%p52 bra $Lt_71_67074;
.loc 17 9816 0
mov.f32 %f660, 0fbf800000; // -1
sqrt.approx.f32 %f5, %f660;
$Lt_71_67074:
.loc 15 870 0
ld.param.u64 %rd31, [__cudaparm_vec_y1f_result];
add.u64 %rd32, %rd31, %rd3;
st.global.f32 [%rd32+0], %f5;
$Lt_71_43522:
.loc 15 872 0
exit;
$LDWend_vec_y1f:
} // vec_y1f
.entry vec_copysignf (
.param .u64 __cudaparm_vec_copysignf_n,
.param .u64 __cudaparm_vec_copysignf_result,
.param .u64 __cudaparm_vec_copysignf_x,
.param .u64 __cudaparm_vec_copysignf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<10>;
.reg .u64 %rd<11>;
.reg .f32 %f<4>;
.reg .pred %p<3>;
.loc 15 892 0
$LDWbegin_vec_copysignf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_copysignf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_72_1026;
.loc 15 897 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_copysignf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
mov.b32 %r4, %f1;
and.b32 %r5, %r4, 2147483647;
ld.param.u64 %rd6, [__cudaparm_vec_copysignf_y];
add.u64 %rd7, %rd6, %rd3;
ld.global.f32 %f2, [%rd7+0];
mov.b32 %r6, %f2;
and.b32 %r7, %r6, -2147483648;
or.b32 %r8, %r5, %r7;
ld.param.u64 %rd8, [__cudaparm_vec_copysignf_result];
add.u64 %rd9, %rd8, %rd3;
st.global.u32 [%rd9+0], %r8;
$Lt_72_1026:
.loc 15 899 0
exit;
$LDWend_vec_copysignf:
} // vec_copysignf
.entry vec_fdimf (
.param .u64 __cudaparm_vec_fdimf_n,
.param .u64 __cudaparm_vec_fdimf_result,
.param .u64 __cudaparm_vec_fdimf_x,
.param .u64 __cudaparm_vec_fdimf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<11>;
.reg .f32 %f<7>;
.reg .pred %p<4>;
.loc 15 903 0
$LDWbegin_vec_fdimf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_fdimf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_73_1794;
.loc 15 908 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_fdimf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
ld.param.u64 %rd6, [__cudaparm_vec_fdimf_y];
add.u64 %rd7, %rd6, %rd3;
ld.global.f32 %f2, [%rd7+0];
mov.f32 %f3, 0f00000000; // 0
sub.f32 %f4, %f1, %f2;
setp.le.f32 %p2, %f1, %f2;
selp.f32 %f5, %f3, %f4, %p2;
ld.param.u64 %rd8, [__cudaparm_vec_fdimf_result];
add.u64 %rd9, %rd8, %rd3;
st.global.f32 [%rd9+0], %f5;
$Lt_73_1794:
.loc 15 910 0
exit;
$LDWend_vec_fdimf:
} // vec_fdimf
.entry vec_fdividef (
.param .u64 __cudaparm_vec_fdividef_n,
.param .u64 __cudaparm_vec_fdividef_result,
.param .u64 __cudaparm_vec_fdividef_x,
.param .u64 __cudaparm_vec_fdividef_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<11>;
.reg .f32 %f<5>;
.reg .pred %p<3>;
.loc 15 914 0
$LDWbegin_vec_fdividef:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_fdividef_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_74_1026;
.loc 15 919 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_fdividef_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
ld.param.u64 %rd6, [__cudaparm_vec_fdividef_y];
add.u64 %rd7, %rd6, %rd3;
ld.global.f32 %f2, [%rd7+0];
div.full.f32 %f3, %f1, %f2;
ld.param.u64 %rd8, [__cudaparm_vec_fdividef_result];
add.u64 %rd9, %rd8, %rd3;
st.global.f32 [%rd9+0], %f3;
$Lt_74_1026:
.loc 15 921 0
exit;
$LDWend_vec_fdividef:
} // vec_fdividef
.entry vec_fmaxf (
.param .u64 __cudaparm_vec_fmaxf_n,
.param .u64 __cudaparm_vec_fmaxf_result,
.param .u64 __cudaparm_vec_fmaxf_x,
.param .u64 __cudaparm_vec_fmaxf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<11>;
.reg .f32 %f<5>;
.reg .pred %p<3>;
.loc 15 925 0
$LDWbegin_vec_fmaxf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_fmaxf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_75_1026;
.loc 15 930 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_fmaxf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
ld.param.u64 %rd6, [__cudaparm_vec_fmaxf_y];
add.u64 %rd7, %rd6, %rd3;
ld.global.f32 %f2, [%rd7+0];
max.f32 %f3, %f1, %f2;
ld.param.u64 %rd8, [__cudaparm_vec_fmaxf_result];
add.u64 %rd9, %rd8, %rd3;
st.global.f32 [%rd9+0], %f3;
$Lt_75_1026:
.loc 15 932 0
exit;
$LDWend_vec_fmaxf:
} // vec_fmaxf
.entry vec_fminf (
.param .u64 __cudaparm_vec_fminf_n,
.param .u64 __cudaparm_vec_fminf_result,
.param .u64 __cudaparm_vec_fminf_x,
.param .u64 __cudaparm_vec_fminf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<5>;
.reg .u64 %rd<11>;
.reg .f32 %f<5>;
.reg .pred %p<3>;
.loc 15 936 0
$LDWbegin_vec_fminf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_fminf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_76_1026;
.loc 15 941 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_fminf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
ld.param.u64 %rd6, [__cudaparm_vec_fminf_y];
add.u64 %rd7, %rd6, %rd3;
ld.global.f32 %f2, [%rd7+0];
min.f32 %f3, %f1, %f2;
ld.param.u64 %rd8, [__cudaparm_vec_fminf_result];
add.u64 %rd9, %rd8, %rd3;
st.global.f32 [%rd9+0], %f3;
$Lt_76_1026:
.loc 15 943 0
exit;
$LDWend_vec_fminf:
} // vec_fminf
.entry vec_fmodf (
.param .u64 __cudaparm_vec_fmodf_n,
.param .u64 __cudaparm_vec_fmodf_result,
.param .u64 __cudaparm_vec_fmodf_x,
.param .u64 __cudaparm_vec_fmodf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<25>;
.reg .u64 %rd<11>;
.reg .f32 %f<23>;
.reg .pred %p<11>;
.loc 15 947 0
$LDWbegin_vec_fmodf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_fmodf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_77_7682;
.loc 15 952 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_fmodf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
ld.param.u64 %rd6, [__cudaparm_vec_fmodf_y];
add.u64 %rd7, %rd6, %rd3;
ld.global.f32 %f2, [%rd7+0];
.loc 17 10376 0
abs.f32 %f3, %f1;
abs.f32 %f4, %f2;
mov.f32 %f5, 0f7f800000; // 1.#INF
set.le.u32.f32 %r4, %f4, %f5;
neg.s32 %r5, %r4;
mov.f32 %f6, 0f7f800000; // 1.#INF
set.le.u32.f32 %r6, %f3, %f6;
neg.s32 %r7, %r6;
and.b32 %r8, %r5, %r7;
mov.u32 %r9, 0;
setp.ne.s32 %p2, %r8, %r9;
@%p2 bra $Lt_77_8194;
.loc 17 10379 0
add.f32 %f7, %f1, %f2;
bra.uni $LDWendi_fmodf_320_1;
$Lt_77_8194:
mov.f32 %f8, 0f00000000; // 0
set.eq.u32.f32 %r10, %f4, %f8;
neg.s32 %r11, %r10;
mov.f32 %f9, 0f7f800000; // 1.#INF
set.eq.u32.f32 %r12, %f3, %f9;
neg.s32 %r13, %r12;
or.b32 %r14, %r11, %r13;
mov.u32 %r15, 0;
setp.eq.s32 %p3, %r14, %r15;
@%p3 bra $Lt_77_8962;
mov.f32 %f10, 0fffc00000; // -1.#IND
rsqrt.approx.f32 %f11, %f10;
bra.uni $Lt_77_8706;
$Lt_77_8962:
setp.le.f32 %p4, %f4, %f3;
@!%p4 bra $Lt_77_9474;
.loc 17 10397 0
mov.b32 %r16, %f3;
mov.b32 %r17, %f4;
and.b32 %r18, %r16, 2139095040;
and.b32 %r19, %r17, 8388607;
or.b32 %r20, %r18, %r19;
mov.b32 %f12, %r20;
setp.gt.f32 %p5, %f12, %f3;
mov.f32 %f13, 0f3f000000; // 0.5
mul.f32 %f14, %f12, %f13;
selp.f32 %f15, %f14, %f12, %p5;
mov.f32 %f16, %f15;
setp.le.f32 %p6, %f4, %f15;
@!%p6 bra $Lt_77_9730;
$Lt_77_10242:
.loc 17 10403 0
sub.f32 %f17, %f3, %f16;
setp.ge.f32 %p7, %f3, %f16;
selp.f32 %f3, %f17, %f3, %p7;
.loc 17 10406 0
mov.f32 %f18, 0f3f000000; // 0.5
mul.f32 %f16, %f16, %f18;
setp.le.f32 %p8, %f4, %f16;
@%p8 bra $Lt_77_10242;
mov.b32 %r16, %f3;
$Lt_77_9730:
mov.b32 %r21, %f1;
and.b32 %r22, %r21, -2147483648;
or.b32 %r23, %r16, %r22;
mov.b32 %f11, %r23;
bra.uni $Lt_77_9218;
$Lt_77_9474:
.loc 17 10411 0
add.f32 %f19, %f1, %f1;
mov.f32 %f20, 0f00000000; // 0
setp.gt.f32 %p9, %f3, %f20;
selp.f32 %f21, %f1, %f19, %p9;
mov.f32 %f11, %f21;
$Lt_77_9218:
$Lt_77_8706:
mov.f32 %f7, %f11;
$LDWendi_fmodf_320_1:
.loc 15 952 0
ld.param.u64 %rd8, [__cudaparm_vec_fmodf_result];
add.u64 %rd9, %rd8, %rd3;
st.global.f32 [%rd9+0], %f7;
$Lt_77_7682:
.loc 15 954 0
exit;
$LDWend_vec_fmodf:
} // vec_fmodf
.entry vec_hypotf (
.param .u64 __cudaparm_vec_hypotf_n,
.param .u64 __cudaparm_vec_hypotf_result,
.param .u64 __cudaparm_vec_hypotf_x,
.param .u64 __cudaparm_vec_hypotf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<11>;
.reg .u64 %rd<11>;
.reg .f32 %f<30>;
.reg .pred %p<6>;
.loc 15 958 0
$LDWbegin_vec_hypotf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_hypotf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_78_4354;
.loc 15 963 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_hypotf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
ld.param.u64 %rd6, [__cudaparm_vec_hypotf_y];
add.u64 %rd7, %rd6, %rd3;
ld.global.f32 %f2, [%rd7+0];
.loc 17 9482 0
abs.f32 %f3, %f1;
abs.f32 %f4, %f2;
max.f32 %f5, %f3, %f4;
mov.f32 %f6, %f5;
.loc 17 9483 0
min.f32 %f7, %f3, %f4;
mov.f32 %f8, %f7;
mov.f32 %f9, 0f7e800000; // 8.50706e+037
setp.gt.f32 %p2, %f5, %f9;
@!%p2 bra $Lt_78_4866;
.loc 17 9485 0
mov.f32 %f10, 0f3e800000; // 0.25
mul.f32 %f6, %f5, %f10;
.loc 17 9486 0
mov.f32 %f11, 0f3e800000; // 0.25
mul.f32 %f8, %f7, %f11;
$Lt_78_4866:
.loc 17 9488 0
div.approx.f32 %f8, %f8, %f6;
.loc 17 8429 0
mov.f32 %f12, %f8;
mov.f32 %f13, %f8;
mov.f32 %f14, 0f3f800000; // 1
mov.f32 %f15, %f14;
mad.f32 %f16, %f12, %f13, %f15;
mov.f32 %f17, %f16;
.loc 15 963 0
add.f32 %f18, %f7, %f5;
sqrt.approx.f32 %f19, %f17;
mul.f32 %f20, %f5, %f19;
mov.f32 %f21, 0f00000000; // 0
setp.eq.f32 %p3, %f5, %f21;
selp.f32 %f22, %f18, %f20, %p3;
add.f32 %f23, %f1, %f2;
mov.f32 %f24, 0f7f800000; // 1.#INF
set.le.u32.f32 %r4, %f3, %f24;
neg.s32 %r5, %r4;
mov.f32 %f25, 0f7f800000; // 1.#INF
set.le.u32.f32 %r6, %f4, %f25;
neg.s32 %r7, %r6;
and.b32 %r8, %r5, %r7;
neg.s32 %r9, %r8;
slct.f32.s32 %f26, %f23, %f22, %r9;
mov.f32 %f27, 0f7f800000; // 1.#INF
setp.eq.f32 %p4, %f5, %f27;
selp.f32 %f28, %f18, %f26, %p4;
ld.param.u64 %rd8, [__cudaparm_vec_hypotf_result];
add.u64 %rd9, %rd8, %rd3;
st.global.f32 [%rd9+0], %f28;
$Lt_78_4354:
.loc 15 965 0
exit;
$LDWend_vec_hypotf:
} // vec_hypotf
.entry vec_nextafterf (
.param .u64 __cudaparm_vec_nextafterf_n,
.param .u64 __cudaparm_vec_nextafterf_result,
.param .u64 __cudaparm_vec_nextafterf_x,
.param .u64 __cudaparm_vec_nextafterf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<38>;
.reg .u64 %rd<11>;
.reg .f32 %f<17>;
.reg .pred %p<14>;
.loc 15 969 0
$LDWbegin_vec_nextafterf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_nextafterf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_79_10242;
.loc 15 974 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_nextafterf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
ld.param.u64 %rd6, [__cudaparm_vec_nextafterf_y];
add.u64 %rd7, %rd6, %rd3;
ld.global.f32 %f2, [%rd7+0];
.loc 17 8325 0
abs.f32 %f3, %f1;
mov.f32 %f4, 0f7f800000; // 1.#INF
setp.le.f32 %p2, %f3, %f4;
@!%p2 bra $Lt_79_1794;
abs.f32 %f5, %f2;
mov.f32 %f6, 0f7f800000; // 1.#INF
setp.le.f32 %p3, %f5, %f6;
@%p3 bra $Lt_79_2050;
$Lt_79_1794:
add.f32 %f7, %f1, %f2;
bra.uni $LDWendi___isnanf_322_1;
$Lt_79_2050:
mov.b32 %r4, %f1;
mov.b32 %r5, %f2;
shl.b32 %r6, %r4, 1;
and.b32 %r7, %r4, -2147483648;
shl.b32 %r8, %r5, 1;
and.b32 %r9, %r5, -2147483648;
mov.u32 %r10, 16777215;
setp.le.u32 %p4, %r6, %r10;
mov.u32 %r11, 16777215;
setp.le.u32 %p5, %r8, %r11;
selp.u32 %r12, %r7, %r4, %p4;
selp.u32 %r13, %r9, %r5, %p5;
or.b32 %r14, %r12, %r13;
mov.b32 %f8, %r14;
mov.f32 %f9, 0f00000000; // 0
setp.eq.f32 %p6, %f8, %f9;
@!%p6 bra $Lt_79_10754;
.loc 17 8326 0
mov.b32 %f7, %r13;
bra.uni $LDWendi___isnanf_322_1;
$Lt_79_10754:
mov.b32 %f10, %r12;
mov.f32 %f11, 0f00000000; // 0
setp.eq.f32 %p7, %f10, %f11;
@!%p7 bra $Lt_79_11266;
.loc 17 8329 0
or.b32 %r15, %r9, 8388608;
mov.b32 %f7, %r15;
bra.uni $LDWendi___isnanf_322_1;
$Lt_79_11266:
.loc 17 8339 0
setp.gt.f32 %p8, %f1, %f2;
mov.f32 %f12, 0f00000000; // 0
setp.gt.f32 %p9, %f1, %f12;
mov.f32 %f13, 0f00000000; // 0
setp.lt.f32 %p10, %f1, %f13;
setp.lt.f32 %p11, %f1, %f2;
selp.s32 %r16, 1, 0, %p8;
selp.s32 %r17, 1, 0, %p9;
selp.s32 %r18, 1, 0, %p10;
selp.s32 %r19, 1, 0, %p11;
and.b32 %r20, %r16, %r18;
and.b32 %r21, %r17, %r19;
and.b32 %r22, %r18, %r19;
sub.u32 %r23, %r12, 1;
neg.s32 %r24, %r22;
slct.u32.s32 %r25, %r12, %r23, %r24;
add.u32 %r26, %r25, 1;
neg.s32 %r27, %r21;
slct.u32.s32 %r28, %r25, %r26, %r27;
add.u32 %r29, %r28, 1;
neg.s32 %r30, %r20;
slct.u32.s32 %r31, %r28, %r29, %r30;
sub.u32 %r32, %r31, 1;
and.b32 %r33, %r16, %r17;
neg.s32 %r34, %r33;
slct.u32.s32 %r35, %r31, %r32, %r34;
.loc 17 8340 0
mov.b32 %f14, %r35;
mov.f32 %f1, %f14;
mov.f32 %f15, 0f00000000; // 0
setp.eq.f32 %p12, %f14, %f15;
@!%p12 bra $Lt_79_11778;
.loc 17 8343 0
and.b32 %r36, %r35, -2147483648;
mov.b32 %f1, %r36;
$Lt_79_11778:
.loc 17 8346 0
mov.f32 %f7, %f1;
$LDWendi___isnanf_322_1:
.loc 15 974 0
ld.param.u64 %rd8, [__cudaparm_vec_nextafterf_result];
add.u64 %rd9, %rd8, %rd3;
st.global.f32 [%rd9+0], %f7;
$Lt_79_10242:
.loc 15 976 0
exit;
$LDWend_vec_nextafterf:
} // vec_nextafterf
.entry vec_powf (
.param .u64 __cudaparm_vec_powf_n,
.param .u64 __cudaparm_vec_powf_result,
.param .u64 __cudaparm_vec_powf_x,
.param .u64 __cudaparm_vec_powf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<35>;
.reg .u64 %rd<11>;
.reg .f32 %f<223>;
.reg .pred %p<27>;
.loc 15 980 0
$LDWbegin_vec_powf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_powf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_80_19714;
.loc 15 985 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_powf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
ld.param.u64 %rd6, [__cudaparm_vec_powf_y];
add.u64 %rd7, %rd6, %rd3;
ld.global.f32 %f2, [%rd7+0];
mov.f32 %f3, 0f3f800000; // 1
set.eq.u32.f32 %r4, %f1, %f3;
neg.s32 %r5, %r4;
mov.f32 %f4, 0f00000000; // 0
set.eq.u32.f32 %r6, %f2, %f4;
neg.s32 %r7, %r6;
or.b32 %r8, %r5, %r7;
mov.u32 %r9, 0;
setp.eq.s32 %p2, %r8, %r9;
@%p2 bra $Lt_80_20226;
.loc 17 10665 0
mov.f32 %f5, 0f3f800000; // 1
bra.uni $LDWendi___isnanf_323_1;
$Lt_80_20226:
.loc 17 10667 0
abs.f32 %f6, %f1;
mov.f32 %f7, 0f7f800000; // 1.#INF
setp.le.f32 %p3, %f6, %f7;
@!%p3 bra $Lt_80_1538;
abs.f32 %f8, %f2;
mov.f32 %f9, 0f7f800000; // 1.#INF
setp.le.f32 %p4, %f8, %f9;
@%p4 bra $Lt_80_1794;
$Lt_80_1538:
.loc 17 10668 0
add.f32 %f5, %f1, %f2;
bra.uni $LDWendi___isnanf_323_1;
$Lt_80_1794:
.loc 17 10667 0
mov.f32 %f10, 0f7f800000; // 1.#INF
setp.eq.f32 %p5, %f1, %f10;
@!%p5 bra $Lt_80_20738;
.loc 17 10671 0
mov.f32 %f11, 0f7f800000; // 1.#INF
mov.f32 %f12, 0f00000000; // 0
mov.b32 %r10, %f2;
mov.s32 %r11, 0;
setp.ge.s32 %p6, %r10, %r11;
selp.f32 %f5, %f11, %f12, %p6;
bra.uni $LDWendi___isnanf_323_1;
$Lt_80_20738:
.loc 17 10673 0
mov.f32 %f13, 0f7f800000; // 1.#INF
setp.eq.f32 %p7, %f8, %f13;
@!%p7 bra $Lt_80_21250;
mov.f32 %f14, 0fbf800000; // -1
setp.eq.f32 %p8, %f1, %f14;
@!%p8 bra $Lt_80_21762;
.loc 17 10675 0
mov.f32 %f5, 0f3f800000; // 1
bra.uni $LDWendi___isnanf_323_1;
$Lt_80_21762:
.loc 17 10681 0
mov.f32 %f15, 0f00000000; // 0
setp.lt.f32 %p9, %f2, %f15;
mov.f32 %f16, 0f00000000; // 0
rcp.approx.f32 %f17, %f16;
mov.f32 %f18, 0f3f800000; // 1
setp.gt.f32 %p10, %f6, %f18;
mov.f32 %f19, 0f00000000; // 0
selp.f32 %f20, %f19, %f17, %p10;
mov.f32 %f21, 0f7f800000; // 1.#INF
mov.f32 %f22, 0f00000000; // 0
selp.f32 %f23, %f21, %f22, %p10;
selp.f32 %f24, %f20, %f23, %p9;
add.f32 %f5, %f24, %f24;
bra.uni $LDWendi___isnanf_323_1;
$Lt_80_21250:
mov.f32 %f25, 0f00000000; // 0
setp.eq.f32 %p11, %f1, %f25;
@!%p11 bra $Lt_80_22274;
.loc 17 10689 0
mov.f32 %f26, 0f3f000000; // 0.5
mul.f32 %f27, %f2, %f26;
mov.f32 %f28, 0f00000000; // 0
setp.lt.f32 %p12, %f2, %f28;
cvt.rzi.f32.f32 %f29, %f27;
add.f32 %f30, %f29, %f29;
sub.f32 %f31, %f2, %f30;
abs.f32 %f32, %f31;
mov.f32 %f33, 0f3f800000; // 1
setp.eq.f32 %p13, %f32, %f33;
mov.f32 %f34, 0f00000000; // 0
selp.f32 %f35, %f1, %f34, %p13;
rcp.approx.f32 %f36, %f35;
selp.f32 %f37, %f36, %f35, %p12;
add.f32 %f5, %f37, %f37;
bra.uni $LDWendi___isnanf_323_1;
$Lt_80_22274:
mov.f32 %f38, 0fff800000; // -1.#INF
setp.eq.f32 %p14, %f1, %f38;
@!%p14 bra $Lt_80_22786;
.loc 17 10692 0
rcp.approx.f32 %f39, %f1;
neg.f32 %f40, %f39;
neg.f32 %f41, %f1;
mov.f32 %f42, 0f00000000; // 0
setp.lt.f32 %p15, %f2, %f42;
selp.f32 %f43, %f40, %f41, %p15;
mov.f32 %f44, 0f3f000000; // 0.5
mul.f32 %f45, %f2, %f44;
cvt.rzi.f32.f32 %f46, %f45;
add.f32 %f47, %f46, %f46;
sub.f32 %f48, %f2, %f47;
abs.f32 %f49, %f48;
mov.f32 %f50, 0f3f800000; // 1
setp.eq.f32 %p16, %f49, %f50;
@!%p16 bra $Lt_80_23298;
.loc 17 10694 0
mov.b32 %r12, %f43;
xor.b32 %r13, %r12, -2147483648;
mov.b32 %f43, %r13;
$Lt_80_23298:
.loc 17 10696 0
mov.f32 %f5, %f43;
bra.uni $LDWendi___isnanf_323_1;
$Lt_80_22786:
.loc 17 10698 0
mov.f32 %f51, 0f00000000; // 0
setp.lt.f32 %p17, %f1, %f51;
@!%p17 bra $Lt_80_26114;
cvt.rzi.f32.f32 %f52, %f2;
setp.neu.f32 %p18, %f2, %f52;
@!%p18 bra $L_80_19202;
.loc 17 10699 0
mov.f32 %f53, 0fffc00000; // -1.#IND
rsqrt.approx.f32 %f5, %f53;
bra.uni $LDWendi___isnanf_323_1;
$Lt_80_26114:
$L_80_19202:
.loc 17 8549 0
mov.b32 %r14, %f6;
shr.s32 %r15, %r14, 23;
and.b32 %r16, %r15, 255;
sub.s32 %r17, %r16, 127;
.loc 17 8550 0
and.b32 %r18, %r14, -2139095041;
or.b32 %r19, %r18, 1065353216;
mov.b32 %f54, %r19;
mov.f32 %f55, %f54;
mov.f32 %f56, 0f3fb504f3; // 1.41421
setp.gt.f32 %p19, %f54, %f56;
@!%p19 bra $Lt_80_23810;
.loc 17 8552 0
mov.f32 %f57, 0f3f000000; // 0.5
mul.f32 %f55, %f54, %f57;
.loc 17 8553 0
add.s32 %r17, %r17, 1;
$Lt_80_23810:
.loc 17 8429 0
mov.f32 %f58, 0fbf800000; // -1
add.f32 %f59, %f55, %f58;
mov.f32 %f60, 0f3f800000; // 1
add.f32 %f61, %f55, %f60;
add.f32 %f62, %f59, %f59;
rcp.approx.f32 %f63, %f61;
mul.f32 %f64, %f62, %f63;
mul.f32 %f65, %f64, %f64;
mov.f32 %f66, 0f3b18f0fe; // 0.0023337
mov.f32 %f67, %f66;
mov.f32 %f68, %f65;
mov.f32 %f69, 0f3c4caf63; // 0.012493
mov.f32 %f70, %f69;
mad.f32 %f71, %f67, %f68, %f70;
mov.f32 %f72, %f71;
mov.f32 %f73, %f72;
mov.f32 %f74, %f65;
mov.f32 %f75, 0f3daaaabd; // 0.0833335
mov.f32 %f76, %f75;
mad.f32 %f77, %f73, %f74, %f76;
mov.f32 %f78, %f77;
.loc 17 8570 0
mul.rn.f32 %f79, %f78, %f65;
mul.rn.f32 %f80, %f79, %f64;
.loc 17 8429 0
mov.b32 %r20, %f59;
and.b32 %r21, %r20, -4096;
mov.b32 %f81, %r21;
mov.b32 %r22, %f64;
and.b32 %r23, %r22, -4096;
mov.b32 %f82, %r23;
neg.f32 %f83, %f82;
sub.f32 %f84, %f59, %f82;
mov.f32 %f85, %f83;
mov.f32 %f86, %f81;
add.f32 %f87, %f84, %f84;
mov.f32 %f88, %f87;
mad.f32 %f89, %f85, %f86, %f88;
mov.f32 %f90, %f89;
mov.f32 %f91, %f83;
sub.f32 %f92, %f59, %f81;
mov.f32 %f93, %f92;
mov.f32 %f94, %f90;
mad.f32 %f95, %f91, %f93, %f94;
mov.f32 %f96, %f95;
.loc 17 8588 0
mul.rn.f32 %f97, %f63, %f96;
add.f32 %f98, %f97, %f82;
add.f32 %f99, %f98, %f80;
sub.f32 %f100, %f98, %f82;
sub.f32 %f101, %f98, %f99;
sub.f32 %f102, %f97, %f100;
add.f32 %f103, %f101, %f80;
add.f32 %f104, %f102, %f103;
add.f32 %f105, %f99, %f104;
.loc 17 8589 0
sub.f32 %f106, %f99, %f105;
add.f32 %f107, %f104, %f106;
.loc 17 8596 0
cvt.rn.f32.s32 %f108, %r17;
mov.f32 %f109, 0f3f317200; // 0.693146
mul.rn.f32 %f110, %f108, %f109;
add.f32 %f111, %f110, %f105;
.loc 17 8597 0
mov.f32 %f112, 0f35bfbe8e; // 1.42861e-006
mul.rn.f32 %f113, %f108, %f112;
sub.f32 %f114, %f110, %f111;
add.f32 %f115, %f114, %f105;
add.f32 %f116, %f115, %f107;
add.f32 %f117, %f113, %f116;
.loc 17 8598 0
add.f32 %f118, %f117, %f111;
.loc 17 8429 0
mov.f32 %f119, 0f39000000; // 0.00012207
mul.f32 %f120, %f2, %f119;
mov.f32 %f121, 0f77f684df; // 1e+034
setp.gt.f32 %p20, %f8, %f121;
selp.f32 %f122, %f120, %f2, %p20;
neg.f32 %f123, %f122;
mov.f32 %f124, %f123;
mov.f32 %f125, 0f45800800; // 4097
mov.f32 %f126, %f125;
mov.f32 %f127, %f122;
mad.f32 %f128, %f124, %f126, %f127;
mov.f32 %f129, %f128;
mov.f32 %f130, %f122;
mov.f32 %f131, 0f45800800; // 4097
mov.f32 %f132, %f131;
mov.f32 %f133, %f129;
mad.f32 %f134, %f130, %f132, %f133;
mov.f32 %f135, %f134;
.loc 17 8616 0
mov.f32 %f136, %f135;
.loc 17 8429 0
neg.f32 %f137, %f118;
mov.f32 %f138, %f137;
mov.f32 %f139, 0f45800800; // 4097
mov.f32 %f140, %f139;
mov.f32 %f141, %f118;
mad.f32 %f142, %f138, %f140, %f141;
mov.f32 %f129, %f142;
mov.f32 %f143, %f118;
mov.f32 %f144, 0f45800800; // 4097
mov.f32 %f145, %f144;
mov.f32 %f146, %f129;
mad.f32 %f147, %f143, %f145, %f146;
mov.f32 %f129, %f147;
.loc 17 8617 0
mov.f32 %f148, %f129;
.loc 17 8619 0
sub.f32 %f149, %f118, %f129;
.loc 17 8429 0
mul.rn.f32 %f150, %f122, %f118;
mov.f32 %f151, %f136;
mov.f32 %f152, %f129;
neg.f32 %f153, %f150;
mov.f32 %f154, %f153;
mad.f32 %f155, %f151, %f152, %f154;
mov.f32 %f129, %f155;
mov.f32 %f156, %f136;
mov.f32 %f157, %f149;
mov.f32 %f158, %f129;
mad.f32 %f159, %f156, %f157, %f158;
mov.f32 %f129, %f159;
sub.f32 %f160, %f122, %f135;
mov.f32 %f161, %f148;
mov.f32 %f162, %f160;
mov.f32 %f163, %f129;
mad.f32 %f164, %f161, %f162, %f163;
mov.f32 %f129, %f164;
mov.f32 %f165, %f160;
mov.f32 %f166, %f149;
mov.f32 %f167, %f129;
mad.f32 %f168, %f165, %f166, %f167;
mov.f32 %f129, %f168;
.loc 17 8625 0
sub.f32 %f169, %f111, %f118;
mov.f32 %f170, 0f00000000; // 0
mul.rn.f32 %f171, %f170, %f118;
add.f32 %f172, %f169, %f117;
mul.rn.f32 %f173, %f122, %f172;
add.f32 %f174, %f171, %f173;
add.f32 %f175, %f174, %f129;
add.rn.f32 %f176, %f150, %f175;
sub.f32 %f177, %f150, %f176;
add.rn.f32 %f178, %f177, %f175;
.loc 17 10602 0
mov.f32 %f179, %f178;
mov.f32 %f180, %f176;
mov.b32 %r24, %f176;
mov.u32 %r25, 1118925336;
setp.ne.s32 %p21, %r24, %r25;
@%p21 bra $Lt_80_24322;
.loc 17 10606 0
sub.s32 %r26, %r24, 1;
mov.b32 %f180, %r26;
.loc 17 10607 0
mov.f32 %f181, 0f37000000; // 7.62939e-006
add.f32 %f179, %f178, %f181;
$Lt_80_24322:
.loc 17 8429 0
mov.f32 %f182, 0f3fb8aa3b; // 1.4427
mul.f32 %f183, %f180, %f182;
cvt.rzi.f32.f32 %f184, %f183;
mov.f32 %f185, %f184;
mov.f32 %f186, 0fbf317200; // -0.693146
mov.f32 %f187, %f186;
mov.f32 %f188, %f180;
mad.f32 %f189, %f185, %f187, %f188;
mov.f32 %f190, %f189;
mov.f32 %f191, %f184;
mov.f32 %f192, 0fb5bfbe8e; // -1.42861e-006
mov.f32 %f193, %f192;
mov.f32 %f194, %f190;
mad.f32 %f195, %f191, %f193, %f194;
mov.f32 %f196, %f195;
.loc 17 10611 0
mov.f32 %f197, 0f42d20000; // 105
setp.gt.f32 %p22, %f180, %f197;
mov.f32 %f198, 0fc2d20000; // -105
setp.lt.f32 %p23, %f180, %f198;
mov.f32 %f199, 0f3fb8aa3b; // 1.4427
mul.f32 %f200, %f196, %f199;
ex2.approx.f32 %f201, %f200;
ex2.approx.f32 %f202, %f184;
mul.f32 %f203, %f201, %f202;
mov.f32 %f204, 0f00000000; // 0
selp.f32 %f205, %f204, %f203, %p23;
mov.f32 %f206, 0f7f800000; // 1.#INF
selp.f32 %f207, %f206, %f205, %p22;
mov.f32 %f208, %f207;
mov.f32 %f209, 0f7f800000; // 1.#INF
setp.neu.f32 %p24, %f207, %f209;
@!%p24 bra $Lt_80_24834;
.loc 17 8429 0
mov.f32 %f210, %f208;
mov.f32 %f211, %f179;
mov.f32 %f212, %f208;
mad.f32 %f213, %f210, %f211, %f212;
mov.f32 %f214, %f213;
.loc 17 10617 0
mov.f32 %f208, %f214;
$Lt_80_24834:
.loc 17 10702 0
mov.f32 %f43, %f208;
mov.f32 %f215, 0f3f000000; // 0.5
mul.f32 %f216, %f2, %f215;
cvt.rzi.f32.f32 %f217, %f216;
selp.s32 %r27, 1, 0, %p17;
add.f32 %f218, %f217, %f217;
sub.f32 %f219, %f2, %f218;
abs.f32 %f220, %f219;
mov.f32 %f221, 0f3f800000; // 1
set.eq.u32.f32 %r28, %f220, %f221;
neg.s32 %r29, %r28;
and.b32 %r30, %r27, %r29;
mov.u32 %r31, 0;
setp.eq.s32 %p25, %r30, %r31;
@%p25 bra $Lt_80_25346;
.loc 17 10704 0
mov.b32 %r32, %f43;
xor.b32 %r33, %r32, -2147483648;
mov.b32 %f43, %r33;
$Lt_80_25346:
.loc 17 10706 0
mov.f32 %f5, %f43;
$LDWendi___isnanf_323_1:
.loc 15 985 0
ld.param.u64 %rd8, [__cudaparm_vec_powf_result];
add.u64 %rd9, %rd8, %rd3;
st.global.f32 [%rd9+0], %f5;
$Lt_80_19714:
.loc 15 987 0
exit;
$LDWend_vec_powf:
} // vec_powf
.entry vec_remainderf (
.param .u64 __cudaparm_vec_remainderf_n,
.param .u64 __cudaparm_vec_remainderf_result,
.param .u64 __cudaparm_vec_remainderf_x,
.param .u64 __cudaparm_vec_remainderf_y)
{
.reg .u16 %rh<4>;
.reg .u32 %r<49>;
.reg .u64 %rd<11>;
.reg .f32 %f<37>;
.reg .pred %p<15>;
.loc 15 991 0
$LDWbegin_vec_remainderf:
cvt.u32.u16 %r1, %tid.x;
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r2, %rh1, %rh2;
add.u32 %r3, %r1, %r2;
cvt.s64.s32 %rd1, %r3;
ld.param.u64 %rd2, [__cudaparm_vec_remainderf_n];
setp.ge.u64 %p1, %rd1, %rd2;
@%p1 bra $Lt_81_11010;
.loc 15 996 0
mul.lo.u64 %rd3, %rd1, 4;
ld.param.u64 %rd4, [__cudaparm_vec_remainderf_x];
add.u64 %rd5, %rd4, %rd3;
ld.global.f32 %f1, [%rd5+0];
ld.param.u64 %rd6, [__cudaparm_vec_remainderf_y];
add.u64 %rd7, %rd6, %rd3;
ld.global.f32 %f2, [%rd7+0];
.loc 17 10424 0
abs.f32 %f3, %f1;
abs.f32 %f4, %f2;
mov.f32 %f5, 0f7f800000; // 1.#INF
set.le.u32.f32 %r4, %f4, %f5;
neg.s32 %r5, %r4;
mov.f32 %f6, 0f7f800000; // 1.#INF
set.le.u32.f32 %r6, %f3, %f6;
neg.s32 %r7, %r6;
and.b32 %r8, %r5, %r7;
mov.u32 %r9, 0;
setp.ne.s32 %p2, %r8, %r9;
@%p2 bra $Lt_81_11522;
.loc 17 10427 0
add.f32 %f7, %f1, %f2;
bra.uni $LDWendi___internal_fmad_324_1;
$Lt_81_11522:
mov.f32 %f8, 0f00000000; // 0
set.eq.u32.f32 %r10, %f4, %f8;
neg.s32 %r11, %r10;
mov.f32 %f9, 0f7f800000; // 1.#INF
set.eq.u32.f32 %r12, %f3, %f9;
neg.s32 %r13, %r12;
or.b32 %r14, %r11, %r13;
mov.u32 %r15, 0;
setp.eq.s32 %p3, %r14, %r15;
@%p3 bra $Lt_81_12290;
.loc 17 10430 0
mov.f32 %f10, 0fffc00000; // -1.#IND
rsqrt.approx.f32 %f7, %f10;
bra.uni $LDWendi___internal_fmad_324_1;
$Lt_81_12290:
setp.le.f32 %p4, %f4, %f3;
@!%p4 bra $Lt_81_12802;
.loc 17 10444 0
mov.b32 %r16, %f3;
mov.b32 %r17, %f4;
and.b32 %r18, %r16, 2139095040;
and.b32 %r19, %r17, 8388607;
or.b32 %r20, %r18, %r19;
mov.b32 %f11, %r20;
setp.gt.f32 %p5, %f11, %f3;
mov.f32 %f12, 0f3f000000; // 0.5
mul.f32 %f13, %f11, %f12;
selp.f32 %f14, %f13, %f11, %p5;
mov.f32 %f15, %f14;
setp.eq.f32 %p6, %f14, %f3;
@!%p6 bra $Lt_81_16642;
.loc 17 10450 0
mov.b32 %r21, %f1;
and.b32 %r22, %r21, -2147483648;
mov.b32 %f7, %r22;
bra.uni $LDWendi___internal_fmad_324_1;
$Lt_81_16642:
setp.le.f32 %p7, %f4, %f14;
@!%p7 bra $Lt_81_16898;
mov.f32 %f16, 0f00000000; // 0
$Lt_81_14082:
setp.ge.f32 %p8, %f3, %f15;
@!%p8 bra $Lt_81_14594;
.loc 17 8429 0
mov.f32 %f17, %f3;
mov.f32 %f18, 0f40000000; // 2
mov.f32 %f19, %f18;
neg.f32 %f20, %f15;
mov.f32 %f21, %f20;
mad.f32 %f22, %f17, %f19, %f21;
mov.f32 %f23, %f22;
.loc 17 10456 0
sub.f32 %f16, %f23, %f15;
.loc 17 10457 0
sub.f32 %f3, %f3, %f15;
mov.u32 %r23, 1;
bra.uni $Lt_81_14338;
$Lt_81_14594:
mov.u32 %r23, 0;
$Lt_81_14338:
.loc 17 10460 0
mov.f32 %f24, 0f3f000000; // 0.5
mul.f32 %f15, %f15, %f24;
setp.le.f32 %p9, %f4, %f15;
@%p9 bra $Lt_81_14082;
bra.uni $Lt_81_12546;
$Lt_81_16898:
mov.u32 %r23, 0;
mov.f32 %f16, 0f00000000; // 0
bra.uni $Lt_81_12546;
$Lt_81_12802:
mov.u32 %r23, 0;
mov.f32 %f16, 0f00000000; // 0
$Lt_81_12546:
mov.u32 %r24, 0;
setp.ne.u32 %p10, %r23, %r24;
selp.s32 %r25, 1, 0, %p10;
mov.f32 %f25, 0f00800000; // 1.17549e-038
setp.ge.f32 %p11, %f3, %f25;
@!%p11 bra $Lt_81_15362;
add.f32 %f26, %f3, %f3;
set.lt.u32.f32 %r26, %f4, %f26;
neg.s32 %r27, %r26;
set.eq.u32.f32 %r28, %f4, %f26;
neg.s32 %r29, %r28;
and.b32 %r30, %r25, %r29;
or.b32 %r31, %r27, %r30;
mov.u32 %r32, 0;
setp.eq.s32 %p12, %r31, %r32;
@%p12 bra $Lt_81_16130;
.loc 17 10474 0
sub.f32 %f27, %f3, %f4;
.loc 17 10475 0
mov.b32 %r33, %f27;
or.b32 %r34, %r33, -2147483648;
mov.b32 %f3, %r34;
bra.uni $Lt_81_16130;
$Lt_81_15362:
set.lt.u32.f32 %r35, %f4, %f16;
neg.s32 %r36, %r35;
set.eq.u32.f32 %r37, %f4, %f16;
neg.s32 %r38, %r37;
and.b32 %r39, %r25, %r38;
or.b32 %r40, %r36, %r39;
mov.u32 %r41, 0;
setp.eq.s32 %p13, %r40, %r41;
@%p13 bra $Lt_81_16130;
.loc 17 8429 0
mov.f32 %f28, %f4;
mov.f32 %f29, 0fc0000000; // -2
mov.f32 %f30, %f29;
mov.f32 %f31, %f16;
mad.f32 %f32, %f28, %f30, %f31;
mov.f32 %f33, %f32;
.loc 17 10481 0
mov.f32 %f34, 0f3f000000; // 0.5
mul.f32 %f35, %f33, %f34;
mov.b32 %r42, %f35;
or.b32 %r43, %r42, -2147483648;
mov.b32 %f3, %r43;
$Lt_81_16130:
$Lt_81_15106:
.loc 17 10485 0
mov.b32 %r44, %f3;
mov.b32 %r45, %f1;
and.b32 %r46, %r45, -2147483648;
xor.b32 %r47, %r44, %r46;
mov.b32 %f3, %r47;
.loc 17 10487 0
mov.f32 %f7, %f3;
$LDWendi___internal_fmad_324_1:
.loc 15 996 0
ld.param.u64 %rd8, [__cudaparm_vec_remainderf_result];
add.u64 %rd9, %rd8, %rd3;
st.global.f32 [%rd9+0], %f7;
$Lt_81_11010:
.loc 15 998 0
exit;
$LDWend_vec_remainderf:
} // vec_remainderf
© 2015 - 2025 Weber Informatics LLC | Privacy Policy