Tencent
diff --git a/‎.github/workflows/test-coverage.yml
+67 b/‎.github/workflows/test-coverage.yml
+67
diff --git a/‎src/layer/arm/requantize_arm.cpp
-45 b/‎src/layer/arm/requantize_arm.cpp
-45
diff --git a/‎src/layer/loongarch/convolution_loongarch.cpp
+23 b/‎src/layer/loongarch/convolution_loongarch.cpp
+23
diff --git a/‎src/layer/loongarch/requantize_loongarch.cpp
-45 b/‎src/layer/loongarch/requantize_loongarch.cpp
-45
diff --git a/‎src/layer/mips/convolution_mips.cpp
+23 b/‎src/layer/mips/convolution_mips.cpp
+23
@@ -121,6 +121,73 @@ jobs:
         plugins: noop
         files: build/lcov.info
 
+  linux-gcc-x64-sde-combined:
+    runs-on: ubuntu-24.04
+    steps:
+    - uses: actions/checkout@v4
+    - name: update
+      run: sudo apt-get update
+    - name: gcc14
+      run: sudo apt-get install gcc-14 g++-14
+    - name: lcov
+      run: sudo apt-get install lcov
+    - name: Setup SDE binaries
+      uses: petarpetrovt/[email protected]
+    - name: build
+      env:
+        CC: gcc-14
+        CXX: g++-14
+      run: |
+        mkdir build && cd build
+        cmake -DCMAKE_BUILD_TYPE=debug -DNCNN_COVERAGE=ON -DNCNN_OPENMP=OFF -DNCNN_BUILD_TOOLS=OFF -DNCNN_BUILD_EXAMPLES=OFF -DNCNN_BUILD_TESTS=ON ..
+        cmake --build . -j $(nproc)
+    - name: test-p4p
+      run: |
+        cd build
+        TESTS_EXECUTABLE_LOADER=$SDE_PATH/sde64 TESTS_EXECUTABLE_LOADER_ARGUMENTS="-p4p;--" ctest --output-on-failure -j $(nproc)
+    - name: test-snb
+      run: |
+        cd build
+        TESTS_EXECUTABLE_LOADER=$SDE_PATH/sde64 TESTS_EXECUTABLE_LOADER_ARGUMENTS="-snb;--" ctest --output-on-failure -j $(nproc)
+    - name: test-hsw
+      run: |
+        cd build
+        TESTS_EXECUTABLE_LOADER=$SDE_PATH/sde64 TESTS_EXECUTABLE_LOADER_ARGUMENTS="-hsw;--" ctest --output-on-failure -j $(nproc)
+    - name: test-adl
+      run: |
+        cd build
+        TESTS_EXECUTABLE_LOADER=$SDE_PATH/sde64 TESTS_EXECUTABLE_LOADER_ARGUMENTS="-adl;--" ctest --output-on-failure -j $(nproc)
+    - name: test-arl
+      run: |
+        cd build
+        TESTS_EXECUTABLE_LOADER=$SDE_PATH/sde64 TESTS_EXECUTABLE_LOADER_ARGUMENTS="-arl;--" ctest --output-on-failure -j $(nproc)
+    - name: test-skx
+      run: |
+        cd build
+        TESTS_EXECUTABLE_LOADER=$SDE_PATH/sde64 TESTS_EXECUTABLE_LOADER_ARGUMENTS="-skx;--" ctest --output-on-failure -j $(nproc)
+    - name: test-spr
+      run: |
+        cd build
+        TESTS_EXECUTABLE_LOADER=$SDE_PATH/sde64 TESTS_EXECUTABLE_LOADER_ARGUMENTS="-spr;--" ctest --output-on-failure -j $(nproc)
+    - name: test-gnr
+      run: |
+        cd build
+        TESTS_EXECUTABLE_LOADER=$SDE_PATH/sde64 TESTS_EXECUTABLE_LOADER_ARGUMENTS="-gnr;--" ctest --output-on-failure -j $(nproc)
+    - name: lcov-collect
+      run: |
+        cd build
+        lcov --gcov-tool gcov-14 -d ./src -c -o lcov.info
+        lcov -r lcov.info '/usr/*' -o lcov.info
+        lcov -r lcov.info '*/build/*' -o lcov.info
+        lcov --list lcov.info
+    - name: codecov
+      uses: codecov/codecov-action@v5
+      with:
+        token: ${{ secrets.CODECOV_TOKEN }}
+        disable_search: true
+        plugins: noop
+        files: build/lcov.info
+
   linux-gcc-riscv64-rvv:
     strategy:
       matrix:
 
@@ -57,11 +57,6 @@ static void requantize_relu(const int* intptr, signed char* ptr, const Mat& scal
             _scale_in0 = vld1q_f32((const float*)scale_in_data);
             _scale_in1 = vld1q_f32((const float*)scale_in_data + 4);
         }
-        if (elempack == 4)
-        {
-            _scale_in0 = vld1q_f32((const float*)scale_in_data);
-            _scale_in1 = _scale_in0;
-        }
     }
 #endif // __ARM_NEON
 
@@ -76,11 +71,6 @@ static void requantize_relu(const int* intptr, signed char* ptr, const Mat& scal
             _scale_out0 = vld1q_f32((const float*)scale_out_data);
             _scale_out1 = vld1q_f32((const float*)scale_out_data + 4);
         }
-        if (elempack == 4)
-        {
-            _scale_out0 = vld1q_f32((const float*)scale_out_data);
-            _scale_out1 = _scale_out0;
-        }
     }
 #endif // __ARM_NEON
 
@@ -139,11 +129,6 @@ static void requantize_relu(const int* intptr, signed char* ptr, const Mat& scal
                 _bias0 = vld1q_f32((const float*)bias_data);
                 _bias1 = vld1q_f32((const float*)bias_data + 4);
             }
-            if (elempack == 4)
-            {
-                _bias0 = vld1q_f32((const float*)bias_data);
-                _bias1 = _bias0;
-            }
         }
 #endif // __ARM_NEON
 
@@ -224,11 +209,6 @@ static void requantize_leakyrelu(const int* intptr, signed char* ptr, const Mat&
             _scale_in0 = vld1q_f32((const float*)scale_in_data);
             _scale_in1 = vld1q_f32((const float*)scale_in_data + 4);
         }
-        if (elempack == 4)
-        {
-            _scale_in0 = vld1q_f32((const float*)scale_in_data);
-            _scale_in1 = _scale_in0;
-        }
     }
 #endif // __ARM_NEON
 
@@ -243,11 +223,6 @@ static void requantize_leakyrelu(const int* intptr, signed char* ptr, const Mat&
             _scale_out0 = vld1q_f32((const float*)scale_out_data);
             _scale_out1 = vld1q_f32((const float*)scale_out_data + 4);
         }
-        if (elempack == 4)
-        {
-            _scale_out0 = vld1q_f32((const float*)scale_out_data);
-            _scale_out1 = _scale_out0;
-        }
     }
 #endif // __ARM_NEON
 
@@ -307,11 +282,6 @@ static void requantize_leakyrelu(const int* intptr, signed char* ptr, const Mat&
                 _bias0 = vld1q_f32((const float*)bias_data);
                 _bias1 = vld1q_f32((const float*)bias_data + 4);
             }
-            if (elempack == 4)
-            {
-                _bias0 = vld1q_f32((const float*)bias_data);
-                _bias1 = _bias0;
-            }
         }
 #endif // __ARM_NEON
 
@@ -399,11 +369,6 @@ static void requantize(const int* intptr, signed char* ptr, const Mat& scale_in_
             _scale_in0 = vld1q_f32((const float*)scale_in_data);
             _scale_in1 = vld1q_f32((const float*)scale_in_data + 4);
         }
-        if (elempack == 4)
-        {
-            _scale_in0 = vld1q_f32((const float*)scale_in_data);
-            _scale_in1 = _scale_in0;
-        }
     }
 #endif // __ARM_NEON
 
@@ -418,11 +383,6 @@ static void requantize(const int* intptr, signed char* ptr, const Mat& scale_in_
             _scale_out0 = vld1q_f32((const float*)scale_out_data);
             _scale_out1 = vld1q_f32((const float*)scale_out_data + 4);
         }
-        if (elempack == 4)
-        {
-            _scale_out0 = vld1q_f32((const float*)scale_out_data);
-            _scale_out1 = _scale_out0;
-        }
     }
 #endif // __ARM_NEON
 
@@ -481,11 +441,6 @@ static void requantize(const int* intptr, signed char* ptr, const Mat& scale_in_
                 _bias0 = vld1q_f32((const float*)bias_data);
                 _bias1 = vld1q_f32((const float*)bias_data + 4);
             }
-            if (elempack == 4)
-            {
-                _bias0 = vld1q_f32((const float*)bias_data);
-                _bias1 = _bias0;
-            }
         }
 #endif // __ARM_NEON
 
 
@@ -950,6 +950,29 @@ int Convolution_loongarch::forward_int8_loongarch(const Mat& bottom_blob, Mat& t
         }
     }
 
+#if __loongarch_sx
+    if (opt.use_packing_layout)
+    {
+        // NCNN_LOGE("top_blob_int32  %d  %d", top_blob_int32.c, top_blob_int32.elempack);
+        if (use_int8_requantize)
+        {
+            // TODO implement winograd sgemm packed int8 pack1 output
+            if (top_blob_int32.elempack == 4 && top_blob_int32.c % 2 == 1)
+            {
+                Mat tmp;
+                convert_packing(top_blob_int32, tmp, 1, opt);
+                top_blob_int32 = tmp;
+            }
+            if (top_blob_int32.elempack == 4 && top_blob_int32.c % 2 == 0)
+            {
+                Mat tmp;
+                convert_packing(top_blob_int32, tmp, 8, opt);
+                top_blob_int32 = tmp;
+            }
+        }
+    }
+#endif
+
     if (use_int8_requantize)
     {
         requantize_from_int32_to_int8(top_blob_int32, top_blob, scale_in_data, top_blob_int8_scales, bias_data, activation_type, activation_params, opt);
 
@@ -56,11 +56,6 @@ static void requantize_relu(const int* intptr, signed char* ptr, const Mat& scal
             _scale_in0 = (__m128)__lsx_vld((const float*)scale_in_data, 0);
             _scale_in1 = (__m128)__lsx_vld((const float*)scale_in_data + 4, 0);
         }
-        if (elempack == 4)
-        {
-            _scale_in0 = (__m128)__lsx_vld((const float*)scale_in_data, 0);
-            _scale_in1 = _scale_in0;
-        }
     }
 #endif // __loongarch_sx
 
@@ -75,11 +70,6 @@ static void requantize_relu(const int* intptr, signed char* ptr, const Mat& scal
             _scale_out0 = (__m128)__lsx_vld((const float*)scale_out_data, 0);
             _scale_out1 = (__m128)__lsx_vld((const float*)scale_out_data + 4, 0);
         }
-        if (elempack == 4)
-        {
-            _scale_out0 = (__m128)__lsx_vld((const float*)scale_out_data, 0);
-            _scale_out1 = _scale_out0;
-        }
     }
 #endif // __loongarch_sx
 
@@ -139,11 +129,6 @@ static void requantize_relu(const int* intptr, signed char* ptr, const Mat& scal
                 _bias0 = (__m128)__lsx_vld((const float*)bias_data, 0);
                 _bias1 = (__m128)__lsx_vld((const float*)bias_data + 4, 0);
             }
-            if (elempack == 4)
-            {
-                _bias0 = (__m128)__lsx_vld((const float*)bias_data, 0);
-                _bias1 = _bias0;
-            }
         }
 #endif // __loongarch_sx
 
@@ -216,11 +201,6 @@ static void requantize_leakyrelu(const int* intptr, signed char* ptr, const Mat&
             _scale_in0 = (__m128)__lsx_vld((const float*)scale_in_data, 0);
             _scale_in1 = (__m128)__lsx_vld((const float*)scale_in_data + 4, 0);
         }
-        if (elempack == 4)
-        {
-            _scale_in0 = (__m128)__lsx_vld((const float*)scale_in_data, 0);
-            _scale_in1 = _scale_in0;
-        }
     }
 #endif // __loongarch_sx
 
@@ -235,11 +215,6 @@ static void requantize_leakyrelu(const int* intptr, signed char* ptr, const Mat&
             _scale_out0 = (__m128)__lsx_vld((const float*)scale_out_data, 0);
             _scale_out1 = (__m128)__lsx_vld((const float*)scale_out_data + 4, 0);
         }
-        if (elempack == 4)
-        {
-            _scale_out0 = (__m128)__lsx_vld((const float*)scale_out_data, 0);
-            _scale_out1 = _scale_out0;
-        }
     }
 #endif // __loongarch_sx
 
@@ -300,11 +275,6 @@ static void requantize_leakyrelu(const int* intptr, signed char* ptr, const Mat&
                 _bias0 = (__m128)__lsx_vld((const float*)bias_data, 0);
                 _bias1 = (__m128)__lsx_vld((const float*)bias_data + 4, 0);
             }
-            if (elempack == 4)
-            {
-                _bias0 = (__m128)__lsx_vld((const float*)bias_data, 0);
-                _bias1 = _bias0;
-            }
         }
 #endif // __loongarch_sx
 
@@ -384,11 +354,6 @@ static void requantize(const int* intptr, signed char* ptr, const Mat& scale_in_
             _scale_in0 = (__m128)__lsx_vld((const float*)scale_in_data, 0);
             _scale_in1 = (__m128)__lsx_vld((const float*)scale_in_data + 4, 0);
         }
-        if (elempack == 4)
-        {
-            _scale_in0 = (__m128)__lsx_vld((const float*)scale_in_data, 0);
-            _scale_in1 = _scale_in0;
-        }
     }
 #endif // __loongarch_sx
 
@@ -403,11 +368,6 @@ static void requantize(const int* intptr, signed char* ptr, const Mat& scale_in_
             _scale_out0 = (__m128)__lsx_vld((const float*)scale_out_data, 0);
             _scale_out1 = (__m128)__lsx_vld((const float*)scale_out_data + 4, 0);
         }
-        if (elempack == 4)
-        {
-            _scale_out0 = (__m128)__lsx_vld((const float*)scale_out_data, 0);
-            _scale_out1 = _scale_out0;
-        }
     }
 #endif // __loongarch_sx
 
@@ -467,11 +427,6 @@ static void requantize(const int* intptr, signed char* ptr, const Mat& scale_in_
                 _bias0 = (__m128)__lsx_vld((const float*)bias_data, 0);
                 _bias1 = (__m128)__lsx_vld((const float*)bias_data + 4, 0);
             }
-            if (elempack == 4)
-            {
-                _bias0 = (__m128)__lsx_vld((const float*)bias_data, 0);
-                _bias1 = _bias0;
-            }
         }
 #endif // __loongarch_sx
 
 
@@ -950,6 +950,29 @@ int Convolution_mips::forward_int8_mips(const Mat& bottom_blob, Mat& top_blob, c
         }
     }
 
+#if __mips_msa
+    if (opt.use_packing_layout)
+    {
+        // NCNN_LOGE("top_blob_int32  %d  %d", top_blob_int32.c, top_blob_int32.elempack);
+        if (use_int8_requantize)
+        {
+            // TODO implement winograd sgemm packed int8 pack1 output
+            if (top_blob_int32.elempack == 4 && top_blob_int32.c % 2 == 1)
+            {
+                Mat tmp;
+                convert_packing(top_blob_int32, tmp, 1, opt);
+                top_blob_int32 = tmp;
+            }
+            if (top_blob_int32.elempack == 4 && top_blob_int32.c % 2 == 0)
+            {
+                Mat tmp;
+                convert_packing(top_blob_int32, tmp, 8, opt);
+                top_blob_int32 = tmp;
+            }
+        }
+    }
+#endif
+
     if (use_int8_requantize)
     {
         requantize_from_int32_to_int8(top_blob_int32, top_blob, scale_in_data, top_blob_int8_scales, bias_data, activation_type, activation_params, opt);
Original file line number	Diff line number	Diff line change
`@@ -57,11 +57,6 @@ static void requantize_relu(const int* intptr, signed char* ptr, const Mat& scal`
`57`	`57`	`_scale_in0 = vld1q_f32((const float*)scale_in_data);`
`58`	`58`	`_scale_in1 = vld1q_f32((const float*)scale_in_data + 4);`
`59`	`59`	`}`
`60`		`- if (elempack == 4)`
`61`		`- {`
`62`		`- _scale_in0 = vld1q_f32((const float*)scale_in_data);`
`63`		`- _scale_in1 = _scale_in0;`
`64`		`- }`
`65`	`60`	`}`
`66`	`61`	`#endif // __ARM_NEON`
`67`	`62`
`@@ -76,11 +71,6 @@ static void requantize_relu(const int* intptr, signed char* ptr, const Mat& scal`
`76`	`71`	`_scale_out0 = vld1q_f32((const float*)scale_out_data);`
`77`	`72`	`_scale_out1 = vld1q_f32((const float*)scale_out_data + 4);`
`78`	`73`	`}`
`79`		`- if (elempack == 4)`
`80`		`- {`
`81`		`- _scale_out0 = vld1q_f32((const float*)scale_out_data);`
`82`		`- _scale_out1 = _scale_out0;`
`83`		`- }`
`84`	`74`	`}`
`85`	`75`	`#endif // __ARM_NEON`
`86`	`76`
`@@ -139,11 +129,6 @@ static void requantize_relu(const int* intptr, signed char* ptr, const Mat& scal`
`139`	`129`	`_bias0 = vld1q_f32((const float*)bias_data);`
`140`	`130`	`_bias1 = vld1q_f32((const float*)bias_data + 4);`
`141`	`131`	`}`
`142`		`- if (elempack == 4)`
`143`		`- {`
`144`		`- _bias0 = vld1q_f32((const float*)bias_data);`
`145`		`- _bias1 = _bias0;`
`146`		`- }`
`147`	`132`	`}`
`148`	`133`	`#endif // __ARM_NEON`
`149`	`134`
`@@ -224,11 +209,6 @@ static void requantize_leakyrelu(const int* intptr, signed char* ptr, const Mat&`
`224`	`209`	`_scale_in0 = vld1q_f32((const float*)scale_in_data);`
`225`	`210`	`_scale_in1 = vld1q_f32((const float*)scale_in_data + 4);`
`226`	`211`	`}`
`227`		`- if (elempack == 4)`
`228`		`- {`
`229`		`- _scale_in0 = vld1q_f32((const float*)scale_in_data);`
`230`		`- _scale_in1 = _scale_in0;`
`231`		`- }`
`232`	`212`	`}`
`233`	`213`	`#endif // __ARM_NEON`
`234`	`214`
`@@ -243,11 +223,6 @@ static void requantize_leakyrelu(const int* intptr, signed char* ptr, const Mat&`
`243`	`223`	`_scale_out0 = vld1q_f32((const float*)scale_out_data);`
`244`	`224`	`_scale_out1 = vld1q_f32((const float*)scale_out_data + 4);`
`245`	`225`	`}`
`246`		`- if (elempack == 4)`
`247`		`- {`
`248`		`- _scale_out0 = vld1q_f32((const float*)scale_out_data);`
`249`		`- _scale_out1 = _scale_out0;`
`250`		`- }`
`251`	`226`	`}`
`252`	`227`	`#endif // __ARM_NEON`
`253`	`228`
`@@ -307,11 +282,6 @@ static void requantize_leakyrelu(const int* intptr, signed char* ptr, const Mat&`
`307`	`282`	`_bias0 = vld1q_f32((const float*)bias_data);`
`308`	`283`	`_bias1 = vld1q_f32((const float*)bias_data + 4);`
`309`	`284`	`}`
`310`		`- if (elempack == 4)`
`311`		`- {`
`312`		`- _bias0 = vld1q_f32((const float*)bias_data);`
`313`		`- _bias1 = _bias0;`
`314`		`- }`
`315`	`285`	`}`
`316`	`286`	`#endif // __ARM_NEON`
`317`	`287`
`@@ -399,11 +369,6 @@ static void requantize(const int* intptr, signed char* ptr, const Mat& scale_in_`
`399`	`369`	`_scale_in0 = vld1q_f32((const float*)scale_in_data);`
`400`	`370`	`_scale_in1 = vld1q_f32((const float*)scale_in_data + 4);`
`401`	`371`	`}`
`402`		`- if (elempack == 4)`
`403`		`- {`
`404`		`- _scale_in0 = vld1q_f32((const float*)scale_in_data);`
`405`		`- _scale_in1 = _scale_in0;`
`406`		`- }`
`407`	`372`	`}`
`408`	`373`	`#endif // __ARM_NEON`
`409`	`374`
`@@ -418,11 +383,6 @@ static void requantize(const int* intptr, signed char* ptr, const Mat& scale_in_`
`418`	`383`	`_scale_out0 = vld1q_f32((const float*)scale_out_data);`
`419`	`384`	`_scale_out1 = vld1q_f32((const float*)scale_out_data + 4);`
`420`	`385`	`}`
`421`		`- if (elempack == 4)`
`422`		`- {`
`423`		`- _scale_out0 = vld1q_f32((const float*)scale_out_data);`
`424`		`- _scale_out1 = _scale_out0;`
`425`		`- }`
`426`	`386`	`}`
`427`	`387`	`#endif // __ARM_NEON`
`428`	`388`
`@@ -481,11 +441,6 @@ static void requantize(const int* intptr, signed char* ptr, const Mat& scale_in_`
`481`	`441`	`_bias0 = vld1q_f32((const float*)bias_data);`
`482`	`442`	`_bias1 = vld1q_f32((const float*)bias_data + 4);`
`483`	`443`	`}`
`484`		`- if (elempack == 4)`
`485`		`- {`
`486`		`- _bias0 = vld1q_f32((const float*)bias_data);`
`487`		`- _bias1 = _bias0;`
`488`		`- }`
`489`	`444`	`}`
`490`	`445`	`#endif // __ARM_NEON`
`491`	`446`
Original file line number	Diff line number	Diff line change
`@@ -56,11 +56,6 @@ static void requantize_relu(const int* intptr, signed char* ptr, const Mat& scal`
`56`	`56`	`_scale_in0 = (__m128)__lsx_vld((const float*)scale_in_data, 0);`
`57`	`57`	`_scale_in1 = (__m128)__lsx_vld((const float*)scale_in_data + 4, 0);`
`58`	`58`	`}`
`59`		`- if (elempack == 4)`
`60`		`- {`
`61`		`- _scale_in0 = (__m128)__lsx_vld((const float*)scale_in_data, 0);`
`62`		`- _scale_in1 = _scale_in0;`
`63`		`- }`
`64`	`59`	`}`
`65`	`60`	`#endif // __loongarch_sx`
`66`	`61`
`@@ -75,11 +70,6 @@ static void requantize_relu(const int* intptr, signed char* ptr, const Mat& scal`
`75`	`70`	`_scale_out0 = (__m128)__lsx_vld((const float*)scale_out_data, 0);`
`76`	`71`	`_scale_out1 = (__m128)__lsx_vld((const float*)scale_out_data + 4, 0);`
`77`	`72`	`}`
`78`		`- if (elempack == 4)`
`79`		`- {`
`80`		`- _scale_out0 = (__m128)__lsx_vld((const float*)scale_out_data, 0);`
`81`		`- _scale_out1 = _scale_out0;`
`82`		`- }`
`83`	`73`	`}`
`84`	`74`	`#endif // __loongarch_sx`
`85`	`75`
`@@ -139,11 +129,6 @@ static void requantize_relu(const int* intptr, signed char* ptr, const Mat& scal`
`139`	`129`	`_bias0 = (__m128)__lsx_vld((const float*)bias_data, 0);`
`140`	`130`	`_bias1 = (__m128)__lsx_vld((const float*)bias_data + 4, 0);`
`141`	`131`	`}`
`142`		`- if (elempack == 4)`
`143`		`- {`
`144`		`- _bias0 = (__m128)__lsx_vld((const float*)bias_data, 0);`
`145`		`- _bias1 = _bias0;`
`146`		`- }`
`147`	`132`	`}`
`148`	`133`	`#endif // __loongarch_sx`
`149`	`134`
`@@ -216,11 +201,6 @@ static void requantize_leakyrelu(const int* intptr, signed char* ptr, const Mat&`
`216`	`201`	`_scale_in0 = (__m128)__lsx_vld((const float*)scale_in_data, 0);`
`217`	`202`	`_scale_in1 = (__m128)__lsx_vld((const float*)scale_in_data + 4, 0);`
`218`	`203`	`}`
`219`		`- if (elempack == 4)`
`220`		`- {`
`221`		`- _scale_in0 = (__m128)__lsx_vld((const float*)scale_in_data, 0);`
`222`		`- _scale_in1 = _scale_in0;`
`223`		`- }`
`224`	`204`	`}`
`225`	`205`	`#endif // __loongarch_sx`
`226`	`206`
`@@ -235,11 +215,6 @@ static void requantize_leakyrelu(const int* intptr, signed char* ptr, const Mat&`
`235`	`215`	`_scale_out0 = (__m128)__lsx_vld((const float*)scale_out_data, 0);`
`236`	`216`	`_scale_out1 = (__m128)__lsx_vld((const float*)scale_out_data + 4, 0);`
`237`	`217`	`}`
`238`		`- if (elempack == 4)`
`239`		`- {`
`240`		`- _scale_out0 = (__m128)__lsx_vld((const float*)scale_out_data, 0);`
`241`		`- _scale_out1 = _scale_out0;`
`242`		`- }`
`243`	`218`	`}`
`244`	`219`	`#endif // __loongarch_sx`
`245`	`220`
`@@ -300,11 +275,6 @@ static void requantize_leakyrelu(const int* intptr, signed char* ptr, const Mat&`
`300`	`275`	`_bias0 = (__m128)__lsx_vld((const float*)bias_data, 0);`
`301`	`276`	`_bias1 = (__m128)__lsx_vld((const float*)bias_data + 4, 0);`
`302`	`277`	`}`
`303`		`- if (elempack == 4)`
`304`		`- {`
`305`		`- _bias0 = (__m128)__lsx_vld((const float*)bias_data, 0);`
`306`		`- _bias1 = _bias0;`
`307`		`- }`
`308`	`278`	`}`
`309`	`279`	`#endif // __loongarch_sx`
`310`	`280`
`@@ -384,11 +354,6 @@ static void requantize(const int* intptr, signed char* ptr, const Mat& scale_in_`
`384`	`354`	`_scale_in0 = (__m128)__lsx_vld((const float*)scale_in_data, 0);`
`385`	`355`	`_scale_in1 = (__m128)__lsx_vld((const float*)scale_in_data + 4, 0);`
`386`	`356`	`}`
`387`		`- if (elempack == 4)`
`388`		`- {`
`389`		`- _scale_in0 = (__m128)__lsx_vld((const float*)scale_in_data, 0);`
`390`		`- _scale_in1 = _scale_in0;`
`391`		`- }`
`392`	`357`	`}`
`393`	`358`	`#endif // __loongarch_sx`
`394`	`359`
`@@ -403,11 +368,6 @@ static void requantize(const int* intptr, signed char* ptr, const Mat& scale_in_`
`403`	`368`	`_scale_out0 = (__m128)__lsx_vld((const float*)scale_out_data, 0);`
`404`	`369`	`_scale_out1 = (__m128)__lsx_vld((const float*)scale_out_data + 4, 0);`
`405`	`370`	`}`
`406`		`- if (elempack == 4)`
`407`		`- {`
`408`		`- _scale_out0 = (__m128)__lsx_vld((const float*)scale_out_data, 0);`
`409`		`- _scale_out1 = _scale_out0;`
`410`		`- }`
`411`	`371`	`}`
`412`	`372`	`#endif // __loongarch_sx`
`413`	`373`
`@@ -467,11 +427,6 @@ static void requantize(const int* intptr, signed char* ptr, const Mat& scale_in_`
`467`	`427`	`_bias0 = (__m128)__lsx_vld((const float*)bias_data, 0);`
`468`	`428`	`_bias1 = (__m128)__lsx_vld((const float*)bias_data + 4, 0);`
`469`	`429`	`}`
`470`		`- if (elempack == 4)`
`471`		`- {`
`472`		`- _bias0 = (__m128)__lsx_vld((const float*)bias_data, 0);`
`473`		`- _bias1 = _bias0;`
`474`		`- }`
`475`	`430`	`}`
`476`	`431`	`#endif // __loongarch_sx`
`477`	`432`