openvinotoolkit
diff --git a/‎src/plugins/intel_gpu/src/graph/impls/cpu/non_max_suppression.cpp‎
Lines changed: 23 additions & 17 deletions b/‎src/plugins/intel_gpu/src/graph/impls/cpu/non_max_suppression.cpp‎
Lines changed: 23 additions & 17 deletions
diff --git a/‎src/plugins/intel_gpu/src/graph/impls/ocl/non_max_suppression.cpp‎
Lines changed: 31 additions & 15 deletions b/‎src/plugins/intel_gpu/src/graph/impls/ocl/non_max_suppression.cpp‎
Lines changed: 31 additions & 15 deletions
diff --git a/‎src/plugins/intel_gpu/src/graph/layout_optimizer.cpp‎
Lines changed: 19 additions & 7 deletions b/‎src/plugins/intel_gpu/src/graph/layout_optimizer.cpp‎
Lines changed: 19 additions & 7 deletions
diff --git a/‎src/plugins/intel_gpu/src/graph/non_max_suppression.cpp‎
Lines changed: 1 addition & 2 deletions b/‎src/plugins/intel_gpu/src/graph/non_max_suppression.cpp‎
Lines changed: 1 addition & 2 deletions
diff --git a/‎src/plugins/intel_gpu/src/graph/program.cpp‎
Lines changed: 4 additions & 3 deletions b/‎src/plugins/intel_gpu/src/graph/program.cpp‎
Lines changed: 4 additions & 3 deletions
diff --git a/‎src/plugins/intel_gpu/src/kernel_selector/core/actual_kernels/non_max_suppression/non_max_suppression_kernel_ref.cpp‎
Lines changed: 10 additions & 3 deletions b/‎src/plugins/intel_gpu/src/kernel_selector/core/actual_kernels/non_max_suppression/non_max_suppression_kernel_ref.cpp‎
Lines changed: 10 additions & 3 deletions
@@ -11,7 +11,6 @@
 #include <vector>
 #include <queue>
 #include <algorithm>
-#include <utility>
 #include <tuple>
 
 namespace cldnn {
@@ -45,12 +44,15 @@ std::vector<result_indices> run_nms(
         return l.score < r.score || ((l.score == r.score) && (l.idx > r.idx));
     };
     float scale = 0.0f;
+    bool soft_nms = false;
     if (soft_nms_sigma > 0.0f) {
         scale = -0.5f / soft_nms_sigma;
+        soft_nms = true;
     }
+
     auto coeff = [&](float iou) {
         const float weight = std::exp(scale * iou * iou);
-        return iou <= iou_threshold ? weight : 0.0f;
+        return (iou <= iou_threshold || soft_nms) ? weight : 0.0f;
     };
     std::vector<result_indices> result;
 
@@ -75,7 +77,7 @@ std::vector<result_indices> run_nms(
                     float iou_boxes = iou(boxes[bi][currBox.idx], boxes[bi][fb[idx].box_index]);
 
                     currBox.score *= coeff(iou_boxes);
-                    if (iou_boxes >= iou_threshold) {
+                    if (iou_boxes >= iou_threshold && !soft_nms) {
                         box_is_selected = false;
                         break;
                     }
@@ -98,13 +100,12 @@ std::vector<result_indices> run_nms(
     }
 
     if (sort_result_descending) {
-        std::sort(result.begin(), result.end(),
-                [](const result_indices& l, const result_indices& r) {
-                    return (l.score > r.score) ||
-                           (l.score == r.score && l.batch_index < r.batch_index) ||
-                           (l.score == r.score && l.batch_index == r.batch_index && l.class_index < r.class_index) ||
-                           (l.score == r.score && l.batch_index == r.batch_index && l.class_index == r.class_index && l.box_index < r.box_index);
-                });
+        std::sort(result.begin(), result.end(), [](const result_indices& l, const result_indices& r) {
+            return (l.score > r.score) || (l.score == r.score && l.batch_index < r.batch_index) ||
+                   (l.score == r.score && l.batch_index == r.batch_index && l.class_index < r.class_index) ||
+                   (l.score == r.score && l.batch_index == r.batch_index && l.class_index == r.class_index &&
+                    l.box_index < r.box_index);
+        });
     }
     return result;
 }
@@ -125,12 +126,11 @@ vector2D<bounding_box> load_boxes_impl(stream& stream, memory::ptr mem, bool cen
         for (int bxi = 0; bxi < boxes_num; ++bxi) {
             int offset = bi * boxes_num * 4 + bxi * 4;
             if (center_point) {
-                result[bi].emplace_back(
-                    static_cast<float>(ptr[offset + 0]),
-                    static_cast<float>(ptr[offset + 1]),
-                    static_cast<float>(ptr[offset + 2]),
-                    static_cast<float>(ptr[offset + 3]),
-                    bounding_box::center_point_construct_tag());
+                result[bi].emplace_back(static_cast<float>(ptr[offset + 0]),
+                                        static_cast<float>(ptr[offset + 1]),
+                                        static_cast<float>(ptr[offset + 2]),
+                                        static_cast<float>(ptr[offset + 3]),
+                                        bounding_box::center_point_construct_tag());
             } else {
                 result[bi].emplace_back(
                     static_cast<float>(ptr[offset + 1]),
@@ -357,7 +357,13 @@ void run(non_max_suppression_inst& instance) {
         soft_nms_sigma = load_scalar<float>(stream, instance.soft_nms_sigma_mem());
     }
 
-    auto result = run_nms(boxes, scores, num_select_per_class, score_threshold, iou_threshold, soft_nms_sigma, prim->sort_result_descending);
+    auto result = run_nms(boxes,
+                          scores,
+                          num_select_per_class,
+                          score_threshold,
+                          iou_threshold,
+                          soft_nms_sigma,
+                          prim->sort_result_descending);
 
     if (instance.has_third_output()) {
         store_third_output(stream, instance.third_output_mem(), result);
 
@@ -3,13 +3,12 @@
 //
 
 #include "data_inst.h"
+#include "kernel_selector_helper.h"
+#include "non_max_suppression/non_max_suppression_kernel_ref.h"
+#include "non_max_suppression/non_max_suppression_kernel_selector.h"
 #include "non_max_suppression_inst.h"
 #include "primitive_base.hpp"
 #include "impls/implementation_map.hpp"
-#include "kernel_selector_helper.h"
-#include "non_max_suppression/non_max_suppression_kernel_selector.h"
-#include "non_max_suppression/non_max_suppression_kernel_ref.h"
-
 
 namespace cldnn {
 namespace ocl {
@@ -44,7 +43,7 @@ struct non_max_suppression_impl : typed_primitive_impl_ocl<non_max_suppression>
             args.inputs.push_back(instance.soft_nms_sigma_mem());
         }
 
-        args.outputs = { instance.output_memory_ptr() };
+        args.outputs = {instance.output_memory_ptr()};
         if (instance.has_second_output())
             args.inputs.push_back(instance.second_output_mem());
         if (instance.has_third_output())
@@ -107,19 +106,22 @@ struct non_max_suppression_impl : typed_primitive_impl_ocl<non_max_suppression>
         }
 
         if (arg.has_second_output()) {
-            params.inputs.push_back(convert_data_tensor(arg.second_output_node().get_output_layout()));
+            layout second_output_layout = arg.second_output_node().get_output_layout();
+            second_output_layout.format = arg.input_scores().get_output_layout().format;
+            params.inputs.push_back(convert_data_tensor(second_output_layout));
             params.has_second_output = true;
         }
 
         if (arg.has_third_output()) {
-            params.inputs.push_back(convert_data_tensor(arg.third_output_node().get_output_layout()));
+            layout third_output_layout = arg.third_output_node().get_output_layout();
+            third_output_layout.format = arg.input_scores().get_output_layout().format;
+            params.inputs.push_back(convert_data_tensor(third_output_layout));
             params.has_third_output = true;
         }
 
         params.sort_result_descending = primitive->sort_result_descending;
-        params.box_encoding = primitive->center_point_box ?
-            kernel_selector::BoxEncodingType::BOX_ENCODING_CENTER : kernel_selector::BoxEncodingType::BOX_ENCODING_CORNER;
-
+        params.box_encoding = primitive->center_point_box ? kernel_selector::BoxEncodingType::BOX_ENCODING_CENTER
+                                                          : kernel_selector::BoxEncodingType::BOX_ENCODING_CORNER;
         auto& kernel_selector = kernel_selector::non_max_suppression_kernel_selector::Instance();
         auto best_kernels = kernel_selector.GetBestKernels(params, optional_params);
 
@@ -171,11 +173,25 @@ struct non_max_suppression_impl : typed_primitive_impl_ocl<non_max_suppression>
 namespace detail {
 
 attach_non_max_suppression_impl::attach_non_max_suppression_impl() {
-    implementation_map<non_max_suppression>::add(impl_types::ocl, non_max_suppression_impl::create, {
-        std::make_tuple(data_types::i32, format::bfyx),
-        std::make_tuple(data_types::f16, format::bfyx),
-        std::make_tuple(data_types::f32, format::bfyx),
-    });
+    implementation_map<non_max_suppression>::add(impl_types::ocl,
+                                                 non_max_suppression_impl::create,
+                                                 {
+                                                     std::make_tuple(data_types::i32, format::bfyx),
+
+                                                     std::make_tuple(data_types::f16, format::bfyx),
+                                                     std::make_tuple(data_types::f16, format::b_fs_yx_fsv16),
+                                                     std::make_tuple(data_types::f16, format::b_fs_yx_fsv32),
+                                                     std::make_tuple(data_types::f16, format::bs_fs_yx_bsv16_fsv16),
+                                                     std::make_tuple(data_types::f16, format::bs_fs_yx_bsv32_fsv16),
+                                                     std::make_tuple(data_types::f16, format::bs_fs_yx_bsv32_fsv32),
+
+                                                     std::make_tuple(data_types::f32, format::bfyx),
+                                                     std::make_tuple(data_types::f32, format::b_fs_yx_fsv16),
+                                                     std::make_tuple(data_types::f32, format::b_fs_yx_fsv32),
+                                                     std::make_tuple(data_types::f32, format::bs_fs_yx_bsv16_fsv16),
+                                                     std::make_tuple(data_types::f32, format::bs_fs_yx_bsv32_fsv16),
+                                                     std::make_tuple(data_types::f32, format::bs_fs_yx_bsv32_fsv32),
+                                                 });
 }
 
 }  // namespace detail
 
@@ -1439,13 +1439,25 @@ impl_types layout_optimizer::get_preferred_impl_type(program_node& node, format
         else
             preferred_impl = impl_types::cpu;
     } else if (node.is_type<non_max_suppression>()) {
-        auto& nms_node = node.as<non_max_suppression>();
-        auto scoresTensor = convert_data_tensor(nms_node.input_scores().get_output_layout());
-        const size_t kBatchNum = scoresTensor.Batch().v;
-        const size_t kClassNum = scoresTensor.Feature().v;
-        const size_t kNStreams = static_cast<size_t>(node.get_program().get_engine().configuration().throughput_streams);
-        const size_t kKeyValue = kBatchNum * std::min(kClassNum, static_cast<size_t>(8)) * kNStreams;
-        preferred_impl = (kKeyValue > 64) ? impl_types::ocl : impl_types::cpu;
+        const std::set<format> blocked_formats = {
+            format::b_fs_yx_fsv16,
+            format::b_fs_yx_fsv32,
+            format::bs_fs_yx_bsv16_fsv16,
+            format::bs_fs_yx_bsv32_fsv16,
+            format::bs_fs_yx_bsv32_fsv32,
+        };
+        if (blocked_formats.find(node.get_dependency(0).get_output_layout().format) != blocked_formats.end()) {
+            preferred_impl = impl_types::ocl;
+        } else {
+            auto& nms_node = node.as<non_max_suppression>();
+            auto scoresTensor = convert_data_tensor(nms_node.input_scores().get_output_layout());
+            const size_t kBatchNum = scoresTensor.Batch().v;
+            const size_t kClassNum = scoresTensor.Feature().v;
+            const size_t kNStreams =
+                static_cast<size_t>(node.get_program().get_engine().configuration().throughput_streams);
+            const size_t kKeyValue = kBatchNum * std::min(kClassNum, static_cast<size_t>(8)) * kNStreams;
+            preferred_impl = (kKeyValue > 64) ? impl_types::ocl : impl_types::cpu;
+        }
     } else if (node.is_type<reorder>()) {
         if (!_optimization_attributes.use_onednn_impls)
             return impl_types::ocl;
 
@@ -20,8 +20,7 @@ layout non_max_suppression_inst::calc_output_layout(non_max_suppression_node con
     auto output_type = desc->output_data_type ? *desc->output_data_type : data_types::i32;
 
     auto output_size = tensor(batch(desc->selected_indices_num), feature(3));
-
-    return layout(output_type, format::bfyx, output_size);
+    return layout(output_type, node.input().get_output_layout().format, output_size);
 }
 
 std::string non_max_suppression_inst::to_string(non_max_suppression_node const& node) {
 
@@ -1398,7 +1398,8 @@ void program::set_layout_optimizer_attributes(layout_optimizer& lo) {
             prim.type() != cldnn::normalize::type_id() &&
             prim.type() != cldnn::mvn::type_id() &&
             prim.type() != cldnn::gather::type_id() &&
-            prim.type() != cldnn::scatter_nd_update::type_id()) {
+            prim.type() != cldnn::scatter_nd_update::type_id() &&
+            prim.type() != cldnn::non_max_suppression::type_id()) {
             can_use_fsv16 = false;
         }
 
@@ -1425,11 +1426,11 @@ void program::set_layout_optimizer_attributes(layout_optimizer& lo) {
             prim.type() != cldnn::fully_connected::type_id() &&
             prim.type() != cldnn::generic_layer::type_id() &&
             prim.type() != cldnn::scatter_nd_update::type_id() &&
-            prim.type() != cldnn::quantize::type_id())
+            prim.type() != cldnn::quantize::type_id() &&
+            prim.type() != cldnn::non_max_suppression::type_id())
             can_use_bs_fs_yx_bsv16_fsv16 = false;
     }
 
-
     size_t total_conv_layers = lo.get_total_conv_count();
     // Due to fact that single winograd convolution is faster than b_fs_yx_fsv16 and
     // using them together leads do redundant reorders, whole topology switch
 
@@ -50,6 +50,10 @@ inline std::string GetToInputTypeStr(uint32_t idx) {
     return "TO_" + GetInputTypeStr(idx);
 }
 
+inline std::string GetToInputIndexStr(uint32_t idx) {
+    return "INPUT" + std::to_string(idx) + "_GET_INDEX";
+}
+
 JitConstants NonMaxSuppressionKernelRef::GetJitConstants(const non_max_suppression_params& params) const {
     JitConstants jit = MakeBaseParamsJitConstants(params);
 
@@ -109,11 +113,13 @@ JitConstants NonMaxSuppressionKernelRef::GetJitConstants(const non_max_suppressi
     if (params.has_second_output) {
         jit.AddConstant(MakeJitConstant("SECOND_OUTPUT_TYPE", GetInputTypeStr(params.GetIndexSecondOutput())));
         jit.AddConstant(MakeJitConstant("TO_SECOND_OUTPUT_TYPE", GetToInputTypeStr(params.GetIndexSecondOutput())));
+        jit.AddConstant(MakeJitConstant("SECOND_OUTPUT_GET_INDEX", GetToInputIndexStr(params.GetIndexSecondOutput())));
     }
 
     if (params.has_third_output) {
         jit.AddConstant(MakeJitConstant("THIRD_OUTPUT_TYPE", GetInputTypeStr(params.GetIndexThirdOutput())));
         jit.AddConstant(MakeJitConstant("TO_THIRD_OUTPUT_TYPE", GetToInputTypeStr(params.GetIndexThirdOutput())));
+        jit.AddConstant(MakeJitConstant("THIRD_OUTPUT_GET_INDEX", GetToInputIndexStr(params.GetIndexThirdOutput())));
     }
 
     return jit;
@@ -146,8 +152,9 @@ NonMaxSuppressionKernelRef::DispatchData SetDefault(const non_max_suppression_pa
 
     const auto& input = params.inputs[1];
     if (idx == 0) {
-        dispatchData.gws = {input.Batch().v, input.Feature().v, params.engineInfo.maxWorkGroupSize};
-        dispatchData.lws = {1, 1, params.engineInfo.maxWorkGroupSize};
+        const size_t boxesGroupSize = std::min(params.inputs[0].Feature().v, params.engineInfo.maxWorkGroupSize);
+        dispatchData.gws = {input.Batch().v, input.Feature().v, boxesGroupSize};
+        dispatchData.lws = {1, 1, boxesGroupSize};
     } else if (idx == 1) {
         const size_t kSplitNum = 16;
         dispatchData.gws = {input.Batch().v, input.Feature().v, kSplitNum};
@@ -261,7 +268,7 @@ KernelsData NonMaxSuppressionKernelRef::GetKernelsData(const Params& params, con
     // Build clKernelData.
     for (size_t i = 0; i < kKernelsNum; i++) {
         DispatchData dispatchData = SetDefault(orgParams, static_cast<int>(i));
-        auto entry_point = GetEntryPoint(kernelName, orgParams.layerID, params, options);
+        auto entry_point = GetEntryPoint(kernelName, orgParams.layerID, params, options, i);
         auto cldnn_jit = GetJitConstants(orgParams);
         cldnn_jit.AddConstant(MakeJitConstant("BUFFER_STRIDE", buffer_stride));
Original file line number	Diff line number	Diff line change
`@@ -20,8 +20,7 @@ layout non_max_suppression_inst::calc_output_layout(non_max_suppression_node con`
`20`	`20`	`auto output_type = desc->output_data_type ? *desc->output_data_type : data_types::i32;`
`21`	`21`
`22`	`22`	`auto output_size = tensor(batch(desc->selected_indices_num), feature(3));`
`23`		`-`
`24`		`- return layout(output_type, format::bfyx, output_size);`
	`23`	`+ return layout(output_type, node.input().get_output_layout().format, output_size);`
`25`	`24`	`}`
`26`	`25`
`27`	`26`	`std::string non_max_suppression_inst::to_string(non_max_suppression_node const& node) {`