Add subgraph benchmarks for variants of the fully-connected op.

gonnet · xnnpack-bot · commit 48fd62f12d5e · 2025-06-04T13:58:55.000-07:00
PiperOrigin-RevId: 767275232
diff --git a/bench/subgraph/BUILD b/bench/subgraph/BUILD
@@ -25,6 +25,7 @@ xnnpack_cxx_library(
         "fp32-mobilenet-v3-small.cc",
         "fp32-softmax.cc",
         "fp32-transformer.cc",
+        "fully-connected.cc",
         "qd8-attention.cc",
         "qd8-transformer.cc",
         "qs8-mobilenet-v2.cc",
diff --git a/bench/subgraph/benchmark.cc b/bench/subgraph/benchmark.cc
@@ -14,6 +14,7 @@
 #include <memory>
 #include <vector>
 
+#include "bench/gemm.h"
 #include "bench/subgraph/models.h"
 #include "bench/utils.h"
 #include "include/xnnpack.h"
@@ -273,6 +274,34 @@ static void FP16TransformerBlock(benchmark::State& state) {
       XNN_FLAG_FORCE_FP16_INFERENCE);
 }
 
+static void QD8FullyConnected(benchmark::State& state) {
+  BenchmarkInvoke(state, [&state]() {
+    return models::QD8FullyConnected(
+        /*batch_size=*/state.range(0),
+        /*input_channels=*/state.range(2), /*output_channels=*/state.range(1));
+  });
+}
+
+static void FP32FullyConnected(benchmark::State& state) {
+  BenchmarkInvoke(state, [&state]() {
+    return models::FP32FullyConnected(
+        /*batch_size=*/state.range(0),
+        /*input_channels=*/state.range(2), /*output_channels=*/state.range(1));
+  });
+}
+
+static void FP16FullyConnected(benchmark::State& state) {
+  BenchmarkInvoke(
+      state,
+      [&state]() {
+        return models::FP32FullyConnected(
+            /*batch_size=*/state.range(0),
+            /*input_channels=*/state.range(2),
+            /*output_channels=*/state.range(1));
+      },
+      XNN_FLAG_FORCE_FP16_INFERENCE);
+}
+
 static void AttentionArguments(benchmark::internal::Benchmark* b) {
   b->ArgNames({"T", "H", "N", "S"});
   b->Args({16, 25, 24, 4});
@@ -326,6 +355,9 @@ static void DepthwiseSeparableArguments(benchmark::internal::Benchmark* b) {
 static void TransformerBlockArguments(benchmark::internal::Benchmark* b) {
   b->ArgNames({"T", "D", "N", "H", "F"});
 
+  // Gemma3-1B parameters.
+  b->Args({128, 1152, 4, 256, 6 * 1152});
+
   // GeminiXXS parameters.
   b->Args({128, 1536, 6, 256, 8 * 1536});
 
@@ -334,9 +366,6 @@ static void TransformerBlockArguments(benchmark::internal::Benchmark* b) {
 
   // Gemma2-2B parameters.
   b->Args({128, 2304, 8, 256, 9216});
-
-  // Gemma3-1B parameters.
-  b->Args({128, 1152, 4, 256, 6 * 1152});
 }
 
 BENCHMARK(FP32Attention)
@@ -415,4 +444,19 @@ BENCHMARK(FP16TransformerBlock)
     ->UseRealTime()
     ->Apply(TransformerBlockArguments);
 
+BENCHMARK(QD8FullyConnected)
+    ->Unit(benchmark::kMicrosecond)
+    ->UseRealTime()
+    ->Apply(FaceMeshFullGemmArguments);
+
+BENCHMARK(FP32FullyConnected)
+    ->Unit(benchmark::kMicrosecond)
+    ->UseRealTime()
+    ->Apply(FaceMeshFullGemmArguments);
+
+BENCHMARK(FP16FullyConnected)
+    ->Unit(benchmark::kMicrosecond)
+    ->UseRealTime()
+    ->Apply(FaceMeshFullGemmArguments);
+
 XNN_BENCHMARK_MAIN();
diff --git a/bench/subgraph/fully-connected.cc b/bench/subgraph/fully-connected.cc
@@ -0,0 +1,188 @@
+// Copyright 2025 Google LLC
+//
+// This source code is licensed under the BSD-style license found in the
+// LICENSE file in the root directory of this source tree.
+
+#include <algorithm>
+#include <array>
+#include <cstddef>
+#include <cstdint>
+#include <functional>
+#include <iostream>
+#include <limits>
+#include <random>
+#include <vector>
+
+#include "bench/subgraph/models.h"
+#include "include/xnnpack.h"
+
+// align a size up to XNN_EXTRA_BYTES
+#define XNN_PAD_EXTRA_BYTES(s, t) \
+  (((s) + XNN_EXTRA_BYTES / sizeof(t) - 1) & ~(XNN_EXTRA_BYTES / sizeof(t) - 1))
+
+namespace models {
+
+xnn_subgraph_t FP32FullyConnected(size_t batch_size, size_t input_channels,
+                                  size_t output_channels) {
+  xnn_status status;
+  xnn_subgraph_t subgraph = nullptr;
+  status = xnn_create_subgraph(/*num_external_values=*/2, 0, &subgraph);
+  if (status != xnn_status_success) {
+    std::cerr << "failed to create subgrpah" << std::endl;
+    return nullptr;
+  }
+
+  std::random_device random_device;  // NOLINT(runtime/random_device)
+  auto rng = std::mt19937(random_device());
+
+  uint32_t v0 = XNN_INVALID_VALUE_ID;
+  std::array<size_t, 2> v0_dims = {{batch_size, input_channels}};
+  status = xnn_define_tensor_value(
+      subgraph, xnn_datatype_fp32, v0_dims.size(), v0_dims.data(),
+      /*data=*/nullptr, 0, XNN_VALUE_FLAG_EXTERNAL_INPUT, &v0);
+  if (status != xnn_status_success) {
+    std::cerr << "failed to create tensor v0" << std::endl;
+    return nullptr;
+  }
+
+  uint32_t v38 = XNN_INVALID_VALUE_ID;
+  std::array<size_t, 2> v38_dims = {{batch_size, output_channels}};
+  status = xnn_define_tensor_value(
+      subgraph, xnn_datatype_fp32, v38_dims.size(), v38_dims.data(),
+      /*data=*/nullptr, 1, XNN_VALUE_FLAG_EXTERNAL_OUTPUT, &v38);
+  if (status != xnn_status_success) {
+    std::cerr << "failed to create tensor v38" << std::endl;
+    return nullptr;
+  }
+
+  static std::vector<float> w42_data;
+  w42_data.resize(XNN_PAD_EXTRA_BYTES(input_channels * output_channels, float));
+  uint32_t w42 = XNN_INVALID_VALUE_ID;
+  std::array<size_t, 2> w42_dims = {{output_channels, input_channels}};
+  status = xnn_define_tensor_value(
+      subgraph, xnn_datatype_fp32, w42_dims.size(), w42_dims.data(),
+      /*data=*/w42_data.data(), XNN_INVALID_VALUE_ID, /*flags=*/0, &w42);
+  if (status != xnn_status_success) {
+    std::cerr << "failed to create tensor w42" << std::endl;
+    return nullptr;
+  }
+
+  auto f32rng = std::bind(std::uniform_real_distribution<float>(-1.0f, +1.0f),
+                          std::ref(rng));
+  std::generate(w42_data.begin(), w42_data.end(), std::ref(f32rng));
+
+  status = xnn_define_fully_connected(
+      subgraph,
+      /*output_min=*/-std::numeric_limits<float>::infinity(),
+      /*output_max=*/std::numeric_limits<float>::infinity(),
+      /*input_id=*/v0,
+      /*filter_id=*/w42,
+      /*bias_id=*/XNN_INVALID_VALUE_ID,
+      /*output_id=*/v38,
+      /*flags=*/0);
+  if (status != xnn_status_success) {
+    std::cerr << "failed to create node #6" << std::endl;
+    return nullptr;
+  }
+
+  return subgraph;
+}  // NOLINT(readability/fn_size)
+
+xnn_subgraph_t QD8FullyConnected(size_t batch_size, size_t input_channels,
+                                 size_t output_channels) {
+  xnn_status status;
+  xnn_subgraph_t subgraph = nullptr;
+  status = xnn_create_subgraph(/*num_external_values=*/2, 0, &subgraph);
+  if (status != xnn_status_success) {
+    std::cerr << "failed to create subgrpah" << std::endl;
+    return nullptr;
+  }
+
+  std::random_device random_device;  // NOLINT(runtime/random_device)
+  auto rng = std::mt19937(random_device());
+
+  uint32_t v0 = XNN_INVALID_VALUE_ID;
+  std::array<size_t, 2> v0_dims = {{batch_size, input_channels}};
+  status = xnn_define_tensor_value(
+      subgraph, xnn_datatype_fp32, v0_dims.size(), v0_dims.data(),
+      /*data=*/nullptr, 0, XNN_VALUE_FLAG_EXTERNAL_INPUT, &v0);
+  if (status != xnn_status_success) {
+    std::cerr << "failed to create tensor v0" << std::endl;
+    return nullptr;
+  }
+
+  uint32_t v1 = XNN_INVALID_VALUE_ID;
+  std::array<size_t, 2> v1_dims = {{batch_size, input_channels}};
+  status = xnn_define_dynamically_quantized_tensor_value(
+      subgraph, xnn_datatype_qdint8, /*num_dims=*/v1_dims.size(),
+      /*num_non_batch_dims=*/1, /*dims=*/v1_dims.data(),
+      /*external_id=*/XNN_INVALID_VALUE_ID,
+      /*flags=*/0, &v1);
+  if (status != xnn_status_success) {
+    std::cerr << "failed to create tensor v1" << std::endl;
+    return nullptr;
+  }
+
+  uint32_t v38 = XNN_INVALID_VALUE_ID;
+  std::array<size_t, 2> v38_dims = {{batch_size, output_channels}};
+  status = xnn_define_tensor_value(
+      subgraph, xnn_datatype_fp32, v38_dims.size(), v38_dims.data(),
+      /*data=*/nullptr, 1, XNN_VALUE_FLAG_EXTERNAL_OUTPUT, &v38);
+  if (status != xnn_status_success) {
+    std::cerr << "failed to create tensor v38" << std::endl;
+    return nullptr;
+  }
+
+  static std::vector<int8_t> w42_data;
+  w42_data.resize(
+      XNN_PAD_EXTRA_BYTES(input_channels * output_channels, int8_t));
+  uint32_t w42 = XNN_INVALID_VALUE_ID;
+  std::array<size_t, 2> w42_dims = {{output_channels, input_channels}};
+  static std::vector<float> w42_scale;
+  w42_scale.resize(output_channels);
+  {
+    auto scalerng = std::bind(
+        std::uniform_real_distribution<float>(0.01f, 1.0f), std::ref(rng));
+    std::generate(w42_scale.begin(), w42_scale.end(), std::ref(scalerng));
+  }
+  status = xnn_define_channelwise_quantized_tensor_value(
+      subgraph, xnn_datatype_qcint8,
+      /*scale=*/w42_scale.data(), w42_dims.size(), 0, w42_dims.data(),
+      /*data=*/w42_data.data(), XNN_INVALID_VALUE_ID, /*flags=*/0, &w42);
+  if (status != xnn_status_success) {
+    std::cerr << "failed to create tensor w42" << std::endl;
+    return nullptr;
+  }
+
+  auto qc8rng = std::bind(
+      std::uniform_int_distribution<int>(std::numeric_limits<int8_t>::min(),
+                                         std::numeric_limits<int8_t>::max()),
+      std::ref(rng));
+  std::generate(w42_data.begin(), w42_data.end(), std::ref(qc8rng));
+
+  status = xnn_define_unary(subgraph, xnn_unary_convert, /*params=*/nullptr,
+                            /*input_id=*/v0, /*output_id=*/v1,
+                            /*flags=*/0);
+  if (status != xnn_status_success) {
+    std::cerr << "failed to create create convert " << std::endl;
+    return nullptr;
+  }
+
+  status = xnn_define_fully_connected(
+      subgraph,
+      /*output_min=*/-std::numeric_limits<float>::infinity(),
+      /*output_max=*/std::numeric_limits<float>::infinity(),
+      /*input_id=*/v1,
+      /*filter_id=*/w42,
+      /*bias_id=*/XNN_INVALID_VALUE_ID,
+      /*output_id=*/v38,
+      /*flags=*/0);
+  if (status != xnn_status_success) {
+    std::cerr << "failed to create node #6" << std::endl;
+    return nullptr;
+  }
+
+  return subgraph;
+}  // NOLINT(readability/fn_size)
+
+}  // namespace models
diff --git a/bench/subgraph/models.h b/bench/subgraph/models.h
@@ -82,6 +82,10 @@ xnn_subgraph_t FP32TransformerBlock(size_t batch_size, size_t sequence_length,
                                     size_t embedding_dim, size_t num_heads,
                                     size_t head_dim, size_t hidden_dim);
 
+xnn_subgraph_t FP32FullyConnected(size_t batch_size, size_t input_channels,
+                                  size_t output_channels);
+xnn_subgraph_t QD8FullyConnected(size_t batch_size, size_t input_channels,
+                                 size_t output_channels);
 }  // namespace models
 
 #endif  // THIRD_PARTY_XNNPACK_BENCH_MODELS_MODELS_H_
diff --git a/src/runtime.c b/src/runtime.c
@@ -39,6 +39,7 @@
 #include "src/xnnpack/operator.h"
 #include "src/xnnpack/params.h"
 #include "src/xnnpack/subgraph.h"
+#include "src/subgraph/subgraph-utils.h"
 #include <pthreadpool.h>
 
 enum xnn_status xnn_reshape_external_value(
@@ -543,6 +544,8 @@ enum xnn_status xnn_create_runtime_v4(
     xnn_log_error("failed to optimize subgraph");
     goto error;
   }
+  
+  xnn_subgraph_log_info(subgraph);
 
   status = xnn_status_out_of_memory;