dmitry-brazhenko
diff --git a/‎.github/workflows/build-test-and-publish.yml‎
Lines changed: 4 additions & 2 deletions b/‎.github/workflows/build-test-and-publish.yml‎
Lines changed: 4 additions & 2 deletions
diff --git a/‎.github/workflows/dotnet-build-test.yml‎
Lines changed: 1 addition & 2 deletions b/‎.github/workflows/dotnet-build-test.yml‎
Lines changed: 1 addition & 2 deletions
diff --git a/‎README.md‎
Lines changed: 167 additions & 1 deletion b/‎README.md‎
Lines changed: 167 additions & 1 deletion
diff --git a/‎SharpToken.Benchmark/CompareBenchmark.cs‎
Lines changed: 73 additions & 0 deletions b/‎SharpToken.Benchmark/CompareBenchmark.cs‎
Lines changed: 73 additions & 0 deletions
diff --git a/‎SharpToken.Benchmark/FileHelper.cs‎
Lines changed: 24 additions & 0 deletions b/‎SharpToken.Benchmark/FileHelper.cs‎
Lines changed: 24 additions & 0 deletions
@@ -36,8 +36,10 @@ jobs:
       - name: Calculate Package Version
         id: calculate_version
         run: |
-          $version = "1.2.$env:GITHUB_RUN_NUMBER"
-          echo "Calculated package version: $version"
+          $GithubRunNumber = $env:GITHUB_RUN_NUMBER
+          $Patch = $GithubRunNumber - 33
+          $version = "2.0.$Patch"
+          echo "Calculated package version: $version; Patch: $Patch; GitHub Run Number: $GithubRunNumber"
           echo "::set-output name=version::$version"
 
       - name: Restore dependencies
 
@@ -9,7 +9,6 @@ jobs:
       fail-fast: false
       matrix:
         os: [windows-latest, ubuntu-latest, macos-latest]
-        dotnet: ['netcoreapp3.1', 'net6.0', 'net8.0']
     runs-on: ${{ matrix.os }}
     steps:
       - name: Checkout repository
@@ -30,4 +29,4 @@ jobs:
         run: dotnet build --configuration Release --no-restore
 
       - name: Test
-        run: dotnet test --no-restore --verbosity normal -f ${{ matrix.dotnet }}
+        run: dotnet test --no-restore --verbosity normal
@@ -60,6 +60,13 @@ And use the Decode method to decode the encoded tokens:
 var decoded = encoding.Decode(encoded); // Output: "Hello, world!"
 ```
 
+SharpToken also provides a high performance count method.
+It is usefull to check prompt size before sending it to a LLM or to use it in a TextSplitter/Chunker for RAG.
+
+```csharp
+var count = encoding.CountTokens("Hello, world!"); // Output: 4
+```
+
 ## Supported Models
 
 SharpToken currently supports the following models:
@@ -98,7 +105,7 @@ Examples of model names that fall under these prefixes include:
 To retrieve the encoding name based on a model name or its prefix, you can use the `GetEncodingNameForModel` method:
 
 ```csharp
-string encodingName = GetEncodingNameForModel("gpt-4-0314");  // This will return "cl100k_base"
+string encodingName = Model.GetEncodingNameForModel("gpt-4-0314");  // This will return "cl100k_base"
 ```
 
 If the provided model name doesn't match any direct model names or prefixes, the method will return `null`.
@@ -175,6 +182,165 @@ compatibility with the Python tiktoken library. These test cases validate the fu
 providing a reliable reference for developers. Running the unit tests and verifying the test cases helps maintain
 consistency between the C# SharpToken library and the original Python implementation.
 
+## Performance Compared to TiktokenSharp and TokenizerLib
+
+SharpToken is the fastest library with the lowest allocations!
+
+<details>
+<summary>Benchmark Code</summary>
+
+```csharp
+[SimpleJob(RuntimeMoniker.Net60)]
+[SimpleJob(RuntimeMoniker.Net80)]
+[SimpleJob(RuntimeMoniker.Net471)]
+[RPlotExporter]
+[MemoryDiagnoser]
+public class CompareBenchmark
+{
+    private GptEncoding _sharpToken;
+    private TikToken _tikToken;
+    private ITokenizer _tokenizer;
+    private string _kLongText;
+
+    [GlobalSetup]
+    public async Task Setup()
+    {
+        _sharpToken = GptEncoding.GetEncoding("cl100k_base");
+        _tikToken = await TikToken.GetEncodingAsync("cl100k_base").ConfigureAwait(false);
+        _tokenizer = await TokenizerBuilder.CreateByModelNameAsync("gpt-4").ConfigureAwait(false);
+        _kLongText = "King Lear, one of Shakespeare's darkest and most savage plays, tells the story of the foolish and Job-like Lear, who divides his kingdom, as he does his affections, according to vanity and whim. Lear’s failure as a father engulfs himself and his world in turmoil and tragedy.";
+    }
+
+    [Benchmark]
+    public int SharpToken()
+    {
+        var sum = 0;
+        for (var i = 0; i < 10000; i++)
+        {
+            var encoded = _sharpToken.Encode(_kLongText);
+            var decoded = _sharpToken.Decode(encoded);
+            sum += decoded.Length;
+        }
+
+        return sum;
+    }
+
+    [Benchmark]
+    public int TiktokenSharp()
+    {
+        var sum = 0;
+        for (var i = 0; i < 10000; i++)
+        {
+            var encoded = _tikToken.Encode(_kLongText);
+            var decoded = _tikToken.Decode(encoded);
+            sum += decoded.Length;
+        }
+
+        return sum;
+    }
+
+    [Benchmark]
+    public int TokenizerLib()
+    {
+        var sum = 0;
+        for (var i = 0; i < 10000; i++)
+        {
+            var encoded = _tokenizer.Encode(_kLongText);
+            var decoded = _tokenizer.Decode(encoded.ToArray());
+            sum += decoded.Length;
+        }
+
+        return sum;
+    }
+}
+```
+
+</details>
+
+```
+BenchmarkDotNet v0.13.12, Windows 11 (10.0.22631.3296/23H2/2023Update/SunValley3)
+AMD Ryzen 9 3900X, 1 CPU, 24 logical and 12 physical cores
+.NET SDK 8.0.200
+  [Host]               : .NET 8.0.2 (8.0.224.6711), X64 RyuJIT AVX2
+  .NET 6.0             : .NET 6.0.16 (6.0.1623.17311), X64 RyuJIT AVX2
+  .NET 8.0             : .NET 8.0.2 (8.0.224.6711), X64 RyuJIT AVX2
+  .NET Framework 4.7.1 : .NET Framework 4.8.1 (4.8.9181.0), X64 RyuJIT VectorSize=256
+```
+
+| Method         | Job                  | Runtime              | Mean     | Error    | StdDev   | Gen0       | Gen1      | Allocated |
+|--------------- |--------------------- |--------------------- |---------:|---------:|---------:|-----------:|----------:|----------:|
+| **SharpToken** | .NET 8.0             | .NET 8.0             | 100.4 ms |  1.95 ms |  1.91 ms |  2000.0000 |         - |  22.13 MB |
+| **SharpToken** | .NET 6.0             | .NET 6.0             | 169.9 ms |  2.42 ms |  2.15 ms | 24333.3333 | 1000.0000 |  196.3 MB |
+| **SharpToken** | .NET Framework 4.7.1 | .NET Framework 4.7.1 | 455.3 ms |  8.34 ms |  6.97 ms | 34000.0000 | 1000.0000 | 204.39 MB |
+|                |                      |                      |          |          |          |            |           |           |
+| *TiktokenSharp*| .NET 8.0             | .NET 8.0             | 211.4 ms |  1.83 ms |  1.53 ms | 42000.0000 | 1000.0000 | 338.98 MB |
+| *TiktokenSharp*| .NET 6.0             | .NET 6.0             | 258.6 ms |  5.09 ms |  6.25 ms | 39000.0000 | 1000.0000 | 313.26 MB |
+| *TiktokenSharp*| .NET Framework 4.7.1 | .NET Framework 4.7.1 | 638.3 ms | 12.47 ms | 16.21 ms | 63000.0000 | 1000.0000 | 378.31 MB |
+|                |                      |                      |          |          |          |            |           |           |
+| *TokenizerLib* | .NET 8.0             | .NET 8.0             | 124.4 ms |  1.81 ms |  1.60 ms | 27250.0000 | 1000.0000 | 217.82 MB |
+| *TokenizerLib* | .NET 6.0             | .NET 6.0             | 165.5 ms |  1.38 ms |  1.16 ms | 27000.0000 | 1000.0000 | 217.82 MB |
+| *TokenizerLib* | .NET Framework 4.7.1 | .NET Framework 4.7.1 | 499.7 ms |  9.81 ms | 14.07 ms | 40000.0000 | 1000.0000 | 243.79 MB |
+
+
+## Performance
+
+SharpToken is extreamly performance optimized on net8.0.
+It uses modern multibyte CPU instructions and almost no heap allocations.
+
+All core methods have been tested on a large and a small input text.
+
+**Inputs:**
+- `SmallText`: 453 B (text/plain)
+- `LargeText`: 51 KB (text/html)
+
+**Methods:**
+- `Encode`: text to tokens
+- `Decode`: tokens to text
+- `CountTokens`: high performance API to count tokens of text
+
+
+```
+BenchmarkDotNet v0.13.12, Windows 11 (10.0.22631.3296/23H2/2023Update/SunValley3)
+AMD Ryzen 9 3900X, 1 CPU, 24 logical and 12 physical cores
+.NET SDK 8.0.200
+  [Host]               : .NET 8.0.2 (8.0.224.6711), X64 RyuJIT AVX2
+  .NET 6.0             : .NET 6.0.16 (6.0.1623.17311), X64 RyuJIT AVX2
+  .NET 8.0             : .NET 8.0.2 (8.0.224.6711), X64 RyuJIT AVX2
+  .NET Framework 4.7.1 : .NET Framework 4.8.1 (4.8.9181.0), X64 RyuJIT VectorSize=256
+```
+
+| Method                   | Mean          | Error       | StdDev      | Ratio | RatioSD | Allocated | Alloc Ratio |
+|------------------------- |--------------:|------------:|------------:|------:|--------:|----------:|------------:|
+| **.NET 8.0**             |               |             |             |       |         |           |             |
+| Encode_SmallText         |     22.649 us |   0.4244 us |   0.4359 us |  0.28 |    0.01 |     696 B |        0.02 |
+| Encode_LargeText         |  4,542.505 us |  87.7988 us | 104.5182 us |  0.24 |    0.01 |  155547 B |        0.03 |
+|                          |               |             |             |       |         |           |             |
+| Decode_SmallText         |      1.623 us |   0.0324 us |   0.0373 us |  0.44 |    0.02 |    2320 B |        0.98 |
+| Decode_LargeText         |    454.570 us |   6.8980 us |   6.4524 us |  0.80 |    0.02 |  286979 B |        1.00 |
+|                          |               |             |             |       |         |           |             |
+| CountTokens_SmallText    |     22.008 us |   0.1165 us |   0.0909 us |  0.28 |    0.00 |     184 B |       0.005 |
+| CountTokens_LargeText    |  4,231.353 us |  14.5157 us |  11.3329 us |  0.23 |    0.00 |     195 B |       0.000 |
+|                          |               |             |             |       |         |           |             |
+| **.NET 6.0**             |               |             |             |       |         |           |             |
+| Encode_SmallText         |     36.370 us |   0.7178 us |   1.0962 us |  0.45 |    0.02 |   37344 B |        0.91 |
+| Encode_LargeText         | 11,213.070 us | 219.6291 us | 269.7243 us |  0.59 |    0.02 | 5062574 B |        0.91 |
+|                          |               |             |             |       |         |           |             |
+| Decode_SmallText         |      2.588 us |   0.0394 us |   0.0350 us |  0.70 |    0.02 |    2320 B |        0.98 |
+| Decode_LargeText         |    489.467 us |   8.9195 us |   8.3433 us |  0.86 |    0.02 |  286985 B |        1.00 |
+|                          |               |             |             |       |         |           |             |
+| CountTokens_SmallText    |     34.758 us |   0.2027 us |   0.1896 us |  0.45 |    0.01 |   36832 B |       0.907 |
+| CountTokens_LargeText    | 11,252.083 us | 215.8912 us | 212.0340 us |  0.61 |    0.01 | 4907169 B |       0.907 |
+|                          |               |             |             |       |         |           |             |
+| **.NET Framework 4.7.1** |               |             |             |       |         |           |             |
+| Encode_SmallText         |     79.947 us |   1.5621 us |   3.0097 us |  1.00 |    0.00 |   41138 B |        1.00 |
+| Encode_LargeText         | 18,961.252 us | 253.1816 us | 236.8262 us |  1.00 |    0.00 | 5567685 B |        1.00 |
+|                          |               |             |             |       |         |           |             |
+| Decode_SmallText         |      3.723 us |   0.0728 us |   0.0997 us |  1.00 |    0.00 |    2375 B |        1.00 |
+| Decode_LargeText         |    570.787 us |  11.0356 us |  11.8080 us |  1.00 |    0.00 |  287496 B |        1.00 |
+|                          |               |             |             |       |         |           |             |
+| CountTokens_SmallText    |     77.521 us |   1.0802 us |   0.9020 us |  1.00 |    0.00 |   40616 B |       1.000 |
+| CountTokens_LargeText    | 18,485.392 us | 313.5834 us | 277.9836 us |  1.00 |    0.00 | 5413237 B |       1.000 |
+
 ## Contributions and Feedback
 
 If you encounter any issues or have suggestions for improvements, please feel free to open an issue or submit a pull
 
@@ -0,0 +1,73 @@
+using System.Threading.Tasks;
+using BenchmarkDotNet.Attributes;
+using BenchmarkDotNet.Jobs;
+using TiktokenSharp;
+using Microsoft.DeepDev;
+
+
+namespace SharpToken.Benchmark
+{
+    [SimpleJob(RuntimeMoniker.Net60)]
+    [SimpleJob(RuntimeMoniker.Net80)]
+    [SimpleJob(RuntimeMoniker.Net471)]
+    [RPlotExporter]
+    [MemoryDiagnoser]
+    public class CompareBenchmark
+    {
+        private GptEncoding _sharpToken;
+        private TikToken _tikToken;
+        private ITokenizer _tokenizer;
+        private string _kLongText;
+
+        [GlobalSetup]
+        public async Task Setup()
+        {
+            _sharpToken = GptEncoding.GetEncoding("cl100k_base");
+            _tikToken = await TikToken.GetEncodingAsync("cl100k_base").ConfigureAwait(false);
+            _tokenizer = await TokenizerBuilder.CreateByModelNameAsync("gpt-4").ConfigureAwait(false);
+            _kLongText = "King Lear, one of Shakespeare's darkest and most savage plays, tells the story of the foolish and Job-like Lear, who divides his kingdom, as he does his affections, according to vanity and whim. Lear’s failure as a father engulfs himself and his world in turmoil and tragedy.";
+        }
+
+        [Benchmark]
+        public int SharpToken()
+        {
+            var sum = 0;
+            for (var i = 0; i < 10000; i++)
+            {
+                var encoded = _sharpToken.Encode(_kLongText);
+                var decoded = _sharpToken.Decode(encoded);
+                sum += decoded.Length;
+            }
+
+            return sum;
+        }
+
+        [Benchmark]
+        public int TiktokenSharp()
+        {
+            var sum = 0;
+            for (var i = 0; i < 10000; i++)
+            {
+                var encoded = _tikToken.Encode(_kLongText);
+                var decoded = _tikToken.Decode(encoded);
+                sum += decoded.Length;
+            }
+
+            return sum;
+        }
+
+        [Benchmark]
+        public int TokenizerLib()
+        {
+            var sum = 0;
+            for (var i = 0; i < 10000; i++)
+            {
+                var encoded = _tokenizer.Encode(_kLongText);
+                var decoded = _tokenizer.Decode(encoded.ToArray());
+                sum += decoded.Length;
+            }
+
+            return sum;
+        }
+    }
+}
@@ -0,0 +1,24 @@
+using System;
+using System.IO;
+
+
+namespace SharpToken.Benchmark
+{
+    internal sealed class FileHelper
+    {
+        public static string ReadFile(string path)
+        {
+            return File.ReadAllText(Path.Combine(AppContext.BaseDirectory, path));
+        }
+
+        public static T ReadJson<T>(string path)
+        {
+            return Newtonsoft.Json.JsonConvert.DeserializeObject<T>(ReadFile(path));
+        }
+
+        public static string[] ReadFileLines(string path)
+        {
+            return File.ReadAllLines(Path.Combine(AppContext.BaseDirectory, path));
+        }
+    }
+}