在融合softmax 那一步教程的时候出错，不知道是什么问题


代码是直接复制的教程。一下是报错信息
---------------------------------------------------------------------------
RuntimeError                              Traceback (most recent call last)
Cell In[9], [line 1](vscode-notebook-cell:?execution_count=9&line=1)
----> [1](vscode-notebook-cell:?execution_count=9&line=1) benchmark.run(show_plots=True, print_data=True)

File ~/anaconda3/envs/qqp-env/lib/python3.10/site-packages/triton/testing.py:346, in Mark.run(self, show_plots, print_data, save_path, return_df, **kwargs)
    [344](https://vscode-remote+wsl-002bubuntu-002d22-002e04.vscode-resource.vscode-cdn.net/home/naonao/cxx/cuda-sample/src/notebook/~/anaconda3/envs/qqp-env/lib/python3.10/site-packages/triton/testing.py:344)     html.write("<html><body>\n")
    [345](https://vscode-remote+wsl-002bubuntu-002d22-002e04.vscode-resource.vscode-cdn.net/home/naonao/cxx/cuda-sample/src/notebook/~/anaconda3/envs/qqp-env/lib/python3.10/site-packages/triton/testing.py:345) for bench in benchmarks:
--> [346](https://vscode-remote+wsl-002bubuntu-002d22-002e04.vscode-resource.vscode-cdn.net/home/naonao/cxx/cuda-sample/src/notebook/~/anaconda3/envs/qqp-env/lib/python3.10/site-packages/triton/testing.py:346)     result_dfs.append(self._run(bench, save_path, show_plots, print_data, **kwargs))
    [347](https://vscode-remote+wsl-002bubuntu-002d22-002e04.vscode-resource.vscode-cdn.net/home/naonao/cxx/cuda-sample/src/notebook/~/anaconda3/envs/qqp-env/lib/python3.10/site-packages/triton/testing.py:347)     if save_path:
    [348](https://vscode-remote+wsl-002bubuntu-002d22-002e04.vscode-resource.vscode-cdn.net/home/naonao/cxx/cuda-sample/src/notebook/~/anaconda3/envs/qqp-env/lib/python3.10/site-packages/triton/testing.py:348)         html.write(f"<image src=\"{bench.plot_name}.png\"/>\n")

File ~/anaconda3/envs/qqp-env/lib/python3.10/site-packages/triton/testing.py:289, in Mark._run(self, bench, save_path, show_plots, print_data, diff_col, save_precision, **kwrags)
    [287](https://vscode-remote+wsl-002bubuntu-002d22-002e04.vscode-resource.vscode-cdn.net/home/naonao/cxx/cuda-sample/src/notebook/~/anaconda3/envs/qqp-env/lib/python3.10/site-packages/triton/testing.py:287) row_mean, row_min, row_max = [], [], []
    [288](https://vscode-remote+wsl-002bubuntu-002d22-002e04.vscode-resource.vscode-cdn.net/home/naonao/cxx/cuda-sample/src/notebook/~/anaconda3/envs/qqp-env/lib/python3.10/site-packages/triton/testing.py:288) for y in bench.line_vals:
--> [289](https://vscode-remote+wsl-002bubuntu-002d22-002e04.vscode-resource.vscode-cdn.net/home/naonao/cxx/cuda-sample/src/notebook/~/anaconda3/envs/qqp-env/lib/python3.10/site-packages/triton/testing.py:289)     ret = self.fn(**x_args, **{bench.line_arg: y}, **bench.args, **kwrags)
    [290](https://vscode-remote+wsl-002bubuntu-002d22-002e04.vscode-resource.vscode-cdn.net/home/naonao/cxx/cuda-sample/src/notebook/~/anaconda3/envs/qqp-env/lib/python3.10/site-packages/triton/testing.py:290)     try:
    [291](https://vscode-remote+wsl-002bubuntu-002d22-002e04.vscode-resource.vscode-cdn.net/home/naonao/cxx/cuda-sample/src/notebook/~/anaconda3/envs/qqp-env/lib/python3.10/site-packages/triton/testing.py:291)         y_mean, y_min, y_max = ret

Cell In[8], [line 29](vscode-notebook-cell:?execution_count=8&line=29)
     [27](vscode-notebook-cell:?execution_count=8&line=27)      ms = triton.testing.do_bench(lambda: torch.softmax(x, axis=-1))
     [28](vscode-notebook-cell:?execution_count=8&line=28) if provider == 'triton':
---> [29](vscode-notebook-cell:?execution_count=8&line=29)     ms = triton.testing.do_bench(lambda: softmax(x))
     [30](vscode-notebook-cell:?execution_count=8&line=30) gbps = lambda ms: 2 * x.nelement() * x.element_size() * 1e-9 / (ms * 1e-3)
     [31](vscode-notebook-cell:?execution_count=8&line=31) return gbps(ms)
...
File ~/anaconda3/envs/qqp-env/lib/python3.10/site-packages/triton/backends/nvidia/driver.py:365, in CudaLauncher.__call__(self, *args, **kwargs)
    [364](https://vscode-remote+wsl-002bubuntu-002d22-002e04.vscode-resource.vscode-cdn.net/home/naonao/cxx/cuda-sample/src/notebook/~/anaconda3/envs/qqp-env/lib/python3.10/site-packages/triton/backends/nvidia/driver.py:364) def __call__(self, *args, **kwargs):
--> [365](https://vscode-remote+wsl-002bubuntu-002d22-002e04.vscode-resource.vscode-cdn.net/home/naonao/cxx/cuda-sample/src/notebook/~/anaconda3/envs/qqp-env/lib/python3.10/site-packages/triton/backends/nvidia/driver.py:365)     self.launch(*args, **kwargs)

RuntimeError: Triton Error [CUDA]: out of memory
Output is truncated. View as a [scrollable element](command:cellOutput.enableScrolling?497b2458-0996-44c9-b87f-1c06e92914f8) or open in a [text editor](command:workbench.action.openLargeOutput?497b2458-0996-44c9-b87f-1c06e92914f8). Adjust cell output [settings](command:workbench.action.openSettings?%5B%22%40tag%3AnotebookOutputLayout%22%5D)...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

在融合softmax 那一步教程的时候出错，不知道是什么问题 #12

代码是直接复制的教程。一下是报错信息

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

在融合softmax 那一步教程的时候出错，不知道是什么问题 #12

Description

代码是直接复制的教程。一下是报错信息

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions