HF Kernels - Rotary Position Embeddings

GPU Info

▼ code ▼ output ▶ uv-logs | Cell: nv | 0.22s | Raw GitHub 🤗 HF

import subprocess
print(subprocess.run(["nvidia-smi"], capture_output=True, text=True).stdout)

Mon Nov 10 21:57:39 2025       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 580.95.05              Driver Version: 580.95.05      CUDA Version: 13.0     |
+-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA L40S                    On  |   00000000:4D:00.0 Off |                    0 |
| N/A   26C    P0             88W /  350W |       0MiB /  46068MiB |     22%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|  No running processes found                                                             |
+-----------------------------------------------------------------------------------------+

Rotary Embeddings Benchmark

▼ code ▼ output ▶ uv-logs | Cell: benchmark | 4.74s | Raw GitHub 🤗 HF

# /// script
# requires-python = ">=3.10"
# dependencies = [
#     "numpy",
#     "torch==2.8.0",
#     "kernels-benchmark-tools",
#     "kernels",
# ]
#
# [tool.uv.sources]
# kernels-benchmark-tools = { path = "../../../../../tools", editable = true }
# ///
import torch
import sys
from kernels_benchmark_tools import KernelTypeEnum, run_benchmark
from kernels import get_kernel

# Load the rotary kernel
rotary = get_kernel("kernels-community/rotary")


def hf_kernels_rotary(query, key, cos, sin, conj=False):
    rotary_dim = cos.shape[-1]

    # Clone to avoid modifying inputs
    q_out = query.clone()
    k_out = key.clone()

    # Apply rotation to query
    q1 = q_out[..., :rotary_dim]
    q2 = q_out[..., rotary_dim : 2 * rotary_dim]
    rotary.apply_rotary(q1, q2, cos, sin, q1, q2, conj)

    # Apply rotation to key
    k1 = k_out[..., :rotary_dim]
    k2 = k_out[..., rotary_dim : 2 * rotary_dim]
    rotary.apply_rotary(k1, k2, cos, sin, k1, k2, conj)

    return q_out, k_out


run_benchmark(
    kernel_type=KernelTypeEnum.ROTARY,
    impl_name="hf_kernels_rotary",
    impl_tags={"family": "hf-kernels", "backend": "cuda"},
    impl_func=hf_kernels_rotary,
    dtype="float32",
)

Running rotary benchmark on cuda with 24 workloads.

======================================================================
PROFILE TRACE: hf_kernels_rotary | cuda_B1_S128_H8_D64_R32
======================================================================
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                      hf_kernels_rotary         0.00%       0.000us         0.00%       0.000us       0.000us     403.678us      1730.44%     403.678us     403.678us             1  
                                      hf_kernels_rotary         9.63%     231.023us        99.37%       2.384ms       2.384ms       0.000us         0.00%      24.608us      24.608us             1  
                          _rotary_dba7d1e::apply_rotary         2.18%      52.340us         4.07%      97.602us      16.267us      16.224us        69.55%      16.224us       2.704us             6  
void at::native::(anonymous namespace)::unrolled_ele...         0.00%       0.000us         0.00%       0.000us       0.000us      16.224us        69.55%      16.224us       2.704us             6  
                                            aten::clone         1.53%      36.662us        83.59%       2.005ms     334.171us       0.000us         0.00%       8.384us       1.397us             6  
                                            aten::copy_         1.80%      43.260us        79.70%       1.912ms     318.600us       7.104us        30.45%       8.384us       1.397us             6  
                         Memcpy DtoD (Device -> Device)         0.00%       0.000us         0.00%       0.000us       0.000us       7.104us        30.45%       7.104us       1.184us             6  
                                Activity Buffer Request        74.82%       1.795ms        74.82%       1.795ms       1.795ms       1.280us         5.49%       1.280us       1.280us             1  
                                    aten::empty_strided         2.37%      56.761us         2.37%      56.761us       9.460us       0.000us         0.00%       0.000us       0.000us             6  
                                        cudaMemcpyAsync         3.07%      73.591us         3.07%      73.591us      12.265us       0.000us         0.00%       0.000us       0.000us             6  
                                            aten::slice         1.65%      39.481us         2.08%      49.901us       4.158us       0.000us         0.00%       0.000us       0.000us            12  
                                       aten::as_strided         0.43%      10.420us         0.43%      10.420us       0.868us       0.000us         0.00%       0.000us       0.000us            12  
                                       cudaLaunchKernel         1.89%      45.262us         1.89%      45.262us       7.544us       0.000us         0.00%       0.000us       0.000us             6  
                                  cudaDeviceSynchronize         0.63%      15.070us         0.63%      15.070us      15.070us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 2.399ms
Self CUDA time total: 23.328us



======================================================================
PROFILE TRACE: hf_kernels_rotary | cuda_B1_S128_H8_D128_R64
======================================================================
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                      hf_kernels_rotary         0.00%       0.000us         0.00%       0.000us       0.000us     334.494us      1388.06%     334.494us     334.494us             1  
                                      hf_kernels_rotary         8.19%     181.152us        99.73%       2.206ms       2.206ms       0.000us         0.00%      25.410us      25.410us             1  
                          _rotary_dba7d1e::apply_rotary         1.81%      39.991us         3.60%      79.751us      13.292us      16.193us        67.20%      16.193us       2.699us             6  
void at::native::(anonymous namespace)::unrolled_ele...         0.00%       0.000us         0.00%       0.000us       0.000us      16.193us        67.20%      16.193us       2.699us             6  
                                            aten::clone         1.33%      29.430us        86.17%       1.906ms     317.722us       0.000us         0.00%       9.217us       1.536us             6  
                                            aten::copy_         1.70%      37.720us        83.32%       1.843ms     307.237us       7.905us        32.80%       9.217us       1.536us             6  
                         Memcpy DtoD (Device -> Device)         0.00%       0.000us         0.00%       0.000us       0.000us       7.905us        32.80%       7.905us       1.317us             6  
                                Activity Buffer Request        79.13%       1.751ms        79.13%       1.751ms       1.751ms       1.312us         5.44%       1.312us       1.312us             1  
                                    aten::empty_strided         1.51%      33.481us         1.51%      33.481us       5.580us       0.000us         0.00%       0.000us       0.000us             6  
                                        cudaMemcpyAsync         2.49%      55.161us         2.49%      55.161us       9.194us       0.000us         0.00%       0.000us       0.000us             6  
                                            aten::slice         1.38%      30.530us         1.77%      39.222us       3.268us       0.000us         0.00%       0.000us       0.000us            12  
                                       aten::as_strided         0.39%       8.692us         0.39%       8.692us       0.724us       0.000us         0.00%       0.000us       0.000us            12  
                                       cudaLaunchKernel         1.80%      39.760us         1.80%      39.760us       6.627us       0.000us         0.00%       0.000us       0.000us             6  
                                  cudaDeviceSynchronize         0.27%       5.870us         0.27%       5.870us       5.870us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 2.212ms
Self CUDA time total: 24.098us



======================================================================
PROFILE TRACE: hf_kernels_rotary | cuda_B1_S128_H32_D64_R32
======================================================================
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                      hf_kernels_rotary         0.00%       0.000us         0.00%       0.000us       0.000us     333.020us      1374.81%     333.020us     333.020us             1  
                                      hf_kernels_rotary         8.22%     183.662us        99.77%       2.229ms       2.229ms       0.000us         0.00%      25.535us      25.535us             1  
                          _rotary_dba7d1e::apply_rotary         1.78%      39.771us         3.54%      79.142us      13.190us      16.479us        68.03%      16.479us       2.747us             6  
void at::native::(anonymous namespace)::unrolled_ele...         0.00%       0.000us         0.00%       0.000us       0.000us      16.479us        68.03%      16.479us       2.747us             6  
                                            aten::clone         1.23%      27.502us        86.14%       1.925ms     320.808us       0.000us         0.00%       9.056us       1.509us             6  
                                            aten::copy_         1.51%      33.780us        83.43%       1.864ms     310.723us       7.744us        31.97%       9.056us       1.509us             6  
                         Memcpy DtoD (Device -> Device)         0.00%       0.000us         0.00%       0.000us       0.000us       7.744us        31.97%       7.744us       1.291us             6  
                                Activity Buffer Request        79.60%       1.779ms        79.60%       1.779ms       1.779ms       1.312us         5.42%       1.312us       1.312us             1  
                                    aten::empty_strided         1.48%      33.009us         1.48%      33.009us       5.501us       0.000us         0.00%       0.000us       0.000us             6  
                                        cudaMemcpyAsync         2.32%      51.921us         2.32%      51.921us       8.654us       0.000us         0.00%       0.000us       0.000us             6  
                                            aten::slice         1.44%      32.260us         1.87%      41.742us       3.478us       0.000us         0.00%       0.000us       0.000us            12  
                                       aten::as_strided         0.42%       9.482us         0.42%       9.482us       0.790us       0.000us         0.00%       0.000us       0.000us            12  
                                       cudaLaunchKernel         1.76%      39.371us         1.76%      39.371us       6.562us       0.000us         0.00%       0.000us       0.000us             6  
                                  cudaDeviceSynchronize         0.23%       5.150us         0.23%       5.150us       5.150us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 2.235ms
Self CUDA time total: 24.223us



======================================================================
PROFILE TRACE: hf_kernels_rotary | cuda_B1_S128_H32_D128_R64
======================================================================
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                      hf_kernels_rotary         0.00%       0.000us         0.00%       0.000us       0.000us     330.396us      1170.66%     330.396us     330.396us             1  
                                      hf_kernels_rotary        19.88%     180.354us        99.43%     901.975us     901.975us       0.000us         0.00%      29.983us      29.983us             1  
                          _rotary_dba7d1e::apply_rotary         4.33%      39.273us         8.60%      78.013us      13.002us      17.759us        62.92%      17.759us       2.960us             6  
void at::native::(anonymous namespace)::unrolled_ele...         0.00%       0.000us         0.00%       0.000us       0.000us      17.759us        62.92%      17.759us       2.960us             6  
                                            aten::clone         2.43%      22.040us        66.64%     604.579us     100.763us       0.000us         0.00%      12.224us       2.037us             6  
                                            aten::copy_         3.81%      34.600us        60.79%     551.459us      91.910us      10.464us        37.08%      12.224us       2.037us             6  
                         Memcpy DtoD (Device -> Device)         0.00%       0.000us         0.00%       0.000us       0.000us      10.464us        37.08%      10.464us       1.744us             6  
                                Activity Buffer Request        27.63%     250.684us        27.63%     250.684us     250.684us       1.760us         6.24%       1.760us       1.760us             1  
                                    aten::empty_strided         3.43%      31.080us         3.43%      31.080us       5.180us       0.000us         0.00%       0.000us       0.000us             6  
                                        cudaMemcpyAsync        29.34%     266.175us        29.34%     266.175us      44.362us       0.000us         0.00%       0.000us       0.000us             6  
                                            aten::slice         3.36%      30.489us         4.30%      39.029us       3.252us       0.000us         0.00%       0.000us       0.000us            12  
                                       aten::as_strided         0.94%       8.540us         0.94%       8.540us       0.712us       0.000us         0.00%       0.000us       0.000us            12  
                                       cudaLaunchKernel         4.27%      38.740us         4.27%      38.740us       6.457us       0.000us         0.00%       0.000us       0.000us             6  
                                  cudaDeviceSynchronize         0.57%       5.209us         0.57%       5.209us       5.209us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 907.184us
Self CUDA time total: 28.223us



======================================================================
PROFILE TRACE: hf_kernels_rotary | cuda_B1_S512_H8_D64_R32
======================================================================
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                      hf_kernels_rotary         0.00%       0.000us         0.00%       0.000us       0.000us     333.950us      1371.35%     333.950us     333.950us             1  
                                      hf_kernels_rotary         7.53%     182.915us        99.79%       2.425ms       2.425ms       0.000us         0.00%      25.664us      25.664us             1  
                          _rotary_dba7d1e::apply_rotary         1.65%      40.000us         3.26%      79.130us      13.188us      16.545us        67.94%      16.545us       2.758us             6  
void at::native::(anonymous namespace)::unrolled_ele...         0.00%       0.000us         0.00%       0.000us       0.000us      16.545us        67.94%      16.545us       2.758us             6  
                                            aten::clone         1.26%      30.642us        87.34%       2.122ms     353.721us       0.000us         0.00%       9.119us       1.520us             6  
                                            aten::copy_         1.47%      35.799us        84.75%       2.059ms     343.229us       7.807us        32.06%       9.119us       1.520us             6  
                         Memcpy DtoD (Device -> Device)         0.00%       0.000us         0.00%       0.000us       0.000us       7.807us        32.06%       7.807us       1.301us             6  
                                Activity Buffer Request        73.06%       1.775ms        73.06%       1.775ms       1.775ms       1.312us         5.39%       1.312us       1.312us             1  
                                    aten::empty_strided         1.33%      32.310us         1.33%      32.310us       5.385us       0.000us         0.00%       0.000us       0.000us             6  
                                        cudaMemcpyAsync        10.22%     248.434us        10.22%     248.434us      41.406us       0.000us         0.00%       0.000us       0.000us             6  
                                            aten::slice         1.31%      31.720us         1.66%      40.370us       3.364us       0.000us         0.00%       0.000us       0.000us            12  
                                       aten::as_strided         0.36%       8.650us         0.36%       8.650us       0.721us       0.000us         0.00%       0.000us       0.000us            12  
                                       cudaLaunchKernel         1.61%      39.130us         1.61%      39.130us       6.522us       0.000us         0.00%       0.000us       0.000us             6  
                                  cudaDeviceSynchronize         0.21%       5.100us         0.21%       5.100us       5.100us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 2.430ms
Self CUDA time total: 24.352us



======================================================================
PROFILE TRACE: hf_kernels_rotary | cuda_B1_S512_H8_D128_R64
======================================================================
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                      hf_kernels_rotary         0.00%       0.000us         0.00%       0.000us       0.000us     330.717us      1169.19%     330.717us     330.717us             1  
                                      hf_kernels_rotary         7.60%     182.573us        99.80%       2.396ms       2.396ms       0.000us         0.00%      30.046us      30.046us             1  
                          _rotary_dba7d1e::apply_rotary         1.66%      39.960us         3.28%      78.811us      13.135us      17.758us        62.78%      17.758us       2.960us             6  
void at::native::(anonymous namespace)::unrolled_ele...         0.00%       0.000us         0.00%       0.000us       0.000us      17.758us        62.78%      17.758us       2.960us             6  
                                            aten::clone         1.18%      28.252us        87.25%       2.095ms     349.108us       0.000us         0.00%      12.288us       2.048us             6  
                                            aten::copy_         1.56%      37.480us        84.78%       2.035ms     339.209us      10.528us        37.22%      12.288us       2.048us             6  
                         Memcpy DtoD (Device -> Device)         0.00%       0.000us         0.00%       0.000us       0.000us      10.528us        37.22%      10.528us       1.755us             6  
                                Activity Buffer Request        73.02%       1.753ms        73.02%       1.753ms       1.753ms       1.760us         6.22%       1.760us       1.760us             1  
                                    aten::empty_strided         1.30%      31.140us         1.30%      31.140us       5.190us       0.000us         0.00%       0.000us       0.000us             6  
                                        cudaMemcpyAsync        10.19%     244.675us        10.19%     244.675us      40.779us       0.000us         0.00%       0.000us       0.000us             6  
                                            aten::slice         1.30%      31.158us         1.66%      39.899us       3.325us       0.000us         0.00%       0.000us       0.000us            12  
                                       aten::as_strided         0.36%       8.741us         0.36%       8.741us       0.728us       0.000us         0.00%       0.000us       0.000us            12  
                                       cudaLaunchKernel         1.62%      38.851us         1.62%      38.851us       6.475us       0.000us         0.00%       0.000us       0.000us             6  
                                  cudaDeviceSynchronize         0.20%       4.770us         0.20%       4.770us       4.770us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 2.401ms
Self CUDA time total: 28.286us



======================================================================
PROFILE TRACE: hf_kernels_rotary | cuda_B1_S512_H32_D64_R32
======================================================================
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                      hf_kernels_rotary         0.00%       0.000us         0.00%       0.000us       0.000us     331.263us       811.96%     331.263us     331.263us             1  
                                      hf_kernels_rotary         7.62%     179.163us        99.79%       2.346ms       2.346ms       0.000us         0.00%      43.646us      43.646us             1  
                          _rotary_dba7d1e::apply_rotary         1.67%      39.309us         3.29%      77.411us      12.902us      23.680us        58.04%      23.680us       3.947us             6  
void at::native::(anonymous namespace)::unrolled_ele...         0.00%       0.000us         0.00%       0.000us       0.000us      23.680us        58.04%      23.680us       3.947us             6  
                                            aten::clone         1.17%      27.469us        87.14%       2.049ms     341.486us       0.000us         0.00%      19.966us       3.328us             6  
                                            aten::copy_         1.49%      35.141us        84.62%       1.990ms     331.589us      17.118us        41.96%      19.966us       3.328us             6  
                         Memcpy DtoD (Device -> Device)         0.00%       0.000us         0.00%       0.000us       0.000us      17.118us        41.96%      17.118us       2.853us             6  
                                Activity Buffer Request        73.01%       1.717ms        73.01%       1.717ms       1.717ms       2.848us         6.98%       2.848us       2.848us             1  
                                    aten::empty_strided         1.36%      31.912us         1.36%      31.912us       5.319us       0.000us         0.00%       0.000us       0.000us             6  
                                        cudaMemcpyAsync        10.11%     237.764us        10.11%     237.764us      39.627us       0.000us         0.00%       0.000us       0.000us             6  
                                            aten::slice         1.35%      31.810us         1.74%      40.800us       3.400us       0.000us         0.00%       0.000us       0.000us            12  
                                       aten::as_strided         0.38%       8.990us         0.38%       8.990us       0.749us       0.000us         0.00%       0.000us       0.000us            12  
                                       cudaLaunchKernel         1.62%      38.102us         1.62%      38.102us       6.350us       0.000us         0.00%       0.000us       0.000us             6  
                                  cudaDeviceSynchronize         0.21%       4.871us         0.21%       4.871us       4.871us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 2.351ms
Self CUDA time total: 40.798us



======================================================================
PROFILE TRACE: hf_kernels_rotary | cuda_B1_S512_H32_D128_R64
======================================================================
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                      hf_kernels_rotary         0.00%       0.000us         0.00%       0.000us       0.000us     336.387us       451.94%     336.387us     336.387us             1  
                                      hf_kernels_rotary         7.84%     184.420us        99.78%       2.346ms       2.346ms       0.000us         0.00%      82.976us      82.976us             1  
                                            aten::clone         1.21%      28.560us        86.97%       2.045ms     340.779us       0.000us         0.00%      43.553us       7.259us             6  
                                            aten::copy_         1.54%      36.092us        84.34%       1.983ms     330.495us      35.009us        47.03%      43.553us       7.259us             6  
                          _rotary_dba7d1e::apply_rotary         1.67%      39.331us         3.28%      77.091us      12.849us      39.423us        52.97%      39.423us       6.571us             6  
void at::native::(anonymous namespace)::unrolled_ele...         0.00%       0.000us         0.00%       0.000us       0.000us      39.423us        52.97%      39.423us       6.571us             6  
                         Memcpy DtoD (Device -> Device)         0.00%       0.000us         0.00%       0.000us       0.000us      35.009us        47.03%      35.009us       5.835us             6  
                                Activity Buffer Request        73.02%       1.717ms        73.02%       1.717ms       1.717ms       8.544us        11.48%       8.544us       8.544us             1  
                                    aten::empty_strided         1.41%      33.141us         1.41%      33.141us       5.523us       0.000us         0.00%       0.000us       0.000us             6  
                                        cudaMemcpyAsync         9.79%     230.064us         9.79%     230.064us      38.344us       0.000us         0.00%       0.000us       0.000us             6  
                                            aten::slice         1.34%      31.492us         1.69%      39.832us       3.319us       0.000us         0.00%       0.000us       0.000us            12  
                                       aten::as_strided         0.35%       8.340us         0.35%       8.340us       0.695us       0.000us         0.00%       0.000us       0.000us            12  
                                       cudaLaunchKernel         1.61%      37.760us         1.61%      37.760us       6.293us       0.000us         0.00%       0.000us       0.000us             6  
                                  cudaDeviceSynchronize         0.22%       5.070us         0.22%       5.070us       5.070us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 2.351ms
Self CUDA time total: 74.432us



======================================================================
PROFILE TRACE: hf_kernels_rotary | cuda_B1_S2048_H8_D64_R32
======================================================================
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                      hf_kernels_rotary         0.00%       0.000us         0.00%       0.000us       0.000us     334.720us       824.27%     334.720us     334.720us             1  
                                      hf_kernels_rotary         7.69%     178.052us        99.76%       2.310ms       2.310ms       0.000us         0.00%      43.488us      43.488us             1  
                          _rotary_dba7d1e::apply_rotary         1.77%      40.921us         3.42%      79.272us      13.212us      23.680us        58.31%      23.680us       3.947us             6  
void at::native::(anonymous namespace)::unrolled_ele...         0.00%       0.000us         0.00%       0.000us       0.000us      23.680us        58.31%      23.680us       3.947us             6  
                                            aten::clone         1.23%      28.463us        86.92%       2.013ms     335.521us       0.000us         0.00%      19.808us       3.301us             6  
                                            aten::copy_         1.52%      35.247us        84.34%       1.953ms     325.533us      16.928us        41.69%      19.808us       3.301us             6  
                         Memcpy DtoD (Device -> Device)         0.00%       0.000us         0.00%       0.000us       0.000us      16.928us        41.69%      16.928us       2.821us             6  
                                Activity Buffer Request        73.01%       1.691ms        73.01%       1.691ms       1.691ms       2.880us         7.09%       2.880us       2.880us             1  
                                    aten::empty_strided         1.36%      31.460us         1.36%      31.460us       5.243us       0.000us         0.00%       0.000us       0.000us             6  
                                        cudaMemcpyAsync         9.81%     227.126us         9.81%     227.126us      37.854us       0.000us         0.00%       0.000us       0.000us             6  
                                            aten::slice         1.37%      31.801us         1.73%      40.020us       3.335us       0.000us         0.00%       0.000us       0.000us            12  
                                       aten::as_strided         0.35%       8.219us         0.35%       8.219us       0.685us       0.000us         0.00%       0.000us       0.000us            12  
                                       cudaLaunchKernel         1.66%      38.351us         1.66%      38.351us       6.392us       0.000us         0.00%       0.000us       0.000us             6  
                                  cudaDeviceSynchronize         0.24%       5.500us         0.24%       5.500us       5.500us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 2.316ms
Self CUDA time total: 40.608us



======================================================================
PROFILE TRACE: hf_kernels_rotary | cuda_B1_S2048_H8_D128_R64
======================================================================
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                      hf_kernels_rotary         0.00%       0.000us         0.00%       0.000us       0.000us     343.357us       451.99%     343.357us     343.357us             1  
                                      hf_kernels_rotary         7.23%     182.803us        99.81%       2.522ms       2.522ms       0.000us         0.00%      85.341us      85.341us             1  
                                            aten::clone         1.16%      29.441us        87.88%       2.221ms     370.131us       0.000us         0.00%      46.013us       7.669us             6  
                                            aten::copy_         1.42%      35.932us        85.39%       2.158ms     359.654us      36.637us        48.23%      46.013us       7.669us             6  
                          _rotary_dba7d1e::apply_rotary         1.58%      39.950us         3.09%      78.111us      13.018us      39.328us        51.77%      39.328us       6.555us             6  
void at::native::(anonymous namespace)::unrolled_ele...         0.00%       0.000us         0.00%       0.000us       0.000us      39.328us        51.77%      39.328us       6.555us             6  
                         Memcpy DtoD (Device -> Device)         0.00%       0.000us         0.00%       0.000us       0.000us      36.637us        48.23%      36.637us       6.106us             6  
                                Activity Buffer Request        75.16%       1.899ms        75.16%       1.899ms       1.899ms       9.376us        12.34%       9.376us       9.376us             1  
                                    aten::empty_strided         1.32%      33.420us         1.32%      33.420us       5.570us       0.000us         0.00%       0.000us       0.000us             6  
                                        cudaMemcpyAsync         8.81%     222.633us         8.81%     222.633us      37.105us       0.000us         0.00%       0.000us       0.000us             6  
                                            aten::slice         1.25%      31.613us         1.61%      40.701us       3.392us       0.000us         0.00%       0.000us       0.000us            12  
                                       aten::as_strided         0.36%       9.088us         0.36%       9.088us       0.757us       0.000us         0.00%       0.000us       0.000us            12  
                                       cudaLaunchKernel         1.51%      38.161us         1.51%      38.161us       6.360us       0.000us         0.00%       0.000us       0.000us             6  
                                  cudaDeviceSynchronize         0.19%       4.790us         0.19%       4.790us       4.790us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 2.527ms
Self CUDA time total: 75.965us



======================================================================
PROFILE TRACE: hf_kernels_rotary | cuda_B1_S2048_H32_D64_R32
======================================================================
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                      hf_kernels_rotary         0.00%       0.000us         0.00%       0.000us       0.000us     335.487us       241.29%     335.487us     335.487us             1  
                                      hf_kernels_rotary         7.48%     174.562us        99.79%       2.329ms       2.329ms       0.000us         0.00%     162.718us     162.718us             1  
                                            aten::clone         1.24%      29.010us        87.24%       2.036ms     339.299us       0.000us         0.00%     102.494us      17.082us             6  
                                            aten::copy_         1.51%      35.312us        84.60%       1.974ms     329.037us      78.815us        56.69%     102.494us      17.082us             6  
                         Memcpy DtoD (Device -> Device)         0.00%       0.000us         0.00%       0.000us       0.000us      78.815us        56.69%      78.815us      13.136us             6  
                          _rotary_dba7d1e::apply_rotary         1.71%      39.800us         3.37%      78.741us      13.124us      60.224us        43.31%      60.224us      10.037us             6  
void at::native::(anonymous namespace)::unrolled_ele...         0.00%       0.000us         0.00%       0.000us       0.000us      60.224us        43.31%      60.224us      10.037us             6  
                                Activity Buffer Request        73.92%       1.725ms        73.92%       1.725ms       1.725ms      23.679us        17.03%      23.679us      23.679us             1  
                                    aten::empty_strided         1.40%      32.561us         1.40%      32.561us       5.427us       0.000us         0.00%       0.000us       0.000us             6  
                                        cudaMemcpyAsync         9.17%     213.963us         9.17%     213.963us      35.660us       0.000us         0.00%       0.000us       0.000us             6  
                                            aten::slice         1.33%      31.050us         1.69%      39.471us       3.289us       0.000us         0.00%       0.000us       0.000us            12  
                                       aten::as_strided         0.36%       8.421us         0.36%       8.421us       0.702us       0.000us         0.00%       0.000us       0.000us            12  
                                       cudaLaunchKernel         1.67%      38.941us         1.67%      38.941us       6.490us       0.000us         0.00%       0.000us       0.000us             6  
                                  cudaDeviceSynchronize         0.21%       4.971us         0.21%       4.971us       4.971us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 2.334ms
Self CUDA time total: 139.039us



======================================================================
PROFILE TRACE: hf_kernels_rotary | cuda_B1_S2048_H32_D128_R64
======================================================================
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                      hf_kernels_rotary        13.11%     152.482us        70.07%     814.833us     814.833us       0.000us         0.00%     767.862us     767.862us             1  
                                      hf_kernels_rotary         0.00%       0.000us         0.00%       0.000us       0.000us     709.398us       101.13%     709.398us     709.398us             1  
                                            aten::clone         1.92%      22.371us        46.79%     544.150us      90.692us       0.000us         0.00%     567.671us      94.612us             6  
                                            aten::copy_         3.06%      35.584us        42.24%     491.229us      81.872us     501.304us        71.46%     567.671us      94.612us             6  
                         Memcpy DtoD (Device -> Device)         0.00%       0.000us         0.00%       0.000us       0.000us     501.304us        71.46%     501.304us      83.551us             6  
                          _rotary_dba7d1e::apply_rotary         3.52%      40.960us         6.87%      79.901us      13.317us     200.191us        28.54%     200.191us      33.365us             6  
void at::native::(anonymous namespace)::unrolled_ele...         0.00%       0.000us         0.00%       0.000us       0.000us     200.191us        28.54%     200.191us      33.365us             6  
                                Activity Buffer Request        20.99%     244.144us        20.99%     244.144us     244.144us      66.367us         9.46%      66.367us      66.367us             1  
                                    aten::empty_strided         2.63%      30.550us         2.63%      30.550us       5.092us       0.000us         0.00%       0.000us       0.000us             6  
                                        cudaMemcpyAsync        18.19%     211.501us        18.19%     211.501us      35.250us       0.000us         0.00%       0.000us       0.000us             6  
                                            aten::slice         2.57%      29.881us         3.29%      38.300us       3.192us       0.000us         0.00%       0.000us       0.000us            12  
                                       aten::as_strided         0.72%       8.419us         0.72%       8.419us       0.702us       0.000us         0.00%       0.000us       0.000us            12  
                                       cudaLaunchKernel         3.35%      38.941us         3.35%      38.941us       6.490us       0.000us         0.00%       0.000us       0.000us             6  
                                  cudaDeviceSynchronize        29.93%     348.096us        29.93%     348.096us     348.096us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 1.163ms
Self CUDA time total: 701.495us



======================================================================
PROFILE TRACE: hf_kernels_rotary | cuda_B2_S128_H8_D64_R32
======================================================================
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                      hf_kernels_rotary         0.00%       0.000us         0.00%       0.000us       0.000us     326.016us      1225.99%     326.016us     326.016us             1  
                                      hf_kernels_rotary        18.50%     152.323us        99.40%     818.663us     818.663us       0.000us         0.00%      27.904us      27.904us             1  
                          _rotary_dba7d1e::apply_rotary         4.86%      40.039us         9.57%      78.850us      13.142us      18.752us        70.52%      18.752us       3.125us             6  
void at::native::(anonymous namespace)::unrolled_ele...         0.00%       0.000us         0.00%       0.000us       0.000us      18.752us        70.52%      18.752us       3.125us             6  
                                            aten::clone         2.56%      21.061us        66.62%     548.640us      91.440us       0.000us         0.00%       9.152us       1.525us             6  
                                            aten::copy_         4.19%      34.519us        60.27%     496.387us      82.731us       7.840us        29.48%       9.152us       1.525us             6  
                         Memcpy DtoD (Device -> Device)         0.00%       0.000us         0.00%       0.000us       0.000us       7.840us        29.48%       7.840us       1.307us             6  
                                Activity Buffer Request        29.97%     246.784us        29.97%     246.784us     246.784us       1.312us         4.93%       1.312us       1.312us             1  
                                    aten::empty_strided         3.79%      31.192us         3.79%      31.192us       5.199us       0.000us         0.00%       0.000us       0.000us             6  
                                        cudaMemcpyAsync        26.12%     215.084us        26.12%     215.084us      35.847us       0.000us         0.00%       0.000us       0.000us             6  
                                            aten::slice         3.71%      30.531us         4.72%      38.850us       3.237us       0.000us         0.00%       0.000us       0.000us            12  
                                       aten::as_strided         1.01%       8.319us         1.01%       8.319us       0.693us       0.000us         0.00%       0.000us       0.000us            12  
                                       cudaLaunchKernel         4.71%      38.811us         4.71%      38.811us       6.469us       0.000us         0.00%       0.000us       0.000us             6  
                                  cudaDeviceSynchronize         0.60%       4.910us         0.60%       4.910us       4.910us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 823.573us
Self CUDA time total: 26.592us



======================================================================
PROFILE TRACE: hf_kernels_rotary | cuda_B2_S128_H8_D128_R64
======================================================================
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                      hf_kernels_rotary         0.00%       0.000us         0.00%       0.000us       0.000us     323.263us      1209.82%     323.263us     323.263us             1  
                                      hf_kernels_rotary        17.52%     147.623us        99.42%     837.623us     837.623us       0.000us         0.00%      28.032us      28.032us             1  
                          _rotary_dba7d1e::apply_rotary         4.62%      38.930us         9.25%      77.941us      12.990us      18.944us        70.90%      18.944us       3.157us             6  
void at::native::(anonymous namespace)::unrolled_ele...         0.00%       0.000us         0.00%       0.000us       0.000us      18.944us        70.90%      18.944us       3.157us             6  
                                            aten::clone         2.83%      23.880us        68.02%     573.009us      95.502us       0.000us         0.00%       9.088us       1.515us             6  
                                            aten::copy_         4.05%      34.160us        61.53%     518.397us      86.400us       7.776us        29.10%       9.088us       1.515us             6  
                         Memcpy DtoD (Device -> Device)         0.00%       0.000us         0.00%       0.000us       0.000us       7.776us        29.10%       7.776us       1.296us             6  
                                Activity Buffer Request        32.41%     273.024us        32.41%     273.024us     273.024us       1.312us         4.91%       1.312us       1.312us             1  
                                    aten::empty_strided         3.65%      30.732us         3.65%      30.732us       5.122us       0.000us         0.00%       0.000us       0.000us             6  
                                        cudaMemcpyAsync        25.07%     211.213us        25.07%     211.213us      35.202us       0.000us         0.00%       0.000us       0.000us             6  
                                            aten::slice         3.65%      30.720us         4.64%      39.050us       3.254us       0.000us         0.00%       0.000us       0.000us            12  
                                       aten::as_strided         0.99%       8.330us         0.99%       8.330us       0.694us       0.000us         0.00%       0.000us       0.000us            12  
                                       cudaLaunchKernel         4.63%      39.011us         4.63%      39.011us       6.502us       0.000us         0.00%       0.000us       0.000us             6  
                                  cudaDeviceSynchronize         0.58%       4.850us         0.58%       4.850us       4.850us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 842.473us
Self CUDA time total: 26.720us



======================================================================
PROFILE TRACE: hf_kernels_rotary | cuda_B2_S128_H32_D64_R32
======================================================================
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                      hf_kernels_rotary         0.00%       0.000us         0.00%       0.000us       0.000us     317.947us      1037.18%     317.947us     317.947us             1  
                                      hf_kernels_rotary        18.00%     147.321us        99.35%     812.963us     812.963us       0.000us         0.00%      32.383us      32.383us             1  
                          _rotary_dba7d1e::apply_rotary         4.88%      39.901us         9.44%      77.251us      12.875us      20.255us        66.07%      20.255us       3.376us             6  
void at::native::(anonymous namespace)::unrolled_ele...         0.00%       0.000us         0.00%       0.000us       0.000us      20.255us        66.07%      20.255us       3.376us             6  
                                            aten::clone         2.41%      19.693us        67.19%     549.781us      91.630us       0.000us         0.00%      12.128us       2.021us             6  
                                            aten::copy_         4.28%      35.023us        61.13%     500.160us      83.360us      10.400us        33.93%      12.128us       2.021us             6  
                         Memcpy DtoD (Device -> Device)         0.00%       0.000us         0.00%       0.000us       0.000us      10.400us        33.93%      10.400us       1.733us             6  
                                Activity Buffer Request        31.00%     253.664us        31.00%     253.664us     253.664us       1.728us         5.64%       1.728us       1.728us             1  
                                    aten::empty_strided         3.66%      29.928us         3.66%      29.928us       4.988us       0.000us         0.00%       0.000us       0.000us             6  
                                        cudaMemcpyAsync        25.84%     211.473us        25.84%     211.473us      35.245us       0.000us         0.00%       0.000us       0.000us             6  
                                            aten::slice         3.72%      30.411us         4.72%      38.610us       3.218us       0.000us         0.00%       0.000us       0.000us            12  
                                       aten::as_strided         1.00%       8.199us         1.00%       8.199us       0.683us       0.000us         0.00%       0.000us       0.000us            12  
                                       cudaLaunchKernel         4.56%      37.350us         4.56%      37.350us       6.225us       0.000us         0.00%       0.000us       0.000us             6  
                                  cudaDeviceSynchronize         0.65%       5.289us         0.65%       5.289us       5.289us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 818.252us
Self CUDA time total: 30.655us



======================================================================
PROFILE TRACE: hf_kernels_rotary | cuda_B2_S128_H32_D128_R64
======================================================================
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                      hf_kernels_rotary         0.00%       0.000us         0.00%       0.000us       0.000us     331.769us       777.76%     331.769us     331.769us             1  
                                      hf_kernels_rotary        19.70%     168.549us        99.44%     850.864us     850.864us       0.000us         0.00%      45.537us      45.537us             1  
                          _rotary_dba7d1e::apply_rotary         4.73%      40.431us         9.19%      78.662us      13.110us      25.697us        60.24%      25.697us       4.283us             6  
void at::native::(anonymous namespace)::unrolled_ele...         0.00%       0.000us         0.00%       0.000us       0.000us      25.697us        60.24%      25.697us       4.283us             6  
                                            aten::clone         2.97%      25.433us        65.78%     562.881us      93.814us       0.000us         0.00%      19.840us       3.307us             6  
                                            aten::copy_         4.23%      36.170us        59.14%     506.068us      84.345us      16.960us        39.76%      19.840us       3.307us             6  
                         Memcpy DtoD (Device -> Device)         0.00%       0.000us         0.00%       0.000us       0.000us      16.960us        39.76%      16.960us       2.827us             6  
                                Activity Buffer Request        30.43%     260.334us        30.43%     260.334us     260.334us       2.880us         6.75%       2.880us       2.880us             1  
                                    aten::empty_strided         3.67%      31.380us         3.67%      31.380us       5.230us       0.000us         0.00%       0.000us       0.000us             6  
                                        cudaMemcpyAsync        24.49%     209.564us        24.49%     209.564us      34.927us       0.000us         0.00%       0.000us       0.000us             6  
                                            aten::slice         3.75%      32.092us         4.77%      40.772us       3.398us       0.000us         0.00%       0.000us       0.000us            12  
                                       aten::as_strided         1.01%       8.680us         1.01%       8.680us       0.723us       0.000us         0.00%       0.000us       0.000us            12  
                                       cudaLaunchKernel         4.47%      38.231us         4.47%      38.231us       6.372us       0.000us         0.00%       0.000us       0.000us             6  
                                  cudaDeviceSynchronize         0.56%       4.789us         0.56%       4.789us       4.789us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 855.653us
Self CUDA time total: 42.657us



======================================================================
PROFILE TRACE: hf_kernels_rotary | cuda_B2_S512_H8_D64_R32
======================================================================
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                      hf_kernels_rotary         0.00%       0.000us         0.00%       0.000us       0.000us     324.568us      1058.74%     324.568us     324.568us             1  
                                      hf_kernels_rotary        19.85%     169.202us        99.36%     847.094us     847.094us       0.000us         0.00%      32.384us      32.384us             1  
                          _rotary_dba7d1e::apply_rotary         4.69%      39.959us         9.27%      78.991us      13.165us      20.352us        66.39%      20.352us       3.392us             6  
void at::native::(anonymous namespace)::unrolled_ele...         0.00%       0.000us         0.00%       0.000us       0.000us      20.352us        66.39%      20.352us       3.392us             6  
                                            aten::clone         2.92%      24.890us        65.73%     560.410us      93.402us       0.000us         0.00%      12.032us       2.005us             6  
                                            aten::copy_         4.20%      35.769us        59.19%     504.659us      84.110us      10.304us        33.61%      12.032us       2.005us             6  
                         Memcpy DtoD (Device -> Device)         0.00%       0.000us         0.00%       0.000us       0.000us      10.304us        33.61%      10.304us       1.717us             6  
                                Activity Buffer Request        30.61%     260.975us        30.61%     260.975us     260.975us       1.728us         5.64%       1.728us       1.728us             1  
                                    aten::empty_strided         3.62%      30.861us         3.62%      30.861us       5.143us       0.000us         0.00%       0.000us       0.000us             6  
                                        cudaMemcpyAsync        24.39%     207.915us        24.39%     207.915us      34.652us       0.000us         0.00%       0.000us       0.000us             6  
                                            aten::slice         3.54%      30.221us         4.51%      38.491us       3.208us       0.000us         0.00%       0.000us       0.000us            12  
                                       aten::as_strided         0.97%       8.270us         0.97%       8.270us       0.689us       0.000us         0.00%       0.000us       0.000us            12  
                                       cudaLaunchKernel         4.58%      39.032us         4.58%      39.032us       6.505us       0.000us         0.00%       0.000us       0.000us             6  
                                  cudaDeviceSynchronize         0.64%       5.460us         0.64%       5.460us       5.460us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 852.554us
Self CUDA time total: 30.656us



======================================================================
PROFILE TRACE: hf_kernels_rotary | cuda_B2_S512_H8_D128_R64
======================================================================
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                      hf_kernels_rotary         0.00%       0.000us         0.00%       0.000us       0.000us     328.702us       766.04%     328.702us     328.702us             1  
                                      hf_kernels_rotary        18.09%     152.853us        99.33%     839.363us     839.363us       0.000us         0.00%      45.788us      45.788us             1  
                          _rotary_dba7d1e::apply_rotary         4.68%      39.541us         9.21%      77.782us      12.964us      25.887us        60.33%      25.887us       4.314us             6  
void at::native::(anonymous namespace)::unrolled_ele...         0.00%       0.000us         0.00%       0.000us       0.000us      25.887us        60.33%      25.887us       4.314us             6  
                                            aten::clone         2.66%      22.468us        67.35%     569.108us      94.851us       0.000us         0.00%      19.901us       3.317us             6  
                                            aten::copy_         4.16%      35.173us        60.88%     514.450us      85.742us      17.022us        39.67%      19.901us       3.317us             6  
                         Memcpy DtoD (Device -> Device)         0.00%       0.000us         0.00%       0.000us       0.000us      17.022us        39.67%      17.022us       2.837us             6  
                                Activity Buffer Request        32.07%     270.965us        32.07%     270.965us     270.965us       2.879us         6.71%       2.879us       2.879us             1  
                                    aten::empty_strided         3.81%      32.190us         3.81%      32.190us       5.365us       0.000us         0.00%       0.000us       0.000us             6  
                                        cudaMemcpyAsync        24.65%     208.312us        24.65%     208.312us      34.719us       0.000us         0.00%       0.000us       0.000us             6  
                                            aten::slice         3.71%      31.390us         4.69%      39.620us       3.302us       0.000us         0.00%       0.000us       0.000us            12  
                                       aten::as_strided         0.97%       8.230us         0.97%       8.230us       0.686us       0.000us         0.00%       0.000us       0.000us            12  
                                       cudaLaunchKernel         4.53%      38.241us         4.53%      38.241us       6.374us       0.000us         0.00%       0.000us       0.000us             6  
                                  cudaDeviceSynchronize         0.67%       5.631us         0.67%       5.631us       5.631us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 844.994us
Self CUDA time total: 42.909us



======================================================================
PROFILE TRACE: hf_kernels_rotary | cuda_B2_S512_H32_D64_R32
======================================================================
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                      hf_kernels_rotary         0.00%       0.000us         0.00%       0.000us       0.000us     337.246us       364.66%     337.246us     337.246us             1  
                                      hf_kernels_rotary         7.43%     178.431us        99.78%       2.398ms       2.398ms       0.000us         0.00%     107.425us     107.425us             1  
                                            aten::clone         1.14%      27.439us        87.31%       2.098ms     349.642us       0.000us         0.00%      65.823us      10.970us             6  
                                            aten::copy_         1.39%      33.333us        84.85%       2.039ms     339.779us      50.880us        55.02%      65.823us      10.970us             6  
                         Memcpy DtoD (Device -> Device)         0.00%       0.000us         0.00%       0.000us       0.000us      50.880us        55.02%      50.880us       8.480us             6  
                          _rotary_dba7d1e::apply_rotary         1.70%      40.740us         3.29%      79.070us      13.178us      41.602us        44.98%      41.602us       6.934us             6  
void at::native::(anonymous namespace)::unrolled_ele...         0.00%       0.000us         0.00%       0.000us       0.000us      41.602us        44.98%      41.602us       6.934us             6  
                                Activity Buffer Request        74.72%       1.795ms        74.72%       1.795ms       1.795ms      14.943us        16.16%      14.943us      14.943us             1  
                                    aten::empty_strided         1.32%      31.741us         1.32%      31.741us       5.290us       0.000us         0.00%       0.000us       0.000us             6  
                                        cudaMemcpyAsync         8.74%     209.903us         8.74%     209.903us      34.984us       0.000us         0.00%       0.000us       0.000us             6  
                                            aten::slice         1.35%      32.344us         1.76%      42.183us       3.515us       0.000us         0.00%       0.000us       0.000us            12  
                                       aten::as_strided         0.41%       9.839us         0.41%       9.839us       0.820us       0.000us         0.00%       0.000us       0.000us            12  
                                       cudaLaunchKernel         1.60%      38.330us         1.60%      38.330us       6.388us       0.000us         0.00%       0.000us       0.000us             6  
                                  cudaDeviceSynchronize         0.22%       5.280us         0.22%       5.280us       5.280us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 2.403ms
Self CUDA time total: 92.482us



======================================================================
PROFILE TRACE: hf_kernels_rotary | cuda_B2_S512_H32_D128_R64
======================================================================
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                      hf_kernels_rotary         0.00%       0.000us         0.00%       0.000us       0.000us     331.357us       227.98%     331.357us     331.357us             1  
                                      hf_kernels_rotary        19.22%     153.403us        99.38%     793.253us     793.253us       0.000us         0.00%     169.054us     169.054us             1  
                                            aten::clone         2.47%      19.681us        65.33%     521.479us      86.913us       0.000us         0.00%     105.151us      17.525us             6  
                                            aten::copy_         4.41%      35.219us        59.11%     471.788us      78.631us      81.439us        56.03%     105.151us      17.525us             6  
                         Memcpy DtoD (Device -> Device)         0.00%       0.000us         0.00%       0.000us       0.000us      81.439us        56.03%      81.439us      13.573us             6  
                          _rotary_dba7d1e::apply_rotary         5.09%      40.640us         9.93%      79.270us      13.212us      63.903us        43.97%      63.903us      10.650us             6  
void at::native::(anonymous namespace)::unrolled_ele...         0.00%       0.000us         0.00%       0.000us       0.000us      63.903us        43.97%      63.903us      10.650us             6  
                                Activity Buffer Request        29.11%     232.364us        29.11%     232.364us     232.364us      23.712us        16.31%      23.712us      23.712us             1  
                                    aten::empty_strided         3.76%      30.010us         3.76%      30.010us       5.002us       0.000us         0.00%       0.000us       0.000us             6  
                                        cudaMemcpyAsync        25.58%     204.205us        25.58%     204.205us      34.034us       0.000us         0.00%       0.000us       0.000us             6  
                                            aten::slice         3.78%      30.171us         4.90%      39.101us       3.258us       0.000us         0.00%       0.000us       0.000us            12  
                                       aten::as_strided         1.12%       8.930us         1.12%       8.930us       0.744us       0.000us         0.00%       0.000us       0.000us            12  
                                       cudaLaunchKernel         4.84%      38.630us         4.84%      38.630us       6.438us       0.000us         0.00%       0.000us       0.000us             6  
                                  cudaDeviceSynchronize         0.62%       4.940us         0.62%       4.940us       4.940us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 798.193us
Self CUDA time total: 145.342us



======================================================================
PROFILE TRACE: hf_kernels_rotary | cuda_B2_S2048_H8_D64_R32
======================================================================
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                      hf_kernels_rotary         0.00%       0.000us         0.00%       0.000us       0.000us     327.384us       410.23%     327.384us     327.384us             1  
                                      hf_kernels_rotary        18.75%     148.421us        99.39%     786.852us     786.852us       0.000us         0.00%      89.981us      89.981us             1  
                                            aten::clone         2.67%      21.153us        65.81%     521.010us      86.835us       0.000us         0.00%      47.613us       7.935us             6  
                                            aten::copy_         4.62%      36.560us        59.19%     468.587us      78.098us      37.437us        46.91%      47.613us       7.935us             6  
                          _rotary_dba7d1e::apply_rotary         5.10%      40.369us         9.95%      78.790us      13.132us      42.368us        53.09%      42.368us       7.061us             6  
void at::native::(anonymous namespace)::unrolled_ele...         0.00%       0.000us         0.00%       0.000us       0.000us      42.368us        53.09%      42.368us       7.061us             6  
                         Memcpy DtoD (Device -> Device)         0.00%       0.000us         0.00%       0.000us       0.000us      37.437us        46.91%      37.437us       6.240us             6  
                                Activity Buffer Request        28.86%     228.474us        28.86%     228.474us     228.474us      10.176us        12.75%      10.176us      10.176us             1  
                                    aten::empty_strided         3.95%      31.270us         3.95%      31.270us       5.212us       0.000us         0.00%       0.000us       0.000us             6  
                                        cudaMemcpyAsync        25.71%     203.553us        25.71%     203.553us      33.925us       0.000us         0.00%       0.000us       0.000us             6  
                                            aten::slice         3.86%      30.542us         4.88%      38.631us       3.219us       0.000us         0.00%       0.000us       0.000us            12  
                                       aten::as_strided         1.02%       8.089us         1.02%       8.089us       0.674us       0.000us         0.00%       0.000us       0.000us            12  
                                       cudaLaunchKernel         4.85%      38.421us         4.85%      38.421us       6.403us       0.000us         0.00%       0.000us       0.000us             6  
                                  cudaDeviceSynchronize         0.61%       4.869us         0.61%       4.869us       4.869us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 791.721us
Self CUDA time total: 79.805us



======================================================================
PROFILE TRACE: hf_kernels_rotary | cuda_B2_S2048_H8_D128_R64
======================================================================
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                      hf_kernels_rotary         0.00%       0.000us         0.00%       0.000us       0.000us     334.133us       229.04%     334.133us     334.133us             1  
                                      hf_kernels_rotary        18.91%     152.747us        99.33%     802.303us     802.303us       0.000us         0.00%     169.593us     169.593us             1  
                                            aten::clone         2.63%      21.282us        65.81%     531.500us      88.583us       0.000us         0.00%     105.244us      17.541us             6  
                                            aten::copy_         4.22%      34.070us        59.15%     477.709us      79.618us      81.533us        55.89%     105.244us      17.541us             6  
                         Memcpy DtoD (Device -> Device)         0.00%       0.000us         0.00%       0.000us       0.000us      81.533us        55.89%      81.533us      13.589us             6  
                          _rotary_dba7d1e::apply_rotary         4.95%      39.971us         9.71%      78.412us      13.069us      64.349us        44.11%      64.349us      10.725us             6  
void at::native::(anonymous namespace)::unrolled_ele...         0.00%       0.000us         0.00%       0.000us       0.000us      64.349us        44.11%      64.349us      10.725us             6  
                                Activity Buffer Request        29.92%     241.694us        29.92%     241.694us     241.694us      23.711us        16.25%      23.711us      23.711us             1  
                                    aten::empty_strided         4.02%      32.509us         4.02%      32.509us       5.418us       0.000us         0.00%       0.000us       0.000us             6  
                                        cudaMemcpyAsync        25.00%     201.945us        25.00%     201.945us      33.657us       0.000us         0.00%       0.000us       0.000us             6  
                                            aten::slice         3.87%      31.225us         4.91%      39.644us       3.304us       0.000us         0.00%       0.000us       0.000us            12  
                                       aten::as_strided         1.04%       8.419us         1.04%       8.419us       0.702us       0.000us         0.00%       0.000us       0.000us            12  
                                       cudaLaunchKernel         4.76%      38.441us         4.76%      38.441us       6.407us       0.000us         0.00%       0.000us       0.000us             6  
                                  cudaDeviceSynchronize         0.67%       5.380us         0.67%       5.380us       5.380us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 807.683us
Self CUDA time total: 145.882us



======================================================================
PROFILE TRACE: hf_kernels_rotary | cuda_B2_S2048_H32_D64_R32
======================================================================
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                      hf_kernels_rotary        13.54%     152.254us        71.57%     804.992us     804.992us       0.000us         0.00%     741.111us     741.111us             1  
                                      hf_kernels_rotary         0.00%       0.000us         0.00%       0.000us       0.000us     682.359us       101.20%     682.359us     682.359us             1  
                                            aten::clone         1.94%      21.788us        47.45%     533.747us      88.958us       0.000us         0.00%     557.274us      92.879us             6  
                                            aten::copy_         3.08%      34.611us        42.75%     480.788us      80.131us     490.426us        72.74%     557.274us      92.879us             6  
                         Memcpy DtoD (Device -> Device)         0.00%       0.000us         0.00%       0.000us       0.000us     490.426us        72.74%     490.426us      81.738us             6  
                          _rotary_dba7d1e::apply_rotary         3.61%      40.571us         7.01%      78.811us      13.135us     183.837us        27.26%     183.837us      30.639us             6  
void at::native::(anonymous namespace)::unrolled_ele...         0.00%       0.000us         0.00%       0.000us       0.000us     183.837us        27.26%     183.837us      30.639us             6  
                                Activity Buffer Request        21.83%     245.524us        21.83%     245.524us     245.524us      66.848us         9.91%      66.848us      66.848us             1  
                                    aten::empty_strided         2.77%      31.171us         2.77%      31.171us       5.195us       0.000us         0.00%       0.000us       0.000us             6  
                                        cudaMemcpyAsync        17.84%     200.653us        17.84%     200.653us      33.442us       0.000us         0.00%       0.000us       0.000us             6  
                                            aten::slice         2.81%      31.570us         3.57%      40.180us       3.348us       0.000us         0.00%       0.000us       0.000us            12  
                                       aten::as_strided         0.77%       8.610us         0.77%       8.610us       0.718us       0.000us         0.00%       0.000us       0.000us            12  
                                       cudaLaunchKernel         3.40%      38.240us         3.40%      38.240us       6.373us       0.000us         0.00%       0.000us       0.000us             6  
                                  cudaDeviceSynchronize        28.43%     319.765us        28.43%     319.765us     319.765us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 1.125ms
Self CUDA time total: 674.263us



======================================================================
PROFILE TRACE: hf_kernels_rotary | cuda_B2_S2048_H32_D128_R64
======================================================================
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                      hf_kernels_rotary         5.26%     152.407us        28.24%     818.853us     818.853us       0.000us         0.00%       2.611ms       2.611ms             1  
                                      hf_kernels_rotary         0.00%       0.000us         0.00%       0.000us       0.000us       2.442ms       100.34%       2.442ms       2.442ms             1  
                                            aten::clone         0.72%      20.941us        18.92%     548.700us      91.450us       0.000us         0.00%       1.390ms     231.619us             6  
                                            aten::copy_         1.19%      34.511us        17.07%     495.108us      82.518us       1.212ms        49.82%       1.390ms     231.619us             6  
                          _rotary_dba7d1e::apply_rotary         1.41%      40.761us         2.75%      79.892us      13.315us       1.221ms        50.18%       1.221ms     203.523us             6  
void at::native::(anonymous namespace)::unrolled_ele...         0.00%       0.000us         0.00%       0.000us       0.000us       1.221ms        50.18%       1.221ms     203.523us             6  
                         Memcpy DtoD (Device -> Device)         0.00%       0.000us         0.00%       0.000us       0.000us       1.212ms        49.82%       1.212ms     202.067us             6  
                                Activity Buffer Request         8.94%     259.144us         8.94%     259.144us     259.144us     177.311us         7.29%     177.311us     177.311us             1  
                                    aten::empty_strided         1.13%      32.651us         1.13%      32.651us       5.442us       0.000us         0.00%       0.000us       0.000us             6  
                                        cudaMemcpyAsync         6.95%     201.453us         6.95%     201.453us      33.575us       0.000us         0.00%       0.000us       0.000us             6  
                                            aten::slice         1.03%      29.842us         1.31%      37.854us       3.154us       0.000us         0.00%       0.000us       0.000us            12  
                                       aten::as_strided         0.28%       8.012us         0.28%       8.012us       0.668us       0.000us         0.00%       0.000us       0.000us            12  
                                       cudaLaunchKernel         1.35%      39.131us         1.35%      39.131us       6.522us       0.000us         0.00%       0.000us       0.000us             6  
                                  cudaDeviceSynchronize        71.76%       2.081ms        71.76%       2.081ms       2.081ms       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 2.900ms
Self CUDA time total: 2.434ms


impl                     wl                  p50(ms)  ok
hf_kernels_rotary        cuda_B1_S128_H32_D128_R64     0.09  True
hf_kernels_rotary        cuda_B1_S128_H32_D64_R32     0.09  True
hf_kernels_rotary        cuda_B1_S128_H8_D128_R64     0.09  True
hf_kernels_rotary        cuda_B1_S128_H8_D64_R32     0.07  True
hf_kernels_rotary        cuda_B1_S2048_H32_D128_R64     0.26  True
hf_kernels_rotary        cuda_B1_S2048_H32_D64_R32     0.09  True
hf_kernels_rotary        cuda_B1_S2048_H8_D128_R64     0.09  True
hf_kernels_rotary        cuda_B1_S2048_H8_D64_R32     0.09  True
hf_kernels_rotary        cuda_B1_S512_H32_D128_R64     0.09  True
hf_kernels_rotary        cuda_B1_S512_H32_D64_R32     0.09  True
hf_kernels_rotary        cuda_B1_S512_H8_D128_R64     0.09  True
hf_kernels_rotary        cuda_B1_S512_H8_D64_R32     0.09  True
hf_kernels_rotary        cuda_B2_S128_H32_D128_R64     0.09  True
hf_kernels_rotary        cuda_B2_S128_H32_D64_R32     0.09  True
hf_kernels_rotary        cuda_B2_S128_H8_D128_R64     0.09  True
hf_kernels_rotary        cuda_B2_S128_H8_D64_R32     0.09  True
hf_kernels_rotary        cuda_B2_S2048_H32_D128_R64     0.85  True
hf_kernels_rotary        cuda_B2_S2048_H32_D64_R32     0.26  True
hf_kernels_rotary        cuda_B2_S2048_H8_D128_R64     0.09  True
hf_kernels_rotary        cuda_B2_S2048_H8_D64_R32     0.09  True
hf_kernels_rotary        cuda_B2_S512_H32_D128_R64     0.09  True
hf_kernels_rotary        cuda_B2_S512_H32_D64_R32     0.09  True
hf_kernels_rotary        cuda_B2_S512_H8_D128_R64     0.09  True
hf_kernels_rotary        cuda_B2_S512_H8_D64_R32     0.09  True

▶ UV Install Logs

Fetching 5 files: 0%| | 0/5 [00:00<?, ?it/s] Fetching 5 files: 100%|██████████| 5/5 [00:00<00:00, 12.23it/s] Fetching 5 files: 100%|██████████| 5/5 [00:00<00:00, 12.22it/s]

Artifacts:

rotary.jsonl