v100 其实是支持int8张量的,但方法跟图灵不一样,下面是说明文件
https://github.com/ai-bond/flash-attention-v100/blob/main/docs/volta.md
flashattention的优化方案:
https://github.com/ai-bond/flash-attention-v100
目前有人用sageattention 运行成功,但貌似速度很一般。有人提出,还不如flashattention的方案。希望在未来能得到优化把,暂时不研究v100的 sageattention方案。只能用sageattn_qk_int8_pv_fp16_triton 这个模式运行,说明资料如下
https://github.com/Ph0rk0z/SageAttention2/issues/11
triton-lang/triton-windows: Triton with Windows support
zimage加速方案
https://www.bilibili.com/video/BV1kTmxB8EpW