v100 优化方案

v100 其实是支持int8张量的，但方法跟图灵不一样，下面是说明文件

https://github.com/ai-bond/flash-attention-v100/blob/main/docs/volta.md

flashattention的优化方案：

1构建安装，确保pip、setuptools和wheel为最新版本

pip install --upgrade pip setuptools wheel

 它的安装教程在这里
https://github.com/FearL0rd/ComfyUI-ComfyUI-Flash-Attention_v100?tab=readme-ov-file

还发现了个支持p100的flashattention，p100貌似速度会变慢5-10%，但内存会少很多

https://github.com/sirCamp/flash-attention-legacy 
https://github.com/GuoHaojiee/FlashAttention_CUDA

下面这个貌似是v100的flashattention大语言模型用的

https://github.com/ajunlonglive/flashinfer-v100

目前有人用sageattention 运行成功，但貌似速度很一般。有人提出，还不如flashattention的方案。希望在未来能得到优化把，暂时不研究v100的 sageattention方案。只能用sageattn_qk_int8_pv_fp16_triton 这个模式运行，说明资料如下

zimage加速方案

https://www.bilibili.com/video/BV1kTmxB8EpW

最近回复
admin: yum install -y wget && wget -O i...
Chrome233: 多用户wg方案页面貌似不能访问了，可以补档吗？谢谢