Paper: BiFormer: Vision Transformer with Bi-Level Routing Attention
Authors: Lei Zhu, Xinjiang Wang, Zhanghan Ke, Wayne Zhang, Rynson Lau
Code: GitHub
Framework:
Transformer
优势
- long-range dependency
- inductive-bias-free
- high parallelism
劣势
计算量大
内存占用大
现有方案:引入稀疏性
- 局部窗口
- 轴向注意力
- 空洞注意力
存在问题
- 筛选 key/value 时没有区分 query
Bi-level Routing Attention (BRA)
Sparsity
- 利用稀疏性来节省计算量和内存,同时只包含 GPU 友好的稠密矩阵乘法
Query-aware
- 为各个 Query 筛选语义最相关的 Key-Value 对
伪代码
1 | # input: features (H, W, C). Assume H==W. |