1. 与其颠覆 Transformer,不如专注改良 Attention? 为什么 Transformer 不会是 AGI 的最终版本?Attention 的局限引出了哪些改良路线?传统 Attention 变体被 ...