Transformer挑战者、新架构Mamba,刚刚更新了第二代: Mamba-2,状态空间扩大8倍,训练速度提高50%! 更重要的是,团队研究发现原来Transformer和状态空间模型(SSM)竟然是近亲?? 两大主流序列建模架构,在此统一了。 没错,这篇论文的提出的重磅发现:Transformer ...