强强联手!蒸馏到推理速度提升倍
-
强强联手!蒸馏到,推理速度提升倍
克雷西发自凹非寺量子位|公众号QbitAI把Llama3蒸馏到Mamba,推理速度最高可提升1.6倍!而且性能不减,甚至表现比原始模型还要优异。这是来自TogetherAI的新作,通过蒸馏将Transformer和Mamba模型结合到了一起,同时还为混合模型设计了推理加速算法提出Mamba架构的大神、FlashAttention作者TriDao,也参与了这一项目。TogetherAI创始人兼CEO表示,Transformer和Mamba的混合,是未来大模型的一大发展方向。将Transformer蒸馏进Mamba在蒸...