北京时间9月26日1:00,一年一度的Meta Connect 2024于加利福尼亚州门洛帕克召开。扎克伯格以意料之中的新品Quest 3S作为开场,宣布Meta的元宇宙之梦开始向入门级消费市场普及。 同时,Meta还公布了其AI大模型Llama 的最新3.2版本,提供了视觉多模态能力,联合最新的AI ...
一个超快而且省显存的注意力算法flash attention 这个大家应该都知道了。 本文将介绍如何在模型中,使用flash attention。,也 ...
现在 nlp 模型,动不动就 7b、13b 的,有的甚至更大,如果直接使用 bfloat16 加载推理、训练,需要太大的显存了。 于是现在大家都在用 int4、int8 对这种 100b 以上的模型、对 60b 以上的模型做量化。量化之后的模型,虽然效果会变差,但是好像效果还不错。 有的人 ...