北京时间9月26日1:00,一年一度的Meta Connect 2024于加利福尼亚州门洛帕克召开。扎克伯格以意料之中的新品Quest 3S作为开场,宣布Meta的元宇宙之梦开始向入门级消费市场普及。 同时,Meta还公布了其AI大模型Llama 的最新3.2版本,提供了视觉多模态能力,联合最新的AI ...
一个超快而且省显存的注意力算法flash attention 这个大家应该都知道了。 本文将介绍如何在模型中,使用flash attention。,也 ...
现在 nlp 模型,动不动就 7b、13b 的,有的甚至更大,如果直接使用 bfloat16 加载推理、训练,需要太大的显存了。 于是现在大家都在用 int4、int8 对这种 100b 以上的模型、对 60b 以上的模型做量化。量化之后的模型,虽然效果会变差,但是好像效果还不错。 有的人 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果