当前位置：首页 » 游戏攻略 » 关于llama稀疏性的观察

关于llama稀疏性的观察

Gamer • 2024-08-11 09:46:03 • 游戏攻略

本文地址：
https://www.cnblogs.com/wanger-sjtu/p/18352898

llama原始模型的FFN计算过程为：

class FeedForward(nn.Module):
    def forward(self, x):
        return self.w2(F.silu(self.w1(x)) * self.w3(x))

论文统计首层transformer block FFN层的稀疏性质，原生FFN的稀疏性仅有40%，激活函数由silu替换为Relu后可以达到67%，而ShiftedReLU可进一步提高到71%。

从FFN层的计算上来看，表面上是Gate部分作为门控控制了计算的稀疏性，

实际上Up、Gate共同控制了计算的稀疏性

，所以很自然的就引出了

drelu

的方案。

从训练过程上来看，替换以后收敛性没有影响，结果的评价指标上也没有太大影响。

下一步就是进一步评价下修改以后得稀疏度了。这里没有直接用两个mask的交集，而是按照topk的方法做了评测。

显然效果显著。不影响模型表现的情况下，稀疏到达到了80%，而牺牲一定精度的条件下可以到达

90%

Sparsity of Sparsifi ed Models

猜你喜欢

《世界启元》中光夜玩家集结11区

绝区零青衣养成攻略

脱出推理ADV新作《蜂とアヴァンギャルド》发售！

蚂蚁庄园最新答案大鹏一日同风起

单人玩家福音！《COD黑色行动6》“僵尸模式”可暂停

本类排行

洛克王国可丽翔歌技能表图鉴-可丽翔歌技能表怎么样

当人们在某方面让人有好印象其他方面也更容易被肯定这被称为-支付宝蚂蚁新村6月29日答案最新2023

三国志战略版S3觉醒孙鲁班怎么样-觉醒孙鲁班强度解析一览

三国群英传M张让掉落物品有什么-张让掉落物品一览

阴阳师轻衫染活动铃彦姬染色皮获得攻略