Weight(权重)
权重是神经网络中可学习的参数,决定了输入如何被变换。
以 Attention 机制为例,weight 是 Q/K/V 投影矩阵:
- Q (Query): 查询向量
- K (Key): 键向量
- V (Value): 值向量
Attention 计算流程
输入
X经过三套不同的线性层,得到 Q/K/V:Q = X @ WqK = X @ WkV = X @ Wv
用
Q和K计算注意力分数:Attention = softmax(Q @ K^T / sqrt(d))
用注意力分数对
V加权求和,得到输出:Output = Attention @ V
Activation(激活值)
Activation 是神经网络的中间特征/输出值,即输入经过某一层(layer)之后临时算出来的结果。
例如:
h = relu(X @ W + b) # h 就是这一层的 activation
注意区分:
- Weight:模型学到的参数,训练后固定
- Activation:每次前向传播时动态计算的中间结果,随输入变化