Neural Network 中的 Weight 与 Activation

Neural Network 中的 Weight 与 Activation

Weight（权重）

权重是神经网络中可学习的参数，决定了输入如何被变换。

以 Attention 机制为例，weight 是 Q/K/V 投影矩阵：

Q (Query): 查询向量
K (Key): 键向量
V (Value): 值向量

Attention 计算流程

输入 X 经过三套不同的线性层，得到 Q/K/V：
- Q = X @ Wq
- K = X @ Wk
- V = X @ Wv
用 Q 和 K 计算注意力分数：
- Attention = softmax(Q @ K^T / sqrt(d))
用注意力分数对 V 加权求和，得到输出：
- Output = Attention @ V

Activation（激活值）

Activation 是神经网络的中间特征/输出值，即输入经过某一层（layer）之后临时算出来的结果。

例如：

h = relu(X @ W + b)  # h 就是这一层的 activation

注意区分：

Weight：模型学到的参数，训练后固定
Activation：每次前向传播时动态计算的中间结果，随输入变化