Deep-Learning on Blog

Deep-Learning on Bloghttps://blog.sivn.net.cn/tags/deep-learning/Recent content in Deep-Learning on BlogHugo -- gohugo.iozh-cnWed, 06 May 2026 17:08:40 +0800Neural Network 中的 Weight 与 Activationhttps://blog.sivn.net.cn/post/nn-weight-and-activation/Wed, 06 May 2026 17:08:40 +0800https://blog.sivn.net.cn/post/nn-weight-and-activation/<h2 id="weight权重">Weight（权重） </h2><p>权重是神经网络中可学习的参数，决定了输入如何被变换。</p> <p>以 Attention 机制为例，<code>weight</code> 是 Q/K/V 投影矩阵：</p> <ul> <li><strong>Q</strong> (Query): 查询向量</li> <li><strong>K</strong> (Key): 键向量</li> <li><strong>V</strong> (Value): 值向量</li> </ul> <h3 id="attention-计算流程">Attention 计算流程 </h3><ol> <li> <p>输入 <code>X</code> 经过三套不同的线性层，得到 Q/K/V：</p> <ul> <li><code>Q = X @ Wq</code></li> <li><code>K = X @ Wk</code></li> <li><code>V = X @ Wv</code></li> </ul> </li> <li> <p>用 <code>Q</code> 和 <code>K</code> 计算注意力分数：</p> <ul> <li><code>Attention = softmax(Q @ K^T / sqrt(d))</code></li> </ul> </li> <li> <p>用注意力分数对 <code>V</code> 加权求和，得到输出：</p> <ul> <li><code>Output = Attention @ V</code></li> </ul> </li> </ol> <h2 id="activation激活值">Activation（激活值） </h2><p>Activation 是神经网络的中间特征/输出值，即输入经过某一层（layer）之后临时算出来的结果。</p> <p>例如：</p> <pre tabindex="0"><code>h = relu(X @ W + b) # h 就是这一层的 activation </code></pre><p>注意区分：</p> <ul> <li><strong>Weight</strong>：模型学到的参数，训练后固定</li> <li><strong>Activation</strong>：每次前向传播时动态计算的中间结果，随输入变化</li> </ul>