<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>RL on Blog</title><link>https://blog.sivn.net.cn/tags/rl/</link><description>Recent content in RL on Blog</description><generator>Hugo -- gohugo.io</generator><language>zh-cn</language><lastBuildDate>Sun, 12 Apr 2026 16:38:07 +0800</lastBuildDate><atom:link href="https://blog.sivn.net.cn/tags/rl/index.xml" rel="self" type="application/rss+xml"/><item><title>RLQuantization</title><link>https://blog.sivn.net.cn/post/rlquantization/</link><pubDate>Sun, 12 Apr 2026 16:38:07 +0800</pubDate><guid>https://blog.sivn.net.cn/post/rlquantization/</guid><description>&lt;h2 id="量化quantization"&gt;量化（quantization）
&lt;/h2&gt;&lt;p&gt;把神经网络里原本高精度（如 32 位浮点数）的参数和激活值，用更少位数、更简单的数值来表示的技术。&lt;/p&gt;
&lt;p&gt;1-bit LLMs 就是极致量化的模型
这里把参数限制在 {−1, 0, 1} 三个值，叫三值量化（ternary quantization）&lt;/p&gt;
&lt;p&gt;目的:&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;大幅降低推理计算成本&lt;/li&gt;
&lt;li&gt;提升硬件执行效率&lt;/li&gt;
&lt;li&gt;同时尽量保持模型效果不明显下降&lt;/li&gt;
&lt;/ol&gt;
&lt;h3 id="对称量化symmetric-quantization"&gt;对称量化(Symmetric Quantization)
&lt;/h3&gt;</description></item><item><title>seqModels</title><link>https://blog.sivn.net.cn/post/seqmodels/</link><pubDate>Wed, 08 Apr 2026 00:00:00 +0000</pubDate><guid>https://blog.sivn.net.cn/post/seqmodels/</guid><description>&lt;h2 id="sequence-to-sequence-seq2seq-models"&gt;sequence-to-sequence (seq2seq) models
&lt;/h2&gt;&lt;p&gt;序列到序列模型&lt;/p&gt;
&lt;p&gt;包含:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Input Sequence&lt;/li&gt;
&lt;li&gt;编码器(Encoder)&lt;/li&gt;
&lt;li&gt;Context Vector&lt;/li&gt;
&lt;li&gt;解码器(Decoder)&lt;/li&gt;
&lt;li&gt;Output Sequence&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;在这些早期的序列到序列模型中，编码器和解码器通常使用循环神经网络（RNN）来实现。&lt;/p&gt;
&lt;h3 id="分类1"&gt;分类1
&lt;/h3&gt;&lt;ol&gt;
&lt;li&gt;循环 / 状态演进类序列模块&lt;/li&gt;
&lt;/ol&gt;
&lt;ul&gt;
&lt;li&gt;RNN / LSTM / GRU&lt;/li&gt;
&lt;li&gt;SSM&lt;/li&gt;
&lt;li&gt;RSSM&lt;/li&gt;
&lt;/ul&gt;
&lt;ol start="2"&gt;
&lt;li&gt;注意力类序列模块&lt;/li&gt;
&lt;/ol&gt;
&lt;ul&gt;
&lt;li&gt;Transformer&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="分类2"&gt;分类2
&lt;/h3&gt;&lt;ol&gt;
&lt;li&gt;Deterministic model&lt;/li&gt;
&lt;/ol&gt;
&lt;ul&gt;
&lt;li&gt;RNN&lt;/li&gt;
&lt;/ul&gt;
&lt;ol start="2"&gt;
&lt;li&gt;Stochastic models&lt;/li&gt;
&lt;/ol&gt;
&lt;ul&gt;
&lt;li&gt;SSM&lt;/li&gt;
&lt;/ul&gt;
&lt;ol start="3"&gt;
&lt;li&gt;特殊&lt;/li&gt;
&lt;/ol&gt;
&lt;ul&gt;
&lt;li&gt;RSSM&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;里面既有确定性部分（像 GRU 一样的
又有随机性隐状态&lt;/p&gt;
&lt;p&gt;应该算作 Stochastic&lt;/p&gt;
&lt;h2 id="链接"&gt;链接
&lt;/h2&gt;&lt;p&gt;&lt;a class="link" href="https://arxiv.org/abs/1811.04551" target="_blank" rel="noopener"
 &gt;Learning Latent Dynamics for Planning from Pixels&lt;/a&gt;&lt;/p&gt;</description></item></channel></rss>