Softmax

Paper: /pdf/1611.01144.pdf

把-这种重参数化的方法应用到离散类别的采样

离散变量对应的概率分布，描述了一个随机变量属于不同类别的概率，numpy..()根据权重进行采样，具体的做法是，先计算累计分布，然后随机生成一个[0,1]之间的变量，看它落在累计分布的哪个区间，就把那个区间对应的类别，赋给那个随机变量，以完成采样。

要表示离散的结构, 一般都会选择离散变量。比如上游任务，通过卷积网络，计算出每个原型向量（或者类别向量）的概率值，然后选择最大概率的那一类向量，继续做下游任务。但是这样做的话，没有问题，有问题。若是非离散的结构，就可以用来计算（把不同的概率值作为去乘以各个类别向量）。但需要考虑离散的结构，它在 space里就是一个离散的结构, 那中间选择的这个过程()就没有办法计算梯度。

这个技巧的主要贡献：把分布和结合起来，形成一个连续的分布，近似于原本的离散分布，并且用重参数的方法更易于计算

一些延展：

类似的问题在VAE也存在，要把μ和σ注入到 space，就引入了离散的问题 - : We

VAE里重参数的技巧： the value of Z by μ σ , to learn a fixed of means and a fixed of , and all the of the to the value ε , where now ε is being drawn from a . So we can still over a but the away from means and that we want to learn.

回到本文如何将离散的分布转化为-

(1) 首先利用-Max的技巧，从离散类别分布中采样Z，一共k类，Z为k维的one-hot向量

注意，我们最后的目的不是为了取得one-hot的Z，而是为了得到去贴近这个离散分布的连续分布，所以有以下

(2) 然后再用的技巧把选择的one-hot 转化为连续的可微分的方程

经过和的结合，得到下图的结果（第一列是实际期望分布和采样）

softmax

相关推荐：

评论（0）