导航菜单
首页 » 图解 » 正文

Softmax

Paper: /pdf/1611.01144.pdf

把-这种重参数化的方法应用到离散类别的采样

离散变量对应的概率分布,描述了一个随机变量属于不同类别的概率,numpy..()根据权重进行采样,具体的做法是,先计算累计分布,然后随机生成一个[0,1]之间的变量,看它落在累计分布的哪个区间,就把那个区间对应的类别,赋给那个随机变量,以完成采样。

要表示离散的结构, 一般都会选择离散变量。比如上游任务,通过卷积网络,计算出每个原型向量(或者类别向量)的概率值,然后选择最大概率的那一类向量,继续做下游任务。但是这样做的话,没有问题,有问题。若是非离散的结构,就可以用来计算(把不同的概率值作为 去乘以各个类别向量)。但需要考虑离散的结构,它在 space里就是一个离散的结构, 那中间选择的这个过程()就没有办法计算梯度。

这个技巧的主要贡献: 把分布和结合起来,形成一个连续的分布,近似于原本的离散分布,并且用重参数的方法更易于计算

一些延展:

类似的问题在VAE也存在,要把μ和σ注入到 space,就引入了离散的问题 - : We

VAE里重参数的技巧: the value of Z by μ σ , to learn a fixed of means and a fixed of , and all the of the to the value ε , where now ε is being drawn from a . So we can still over a but the away from means and that we want to learn.

回到本文如何将离散的分布转化为-

(1) 首先利用-Max的技巧,从离散类别分布中采样Z,一共k类,Z为k维的one-hot向量

注意,我们最后的目的不是为了取得one-hot的Z,而是为了得到去贴近这个离散分布的连续分布,所以有以下

(2) 然后再用的技巧把选择的one-hot 转化为连续的可微分的方程

经过和的结合,得到下图的结果(第一列是实际期望分布和采样)

评论(0)

二维码