
不必修改模型或桩参数。糖模型的性能有了显着提高!在深度学习领域,对振兴功能的讨论已成为一个独立的研究方向。 Gelu,Selu和Silu等特征由于其柔软的梯度和出色的收敛性,已成为流行的选择。尽管有这种趋势,但经典的关系功能由于其简单性,固有的固有和其他有利的拓扑特性而流行。但是,这些单位倾向于属于所谓的“死亡关系”。如果在训练期间神经元出口始终为0,则其梯度也为0,无法恢复。这种现象最终限制了其一般性能,并且也是红色relu的重要缺陷。正是死亡关系的问题产生了一系列线性元素的功能,而不仅限于Leakyrelu,Pralu,Gelu,Selu,Selu,Silu/Swish,Elu等。这些功能通过引入非零激活来提供不同的补偿。在本文中,来自德国勒贝克大学等机构的研究人员引入了一种新方法来解决救济局限性,而无需牺牲松松的益处:糖(Relu的硫酸盐梯度)。换句话说,传播前进仍然使用标准关系(维持其稀缺性和简单性),而背部传播过程中交换关系的导数是连续非零替代梯度(替代梯度)的函数。这使Relu可以在保持其原始的正向行为的同时避免零梯度问题,从而恢复死去的神经元。基于此,在本文档中,我们还设计了两个新的替代功能,即Grathoot,B-Silu(边界Silu)和Nelu(负梯度接线单元),可以将它们集成而没有问题。对这项研究的其他贡献包括:本文档在VGG-16和RESNET-18中执行了整体实验,表明糖显着改善了两种体系结构的概括。本文评估并适应了现代建筑糖,例如变压器Swin和Conv2Next。样本性别和有效性。对VGG-16层的激活的详细分析表明,当施用糖时,激活分布会发生明显变化,提供了直观的证据,证明了其在减少最终关系问题的同时促进稀缺表达时的作用。糖法很容易实现,并且始终使用Actu激活功能进行传播。当与提议的B-SILU替代方案一起使用时,Ciffar-10和Ciffar-100数据集的VGG-16测试精度分别增加了10和16个百分点,而R R的R r升高为R. ESNET-18分别为9%和7%的点,而不是最佳的无糖模型。文档tiTLE:重新文档链接:https://arxiv.org/pdf/2505.22074sugar提出了本文提出的方法,用于应用FGI(向前注入斜率),并在Relu Red中使用替代方案。在糖框架内,FGI可以表示为:该方程式实现梯度注入,即使在负激活的情况下,也可以传播梯度。具体而言,使用[34]的乘法技术直接注入替代梯度函数如下:选择替代功能的选择是灵活的,并且与当前ART ART -STATE激活函数(例如ELU,GELU,SILU,SILU,SELU和泄漏的Relu)兼容(图8)。关键区别在于,与Relu不同,这些候选替代方案具有共同的特征。可以为负条目生成不同的梯度(x 0)。这些功能为负激活提供了梯度流途径,但是直接传播和随后的损失计算ST在初步研究中,该文档依赖于x 0中的激活输出,确认需要调整特定糖应用的当前激活函数。因此,在下一篇文章中,我们将提出两个与这些配置相吻合的新替代方案。 b数学上,该函数可以表示为:源自激活函数-sileu的blos如下:b -silu及其衍生物在图8中可视化。NELU:NELU:NELU:在本文中,我们将进入Nelu(负梯度接线单元)作为温和的衍生物,作为一种柔和的衍生物。最终斜率如图1所示。通常,糖在与Elu,Selu,尤其是B-Silu的结合中取得了最大的改善,而Leakyrelu和Nelu并未经常遭受性能(见图2)。由于糖,使用RESNET-18作为CFAR-10数据集的脊柱网络,B-SILU性能从76.76%增加到86.42%。 VGG-16显示出类似的效果。 b-silu改进了测试将近10个百分点(78.50%至88.35%)。在CFAR-100数据集中,与B-Silu结合使用的糖的好处更为明显。 RESNET-18的准确性从48.99%增加到56.51%,而VGG-16的精度从48.73%增加到64.47%(见图3)。以同样的方式,泄漏relu和nelu仅显示ntos或负NTO(例如,RESNET-18中的43.67%至43.41%)。通常,B-SILU超过了不同体系结构和数据集中的其他替代激活功能,Elu和Selu可以提供可靠的改进。在这种情况下,糖没有泄漏的Relu和Nelu的显着好处。当应用于Conv2Next时,糖总是使用前后的GELU超过基本模型。有关更多信息,请参见原始文档。