【吐鲁番热门外围】神經網絡可能不再需要激活函數？Layer Normalization也具有非線性表達！

2024-09-17 04:20:42分类：華沙外圍阅读(85754)

作者首先提出了統計量SSR（Sum of Squares Ratio），神经数例如，网络體現了LN-G-Position強大的不再表達能力。可以推斷出有L個層標準化層的需激性表LN-Net，通過線性變換和球麵投影將這四個點進行了正確分類。活函一作倪雲昊為研一學生，非线吐鲁番热门外围在CIFAR-10隨機標簽數據集上，神经数理論上首次證明了僅含有線性層和LN的网络模型的萬能分類能力以及給定特定深度的模型的VC維下界，LN作為其中的不再固定組成部分，這裏麵最重要的需激性表意義是將傳統深度神經網絡的表達能力的分析朝廣泛使用的現代真實網絡邁出了一大步，二作郭宇芯為大三學生，活函這一點可能為未來的非线神經網絡結構設計提供新的思路。三作賈俊龍為研二學生，神经数非線性層提升神經網絡的网络表達能力，已經成為了一種普遍使用的不再技術，此外，LN）以及其計算退化版本RMSNorm具有非線性表達能力，因此，因此研究人員普遍認為Normalization並不能夠提升模型的表達能力。隨著transformer的廣泛使用，當對樣本進行線性變換時，綦江热门外围模特描述兩個類別下樣本的線性可分性。作者在數學上從海森矩陣的角度預測分組能強化LN的非線性，可以任意分類給定的樣本和樣本類別。這一構造方法為計算神經網絡的VC維也提供了新的思路。提出了分組層標準化技術(LN-G)。根據實驗結果發現了分組層標準化能有效性提升Transformer網絡的性能，

本文作者均來自北京航空航天大學人工智能學院和複雜關鍵軟件環境全國重點實驗室黃雷副教授團隊。

然而，為進一步加強LN的非線性以便於實際應用，

LN非線性的綦江热门商务模特數學發現

對於非線性研究，文章並沒有直接討論LN本身的分析性質，作者指出，作者提出了使用LN和線性層對任意數目樣本進行正確分類的算法，非線性層（激活函數）和標準化層。得到的新SSR不可能會低於LSSR 。是RMSNorm執行的操作）。層標準化（Layer Normlization，並指出——對於任意標簽的m個樣本，文章指出，證明了真實網絡中，大足高端外围在足夠深的情況下，當LSSR越小時，作者類比MLP上GN作用於整個樣本上（將單個樣本拉伸成一維向量，在這個方向上，因此LN的非線性主要存在於尺度縮放操作當中（文章中也稱之為球麵投影，

然而，那麽“線性變換-LN-線性變換”也是線性的，其準確率不超過20%；而使用線性層和LN-G構成的神經網絡（不引入傳統的激活函數作為非線性單元）能夠取得55.85%的準確率。對於通常的線性層模型，定義樣本在所有線性變換下對應的大足高端外围模特最小的SSR為LSSR。樣本之間的線性可分性越強。最近由北京航空航天大學人工智能學院黃雷老師團隊發表在ICML2024上的論文《On the Nonlinearity of Layer Normalization》指出，VC維至少有L+2 。

作者指出，

作者進一步探究了LN-G在無激活函數的卷積神經網絡的分類效果，將神經網絡的逐層變換轉換為同類樣本合並問題，線性層是網絡參數的主要存在位置，對這m個樣本進行正確分類。

LN在分類問題中的任意可分性

為了進一步研究，

作者接下來在Transformer上進行

了實驗探究，SSR也會發生變化。理論上，並且提出了僅含線性層和LN的簡單神經網絡LN-Net ，提出了LN-G-Position 。

論文地址：https://arxiv.org/abs/2406.01255

該論文對LN的非線性進行了數學證明。在沒有非線性層的ResNet網絡上使用LN-G-Position方法在CIFAR-10數據集上能夠取得86.66%的準確率，通訊作者為黃雷副教授（主頁：https://huangleibuaa.github.io/）

神經網絡通常由三部分組成：線性層、該研究在未來可能為神經網絡架構提供新的理論依據，以Batch Normalization為例，將原本的LN替換為LN-G，將萬能近似分類問題轉換為樣例歸並問題，作者將LN拆分為兩個步驟：中心化（centering）和尺度縮放(scaling) 。並實驗上證明了這種沒有激活函數的神經網絡的確有著強大的擬合能力。探究了LN-Net的萬能近似能力。在此基礎上，作者以最為簡單的線性不可分的異或數據為例，這驗證了LN的非線性表達——如果LN是線性的，都可以構造一個O(m)層的LN-Net，並詳細討論了LN的萬能近似分類能力。它在預測階段可以認為是線性變換，

目前，而標準化層（Normalization）主要用於穩定和加速神經網絡訓練，很少有工作研究它們的表達能力，