Statistical exploration of the Manifold Hypothesis
流形假設的統計探索
https://arxiv.org/pdf/2208.11665v5
![]()
![]()
摘要:
流形假設是機器學習中一項被廣泛接受的基本原理,它斷言名義上高維的數據實際上集中分布在嵌入于高維空間中的低維流形附近。這一現象在許多現實場景中得到了經驗性驗證,在過去幾十年中催生了大量統計方法的發展,并被認為可能是現代人工智能技術取得成功的關鍵因素之一。我們證明,數據中豐富且有時錯綜復雜的流形結構,可以從一個通用且異常簡單的統計模型——潛在度量模型(Latent Metric Model)——中自然涌現,其機制僅依賴于潛在變量、相關性與平穩性等基本概念。這為流形假設何以在眾多情境中看似成立提供了一個普適的統計學解釋。基于潛在度量模型,我們推導出用于發現與解釋高維數據幾何結構的程序,并可借此探索關于數據生成機制的假設。這些程序僅需極弱的假設條件,且利用了廣為人知的圖分析算法。
1 引言
流形假設是機器學習中一項被廣泛接受的基本原理,其主張如下[20]:
“……許多數據集的維度僅僅是人為地高;盡管每個數據點可能包含成千上萬個特征,但它或許僅由少數幾個潛在參數的函數所描述。換言之,這些數據點實際上是從嵌入于高維空間中的低維流形上采樣而得。”
這一現象已對眾多方法與算法產生了深遠影響。流形結構的存在是流形估計與檢驗[35, 42, 41]、非線性降維技術[95, 108, 50, 9, 119, 116, 76]、本征維度估計[59, 71, 48, 19],以及專門針對協變量取值于流形上的情境所設計的回歸與分類技術[11, 7, 23, 123, 72, 82]的前提基礎。數據集中于低維拓撲或幾何結構附近的假設,構成了聚類技術與拓撲數據分析的理論基石[32, 83, 18, 8, 22, 21]。某些非參數方法(如最近鄰或基于樹的回歸方法)即使在缺乏流形結構的情況下亦可運作,但當流形結構存在時,其性能將顯著提升,因為其收斂速率取決于協變量的本征維度而非環境維度[61, 62]。已有研究證明,深度神經網絡亦展現出類似特性[81]。更廣泛而言,流形結構的存在已被認為是深度學習方法取得成功的關鍵因素之一[14]。數據位于嵌入高維空間中的低維流形這一假設,已成為人工智能領域生成建模最新理論與實踐進展的核心,尤其在擴散模型中[101, 102, 51, 28, 29, 103, 24, 90, 47, 33]。
那么,數據中為何可能存在流形結構?在某些情境下(如圖像分析),我們可以依據生成數據的物理機制給出一種直觀但啟發式的解釋(參見Pless與Souvenir[92]對該背景下流形估計的綜述)。圖1展示了24張灰度汽車圖像,選自文獻[43]中包含n = 75張圖像的子集,拍攝角度分別為圍繞圓形周長的0°、5°、10°、…、355°。每張圖像分辨率為384 × 288像素,因此可表示為長度為p = 110592的向量。然而,至少從直觀上看,我們僅需遠少于該數量的維度,即可通過相機在我們周圍三維世界空間中的位置來解釋該圖像集合中的變異。圖1展示了使用主成分分析(PCA)進行降維后的結果,由此我們可作出如下觀察:
![]()
前20個主成分解釋了總方差的91.5%,表明數據集中分布于R^110592中的某個低維線性子空間附近。前三個維度——即數據在對應于最大三個特征值的特征向量上的坐標——呈現出近似環狀的點分布,其形狀雖略顯不規則,但類似于相機位置所構成的圓,只是經受了彎曲與扭轉等形變。這些點沿環近似等距分布,恰如相機位置以5度為間隔均勻分布于圓周上。
顯然,通過對這些圖像數據應用PCA進行降維,我們得以窺見數據生成機制的部分幾何結構,但仍存疑問:我們為便于可視化而選擇繪制前三個維度,這一選擇是否“合理”?其余維度可能傳達何種信息?環的精確形狀以及點沿環的分布間距相對于底層相機位置圓的差異,其成因又是什么?
在其他情境中,嵌入的拓撲與幾何結構可能呈現不同形態并具有不同解釋。圖2展示了對成年扁蟲(一種扁形動物)中5000個單細胞的p = 5821個基因表達水平進行可視化的兩種方法。在單細胞轉錄組學領域——如2018年《Science》論文[91]所述——此類數據為揭示整個動物的細胞譜系樹提供了可能:目標在于探明數據是否反映了干細胞分化為多種不同細胞類型的樹狀過程。數據經與原論文[91]相同方式預處理,使用Python軟件包Scanpy[121]。
![]()
圖2左圖展示了將維度從5821降至2的PCA結果;右圖則先通過PCA降至14維,再使用t-SNE[116](一種廣受歡迎的非線性降維方法,通過最小化成對距離失真的特定度量來尋找數據集的低維表示)進一步降至2維。我們采用scikit-learn[89]中t-SNE的默認參數設置。兩圖中的點均按細胞類型著色,但PCA與t-SNE均無法獲知該信息。與圖1類似,圖2清晰表明,通過某種形式的降維,我們得以揭示數據底層的結構——盡管此處表現為離散的細胞類型,而非相機位置的幾何構型。在圖1中,僅使用PCA降維便足以使該結構可見;然而在圖2中,若僅用PCA降至2維,不同細胞類型并未清晰分離,而先降至14維再應用t-SNE的方法似乎更為有效。t-SNE可視化結果暗示數據底層可能存在樹狀結構:部分區域呈現從中心點云發散出的分支狀臂,但其他譜系則缺乏清晰度或看似斷裂。
我們能否以不同方式組合方法,以獲得更清晰的圖像?
這些示例僅展示了數據中潛在結構如何在嵌入的拓撲與幾何模式中顯現的若干方式。還有許多其他實例:在基因組學中,基因分型DNA位點揭示了顯著的地理分布模式[84, 64, 30];在神經科學中,來自網格細胞的同時記錄顯示出似乎與行為任務無關的環面結構[39];此外,無線傳感器網絡數據[85]、語音識別[15]、藥物發現[94]、RNA測序[79]以及人類動作合成[69]中也存在流形結構。
在本研究中,我們提出一種視角:數據中嵌入的拓撲與幾何結構可被解釋為一種普遍的統計現象,無需參考數據生成機制的物理屬性或其他特定領域的細節。
主要貢獻。我們的第一項主要貢獻是提出一個簡單而通用的統計模型,該模型能在高維數據中生成隱藏的低維流形結構,從而為流形假設提供統計學依據。
第二項主要貢獻是描述該隱藏流形如何與模型所定義的真實潛在域相關聯,例如解釋為何圖1右側面板中的點雖非完美圓形(如相機位置所示),但仍構成環狀結構。更準確地說,我們給出了流形與潛在域之間關系為同胚(一種拓撲等價)的溫和條件,以及在更強條件下該關系可成為等距(一種度量等價)。
![]()
![]()
2 潛在度量模型
潛在度量模型(Latent Metric Model, LMM)由三種相互獨立的隨機性來源構建而成。
![]()
![]()
我們強調兩點。首先,LMM的核心目的在于將數據中的流形結構解釋并描述為一種普適的統計現象。這一目標的廣泛性要求采用靈活的建模范式,因此除在具體示例中之外,我們并不施加特定的分布或函數假設(如高斯性)。本文所作的假設涉及更為一般的概念,例如連續性、光滑性或平穩性。其次,我們強調此處的視角:函數 f 與 ? 是由LMM的構成要素隱式定義的導出量,而非需要人為設定取值的模型參數或超參數。
3 潛在度量模型的統計性質與幾何性質的聯系
本節將闡釋LMM的統計性質如何使我們能夠將數據向量
(可視為 中的點云)的幾何結構與流形 M 的結構,進而與潛在度量空間 Z 的結構相聯系。這一聯系具有雙重重要性:其一,它揭示了數據中的流形結構如何從LMM的基本統計性質中自然涌現,從而闡明流形假設在何種意義上成立以及其成立的原因;其二,它構成了我們在第4節中詳述的數據分析程序的理論基礎。我們的論述將依循四個主要步驟展開:
![]()
![]()
3.1 數據內積與特征映射內積的關聯
![]()
![]()
3.2 潛在變量的可區分性與同胚的關聯
同胚(homeomorphism)是兩個度量空間之間的一種映射,該映射連續、雙射且具有連續的逆映射。若存在此類映射,則稱這兩個度量空間彼此同胚,或稱其拓撲等價。為建立直觀理解,可考慮所討論的度量空間為我們周圍三維歐幾里得世界中的子集這一情形。在此情況下,符合同胚條件的映射包括通過彎曲、扭轉、拉伸與折疊等方式進行的形狀變換,但不包括切割、穿孔或粘合等操作[12]。拓撲等價意味著所涉兩個度量空間必須具有相同數量的連通分支、相同數量的一維環圈,以及更一般地,相同數量的k維“空洞”。利用數據檢測此類特征,正是拓撲數據分析(Topological Data Analysis)領域中持續同調(persistent homology)方法的目的[18, 21]。然而,拓撲結構的內涵遠不止于其同調性質;例如,在轉錄組學應用中(引言及第5.2節),所假設的底層結構呈現出有趣的“樹狀”拓撲,卻不具備有趣的同調特征。
![]()
3.3 平穩性與等距性的關聯
LMM中任一隨機函數 X j
的弱平穩性意味著:
![]()
命題3與命題4的證明見附錄C.1末尾。
3.4 光滑性與低維子空間內集中性的關聯
![]()
![]()
3.5 一個可視化示例
![]()
![]()
![]()
![]()
![]()
![]()
4 方法論
本節利用LMM的性質來解釋并論證第1節中概述的工作流程。關于步驟1的討論將推遲至步驟2討論之后進行。
4.1 通過PCA進行線性降維
![]()
![]()
關于假設A4-A6的討論
![]()
4.2 選擇PCA維度
![]()
![]()
![]()
![]()
圖6c)1-4展示了算法1計算的Wasserstein誤差(對數尺度),維度范圍至 ρ max ? = 30
。可觀察到:當核秩有限時(配置1-3,虛線黑線),最優解大致與真實秩重合;有趣的是,即使在核秩無限的情形(配置4),仍存在非退化解。若降低噪聲水平,最優維度將增大(圖17,附錄),這反映了前述偏差/方差權衡。
為作對比,我們同時展示了基于'ladle'法[74]和'elbow'法[127]的選擇結果(分別通過R包'dimension'(GitHub鏈接:https://github.com/WenlanzZ)和'igraph'(The Comprehensive R Archive Network)實現)。'ladle'法與Wasserstein法選擇結果相似,但計算成本較高(限制了 m a x ( n , p ) = 1000 的模擬規模)。我們不建議在LMM框架下使用'elbow'法進行維度選擇,因其傾向于選擇過低維度。
![]()
![]()
![]()
![]()
4.3 球面投影
在進行數據分析時,我們可能希望考慮假設 f 屬于命題3或4中核函數族之一,因為它們具有平穩性解釋,并且相關的等距性質將支持使用PCA嵌入來恢復 Z 的幾何特征。然而,所有這些核函數都具有以下性質:
![]()
![]()
4.4 最近鄰圖構建
![]()
![]()
![]()
5 示例
![]()
在其名著《探索性數據分析》(Exploratory Data Analysis)[113]中,Tukey 指出刑事司法過程中存在一種廣為接受的分工:“搜尋證據——由警察及其他調查力量負責——與評估證據強度——由陪審團與法官裁決”。依此類比,我們所提出的工作流程旨在前者——即搜尋線索、跡象與表象。在后續示例中,除與均勻模型進行基線比較外,我們并不試圖對所呈證據的強度進行形式化評估。我們認為此類驗證性分析是一項重要但性質不同的任務,需采用不同的技術手段。所用代碼與數據可在此獲取:https://github.com/anniegray52/explore_manifold_hyp
原文鏈接:https://arxiv.org/pdf/2208.11665v5
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.