深度生成式模型試圖把概率論與數(shù)理統(tǒng)計的知 識與強有力的深度神經(jīng)網(wǎng)絡的表示學習能力相結 合, 在最近幾年取得了顯著進步, 是當前主流的深 度學習方向. 本文對深度生成式模型的主要類型進 行了梳理, 給出了模型的構造過程、優(yōu)缺點以及模 型存在的問題. 深度生成式模型雖然大有潛力, 但 也存在很多挑戰(zhàn):
1) 評估指標與評估系統(tǒng) 和判別式模型、基于 矩陣與線性代數(shù)的模型、基于幾何的模型相比, 深 度生成模型存在訓練過程復雜、結構不易理解和使 用、訓練速度慢等問題, 在大規(guī)模數(shù)據(jù)上學習模型 很困難, 在不同的應用領域應該有相應的有效評估 指標和實用的評估系統(tǒng)是急需研究的問題.
2) 不確定性 深度生成模型的動機和構造過程 通常有嚴格的數(shù)學推導, 但在實際過程往往限于求 解的難度不得不進行近似和簡化, 使模型偏離原來 的目標. 訓練好的模型難以在理論上分析透徹, 只 能借助實驗結果反向判斷調整方法, 對生成模型的 訓練造成很大困擾, 是限制模型進一步發(fā)展的重要 因素. 因此了解模型的近似和簡化對模型性能、誤 差和實際應用的影響是發(fā)展生產(chǎn)模型的重要方向
3) 樣本多樣性 如何使深度生成模型生成的圖 像、文本和語音等樣本具有多樣性是一個值得研究 的問題. 度量多樣性最基本的標準是熵, 因而把生 成模型與最大互信息結合的 Info-VAE 和 Info-GAN[121] 等模型既能限制生成模型的靈活性又能提升樣本的 多樣性; 把訓練樣本看作多個概率分布的噪聲混合 后的隨機變量, 提取不同噪聲的特征表示, 得到不 同層次的特征表示, 在訓練目標函數(shù)里顯式地引入 不同的歸納偏置.
4) 泛化能力 機器學習理論認為好的模型要具 有更好的泛化能力. 重新思考深度學習的泛化能力, 從模型復雜性、偏差-方差權衡等觀點, 理論上討論 各種深度生成模型的學習機制, 豐富模型的理論基 礎, 從而真正確立深度生成模型在深度學習中的顯 著地位是值得思考的問題.
5) 更高效的模型結構和訓練方法 代表著最先 進的一批生成模型如 BigGAN、Glow 和 VQ-VAE[60?61] 等已經(jīng)可以生成足夠清晰的圖片樣本, 但這樣的大 型模型背后是遠超常規(guī)的計算量, 是所有大型生成 模型的弊端: 高昂的計算機硬件設備以及長時間的 訓練讓很多人難以進入該領域的前沿研究, 所以更 加高效的模型結構和訓練方法是未來發(fā)展方向之一.
6) 應用領域擴展 深度生產(chǎn)模型的應用范圍相 對較小, 如何將其他深度生成模型的思想以及成果 運用在常見場景中、如何加速與這些領域的融合, 是未來進一步發(fā)展深度生成模型的關鍵方向, 如智 能家居物聯(lián)網(wǎng)和自動駕駛等領域都有待深度生成模 型的使用. 目前生成模型通常用于傳統(tǒng)機器學習和 人工智能專屬領域, 對于工業(yè)生產(chǎn)等其他領域的應 用也有待進一步開發(fā).
7) 生成離散數(shù)據(jù) 如 GAN 等深度生成模型的 訓練依賴于參數(shù)的完全可微, 因此無法直接生成如 獨熱編碼等離散數(shù)據(jù). 這個問題限制了此類深度生 成模型在 NLP 領域的應用, 目前已經(jīng)有初步的解 決辦法, 例如使用 Gumbel-softmax[148]、用連續(xù)函數(shù) 近似[149] 等, 但效果有待進一步提升. 因此研究深度 生成模型生成離散數(shù)據(jù)是提高文本生成能力的關鍵 問題, 是值得深入研究的領域.
8) 度量方法 生成模型可以使用不同的度量方法, 例如 GAN 使用的是 KL 散度和 JS 散度, WGAN 使用 Wasserstein 距離替換了原來的散度, 可以提 升模型的生成能力和訓練穩(wěn)定性. 因此通過理論分 析, 使用新的度量方法可能會進一步提高模型性能。