前言:想要寫出一篇引人入勝的文章?我們特意為您整理了電商企業信用風險預警模型缺失值探究范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:電子商務信用風險評估是建設信用體系的重要環節。在企業電子商務數據采集存在缺失值的情況下,本文比較了BP神經網絡、支持向量機、決策樹、極限學習機以及對應的集成模型在含缺失值預測樣本的魯棒性。實證數據分析結果顯示,極限學習機及其集成模型在上述情況下優于其他模型。
1引言
2019年中國電子商務報告數據顯示,我國的電子商務逐年穩步增長,在國民經濟中的比重越來越大,發揮著重要的經濟和社會作用[1]。但是另一份報告指出信用風險破壞著健康的電子商務交易環境[2],阻礙了電子商務的進一步快速發展。構建信用管理體系,將信用風險納入體系有助于規范和推動電子商務市場。有效的信用風險評估可以提升交易主體的信心,加速商務活動的過程,從而為電商創造更有利的發展環境。電商信用評估模型的建立一般通過指標設計及數據采集、指標篩選以及模型訓練和評估3個基本步驟。目前國內外已有研究顯示[2-7],在電商數據樣本少、維度高以及類別不平衡的情況下,基于機器學習方法的電商信用風險評估模型效果優于傳統的統計方法,能夠有效地評估信用風險。然而建立好的模型僅能在待測樣本所有指標數據完整的情況下工作。在實際情況中,由于數據采集受到企業制度、隱私規范等情況的限制,難以為待評估的企業收集到完整指標數據。此時模型的應用就受到了極大的限制。一個很自然的解決方法就是為含缺失值的樣本補全缺失數據,然后再進行評估。因此,研究待測樣本在常規的缺失值補全方式下模型的魯棒性可以為模型的應用提供有價值的參考,具有重要的實踐意義。現有研究在電商信用風險預測模型中常用的機器學習技術包括反向傳播神經網絡(BPNN)、支持向量機(SVM)、決策樹(DT)以及上述模型的同質集成和異質集成模型。一些研究人員使用神經網絡模型進行信用風險預警等級的預測[2-4],不同的是王新輝使用誤差反向傳播來進行優化[2],ZhangX使用粒子群算法進行優化[3],HuangXB使用廣義回歸神經網絡(GRNN)和概率神經網絡(PNN)[4]。一些研究人員使用SVM作為同質集成模型的基分類器[5-6],不同的是陳云等通過隨機子集模型(RSM)方法集成[5],而周可瀅通過Bagging方法來集成[6]。XuYZ等綜合評估了DT分別與邏輯回歸(LR)、動態貝葉斯網絡(DBN)及神經網絡相結合的模型性能[7],提出了決策樹-神經網絡的組合模型。對樣本缺失數據的填補除了傳統方法外,還有基于統計學習和深度學習的方法。金勇進歸納和介紹了均值填補、回歸填補、多重填補、隨機估計填補和演繹估計填補等傳統的缺失數據填補方法[8]。樸范玉使用自動編碼器通過完整數據學習了待填補的數據特征[9],再通過學習好的自動編碼器完成數據的填補。孟杰使用隨機森林模型來完成調查問卷缺失數據的填補[10]。曹衛權研究了機器學習中的數據特征[11],提出了一種近似填補方法。張網娟則在卷積神經網絡模型的背景下研究了缺失數據的填補方法[12]。由于基于統計學習和機器學習的方法需要獲得數據分布的先驗假設,直接應用在電商數據少量樣本的場景下容易造成嚴重的數據偏差,因此本文擬采用最常用和傳統的均值填補方法。與以往為了改善模型性能的缺失數據填補不同,本文研究訓練好的模型對含缺失值待測樣本的影響。現有的機器學習算法在超參數的選擇下幾乎都可以達到良好的一致的效果,但是在預測樣本含缺失值的情況下可能造成不同的性能下降,即對含缺失值樣本有不同的魯棒性。本文研究在電商模型中不同的機器學習模型,使用常規均值填補的缺失值預測樣本情況下的魯棒性。
2對比模型及缺失值填補方法
2.1對比模型
在電商信用評估中常用的機器學習模型有BPNN、SVM和DT。為了進一步評估不同的模型,本文將極限學習機(ELM)加入對比模型。除了以上四種模型以外,考慮到集成學習可以降低模型的偏差,進一步增強模型在不同場景下的泛化能力,更加準確和公正地評估模型的性能[13],本文將以上四個模型作為基分類器進行同質的集成學習,對多個基分類器的結果使用相對多數投票法的結合策略,然后進一步比較性能。BPNN是一種分層的非線性映射網絡結構[14]。其輸入數據通過網絡權重的線性變換后,再由具備非線性能力的激活函數映射后輸出,根據輸出預測值與真值之間的誤差逆向傳播來更新網絡權重達到優化模型的目的。BPNN可用于回歸和分類,在分類任務中通常在輸出層使用Softmax函數進行歸一化,誤差由交叉熵來表達。SVM通過尋找能使二類樣本間的最大間隔超平面來建立模型[15],一般通過SMO等優化技術來求解。SVM可以將樣本經過核函數映射到希爾伯特空間后再計算超平面以獲得非線性的類決策邊界。SVM經過“一對多”、“一對一”等訓練方式拓展后可以應用于多分類任務。DT依據屬性值的不同來以樹狀結構按樣本屬性劃分樣本類別[16]。劃分屬性的選擇基準為信息熵、基尼系數等信息度量。當樹狀結構的葉子結點類別一致或屬性值一致時停止算法。ELM使用的結構與神經網絡相似[17],在求解方法和思想上有較大的區別。ELM首先通過線性變換結合非線性的激活函數將訓練樣本隨機投影到新的空間,在新的空間內直接求解使得投影后的樣本與真值之間最小誤差的線性變換矩陣。由于投影的隨機性和直接計算解析解,ELM求解速度快,其泛化能力在一定程度上優于BPNN。
2.2無類別先驗均值填補方法
使用類均值補全缺失值,即使用該樣本所屬類別在該屬性值上的均值代替缺失值,并以此參與模型訓練和預測。但是在本文的場景中缺失值的樣本為待測樣本,未知其類別,也就無法使用對應類別的屬性均值代替缺失值。因此,本文使用各個類別的均值分別替代缺失值后,再對補全缺失值的樣本進行預測。即若模型為k分類問題,則每一個待測樣本需要使用k個類的均值分別代替補全,每一個待測樣本會產生k個補全后的樣本。通過補全后的測試集樣本數量為原測試集樣本的k倍。由于補全缺失值后的樣本受到所填補的非所屬類均值數據的干擾,會造成原有模型在測試準確率上的下降,因此可以通過模型在補全后的樣本測試集上測試準確率來判斷模型對缺失值預測樣本的魯棒性。
3實證研究及其分析
3.1數據來源及其指標體系
本文采用王新輝建立的指標體系及其調研的18家企業數據[2],使用該體系中的全部19個指標作為研究的數據來源。王新輝首先根據19個指標間的相關系[2],使用主成分分析法選擇出13個重要指標,然后根據這些指標和專家打分劃分出不同的信用風險等級,最后使用BPNN訓練得到模型。本文為了降低類別不平衡問題對模型魯棒性造成的影響,綜合考慮實踐的信用風險預警等級情況,將數據集重新劃分為以下3個等級,對應的預警等級和分值范圍為:無風險預警A(70-100),低風險預警B(40-69),風險預警C(0-39)。此時原始數據中的18家企業信用風險分值和風險預警等級如表1所示。根據表1,本文取前13家企業為訓練樣本,后5家為測試樣本。然后對5個測試樣本假設為缺失值樣本,為了平衡對比模型各個屬性上的差異,樣本中的各個屬性都假設為缺失值,這樣每一個待測樣本都產生19個測試樣本。這19個樣本分別對應著19個屬性缺失值。按照上述的假設,測試集共有5*19=95個樣本,在每一個屬性上缺失值樣本各5個。對這95個含缺失值的預測樣本使用無先驗的類均值填補方法,每一個預測樣本需要分別填補3次,對應3個類別的預警級別,最終在類別上無先驗,屬性值上均衡的測試集樣本數量共有95*3=285個測試樣本。
3.2模型參數選擇及實驗設置
模型中的各個參數選擇通過交叉驗證來選擇。在BPNN模型中,使用單隱層結構,隱層的結點數量為5個,激活函數為Sigmoid函數,優化方法采用L-BFGS算法,收斂條件為誤差小于0.001或迭代達到最大次數。在SVM模型中,使用RBF徑向基函數為核函數,其核寬度參數為1/19,懲罰因子C為1,收斂條件為誤差小于0.001或迭代達到最大次數。若在集成時,則參數C和核寬度在一定范圍內隨機抽樣以增加多樣性。在DT模型中,使用信息熵增益。在ELM模型中,隱層結點數選擇為7個結點,激活函數同樣設置為Sigmoid函數。在檢測基分類器的效果時,每個模型各運行500次取測試準確率平均值作為比較;在檢測集成模型的效果時,使用500個基學習器進行相對多數投票法來預測最終分類結果,每個集成模型運行10次,取準確率均值作為度量比較模型效果。
3.3實驗結果及分析
不同的基分類器運行500次后準確率的平均值如圖1所示。每組數據左邊代表原始數據集上的準確率,右邊代表含缺失值的預測樣本準確率。可以明顯地發現,含缺失值的預測樣本準確率明顯低于原始數據集。同時還可以發現以下結論:SVM分類器的準確率明顯高于其他分類器;ELM對缺失值的魯棒性最好,模型準確率下降的幅度最少。這說明SVM在小規模的數據集上訓練得到的模型具備更好的泛化能力,而ELM由于進行了隨機投影,因此更不容易受到缺失值的影響。使用不同數量的基分類器進行集成的模型效果如圖2所示。圖2所展示的是含缺失值預測數據集的準確率。從圖中可以明顯看出,ELM為基分類器的集成模型明顯高于其他模型。當基分類器的數量達到一定程度時,模型的預測效果較為穩定。根據圖2的結論,集成分類器的數量設置為500。使用500個基分類器的集成模型運行10次后,以及單個基分類器運行500次后的原始數據集準確率和含缺失值樣本的測試數據集準確率的平均值如圖3所示。從圖中展示的結果可以看出:(1)以ELM為基分類器的集成模型無論在原始測試集和含缺失值的測試集中都具備最高的準確率,表明在小樣本高維度的情況下,ELM的隨機投影能夠充分挖掘數據內部聯系,提高模型的泛化能力。(2)以ELM為基分類器的集成模型在原始測試集和含缺失值測試集上的準確率一致,沒有下降,表明集成的ELM模型對含缺失值測試集具備良好的魯棒性。(3)除了SVM外的其他模型,通過集成后都提高了其模型在原始測試集和含缺失值測試上的準確率。(4)SVM在集成后幾乎沒有提高準確率。這可能是在小樣本情況下,不同基分類器所學習到的支持向量幾乎一致,因此難以在集成學習下進一步提高準確率。
4結語
本文以電子商務企業信用風險預警為背景,研究了基于BPNN、SVM、DT以及ELM模型的分類器在含缺失值的預測樣本情況下的魯棒性。實證分析顯示,ELM在魯棒性方面表現優于其他類型的分類器。以ELM為基分類器的集成模型不僅在魯棒性方法同樣優于其他模型,在集成后的模型中也達到了最好的準確率。本文所設計的無類別先驗的均值補全方法所生成的測試集與實際情況下的含缺失值樣本還存在著差異,今后考將慮從實際情況出發進一步驗證不同模型的魯棒性。
作者:陳艷 蔣偉杰 單位:福州大學至誠學院經濟管理系 福州大學數學與計算機科學學院