前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展主題范文,僅供參考,歡迎閱讀并收藏。
關(guān)鍵詞: 模式識(shí)別; 神經(jīng)網(wǎng)絡(luò); 卷積; 文字識(shí)別
中圖分類號(hào): TN711?34; TP391.4 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2014)20?0019?03
Large pattern online handwriting character recognition based on multi?convolution neural network
GE Ming?tao1, WANG Xiao?li1, PAN Li?wu2
(1. SIAS International School, Zhengzhou University, Zhengzhou 451150, China;
2. Henan University of Animal Husbandry and Economy, Zhengzhou 450011, China)
Abstract: Online handwriting character recognition is an important field in the research of pattern recognition. The traditional recognition method is based on the common convolutional neural networks (CNNs) technology. It has an efficient recognition rate for the small pattern character set online handwriting characters, but has low recognition rate for the large pattern character set recognition. A recognition method based on multi?convolutional neural networks (MCNNs) is presented in this paper to overcome the situation that the previous methods have the low recognition rate for large pattern character set and improve the recognition rate for the large pattern handwriting character set recognition. The stochastic diagonal Levenbert?Marquardt method is used in the system for training optimization. The experimental results show that the proposed method has the recognition rate of 89% and has a good prospect for online handwriting character recognition for large scale pattern.
Keywords: pattern recognition; neural network; convolution; character recognition
0 引 言
隨著全球信息化的飛速發(fā)展和對(duì)自動(dòng)化程度要求的不斷提高 ,手寫(xiě)文字識(shí)別技術(shù)被廣泛地應(yīng)用到許多方面。特別是近幾年擁有手寫(xiě)功能的手機(jī)、平板電腦等智能電子產(chǎn)品的普及,聯(lián)機(jī)手寫(xiě)文字識(shí)別研究已經(jīng)成為一個(gè)備受關(guān)注的主題。聯(lián)機(jī)手寫(xiě)字符識(shí)別要求實(shí)時(shí)性較高,識(shí)別過(guò)程中要求特征空間的維數(shù)比較高,在進(jìn)行特征樣本訓(xùn)練時(shí)要求訓(xùn)練的數(shù)目很大,要匹配的特征值或特征對(duì)象比較多 [1?2]。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNNs)的優(yōu)點(diǎn)在于圖像的識(shí)別過(guò)程中對(duì)視覺(jué)模式的獲得是直接從原始圖像中獲得的,所以在設(shè)計(jì)系統(tǒng)時(shí)圖像的預(yù)處理工作很少,與一般神經(jīng)網(wǎng)絡(luò)相比是一種高效的識(shí)別方法。卷積神經(jīng)網(wǎng)絡(luò)在模式識(shí)別的一些領(lǐng)域具有很好的魯棒性,如在識(shí)別有變化的模式和對(duì)幾何變形的識(shí)別方面。利用卷積神經(jīng)網(wǎng)絡(luò)的手寫(xiě)識(shí)別方法具有如下一些優(yōu)點(diǎn):對(duì)于要檢測(cè)的圖像可以與事先制定網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)之間有較高的匹配率;特征提取和模式分類同時(shí)進(jìn)行;訓(xùn)練參數(shù)往往是系統(tǒng)計(jì)算量的重要參數(shù),而卷積神經(jīng)網(wǎng)絡(luò)中利用權(quán)值共享技術(shù),這樣就可以大大降低該參數(shù),在設(shè)計(jì)系統(tǒng)結(jié)構(gòu)時(shí)使得結(jié)構(gòu)變得更簡(jiǎn)單,從而使得整個(gè)系統(tǒng)具有更好的適應(yīng)性[3?5]。
目前,人機(jī)交互系統(tǒng)的手寫(xiě)字符識(shí)別、汽車車牌號(hào)識(shí)別和信息安全中常用的人臉識(shí)別等領(lǐng)域都有卷積神經(jīng)網(wǎng)絡(luò)的成功應(yīng)用。文獻(xiàn)[6]用一個(gè)4層的卷積神經(jīng)網(wǎng)絡(luò)LeNet?5對(duì)Mnist庫(kù)進(jìn)行識(shí)別實(shí)驗(yàn),獲得了98.4%的識(shí)別率,用2層的BP網(wǎng)絡(luò)的識(shí)別率[4,6]是87%。許多學(xué)者對(duì)卷積神經(jīng)網(wǎng)絡(luò)在聯(lián)機(jī)手寫(xiě)文字識(shí)別方面做了多方位的研究。 但是,這些成功的聯(lián)機(jī)手寫(xiě)文字識(shí)別主要是針對(duì)小模式字符集,利用以往的這些方法對(duì)大規(guī)模模式分類的聯(lián)機(jī)手寫(xiě)文字的識(shí)別依然有識(shí)別率不高的問(wèn)題。本文介紹了卷積神經(jīng)網(wǎng)絡(luò)的基本概念和一種典型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),給出了基于多重卷積神經(jīng)網(wǎng)絡(luò)的字符識(shí)別和詞語(yǔ)識(shí)別模型。通過(guò)使用大字符集的UNIPEN數(shù)據(jù)庫(kù)進(jìn)行訓(xùn)練和測(cè)試,本文提出的方法在大模式聯(lián)機(jī)手寫(xiě)識(shí)別上,取得了較高的識(shí)別速度和滿意的識(shí)別率。
1 卷積神經(jīng)網(wǎng)絡(luò)
文獻(xiàn)[6?7]中詳細(xì)地描述了卷積神經(jīng)網(wǎng)絡(luò)如何保證圖像對(duì)位移、縮放、扭曲魯棒性能。典型的手寫(xiě)字符卷積神經(jīng)網(wǎng)絡(luò)LeNET 5的結(jié)構(gòu)圖如圖1所示[6?7]。
圖1 典型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
在圖1中,輸入層接收要識(shí)別32×32的手寫(xiě)字符圖像,經(jīng)過(guò)簡(jiǎn)單的大小歸一化和圖像灰度處理,之后的結(jié)果作為一個(gè)采樣層的圖像;然后用一個(gè)可學(xué)習(xí)核進(jìn)行卷積操作,卷積結(jié)果經(jīng)過(guò)激活函數(shù)的輸出形成這一層的神經(jīng)元,每個(gè)神經(jīng)元與輸入圖像的一個(gè)5×5的鄰域相連接,從而得到由6幅特征圖組成的第一個(gè)隱層(C1層)。每個(gè)特征圖有25個(gè)權(quán)值(如方向線段,端點(diǎn)、角點(diǎn)等),考慮到邊界效果,得到的特征圖的大小是28×28,小于輸入圖層[3?9]。卷積層的數(shù)學(xué)計(jì)算過(guò)程可表示為:
[xlj=fi∈Mjxl-1j*kernellij+blj] (1)
式中:[l] 代表層數(shù);kernel是卷積核;[Mj]代表輸入特征圖的一個(gè)選擇。每個(gè)輸出圖有一個(gè)偏置[b]。
每個(gè)卷積層的結(jié)果作為下一個(gè)次采樣層的輸入,次采樣層的作用是對(duì)輸入信息進(jìn)行抽樣操作。如果輸入的特征圖為n個(gè),則經(jīng)過(guò)次采樣層后特征圖的個(gè)數(shù)仍然為n,但是輸出的特征圖要變小(例如,各維變?yōu)樵瓉?lái)的50%)。因此隱層S2是由6個(gè)大小為14×14的特征圖組成的次采樣層。次采樣層計(jì)算公式可以用式(2)表示:
[xlj=fβl-1jdown(xl-1j)+blj] (2)
式中down(?) 表示次采樣函數(shù)。次采樣函數(shù)一般是對(duì)該層輸入圖像的一個(gè)n×n大小的區(qū)域求和,因此,輸出圖像的大小是輸入圖像大小的[1n]。每一個(gè)輸出的特征圖有自己的β和b。
類似的,C3層有16個(gè)10×10的特征圖組成的卷積層,特征圖的每個(gè)神經(jīng)元與S2網(wǎng)絡(luò)層的若干個(gè)特征圖的5×5的鄰域連接。網(wǎng)絡(luò)層S4是由16個(gè)大小為5×5的特征圖組成的次采樣層。特征圖的每個(gè)神經(jīng)元與C3層的一個(gè)2×2大小的鄰域相連接。網(wǎng)絡(luò)層C5是由120個(gè)特征圖組成的卷積層。每個(gè)神經(jīng)元與S4網(wǎng)絡(luò)層的所有特征圖的5×5大小的鄰域相連接。網(wǎng)絡(luò)層F6,包括84個(gè)神經(jīng)元,與網(wǎng)絡(luò)層C5進(jìn)行全連接。最后,輸出層有10個(gè)神經(jīng)元,是由徑向基函數(shù)單元(RBF)組成,輸出層的每個(gè)神經(jīng)元對(duì)應(yīng)一個(gè)字符類別。RBF單元的輸出yi的計(jì)算方法如式(3)所示:
[yi=j(xj-wij)2] (3)
很多研究人員通過(guò)對(duì)字符集作彈性訓(xùn)練,經(jīng)測(cè)試發(fā)現(xiàn)在MNIST字符集上的識(shí)別率可以高達(dá)99%以上[6?7] 。卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)主要是對(duì)小模式集上,如對(duì)數(shù)字或26個(gè)英文字母組成的集合都有著較高的識(shí)別率。然而,對(duì)大模式集的識(shí)別仍然是一個(gè)挑戰(zhàn),因?yàn)樵O(shè)計(jì)一個(gè)優(yōu)化的并足夠大的單一網(wǎng)絡(luò)是比較困難的,且訓(xùn)練時(shí)間也較長(zhǎng)。因此,本文的目的旨在通過(guò)組合多個(gè)對(duì)某一字符集有高識(shí)別率的卷積神經(jīng)網(wǎng)絡(luò),從而構(gòu)成多重卷積神經(jīng)網(wǎng)絡(luò),進(jìn)而提高卷積神經(jīng)網(wǎng)絡(luò)對(duì)大模式集手寫(xiě)字符的識(shí)別率。
2 多重卷積神經(jīng)網(wǎng)絡(luò)
2.1 多重卷積神經(jīng)網(wǎng)絡(luò)字符識(shí)別
根據(jù)傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的運(yùn)算過(guò)程以及其在處理大模式集手寫(xiě)字符時(shí)存在的不足,本文提出一種多重卷積神經(jīng)網(wǎng)絡(luò)來(lái)改進(jìn)傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型,用多個(gè)擁有高識(shí)別率的小卷積神經(jīng)網(wǎng)絡(luò)組成一個(gè)多重卷積神經(jīng)網(wǎng)絡(luò)。每一重小卷積神經(jīng)網(wǎng)絡(luò)對(duì)某一具體字符集有較高的識(shí)別率,另外,單重卷積神經(jīng)網(wǎng)絡(luò)除了有一個(gè)正式的輸出集之外,還產(chǎn)生一個(gè)未知的輸出(即難以識(shí)別的字符),即如果一個(gè)輸入字符沒(méi)有被正確識(shí)別,它將被輸出為一個(gè)未知字符,然后輸入模式轉(zhuǎn)到下一重卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別。最后,通過(guò)一個(gè)拼寫(xiě)檢查模塊進(jìn)行判斷,選擇最好的結(jié)果輸出。系統(tǒng)的流程如圖2所示。
其中CNN 1是識(shí)別手寫(xiě)數(shù)字的卷積神經(jīng)網(wǎng)絡(luò),CNN 2是識(shí)別手寫(xiě)小寫(xiě)英文字母的卷積神經(jīng)網(wǎng)絡(luò),該模型具有極強(qiáng)的擴(kuò)展性,可以添加多任意模式的卷積神經(jīng)網(wǎng)絡(luò)(如中文,日文等)。
圖2 多重卷積神經(jīng)網(wǎng)絡(luò)字符識(shí)別示意圖
2.2 隨機(jī)對(duì)角Levenberg?Marquardt訓(xùn)練方法
傳統(tǒng)的結(jié)構(gòu)比較簡(jiǎn)單、單一的卷積神經(jīng)網(wǎng)絡(luò)多采用基本的Back Propagation(BP)規(guī)則訓(xùn)練網(wǎng)絡(luò),往往需要幾百次迭代,網(wǎng)絡(luò)的收斂速度較慢。本文采用LeCun博士提出的隨機(jī)對(duì)角Levenberg?Marquardt 算法對(duì)網(wǎng)絡(luò)作訓(xùn)練,該算法需要的迭代次數(shù)明顯比基本的BP 算法少[4,9]。隨機(jī)對(duì)角Levenberg?Marquardt算法的公式為:
[ηki=ε?2E?w2ij+μ] (4)
式中[ε]是全局的學(xué)習(xí)率,一般取初始值0.01,太大會(huì)使網(wǎng)絡(luò)無(wú)法收斂,太小則會(huì)降低收斂速度,且使網(wǎng)絡(luò)更容易陷入局部極小值,訓(xùn)練過(guò)程中可以用啟發(fā)式規(guī)則改變[ε]的值,本文取最下值為5e-005; [?2E?w2ij]是一個(gè)估計(jì)值,根據(jù)訓(xùn)練集的大小可以調(diào)整樣本數(shù)量,文中隨機(jī)選取200個(gè)樣本估算它的值;[μ]用來(lái)避免[?2E?w2ij] 太小時(shí)[ηki]的變化過(guò)大 。
2.3 多重卷積神經(jīng)網(wǎng)絡(luò)詞句識(shí)別
本文提出的多重卷積神經(jīng)網(wǎng)絡(luò)對(duì)手寫(xiě)詞語(yǔ)的識(shí)別方法可以簡(jiǎn)單地描述為:首先對(duì)輸入的手寫(xiě)圖像進(jìn)行預(yù)處理和分割,然后通過(guò)多重卷積神經(jīng)網(wǎng)絡(luò)模塊分別進(jìn)行識(shí)別,最后采用單詞識(shí)別模塊對(duì)識(shí)別結(jié)果進(jìn)行判斷,選擇最好的結(jié)果輸出。其過(guò)程如圖3所示。
圖3 多重卷積神經(jīng)網(wǎng)絡(luò)聯(lián)機(jī)手寫(xiě)詞句識(shí)別過(guò)程
本文提出的多重卷積神經(jīng)網(wǎng)絡(luò)聯(lián)機(jī)手寫(xiě)文字識(shí)別方法克服了傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)文字識(shí)別的對(duì)字符集的限制,每一重卷積神經(jīng)網(wǎng)絡(luò)是一個(gè)針對(duì)小模式的卷積神經(jīng)網(wǎng)絡(luò),易于訓(xùn)練和優(yōu)化,更重要的是此方案的靈活性非常好易于調(diào)節(jié)參數(shù),可擴(kuò)展性強(qiáng)。每一重卷積神經(jīng)網(wǎng)絡(luò)都具有可重用能力,可以根據(jù)需要加載一個(gè)或多個(gè)網(wǎng)絡(luò),可以根據(jù)新的模式添加新的網(wǎng)絡(luò)而不需改變或重建原來(lái)的網(wǎng)絡(luò)。
3 訓(xùn)練和實(shí)驗(yàn)
為了評(píng)估多重卷積神經(jīng)網(wǎng)絡(luò)對(duì)基于大模式字符集的聯(lián)機(jī)手寫(xiě)文字識(shí)別的性能,本系統(tǒng)采用MNIST和UNIPEN兩種不同的手寫(xiě)字符訓(xùn)練集進(jìn)行測(cè)試。UNIPEN數(shù)據(jù)庫(kù)是在1992年舉行的IEEE IAPR會(huì)議上提出并建立的,其目的是創(chuàng)建一個(gè)大型的手寫(xiě)體數(shù)據(jù)庫(kù)用于為在線手寫(xiě)識(shí)別提供研究和開(kāi)發(fā)的基礎(chǔ),得到了多個(gè)知名公司或研究所的支持并完成了UNIPEN的規(guī)范設(shè)計(jì)。在進(jìn)行數(shù)據(jù)比對(duì)實(shí)驗(yàn)中,本文采用許多研究使用的MNIST手寫(xiě)數(shù)字?jǐn)?shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)是NEC 研究中心設(shè)計(jì)的,是NIST(The National Institute of Standards and Technology)數(shù)據(jù)庫(kù)的一個(gè)子集,該訓(xùn)練集中有大量訓(xùn)練樣本和測(cè)試用例。本文默認(rèn)用以下定義:
[識(shí)別率=正確識(shí)別數(shù)樣本總數(shù)×100%]
[失誤率誤識(shí)率=錯(cuò)誤識(shí)別數(shù)樣本總數(shù)×100%]
實(shí)驗(yàn)測(cè)試是在通用的臺(tái)式電腦上進(jìn)行的。整個(gè)識(shí)別原型系統(tǒng)采用C#編寫(xiě),運(yùn)行在.NetFrame 4.5平臺(tái)上。經(jīng)測(cè)試對(duì)MNIST訓(xùn)練集識(shí)別正確率可達(dá)[9]99%,對(duì)UNIPEN數(shù)字識(shí)別正確率可達(dá)97%,對(duì)UNIPEN數(shù)字和大寫(xiě)字母識(shí)別正確率可達(dá)89%(1a,1b) ,對(duì)UNIPEN小寫(xiě)字母識(shí)別正確率可達(dá)89%(1c) 。圖4是對(duì)UNIPEN小寫(xiě)字母3次訓(xùn)練的均方誤差比較。
圖4 訓(xùn)練的誤差數(shù)據(jù)
從圖4中可以看出,在開(kāi)始的幾個(gè)訓(xùn)練周期內(nèi),均方誤差(MSE)下降得很快,然后在第13個(gè)周期后神經(jīng)網(wǎng)絡(luò)達(dá)到一個(gè)穩(wěn)定的值,約為0.148 5。也就是說(shuō),網(wǎng)絡(luò)在第13個(gè)周期后,改善程度就很小。所以修改訓(xùn)練錯(cuò)誤率的值為0.000 45后重新進(jìn)行18代的第二次訓(xùn)練,均方誤差有所降低。經(jīng)過(guò)第三次的訓(xùn)練后趨于穩(wěn)定,對(duì)UNIPEN小寫(xiě)字母識(shí)別正確率可達(dá)89%。經(jīng)測(cè)試,通過(guò)使用隨機(jī)對(duì)角Levenberg?Marquardt方法,收斂速度比基本BP算法快了許多,經(jīng)過(guò)68代訓(xùn)練后識(shí)別正確率可達(dá)89%。
4 結(jié) 語(yǔ)
本文提出了基于多重卷積神經(jīng)網(wǎng)絡(luò)的聯(lián)機(jī)手寫(xiě)字符的識(shí)別方法,通過(guò)使用多個(gè)識(shí)別率高的卷積神經(jīng)網(wǎng)絡(luò)和隨機(jī)對(duì)角 Levenberg? Marquardt方法,可以適用于大模式聯(lián)機(jī)手寫(xiě)識(shí)別。經(jīng)過(guò)實(shí)驗(yàn)數(shù)據(jù)比較,該方法在大模式聯(lián)機(jī)手寫(xiě)識(shí)別過(guò)程中具有很高的識(shí)別率,與此同時(shí)識(shí)別速度也很快,有很好的實(shí)時(shí)性,總體效果很好。在當(dāng)今觸摸屏應(yīng)用遍及生產(chǎn)生活的各個(gè)方面的趨勢(shì)下,該方法有著廣闊的應(yīng)用前景。同時(shí)此方法為今后多手寫(xiě)漢字識(shí)別的研究提供了很好的借鑒。
注:本文通訊作者為潘立武。
參考文獻(xiàn)
[1] 吳鳴銳,張鈸.一種用于大規(guī)模模式識(shí)別問(wèn)題的神經(jīng)網(wǎng)絡(luò)算法[J].軟件學(xué)報(bào),2001,12(6):851?855.
[2] 張輝.大規(guī)模聯(lián)機(jī)手寫(xiě)漢字識(shí)別數(shù)據(jù)庫(kù)整理、統(tǒng)計(jì)與實(shí)驗(yàn)分析[D].廣州:華南理工大學(xué),2012.
[3] 徐姍姍,劉應(yīng)安,徐,等.基于卷積神經(jīng)網(wǎng)絡(luò)的木材缺陷識(shí)別[J].山東大學(xué)學(xué)報(bào):工學(xué)版,2013,43(2):23?28.
[4] 呂剛.基于卷積神經(jīng)網(wǎng)絡(luò)的多字體字符識(shí)別[J].浙江師范大學(xué)學(xué)報(bào):自然科學(xué)版,2011,34(4):425?428.
[5] PHAM D V. Online handwriting recognition using multi convolution neural networks [M]. Berlin Heidelberg: Springer, 2012: 310?319.
[6] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient?based learning applied to document recognition [C]// Proceeding of IEEE. USA: IEEE, 1998: 2278?2324.
[7] SIMARD P Y, STEINKRAUS Dave, PLATT John. Best practices for convolutional neural networks applied to visual document analysis [C]// International Conference on Document Analysis and Recognition (ICDAR). Los Alamitos: IEEE Computer Society, 2003: 958?962.
【關(guān)鍵詞】壓縮緊鄰 字符識(shí)別 正確率
1 研究背景
樣本選擇是從原有的樣本集中某一種選擇方式來(lái)選出樣本子集,是一個(gè)能加快數(shù)據(jù)處理效率,可以節(jié)省存儲(chǔ)資源并且保證不降低分類性能的可靠方法。樣本選擇和特征選擇在某些方面上有相似之處,一般都是與具體分類預(yù)測(cè)方法相關(guān)聯(lián)。字符識(shí)別是模式識(shí)別中一類熱門(mén)的研究問(wèn)題,本文將利用樣本選擇方法結(jié)合深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行字符識(shí)別。
2 加權(quán)壓縮近鄰方法
基于壓縮近鄰的樣本選擇方法具有擁有降低存儲(chǔ)、縮短運(yùn)算等特點(diǎn)。郝紅衛(wèi)等人在此基礎(chǔ)上提出了加權(quán)壓縮近鄰規(guī)則,針對(duì)那些未被選中的邊緣樣本,可以重復(fù)數(shù)次對(duì)壓縮近鄰的過(guò)程,從而確保樣本數(shù)據(jù)均能夠被選上。對(duì)于中心樣本也能被保留的問(wèn)題,通過(guò)對(duì)樣本加權(quán)評(píng)估、再次選擇的方式來(lái)解決。在選擇的過(guò)程中可以根據(jù)實(shí)驗(yàn)需要進(jìn)行樣本數(shù)量進(jìn)行控制,稱之為加權(quán)壓縮近鄰規(guī)則(Weighted Condensed Nearest Neighbor)。
該算法是通過(guò)壓縮近鄰規(guī)則過(guò)程的循環(huán)保證子集P中有足夠多的邊界樣本,但是其中仍存在大量的冗余,我們依據(jù)投票的原則對(duì)子集P中樣本的代表性進(jìn)行評(píng)估并且再次選擇。其具體過(guò)程是對(duì)于U中的每個(gè)樣本x找出P中距離最接近的樣本xi,如果x和xi的類別是相同的,那么投xi一票。樣本獲得的票數(shù)最高,說(shuō)明它最具有代表性。根據(jù)投票的實(shí)際情況和樣本的數(shù)量來(lái)得到最終的子集A。用加權(quán)壓縮近鄰規(guī)則獲得的子集比壓縮近鄰規(guī)則得到的子集包含更少的冗余樣本和更多的具有代表性樣本,同時(shí)還可以根據(jù)實(shí)驗(yàn)來(lái)控制子集中所含有的樣本數(shù)。
3 實(shí)驗(yàn)結(jié)果與分析
本次實(shí)驗(yàn)分別使用MNIST和USPS手寫(xiě)體識(shí)別庫(kù)作為訓(xùn)練和測(cè)試樣本集。
實(shí)驗(yàn)平臺(tái)采用英特爾酷睿i5-4430CPU 3.00GHz,8GB內(nèi)存,Windows10操作系統(tǒng),Matlab R2010b。我們?cè)O(shè)定隨機(jī)選擇和壓縮近鄰選取MNIST中樣本數(shù)目為6600個(gè),樣本壓縮比為10%,USPS庫(kù)中選取樣本數(shù)目為1767個(gè),樣本壓縮比為20.34%。設(shè)置深度卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練次數(shù)設(shè)為100次。
算法給出了基于壓縮近鄰和BP神經(jīng)網(wǎng)絡(luò)手寫(xiě)體字符識(shí)別結(jié)果。通過(guò)融合壓縮近鄰規(guī)則選取樣本和BP神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn),在訓(xùn)練時(shí)間上雖然沒(méi)有融合隨機(jī)選取樣本和深度卷積網(wǎng)絡(luò)實(shí)驗(yàn)短,但是在時(shí)間上并沒(méi)有很大幅度延長(zhǎng)。在實(shí)驗(yàn)的識(shí)別錯(cuò)誤率上,MNIST庫(kù)中比隨機(jī)選擇實(shí)驗(yàn)提升了1.52%,分類效果提升明顯。可見(jiàn)壓縮近鄰方法可以選擇到更好的代表性樣本。這兩組數(shù)據(jù)依然說(shuō)明了壓縮近鄰對(duì)樣本選擇的可靠性。表1給出了基于壓縮近鄰和卷積神經(jīng)網(wǎng)絡(luò)的手寫(xiě)體字符識(shí)別結(jié)果。
4 總結(jié)
本文主要介紹了基于壓縮近鄰的樣本選擇方法。樣本選擇的提出是為了有效減少樣本數(shù)量,并且保證不降低訓(xùn)練精確度。在實(shí)驗(yàn)中進(jìn)行驗(yàn)證,通過(guò)壓縮近鄰規(guī)則選取樣本和深度卷積神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn),證明其能夠減少訓(xùn)練樣本,提升訓(xùn)練速度,降低存儲(chǔ)空間還可以提高識(shí)別正確率。
參考文獻(xiàn)
[1]郝紅衛(wèi),蔣蓉蓉.基于最近鄰規(guī)則的神經(jīng)網(wǎng)絡(luò)訓(xùn)練樣本選擇方法[J].自動(dòng)化學(xué)報(bào),2007,33(12):1247-1251.
[2]姜文瀚.模式識(shí)別中的樣本選擇研究及其應(yīng)用[D].南京理工大學(xué),2008.
[3]余凱,賈磊,陳雨強(qiáng).深度學(xué)習(xí)的昨天、今天和明天[J].計(jì)算機(jī)研究與發(fā)展,2013,50(09):1799-1804.
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí);年齡分類
0引言
人臉作為人類個(gè)體鮮明顯著的生物特征之一,包含著豐富的個(gè)人信息。隨著計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,相關(guān)的人臉識(shí)別等技術(shù)已成為這些項(xiàng)目任務(wù)的熱點(diǎn)課題,并在法醫(yī)、電子化客戶關(guān)系管理、安防、生物識(shí)別和娛樂(lè)影音等諸多領(lǐng)域中得到廣泛應(yīng)用。人臉除了可進(jìn)行身份認(rèn)證和識(shí)別外,還可以提取出性別、種族和年齡等信息,特別是可以將年齡及分布特征用于人機(jī)交互和商業(yè)智能等應(yīng)用中,因此年齡估計(jì)研究具有重要的科學(xué)意義和實(shí)用價(jià)值。
相對(duì)于人臉識(shí)別,人臉?biāo)鼙碚鞯哪挲g信息要受到很多因素的影響,例如不同個(gè)體的基因差異、生活習(xí)慣、環(huán)境、抗壓能力、健康情況和種族差別等有很大的關(guān)系。同時(shí),相同個(gè)體因發(fā)型、化妝和表情的不同也會(huì)影響年齡的估計(jì)。因此,如果要基于傳統(tǒng)的分類算法(如支持向量機(jī))并利用人臉圖像信息來(lái)進(jìn)行年齡分類將很難得到理想的結(jié)果。針對(duì)這些問(wèn)題,目前的研究還相對(duì)不足,如果能有效解決上述問(wèn)題,對(duì)大部分潛在的應(yīng)用領(lǐng)域也都將帶來(lái)深刻的影響。
1相關(guān)工作
年齡分類的主要流程是先根據(jù)人臉圖像獲取特征,再通過(guò)機(jī)器學(xué)習(xí)方法構(gòu)建模型,通過(guò)把年齡分為多個(gè)年齡區(qū)段,即每個(gè)年齡段對(duì)應(yīng)一個(gè)類別(比如未成年或成年人等)。因此可以把年齡分類看成是一個(gè)二分類或者多分類的分類問(wèn)題來(lái)進(jìn)行求解。1994年,Kwon和Lobo則從人臉圖像中獲取年齡分類,把人分為3種不同的類別,也就是兒童、青年人和老年人,強(qiáng)調(diào)重要特征點(diǎn)的選擇。2002年Lanitis等人提出了能自動(dòng)對(duì)年齡實(shí)現(xiàn)估計(jì)的年齡量化方法。而且,王先梅等的綜述中也整體梳理了相關(guān)年齡估計(jì)技術(shù)的研究發(fā)展。王紹宇等人還基于SMV采用生物特征對(duì)人進(jìn)行分類,分為小孩和成人。此外在2016年,董遠(yuǎn)等人更將遷移學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)用于人的年齡和性別分類。
黑科技?神經(jīng)網(wǎng)絡(luò)是個(gè)什么鬼
說(shuō)到神經(jīng)網(wǎng)絡(luò),很多朋友都會(huì)認(rèn)為這是一個(gè)高大上的概念。從生物學(xué)角度來(lái)說(shuō),人類復(fù)雜的神經(jīng)系統(tǒng)是由數(shù)目繁多的神經(jīng)元組合而成,它們互相聯(lián)結(jié)形成神經(jīng)網(wǎng)絡(luò),經(jīng)過(guò)對(duì)信息的分析和綜合,再通過(guò)運(yùn)動(dòng)神經(jīng)發(fā)出控制信息,從而實(shí)現(xiàn)各種精密活動(dòng),如識(shí)別各種物體、學(xué)習(xí)各種知識(shí)、完成各種邏輯判斷等。
隨著人工智能技術(shù)的發(fā)展,科學(xué)家開(kāi)發(fā)出人工神經(jīng)網(wǎng)絡(luò),它的構(gòu)成原理和功能特點(diǎn)等方面更加接近人腦。它不是按給定的程序一步一步地執(zhí)行運(yùn)算,而是能夠自身適應(yīng)環(huán)境、總結(jié)規(guī)律、完成某種運(yùn)算、識(shí)別或過(guò)程控制。比如多倫多大學(xué)的Krizhevsky等人構(gòu)造了一個(gè)超大型卷積神經(jīng)網(wǎng)絡(luò),有9層,共65萬(wàn)個(gè)神經(jīng)。第一層神經(jīng)元只能識(shí)別顏色和簡(jiǎn)單紋理,但是第五層的一些神經(jīng)元可以識(shí)別出花、圓形屋頂、鍵盤(pán)、烏、黑眼圈等更為抽象豐富的物體(圖1)。因此神經(jīng)網(wǎng)絡(luò)實(shí)際上是基于人工智能技術(shù)而形成的一種和人類神經(jīng)網(wǎng)絡(luò)相似的網(wǎng)絡(luò)系統(tǒng)。
媲美Photoshop 神經(jīng)網(wǎng)絡(luò)磨皮技術(shù)背后
如上所述,現(xiàn)在神經(jīng)網(wǎng)絡(luò)技術(shù)發(fā)展已經(jīng)非常迅猛,而且運(yùn)用在各個(gè)領(lǐng)域。神經(jīng)網(wǎng)絡(luò)磨皮則是指該技術(shù)在照片識(shí)別和美化方面的運(yùn)用。那么它是怎樣實(shí)現(xiàn)對(duì)照片的美化?在Photoshop中磨皮操作是用戶先選中人臉區(qū)域,然后再使用Photoshop內(nèi)置的方法實(shí)現(xiàn)磨皮。神經(jīng)網(wǎng)絡(luò)磨皮原理類似,只不過(guò)這些操作是自動(dòng)完成的。
首先是對(duì)照片人臉識(shí)別。要實(shí)現(xiàn)對(duì)照片的美容就必須先精確識(shí)別人臉,由于人臉有五官這個(gè)顯著特征,因此神經(jīng)網(wǎng)絡(luò)磨皮技術(shù)只要通過(guò)機(jī)器對(duì)一定數(shù)量的人臉照片進(jìn)行識(shí)別、讀取,然后就可以精確識(shí)別人臉。它的原理和常見(jiàn)的人臉識(shí)別技術(shù)類似(圖2)。
其次則是美化。在完成人臉識(shí)別后就需要對(duì)美化操作進(jìn)行機(jī)器學(xué)習(xí),以磨皮為例。因?yàn)槿四樀拿總€(gè)年齡階段皮膚性質(zhì)是不同的,為了達(dá)到更真實(shí)的磨皮效果,神經(jīng)網(wǎng)絡(luò)磨皮是實(shí)現(xiàn)用戶“回到”幼年或者“穿越”到老年臉部皮膚的效果。研究人員將年齡段分類為0~18歲、19~29歲、30~39歲、40~49歲、50~59歲和60歲以上這幾個(gè)階段(圖3)。
然后準(zhǔn)備兩個(gè)深度學(xué)習(xí)機(jī)器同時(shí)工作。兩個(gè)機(jī)器一個(gè)用來(lái)生成人臉,一個(gè)用來(lái)鑒別人臉。而且兩個(gè)機(jī)器會(huì)通過(guò)分析人臉圖像,提前學(xué)習(xí)到各年齡段人臉大概是什么樣子的。在每個(gè)年齡分組里,研究人員讓機(jī)器學(xué)習(xí)超過(guò)5000張標(biāo)記過(guò)年齡的人臉圖像。通過(guò)大量的照片學(xué)習(xí)后,機(jī)器就可以學(xué)會(huì)每個(gè)年齡分組內(nèi)的標(biāo)簽,它可以準(zhǔn)確知道每個(gè)人不同年齡階段的臉部特征。這樣無(wú)論你是要磨皮為年輕時(shí)的皮膚光滑、圓潤(rùn)狀態(tài),還是要變?yōu)?0歲以后皺褶、粗糙的皮膚,神經(jīng)磨皮都可以輕松幫助你實(shí)現(xiàn)。
當(dāng)然學(xué)習(xí)有個(gè)通病,就是在合成過(guò)程中,機(jī)器可能會(huì)喪失掉圖片原有的識(shí)別資料(1D)。為了解決這個(gè)問(wèn)題,上述介紹中的人臉鑒別機(jī)器就發(fā)揮功效了。它通過(guò)查看這個(gè)照片的識(shí)別資料是不是唯一的,如果不是的話照片則會(huì)被拒絕輸出。研究人員讓機(jī)器合成10000張從數(shù)據(jù)庫(kù)中抽取出來(lái)的人像,這些照片之前從未用來(lái)訓(xùn)練機(jī)器。然后他們用開(kāi)發(fā)的軟件程序來(lái)檢測(cè)訓(xùn)練前后的兩張照片是否為同一個(gè)人,測(cè)試結(jié)果顯示有80%經(jīng)訓(xùn)練的照片都被認(rèn)為和原照片是同一個(gè)人(而作為對(duì)比,用其他方法加工照片,平均測(cè)試結(jié)果只有50%)。舉個(gè)簡(jiǎn)單例子,如果40歲的用戶將自己磨皮為20歲的樣子,如果軟件程序來(lái)檢測(cè)訓(xùn)練前后的兩張照片為同一個(gè)人,那么就輸出磨皮效果,從而讓用戶可以輕松磨皮到20歲的狀態(tài)。這樣經(jīng)過(guò)訓(xùn)練的神經(jīng)磨皮算法可以很真實(shí)地實(shí)現(xiàn)人臉的磨皮。
神經(jīng)網(wǎng)絡(luò) 不H僅是磨皮
根據(jù)美國(guó)New Scientist雜志報(bào)道,F(xiàn)acebook的人工智能團(tuán)隊(duì)已經(jīng)開(kāi)發(fā)出一種識(shí)別算法,即使看不清楚人臉,也能根據(jù)各種線索,例如發(fā)型、服飾、身材和姿勢(shì)等進(jìn)行識(shí)別―比如Facebook就能輕松地認(rèn)出它的創(chuàng)始人扎克伯格,因?yàn)樗偸谴┮患疑玊恤。這項(xiàng)技術(shù)的準(zhǔn)確率據(jù)稱可以達(dá)到83%。
傳統(tǒng)的人臉識(shí)別是程序員預(yù)先將整套鑒別系統(tǒng)寫(xiě)好,告訴計(jì)算機(jī)一些標(biāo)簽信息,例如,人臉是由哪幾個(gè)部分組成、各個(gè)部分的相對(duì)位置等等。隨后再用大量照片讓計(jì)算機(jī)學(xué)習(xí),對(duì)其進(jìn)行訓(xùn)練―簡(jiǎn)單地說(shuō),就是事先給出標(biāo)準(zhǔn)答案,然后讓計(jì)算機(jī)學(xué)習(xí)。
這種訓(xùn)練方式叫有監(jiān)督學(xué)習(xí),程序員像是老師一樣給出幾個(gè)標(biāo)簽作為標(biāo)準(zhǔn)答案,讓計(jì)算機(jī)“按標(biāo)索臉”。但當(dāng)程序員給出的標(biāo)簽數(shù)量不夠多,不能全面描述一個(gè)事物的時(shí)候,計(jì)算機(jī)的識(shí)別準(zhǔn)確率就會(huì)很低。所以,程序員要做的就是不斷增加標(biāo)簽,完善識(shí)別模板。
通過(guò)有監(jiān)督學(xué)習(xí)的方式來(lái)訓(xùn)練計(jì)算機(jī),效率較低,程序員需要花費(fèi)大量的時(shí)間來(lái)編寫(xiě)標(biāo)簽代碼、測(cè)試計(jì)算機(jī)和補(bǔ)充標(biāo)簽代碼,并且一套完善的鑒別系統(tǒng)只能識(shí)別出一種事物。
Facebook是不會(huì)花時(shí)間給每個(gè)人的發(fā)型和衣服寫(xiě)一套代碼的。高效地識(shí)別各類事物,還需要借助于更智能的識(shí)別方式。而這種方式是通過(guò)基于卷積神經(jīng)網(wǎng)絡(luò)的無(wú)監(jiān)督學(xué)習(xí)完成的。
使用無(wú)監(jiān)督學(xué)習(xí)來(lái)訓(xùn)練計(jì)算機(jī)的時(shí)候,程序員并不需要告訴計(jì)算機(jī)人臉有哪些特點(diǎn),只需要提供大量人臉照片讓計(jì)算機(jī)看,計(jì)算機(jī)就能找到這些圖片的共同特點(diǎn),并自動(dòng)繪制出這類事物的模板。這省去了編寫(xiě)標(biāo)簽代碼的過(guò)程,識(shí)別的效率極大提高。
Google的“貓臉識(shí)別”系統(tǒng)就是這樣的工作原理。這個(gè)由1000臺(tái)計(jì)算機(jī)、1.6萬(wàn)個(gè)芯片組成的系統(tǒng)在“學(xué)習(xí)”了數(shù)百萬(wàn)張貓臉圖片后,將邊界、亮度、形狀、色彩和局部形狀等多個(gè)特征分類,做成標(biāo)簽,繪制模板。
當(dāng)再看到一張圖片后,系統(tǒng)會(huì)逐級(jí)對(duì)其進(jìn)行識(shí)別。比如先判斷圖像的特定方位、位置邊沿的有無(wú),再通過(guò)不同的形狀來(lái)檢測(cè)局部圖案,接下來(lái)則是將局部圖案與模板中物體的相應(yīng)部分匹配。后續(xù)的層級(jí)會(huì)把這些局部組合起來(lái)從而識(shí)別出整體。最后,系統(tǒng)將圖片中的貓臉識(shí)別出來(lái),并與之前學(xué)習(xí)過(guò)的數(shù)百萬(wàn)張貓臉圖片歸為一類。
這其實(shí)和人類的思維以及識(shí)別事物的過(guò)程十分相似。由于絕大多數(shù)圖片都是由多種事物組成的,無(wú)監(jiān)督學(xué)了自行繪制模板,還會(huì)將不同事物進(jìn)行分類,進(jìn)而分類繪制模板。
“卷積就是匹配的意思。”微軟(亞洲)互聯(lián)網(wǎng)工程院資深研發(fā)總監(jiān)胡睿對(duì)《第一財(cái)經(jīng)周刊》說(shuō),“我們有幾千個(gè)或者幾萬(wàn)個(gè)模板在一個(gè)卷積神經(jīng)網(wǎng)絡(luò)里面。如果新來(lái)一張圖片,就用這些模板去做卷積,再通過(guò)神經(jīng)網(wǎng)絡(luò)推理出它到底是模板中的哪一類。”
Facebook的新技術(shù)使用的也是卷積神經(jīng)網(wǎng)絡(luò)。要知道,卷積神經(jīng)網(wǎng)絡(luò)技術(shù)正是Facebook的人工智能實(shí)驗(yàn)室負(fù)責(zé)人Yann LeCun,在1980年代末開(kāi)發(fā)出的。2003年,他成為紐約大學(xué)的教授。而移動(dòng)互聯(lián)網(wǎng)的興起帶來(lái)的海量數(shù)據(jù),為這一技術(shù)的進(jìn)一步發(fā)展提供了極大可能。
如今,在互聯(lián)網(wǎng)巨頭公司中,F(xiàn)acebook擁有基于社交網(wǎng)絡(luò)的大量圖片,這一點(diǎn)非常吸引LeCun。2014年,他加入了Facebook,把實(shí)驗(yàn)室從學(xué)校搬到了公司。
除了豐富的圖片資源,F(xiàn)acebook還有一項(xiàng)更大的優(yōu)勢(shì):作為全球最大的社交網(wǎng)站,它能獲取照片的拍攝地址、分析用戶的社交關(guān)系,并在此基礎(chǔ)上識(shí)別出照片中的人物。也就是說(shuō),即使在一些照片中,你的臉不是很清楚,并且其他和你相關(guān)的信息也比較缺乏,但是Facebook會(huì)根據(jù)你以往的消息推斷出這張照片是在哪兒拍的,照片中哪個(gè)人是你,甚至你旁邊那些臉部同樣模糊的人都是你哪些朋友。
“Facebook需要解決的問(wèn)題,并不是從50億個(gè)人中把你挑出來(lái),”胡睿說(shuō),“它只需要從幾百個(gè)或者上千個(gè)與你有關(guān)系的人中間把你挑出來(lái),這樣問(wèn)題其實(shí)極大地簡(jiǎn)化了。”
Facebook的研究人員表示,這項(xiàng)技術(shù)未來(lái)可以用于其Moments的照片分享。Moments是不久前Facebook推出的一款私密照片分享應(yīng)用,主要是用來(lái)讓好友間的圖片交換與分享變得更方便。
不過(guò)目前,這項(xiàng)“不看臉識(shí)人”的技術(shù)還沒(méi)有被應(yīng)用在它Facebook的產(chǎn)品中,或許其中一個(gè)原因是,它還很難達(dá)到傳統(tǒng)人臉識(shí)別技術(shù)的高準(zhǔn)確率。Facebook也承認(rèn),這個(gè)算法并不十分完美。尤其,基于服飾的判斷無(wú)法做到百分之百準(zhǔn)確,畢竟,不是所有人都像扎克伯格那樣,每天穿著同樣的衣服。
關(guān)鍵詞:BP神經(jīng)網(wǎng)絡(luò);Morlet小波;決策理論;Hilbert變換
中圖分類號(hào):TP18文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2009)32-9050-02
Wireless Signal Simulation Algorithm for Automatic Identification
ZHANG Meng
(Purchasing, China Railway Communication Co., Ltd., Beijing 100140, China)
Abstract: We have firstly discussed the modulation distinguishing method based on rational budgeting theory through the method of comparing Tine-Frequency analysis of the analysis signals formed by Hibert Transform . And on the basic of analyzing the fault of this method ,we put forward the distinguishing method based on NN. When NN is distinguishing signals, it mainly depends on the different positions of peak. Wavelet Transform here equals a mathematic microscope .it reflects the inexorable links between the signal categories and the positions of peak. Taking advantage Wavelet Transform and the simple three-layer BP NN, the more accurate Time-Frequency characteristics of signals to be distinguishing can be drawn.
Keywords: BP ANN; Morlet Wavelet; BudgetingTheory; Hibert Transform
在軍事電子對(duì)抗等多方面的重要應(yīng)用,通信信號(hào)調(diào)制的自動(dòng)識(shí)別分類問(wèn)題也相繼發(fā)展起來(lái)。無(wú)線電信號(hào)調(diào)制實(shí)識(shí)別就是要判斷截獲信號(hào)的調(diào)制種類。為此,需要事先對(duì)其特征進(jìn)行選定,并確定它們與相應(yīng)調(diào)制種類相聯(lián)系的取值范圍,然后再對(duì)信號(hào)進(jìn)行特征測(cè)量,并根據(jù)測(cè)量結(jié)果對(duì)信號(hào)的調(diào)制進(jìn)行分類判決。
如果把無(wú)線電信號(hào)的調(diào)制識(shí)別與分類視為一種模式識(shí)別問(wèn)題,那末,從模式識(shí)別理論來(lái)看,模式分類是模式識(shí)別的一個(gè)子系統(tǒng)。因此,在模式識(shí)別理論框架下,無(wú)線電信號(hào)的調(diào)制識(shí)別是一個(gè)總體概念。而調(diào)制分類則只是調(diào)制識(shí)別的一個(gè)分支[1]。
1 基于決策理論的模擬調(diào)制方式識(shí)別方法
此算法主要實(shí)現(xiàn)區(qū)分AM、FM、DSB、LSB、USB、VSB、AM-FM等七種調(diào)制樣式,所分析的對(duì)象序列s(n)是由接收機(jī)中頻輸出并經(jīng)過(guò)采樣得到的,這樣s(n)的采樣頻率和載頻都已知,分別記做Fs和Fc。算法分兩個(gè)步驟:
第一步,根據(jù)信號(hào)的包絡(luò)特征將AM、USB、LSB與FM區(qū)分開(kāi),因?yàn)榍叭N信號(hào)的包絡(luò)不為恒定值,而FM的包絡(luò)理論上是恒定值(實(shí)際中接近恒定)。因而可以從中提取一個(gè)特征參數(shù)R。參數(shù)R反映了零中心歸一化包絡(luò)的功率譜特征,FM的零中心歸一化包絡(luò)接近零,因其參數(shù)R應(yīng)遠(yuǎn)遠(yuǎn)小于前三種信號(hào)。實(shí)際中若R
第二步,根據(jù)信號(hào)頻譜的對(duì)稱性,將AM與USB與LSB區(qū)分開(kāi),因?yàn)锳M的單邊頻譜關(guān)于載頻是近似對(duì)稱的,USB和LSB的單邊頻譜對(duì)于載頻來(lái)說(shuō)分別只有上邊頻和下邊頻。因而可以從中提取另一個(gè)特征參數(shù) 。理論上,由于AM的上下邊頻對(duì)稱,所以AM的P接近零,而LSB和USB的P分別接近1和-1。實(shí)際中若|P|< 0.5,判為AM信號(hào),若P>0.5,判為L(zhǎng)SB,P
第三步,零中心非弱信號(hào)段瞬時(shí)相位非線性分量絕對(duì)值的標(biāo)準(zhǔn)偏差:σap 。
σap由下式定義:
(1)
式中,at是判斷弱信號(hào)段的一個(gè)幅度判決門(mén)限電平,c是在全部取樣數(shù)據(jù)Ns中屬于非弱信號(hào)值的個(gè)數(shù),?準(zhǔn)NL(i)是經(jīng)零中心化處理后瞬時(shí)相位的非線性分量,在載波完全同步時(shí),有:?準(zhǔn)NL(i)= φ(i)-φ0
式中:,φ(i)為瞬時(shí)相位。用σap來(lái)區(qū)分是DSB信號(hào)還是AM-FM信號(hào)。
第四步,零中心非弱信號(hào)段瞬時(shí)相位非線性分量的標(biāo)準(zhǔn)偏差:σdp。
σdp由下式定義:
(2)
σdp主要用來(lái)區(qū)別不含直接相位信息的AM、VSB信號(hào)類和含直接相位信息的DSB、LSB、USB、AM-FM信號(hào)類,其判決門(mén)限設(shè)為t(σdp) 。
2 決策論方法的改進(jìn)
前面介紹的基于決策理論的模擬調(diào)制方式識(shí)別方法存在缺陷針對(duì)上述問(wèn)題,人們又提出了基于神經(jīng)網(wǎng)絡(luò)(NN)的識(shí)別方法。
2.1 BP網(wǎng)絡(luò)作為分類器的模擬調(diào)制方式識(shí)別方法
該算法用基于有監(jiān)督訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型BP網(wǎng)絡(luò)作為分類器,用BP模型多層感知網(wǎng)絡(luò)與反向傳播學(xué)習(xí)算法相結(jié)合,通過(guò)不斷比較網(wǎng)絡(luò)的實(shí)際輸出與指定期望輸出間的差異來(lái)不斷的調(diào)整權(quán)值,直到全局(或局部)輸出差異極小值,不難想象該神經(jīng)網(wǎng)絡(luò)對(duì)模型細(xì)節(jié)中的諸多問(wèn)題均有良好效果。
基于NN的模擬信號(hào)調(diào)制識(shí)別框圖[2]如圖1所示,該NN采用三層結(jié)構(gòu)即,1個(gè)輸入層,1個(gè)輸出層,1個(gè)中間層。中間層可采用多層。但由于受到計(jì)算復(fù)雜性的限制,目前采用單層或雙層中間層的NN比較多見(jiàn)。本圖中間層采用單層25個(gè)節(jié)點(diǎn),輸入層和輸出層的節(jié)點(diǎn)數(shù)取決于信號(hào)特征參數(shù)的個(gè)數(shù)和信號(hào)的分類數(shù),因而分別為4和7。
神經(jīng)網(wǎng)絡(luò)具有信息分布式存儲(chǔ)、大規(guī)模自適應(yīng)并行處理和高度容錯(cuò)特性,適用于模式識(shí)別的基礎(chǔ)。其學(xué)習(xí)能力和容錯(cuò)特性對(duì)不確定性模式識(shí)別具有獨(dú)到之處[3]。通信信號(hào)在傳播過(guò)程中受到信道噪聲的污染,接受到的信號(hào)是時(shí)變的、非穩(wěn)定的,而小波變換特別適用于非穩(wěn)定信號(hào)的分析,其作為一種信息提取的工具已得到較廣泛的應(yīng)用。小波變換具有時(shí)頻局部性和變焦特性,而神經(jīng)網(wǎng)絡(luò)具有自學(xué)習(xí)、自適應(yīng)、魯棒性、容錯(cuò)性和推廣能力,兩者優(yōu)勢(shì)的結(jié)合可以得到良好的信號(hào)模式自動(dòng)識(shí)別特性,從而形成各種處理方法。
2.2 基于小波的特征提取和識(shí)別方法
小波特別適用于非穩(wěn)定信號(hào)的分析,作為一種特征提取的工具已得到較為廣泛的應(yīng)用。小波的重要特點(diǎn)是它能夠提供一個(gè)信號(hào)局部化的頻域信息。小波變換能夠?qū)⒏鞣N交織在一起的不同頻率組成的混合信號(hào)分解成不同頻率的塊信號(hào),它對(duì)不同的時(shí)間和頻率有不同的解釋,因此,對(duì)調(diào)制信號(hào)進(jìn)行小波分解,得到不同水平下的細(xì)節(jié)信息,這些信息對(duì)于不同類別的調(diào)制信號(hào)來(lái)說(shuō)是有差別的[4]。
在實(shí)際應(yīng)用中,小波變換常用的定義有下列兩種:
(3)
(4)
式中,星號(hào)*表示共軛。式(3)表示小波變換是輸入信號(hào)想x(t)和小波函數(shù)φα, τ(t)的相關(guān)積分;式(4)用卷積代替了相關(guān)積分。兩種定義在本質(zhì)上是一致的。本為采用后者。
將式(4)中的τ和t離散化,即令τ=kTs,及t=iTs,得連續(xù)小波變換公式(4)的離散形式,又稱小波系數(shù):
(5)
Morlet小波是一種單頻復(fù)正弦調(diào)制高斯波,也是最常用的復(fù)值小波。其實(shí)、頻兩域都具有很好的局部性,它的時(shí)域形式如下:
(6)
雖然信號(hào)特征有很多種,神經(jīng)網(wǎng)絡(luò)在進(jìn)行信號(hào)識(shí)別時(shí),主要是依據(jù)譜峰位置的不同,因此提取信號(hào)特征主要任務(wù)就是尋找信號(hào)類別與譜峰位置間的必然聯(lián)系。而小波變換在這里則相當(dāng)于一個(gè)數(shù)學(xué)顯微鏡,通過(guò)它,可以詳細(xì)了解各類信號(hào)在不同低頻段上的頻譜構(gòu)成。
整個(gè)系統(tǒng)在PC機(jī)上進(jìn)行仿真,采用Windows2000操作系統(tǒng)和Matlab6.1和Cool Edit2.0進(jìn)行聲音錄制。
在仿真中,采用44K的采樣率,錄制了一段歌聲和一段笑聲,用Matlab生成22K的正弦載波,并根據(jù)第二章的各調(diào)制樣式的定義,生成了各個(gè)仿真的調(diào)制波形。并轉(zhuǎn)化成.wav文件錄在電腦中。
3 結(jié)束語(yǔ)
本文僅限于理論理論研究,用MatLab仿真實(shí)現(xiàn),沒(méi)有用DSP芯片等物理電路實(shí)現(xiàn),僅為實(shí)際實(shí)現(xiàn)提供理論指導(dǎo)。
參考文獻(xiàn):
[1] 羅利春.無(wú)線電偵察信號(hào)分析與處理[M].北京:國(guó)防工業(yè)出版社,2003.
[2] 楊小牛,樓才義,徐建良.軟件無(wú)線電原理與應(yīng)用[M].北京:電子工業(yè)出版社,2001.
當(dāng)今世界,無(wú)線通信技術(shù)發(fā)展迅速,無(wú)線通信進(jìn)入第五代(5G)時(shí)代需實(shí)現(xiàn)上千倍容量,毫秒延遲和大量的連接[1-2]。為了滿足上述要求,一些關(guān)鍵技術(shù),如大規(guī)模多輸入多輸出(Mul-tiple-InputMultiple-Output,MIMO),毫米波(MillimeterWave,mmWave)等已被提出。這些技術(shù)在工程應(yīng)用中均表現(xiàn)出相同的特點(diǎn),即具有處理大型無(wú)線數(shù)據(jù)的能力。對(duì)于無(wú)線通信,其對(duì)移動(dòng)速度和通信質(zhì)量具有較高的要求,然而在滿足大數(shù)據(jù)和高速?gòu)?fù)雜場(chǎng)景中的通信需求中,傳統(tǒng)的通信技術(shù)存在以下固有的局限性:(1)復(fù)雜場(chǎng)景中信道建模困難:通信的設(shè)計(jì)系統(tǒng)在很大程度上依賴于現(xiàn)實(shí)的信道條件。而在實(shí)際應(yīng)用中,這些模型的建模在復(fù)雜的場(chǎng)景中變得十分困難[3]。例如,在大規(guī)模MIMO系統(tǒng)中天線數(shù)量的增加改變了信道屬性[4],相應(yīng)的信道模型存在未知的因素。很多情況下,信道不能用嚴(yán)格的數(shù)學(xué)模型來(lái)描述。因此,設(shè)計(jì)適合信道模型的算法必不可少。(2)魯棒的信號(hào)處理算法的需求:使用低成本硬件,例如低功耗、低分辨率模數(shù)轉(zhuǎn)換器[5]引入了額外的信號(hào)非線性失真,這需要使用高魯棒的接收處理算法,例如,信道估計(jì)和檢測(cè)的算法。然而,使用這些算法可能會(huì)增加計(jì)算的復(fù)雜度。在這種情況下,具有實(shí)時(shí)大數(shù)據(jù)處理能力且更有效和高魯棒的信號(hào)處理算法是必需的。(3)塊結(jié)構(gòu)通信受限系統(tǒng):傳統(tǒng)的通信系統(tǒng)由幾個(gè)處理模塊,如信道編碼、調(diào)制和信號(hào)檢測(cè),盡管研究人員多年來(lái)嘗試優(yōu)化每個(gè)算法的處理模塊并在實(shí)踐中取得成功,但并不能使得整個(gè)通信系統(tǒng)能得到最優(yōu)的性能,因?yàn)橥ㄐ诺母締?wèn)題取決于接收端可靠的消息恢復(fù)[6]。因此,如果對(duì)每個(gè)模塊進(jìn)行的子優(yōu)化替換為端到端的優(yōu)化,就有希望進(jìn)一步改進(jìn)系統(tǒng)性能。深度學(xué)習(xí)(DeepLearning,DL)近年來(lái)因成功應(yīng)用在計(jì)算機(jī)視覺(jué)、自動(dòng)語(yǔ)音識(shí)別和自然語(yǔ)言處理等領(lǐng)域而獲得廣泛關(guān)注,是典型的大數(shù)據(jù)依賴的學(xué)習(xí)框架。同時(shí),研究人員也把DL廣泛應(yīng)用到了無(wú)線通信的物理層[7-11]。與傳統(tǒng)的機(jī)器學(xué)習(xí)算法[12-14]相比,DL顯著增強(qiáng)了特征提取和結(jié)構(gòu)靈活性。特別是基于DL的系統(tǒng)通過(guò)端到端優(yōu)化靈活地調(diào)整參數(shù)來(lái)自動(dòng)調(diào)整模型結(jié)構(gòu),這可以代替手動(dòng)從原始數(shù)據(jù)中提取特征。基于DL的通信系統(tǒng)具有良好的應(yīng)用復(fù)雜場(chǎng)景主要有如下原因:首先,DL是一種數(shù)據(jù)驅(qū)動(dòng)的方法,其模型是在大型訓(xùn)練數(shù)據(jù)集上優(yōu)化得到的,基于DL的通信系統(tǒng)不需要建立數(shù)學(xué)模型。其次,能夠處理大數(shù)據(jù)也是DL重要的特點(diǎn),DL采用分布式并行計(jì)算體系結(jié)構(gòu),保證了計(jì)算速度和計(jì)算速度處理能力。DL系統(tǒng)由于其擁有快速開(kāi)發(fā)并行處理體系結(jié)構(gòu),如圖形處理單元,在處理大數(shù)據(jù)上具有巨大的潛力。最后,基于DL的通信系統(tǒng)可實(shí)現(xiàn)整個(gè)系統(tǒng)性能的改進(jìn),因?yàn)槟P徒?jīng)過(guò)端到端的訓(xùn)練優(yōu)化了整體的性能,而對(duì)單個(gè)模塊結(jié)構(gòu)沒(méi)有要求。本文旨在對(duì)近年來(lái)在基于大數(shù)據(jù)的DL在無(wú)線通信物理層的研究作出綜述,本文的組織結(jié)構(gòu)如下:第二節(jié)簡(jiǎn)要概述無(wú)線通信物理層的系統(tǒng)框圖。第三節(jié)介紹了幾個(gè)DL應(yīng)用到通信物理層的示例。第四節(jié)討論了未來(lái)研究的領(lǐng)域和挑戰(zhàn)。第五節(jié)是全文總結(jié)。
1通信系統(tǒng)模型
它是一個(gè)模塊結(jié)構(gòu),包括信道編碼、調(diào)制、信道估計(jì)、信道均衡、信道譯碼和信道狀態(tài)信息(ChannelStateInformation,CSI)反饋等模塊。通信算法是在長(zhǎng)期的研究中發(fā)展起來(lái)的,以優(yōu)化通信系統(tǒng)其中的模塊。之前有研究試圖利用傳統(tǒng)的機(jī)器學(xué)習(xí)方法,作為特定模塊的替代算法。DL架構(gòu)最近被引入到幾個(gè)處理模塊中以適應(yīng)新興的復(fù)雜通信場(chǎng)景,以期達(dá)到更優(yōu)的性能。
2幾個(gè)典型的DL應(yīng)用到物理層的案例
本節(jié)給出了一些DL應(yīng)用在通信物理層的典型例子,包括聯(lián)合信道估計(jì)和信號(hào)檢測(cè)、聯(lián)合均衡和信號(hào)譯碼、大規(guī)模MIMOCSI壓縮反饋和mmWave大規(guī)模MIMO混合預(yù)編碼。下面分別進(jìn)行介紹。
2.1聯(lián)合信道估計(jì)和信號(hào)檢測(cè)
一般信道估計(jì)和信號(hào)檢測(cè)是接收機(jī)的兩個(gè)獨(dú)立過(guò)程。首先,CSI通過(guò)導(dǎo)頻來(lái)估計(jì),然后利用估計(jì)的CSI在接收端恢復(fù)發(fā)送符號(hào)。文獻(xiàn)[7]提出了一種聯(lián)合信道估計(jì)和信號(hào)檢測(cè)方法。具體地說(shuō),一個(gè)帶有五層全連接層的深度神經(jīng)網(wǎng)絡(luò)(DeepNeuralNetwork,DNN)用于聯(lián)合信道估計(jì)和檢測(cè),這里將信道看作一個(gè)黑盒子。在離線訓(xùn)練中,發(fā)送數(shù)據(jù)和導(dǎo)頻形成幀,然后這些幀經(jīng)過(guò)一個(gè)時(shí)變信道。該網(wǎng)絡(luò)把接收信號(hào)作為輸入,通過(guò)訓(xùn)練網(wǎng)絡(luò)來(lái)重構(gòu)發(fā)送數(shù)據(jù)。當(dāng)導(dǎo)頻不足、去掉循環(huán)前綴和非線性失真幾種情況下,基于DNN的信道估計(jì)和檢測(cè)方法都優(yōu)于最小均方誤差方法。
2.2聯(lián)合均衡和信號(hào)譯碼
文獻(xiàn)[15]提出了一種聯(lián)合均衡和信號(hào)譯碼的方法,該方法中在不知道CSI情況下,基于神經(jīng)網(wǎng)絡(luò)的聯(lián)合均衡器和解碼器可以實(shí)現(xiàn)均衡和譯碼。這里使用兩個(gè)神經(jīng)網(wǎng)絡(luò),首先,卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)用于恢復(fù)失真的發(fā)送數(shù)據(jù),然后DNN解碼器對(duì)CNN網(wǎng)絡(luò)均衡后的信號(hào)進(jìn)行解碼。實(shí)驗(yàn)結(jié)果表明,在各種信道條件下,該方法的性能優(yōu)于其他基于機(jī)器學(xué)習(xí)方法。其中分別表示比特流符號(hào),發(fā)送符號(hào),接收符號(hào),均衡后的符號(hào)和譯碼后的符號(hào)。
2.3大規(guī)模MIMOCSI壓縮反饋
在頻分雙工網(wǎng)絡(luò)中,大規(guī)模MIMO依賴于CSI反饋來(lái)實(shí)現(xiàn)基站端天線的性能增益。然而,大量天線導(dǎo)致過(guò)多的反饋開(kāi)銷。已經(jīng)大量工作通過(guò)利用CSI的空間和時(shí)間的相關(guān)性來(lái)減少CSI反饋開(kāi)銷。利用CSI的稀疏特性,壓縮感知(Compressedsensing,CS)已被應(yīng)用于CSI壓縮反饋中。然而,傳統(tǒng)的CS算法面臨挑戰(zhàn),因?yàn)楝F(xiàn)實(shí)世界的數(shù)據(jù)并不完全稀疏,現(xiàn)有信號(hào)恢復(fù)算法的收斂速度很慢,這限制了CS的適用場(chǎng)景。CsiNet[16]被提出來(lái)模擬CS信道壓縮反饋的過(guò)程。取角延遲域的信道矩陣作為輸入,編碼器的第一層是生成兩個(gè)特征圖的卷積層。然后將卷積后的數(shù)據(jù)重新排列為N×1大小的適量,再利用全連接層生成M×1大小的壓縮數(shù)據(jù)(MN)。由于不需要CS測(cè)量矩陣,減少了反饋開(kāi)銷。在解碼器上,利用一個(gè)全連接層、兩個(gè)殘差層和一個(gè)卷積層對(duì)壓縮的CSI進(jìn)行重構(gòu)。結(jié)果表明,CsiNet算法在不同壓縮比和復(fù)雜度上的性能明顯優(yōu)于基于CS的方法。
2.4基于DL的mmWave大規(guī)模MIMO混合預(yù)編碼
mmWave一直被認(rèn)為是一種5G的重要方案,其中混合模擬和數(shù)字預(yù)編碼是一種重要的可以減少硬件復(fù)雜性和能耗的方法。然而,現(xiàn)有的混合預(yù)編碼方案受限于高計(jì)算復(fù)雜度,且不能充分利用空間信息。為了克服這些局限性,文獻(xiàn)[17]提出了一個(gè)基于DL的mmWave大規(guī)模MIMO混合預(yù)編碼框架,其中每個(gè)預(yù)編器的選擇被視為一種DNN的映射關(guān)系。具體地說(shuō),通過(guò)訓(xùn)練DNN選擇混合預(yù)編碼器來(lái)優(yōu)化mmWave大規(guī)模MIMO的預(yù)編碼過(guò)程。實(shí)驗(yàn)結(jié)果表明,基于DNN的混合預(yù)編碼方法能降低mmWave大規(guī)模MIMO的誤碼率和增強(qiáng)頻譜效率,在保證更優(yōu)的性能的同時(shí),能大大減少所需的計(jì)算復(fù)雜度。
3挑戰(zhàn)
DL在無(wú)線通信系統(tǒng)物理層中的應(yīng)用是一個(gè)新的研究領(lǐng)域,雖然已有的研究表現(xiàn)出了較好的結(jié)果,但是在未來(lái)的研究中一些挑戰(zhàn)值得進(jìn)一步探討。(1)模型的選擇在基于DL的通信框架下,神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)是核心挑戰(zhàn)。許多基于DL的技術(shù)都是按照通用模型開(kāi)發(fā)的。例如,計(jì)算機(jī)視覺(jué)總是使用CNN,而LSTM則通常用于自然語(yǔ)言處理領(lǐng)域。然而,我們想知道是否有基于DL的無(wú)線通信模型,我們認(rèn)為,通用模型將有助于在實(shí)踐中得到實(shí)現(xiàn)。在工程項(xiàng)目中,不僅通用模型提高了優(yōu)化通信框架的便利性,也可以減少模型選擇的成本和時(shí)間。在可以得到通用的模型之前,這個(gè)問(wèn)題還需要廣泛的探索。(2)系統(tǒng)性能與訓(xùn)練效率的權(quán)衡現(xiàn)有的工作表明了基于DL的數(shù)據(jù)驅(qū)動(dòng)模型在物理層通信中的強(qiáng)大功能。然而,即使DL可以通過(guò)端到端學(xué)習(xí)來(lái)優(yōu)化通信系統(tǒng)性能,當(dāng)所有通信模塊被融合在一起時(shí),訓(xùn)練過(guò)程將花費(fèi)很長(zhǎng)時(shí)間。為了提高訓(xùn)練效率,達(dá)到良好的系統(tǒng)性能,可以保留部分通信模塊,以實(shí)現(xiàn)訓(xùn)練效率和系統(tǒng)性能兩者之間的權(quán)衡。(3)嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)證明和基本的理論總的來(lái)說(shuō),基于深度學(xué)習(xí)的通信框架的性能已經(jīng)在信道估計(jì)、均衡、CSI反饋等場(chǎng)景得到了證明,然而,我們還沒(méi)有推導(dǎo)出嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)證明和基本的理論來(lái)進(jìn)一步驗(yàn)證其框架的性能。推導(dǎo)出基本的理論也會(huì)有所幫助我們了解通信框架,這將是改進(jìn)網(wǎng)絡(luò)和開(kāi)發(fā)更高效的通信框架的基礎(chǔ)。同時(shí),訓(xùn)練所需的訓(xùn)練集大小也是不一定的,基于DL的通信框架是否能得到最優(yōu)的性能仍然存在不確定性。(4)真實(shí)數(shù)據(jù)集的獲得近年來(lái)DL技術(shù)應(yīng)用于各種領(lǐng)域,并且得到飛速發(fā)展,這很大程度上歸功于能夠獲得真實(shí)的開(kāi)源數(shù)據(jù)集。訓(xùn)練和測(cè)試數(shù)據(jù)集的質(zhì)量和數(shù)量對(duì)基于DL框架的性能有很大的影響。在計(jì)算機(jī)科學(xué)領(lǐng)域,隨著自然語(yǔ)言處理,計(jì)算機(jī)視覺(jué)和自動(dòng)駕駛的飛速發(fā)展,已經(jīng)提供了許多公開(kāi)的的數(shù)據(jù)集,如ImageNet和MNIST。然而,在基于DL的無(wú)線通信領(lǐng)域,雖然有一些數(shù)據(jù)集可以應(yīng)用于某些領(lǐng)域,但目前存在的可用數(shù)據(jù)集很少。為了便于研究,未來(lái)還需要有一些可靠的數(shù)據(jù)集。
關(guān)鍵詞:人工智能;云計(jì)算;大數(shù)據(jù)
最近火熱的美劇《西部世界》里傳遞出很多關(guān)于人工智能的信息,在圍繞如何突破機(jī)器極限,形成自主意識(shí)方面,提出了富有科幻現(xiàn)實(shí)色彩的方法-冥想程序, 將意識(shí)形成描繪成了“走迷宮”的過(guò)程,同時(shí)在道德層面又一次將“人工智能是否能成為有別于人類的另一個(gè)物種”的問(wèn)題呈現(xiàn)在廣大觀眾面前。
“人工智能”(AI)這一概念最早由馬文?明斯基和約翰?麥卡錫于1956年的“達(dá)特茅斯會(huì)議”上共同提出。1960年,麥卡錫在美國(guó)斯坦福大學(xué)建立了世界上第一個(gè)人工智能實(shí)驗(yàn)室。經(jīng)過(guò)近幾年互聯(lián)網(wǎng)的飛速發(fā)展,AI對(duì)企業(yè)甚至是行業(yè)產(chǎn)生了巨大而又深遠(yuǎn)的影響。機(jī)器學(xué)習(xí),尤其是深度學(xué)習(xí)技術(shù)成為人工智能發(fā)展的核心。越來(lái)越多的硬件供應(yīng)商專為深度學(xué)習(xí)和人工智能定制設(shè)計(jì)芯片。如IBM的人腦模擬芯片SyNAPSE(Systems of Neuromorphic Adaptive Plastic Scalable Electronics,自適應(yīng)塑料可伸縮電子神經(jīng)形態(tài)系統(tǒng))芯片,含有100萬(wàn)個(gè)可編程神經(jīng)元,2.56億個(gè)可編程突觸,每消耗一焦耳的能量,可進(jìn)行460億突觸運(yùn)算。
云計(jì)算和大數(shù)據(jù)作為人工智能的基礎(chǔ), 在工業(yè)制造等眾多場(chǎng)景中得到了廣泛應(yīng)用,比如很多工廠都在傳送帶上加裝了傳感器,將壓力、溫度、噪音和其他一些參數(shù)實(shí)時(shí)傳到云端,將工廠真正連上網(wǎng)絡(luò),然后利用人工智能的算法對(duì)這些數(shù)據(jù)進(jìn)行比對(duì),由此提前為工廠提供預(yù)警和遠(yuǎn)程檢測(cè)服務(wù)。這種將生產(chǎn)流程及產(chǎn)品通過(guò)物聯(lián)網(wǎng)連接到云端,然后利用算法進(jìn)行大數(shù)據(jù)分析的模式,將在更多的行業(yè)被廣泛應(yīng)用。
目前人工智能主要有10個(gè)應(yīng)用子領(lǐng)域,分別是機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、智能機(jī)器人、虛擬個(gè)人助理、自然語(yǔ)音處理、實(shí)時(shí)語(yǔ)言翻譯、情感感知計(jì)算、手勢(shì)控制、推薦引擎及協(xié)同過(guò)濾、視頻內(nèi)容自動(dòng)識(shí)別。各方向處于不同的發(fā)展階段,發(fā)展程度有高有低。但驅(qū)動(dòng)發(fā)展的先決條件主要體現(xiàn)在感知能力、理解能力、學(xué)習(xí)能力、交互能力四個(gè)方面。
1 感知能力
目前人工智能的感知主要通過(guò)物聯(lián)網(wǎng)來(lái)實(shí)現(xiàn),它提供了計(jì)算機(jī)感知和控制物理世界的接口與手段,能夠采集數(shù)據(jù)、記憶,分析、傳送數(shù)據(jù),進(jìn)行交互、控制等。比如攝像頭和相機(jī)記錄了關(guān)于世界的大量圖像和視頻,麥克風(fēng)記錄了語(yǔ)音和聲音,各種傳感器將它們感受到的世界數(shù)字化。這些傳感器就如同人類的五官,是智能系統(tǒng)的數(shù)據(jù)輸入,是感知世界的方式。
2 理解能力
智能系統(tǒng)不同于人腦,沒(méi)有數(shù)以千億的神經(jīng)元,對(duì)事物問(wèn)題的理解在現(xiàn)階段還很大程度上依賴于處理器的計(jì)算分析能力。近年來(lái),基于GPU(圖形處理器)的大規(guī)模并行計(jì)算異軍突起,擁有遠(yuǎn)超CPU的并行計(jì)算能力。從處理器的計(jì)算方式來(lái)看,CPU計(jì)算使用基于x86指令集的串行架構(gòu),適合盡可能快的完成一個(gè)計(jì)算任務(wù)。而GPU誕生之初是為了處理3D圖像中的上百萬(wàn)個(gè)像素圖像,擁有更多的內(nèi)核去處理更多的計(jì)算任務(wù)。因此GPU具備了執(zhí)行大規(guī)模并行計(jì)算的能力。云計(jì)算的出現(xiàn)、GPU的大規(guī)模應(yīng)用使得集中化數(shù)據(jù)計(jì)算處理能力變得空前強(qiáng)大。
3 學(xué)習(xí)能力
學(xué)習(xí)能力的培養(yǎng)類似人類需要教材和訓(xùn)練。據(jù)統(tǒng)計(jì),2015年全球產(chǎn)生的數(shù)據(jù)總量達(dá)到了十年前的20多倍,大數(shù)據(jù)的發(fā)展為人工智能的學(xué)習(xí)和發(fā)展提供了非常好的基礎(chǔ)。機(jī)器學(xué)習(xí)是人工智能的基礎(chǔ),而大數(shù)據(jù)和以往的經(jīng)驗(yàn)就是人工智能學(xué)習(xí)的書(shū)本,以此優(yōu)化計(jì)算機(jī)的處理性能。不可忽視的是近年來(lái)科技巨頭為了提前布局AI生態(tài),紛紛開(kāi)源平臺(tái)工具,極大地豐富了機(jī)器訓(xùn)練的素材和手段。如谷歌了新的機(jī)器學(xué)習(xí)平臺(tái)TensorFlow,所有用戶都能夠利用這一強(qiáng)大的機(jī)器學(xué)習(xí)平臺(tái)進(jìn)行研究,被稱為人工智能界的Android。IBM宣布通過(guò)Apache軟件基金會(huì)免費(fèi)為外部程序員提供System ML人工智能工具的源代碼。微軟則開(kāi)源了分布式機(jī)器學(xué)習(xí)工具包DMTK,能夠在較小的集群上以較高的效率完成大規(guī)模數(shù)據(jù)模型的訓(xùn)練,并于2016年7月推出了開(kāi)源Project Malmo項(xiàng)目,用于人工智能訓(xùn)練。
4 交互能力
如果時(shí)光倒流500年,你會(huì)如何對(duì)當(dāng)時(shí)的人們述說(shuō)今日的世界?在那個(gè)時(shí)代,哥白尼剛剛發(fā)表日心論,伽利略還在比薩斜塔拋擲鐵球,吳承恩還在用毛筆寫(xiě)著《西游記》。如果你對(duì)他們說(shuō):“嘿,老兄,我對(duì)著手上的這個(gè)‘黑色方塊’說(shuō)句話,它不僅能讓你看到太陽(yáng)系長(zhǎng)什么樣,告訴你什么是重力加速度,還能直接把唐僧要去西天取的經(jīng)下載給你看。”他們可能會(huì)覺(jué)得你要么是神仙,要么是神經(jīng)。
AI從誕生到現(xiàn)在已經(jīng)有60年的時(shí)間,期間經(jīng)歷兩輪起落,呈階梯式進(jìn)化,走到今天進(jìn)入第三個(gè)黃金期。如果按照其智能水平劃分,今天的人工智能尚處在狹義智能向廣義智能進(jìn)階的階段,還是一名不折不扣的“少年”,未來(lái)?yè)碛袩o(wú)限的可能和巨大的上升空間。
AI是一門(mén)交叉的學(xué)科:人工智能由不同的技術(shù)領(lǐng)域組成,如機(jī)器學(xué)習(xí)、語(yǔ)言識(shí)別、圖像識(shí)別、自然語(yǔ)言處理等。而同時(shí),它也是一門(mén)交叉學(xué)科,屬于自然科學(xué)和社會(huì)科學(xué)的交叉,涉及到哲學(xué)和認(rèn)知科學(xué)、數(shù)學(xué)、神經(jīng)生理學(xué)、心理學(xué)、計(jì)算機(jī)科學(xué)、信息論、控制論、不定性論等學(xué)科。因此人工智能領(lǐng)域的技術(shù)壁壘是比較高的,并且會(huì)涉及到多學(xué)科協(xié)作的問(wèn)題,對(duì)任何公司來(lái)說(shuō),想做好人工智能將是一門(mén)大工程。未來(lái)不大可能出現(xiàn)一個(gè)公司能包攬整個(gè)人工智能產(chǎn)業(yè)每一個(gè)部分的工作,更可能的模式將是一個(gè)公司專注于一個(gè)相對(duì)細(xì)分的領(lǐng)域,通過(guò)模塊化協(xié)作的形式實(shí)現(xiàn)人工智能領(lǐng)域的不同應(yīng)用。
進(jìn)化史呈階梯狀,以階段突破式為成長(zhǎng)模式:人工智能的發(fā)展經(jīng)歷了兩次黃金和低谷期,
現(xiàn)在正經(jīng)歷著第三個(gè)黃金期。1956年,麥卡賽、明斯基、羅切斯特和申農(nóng)等年輕科學(xué)家在達(dá)特茅斯一起聚會(huì),并首次提出了“人工智能”這一術(shù)語(yǔ),標(biāo)志著人工智能的誕生。第二年,由 Rosenblatt 提出 Perceptron 感知機(jī),標(biāo)志著第一款神經(jīng)網(wǎng)絡(luò)誕生。1970年,因?yàn)橛?jì)算能力沒(méi)能突破完成大規(guī)模數(shù)據(jù)訓(xùn)練,人工智能的第一個(gè)黃金期到此結(jié)束。
后直到1982年德普霍爾德神經(jīng)網(wǎng)絡(luò)的提出,人工智能進(jìn)入第二個(gè)黃金期,之后BP算法的出現(xiàn)使大規(guī)模神經(jīng)網(wǎng)絡(luò)訓(xùn)練成為可能,人工智能的發(fā)展又一次進(jìn)入。1990年,因?yàn)槿斯ぶ悄苡?jì)算機(jī)和DARPA沒(méi)能實(shí)現(xiàn),政府撤資,人工智能又一次進(jìn)入低估。2006年,隨著“深度學(xué)習(xí)”神經(jīng)網(wǎng)絡(luò)取得突破性進(jìn)展,人工智能又一次進(jìn)入黃金時(shí)期。
AI將由狹義智能向廣義智能進(jìn)化,雖然人工智能的誕生已經(jīng)有60年的時(shí)間但如果把它比喻成一個(gè)人的話,當(dāng)前的他應(yīng)該還未成年。按照人工智能的“智能”程度,可以將其分成狹義智能、廣義智能、超級(jí)智能三個(gè)大的發(fā)展階段,現(xiàn)階段的圖像與語(yǔ)音識(shí)別水平標(biāo)志著人類已經(jīng)基本實(shí)現(xiàn)狹義智能,正在向廣義智能的階段邁進(jìn)。
狹義智能:即當(dāng)前的技術(shù)已經(jīng)實(shí)現(xiàn)的智能水平,包括計(jì)算智能與感知智能兩個(gè)子階段,計(jì)算智能指的機(jī)器開(kāi)始具備計(jì)算與傳遞信息的功能,感知智能指機(jī)器開(kāi)始具備“眼睛”和“耳朵”,即具備圖像識(shí)別與語(yǔ)音識(shí)別的能力,并能以此為判斷采取一些行動(dòng)。
廣義智能:指的是機(jī)器開(kāi)始具備認(rèn)知能力,能像人類一樣獲取信息后主動(dòng)思考并主動(dòng)采取行動(dòng)。在這個(gè)階段,機(jī)器可以全面輔助或代替人類工作。
超級(jí)智能:這個(gè)階段的機(jī)器幾乎在所有領(lǐng)域都比人類聰明,包括科學(xué)創(chuàng)新、通識(shí)和社交技能等。這個(gè)階段目前離我們還比較遙遠(yuǎn),到時(shí)候人類的文明進(jìn)步和跨越或許將有賴于機(jī)器,而機(jī)器人意識(shí)的倫理問(wèn)題也許將在這個(gè)階段成為主要問(wèn)題。
推薦引擎及協(xié)同過(guò)濾可以分析更多的數(shù)據(jù)
智能助手并不只局限于Siri等手機(jī)語(yǔ)音助手。微軟率先在win10 系統(tǒng)中加入個(gè)人智能助理Cortana,標(biāo)志著個(gè)人PC端智能助理的出現(xiàn);圖靈機(jī)器人以云服務(wù)的方式進(jìn)入海爾智能家居、博世m(xù)ySPIN車載系統(tǒng),預(yù)示著多場(chǎng)景人工智能解決方案的潮流。初步實(shí)現(xiàn)人機(jī)交互的智能助手系統(tǒng),已經(jīng)被應(yīng)用于智能客服、聊天機(jī)器人、家用機(jī)器人、微信管理平臺(tái)、車載系統(tǒng)、智能家居系統(tǒng)、智能手機(jī)助理等多個(gè)軟硬件領(lǐng)域。
垂直類網(wǎng)站及社交平臺(tái)可以借助智能助手系統(tǒng)打造高專業(yè)度的“在線專家”以提升平臺(tái)價(jià)值;企業(yè)可以借助以“語(yǔ)義識(shí)別”為基礎(chǔ)的智能助手系統(tǒng),打造智能客服,效率遠(yuǎn)高于傳統(tǒng)的以“關(guān)鍵詞對(duì)應(yīng)”為技術(shù)支持的客服系統(tǒng)。
推薦引擎,是主動(dòng)發(fā)現(xiàn)用戶當(dāng)前或潛在需求,并主動(dòng)推送信息給用戶的信息網(wǎng)絡(luò)。挖掘用戶的喜好和需求,主動(dòng)向用戶推薦其感興趣或者需要的對(duì)象。傳統(tǒng)推薦引擎通常利用用戶在平臺(tái)上的歷史記錄進(jìn)行推薦,效率低、匹配度不高。目前隨著大數(shù)據(jù)和深度學(xué)習(xí)技術(shù)的推進(jìn),推薦引擎及協(xié)同過(guò)濾可以分析更多的數(shù)據(jù),乃至全網(wǎng)數(shù)據(jù),并模擬用戶的需求,真正達(dá)到按需推薦。全球最大的正版流媒體音樂(lè)服務(wù)平臺(tái)Spotify也利用卷積神經(jīng)網(wǎng)絡(luò)參與建設(shè)其音樂(lè)推薦引擎;谷歌也提出利用深度學(xué)習(xí)方法來(lái)學(xué)習(xí)標(biāo)簽進(jìn)行推薦建設(shè)。出品紙牌屋的全球最大在線影片租賃公司Netflix 也利用深度學(xué)習(xí)網(wǎng)絡(luò)分析客戶消費(fèi)的大數(shù)據(jù),還計(jì)劃構(gòu)建一個(gè)在AWS云上的以GPU為基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)。
“餐廳推薦引擎”Nara,便是一個(gè)利用AI技術(shù)的推薦引擎。在上線之初,Nara 就取得了400萬(wàn)美元的投資。Nara 的數(shù)據(jù)庫(kù)中有超過(guò)100000家餐廳的信息,并利用特有的“Nara神經(jīng)網(wǎng)絡(luò)”,學(xué)習(xí)使用者的偏好,最終達(dá)到“電腦幫你點(diǎn)餐”的目的。
而今年3月22日,國(guó)內(nèi)AI領(lǐng)軍企業(yè)阿里巴巴旗下的阿里云數(shù)加啟動(dòng)“個(gè)性化推薦”引擎對(duì)外公測(cè),該引擎用于幫助創(chuàng)業(yè)者可以快速獲得媲美淘寶天貓的個(gè)性化服務(wù)能力。阿里云數(shù)加上的推薦引擎能夠以更低的成本完成開(kāi)發(fā),節(jié)省程序量達(dá)到90%,推薦引擎的搭建時(shí)間將由幾個(gè)月縮短到幾天。
對(duì)于不了解算法的人,只能實(shí)現(xiàn)標(biāo)簽規(guī)則類的推薦,但如果要做成機(jī)械化、類似協(xié)同過(guò)濾的算法,創(chuàng)業(yè)公司需要配置大量的算法工程師,人力成本很高。現(xiàn)在用了數(shù)加的推薦引擎,商家只需要做數(shù)據(jù)的ETL加工,推薦的結(jié)果集、訓(xùn)練集都不用處理,只需要調(diào)整參加即可得到推薦結(jié)果。
AI帶給人們新的視覺(jué)???
醫(yī)療:為健康診斷和藥品研發(fā)插上高飛的翅膀
健康診斷有望迎來(lái)新紀(jì)元,海量的病歷數(shù)據(jù)和醫(yī)學(xué)界的新研究成果,單靠人工很難及時(shí)篩選并利用,而引入人工智能技術(shù)將充分發(fā)揮這些信息的價(jià)值。例如著名的個(gè)人健康管理產(chǎn)品公司W(wǎng)elltok將 IBM的Watson功能融入旗下產(chǎn)品 CafeWell Concierge APP中,借助 Watson 的認(rèn)知計(jì)算能力理解人類語(yǔ)言,實(shí)現(xiàn)與用戶溝通的能力,從大量數(shù)據(jù)中進(jìn)行分析并為用戶提供健康管理相關(guān)的答案和建議,實(shí)現(xiàn)健康管理、慢病恢復(fù)訓(xùn)練、健康食譜等功能,這一領(lǐng)域的良好前景使 Wellltok公司近年的融資額連創(chuàng)新高。另外,2015年IBM斥資10億美元收購(gòu)醫(yī)療影像與臨床系統(tǒng)提供商Merge,將研究如何實(shí)現(xiàn) Watson的“辨讀”醫(yī)學(xué)影像功能。此外,AI 還可以從醫(yī)療中心獲得的健康數(shù)據(jù),通過(guò)大數(shù)據(jù)分析,實(shí)現(xiàn)根據(jù)分析患者行為來(lái)制定個(gè)性化治療方案的功能。
智能家居:天花板尚遠(yuǎn),AI有望成為核心
行業(yè)天花板尚遠(yuǎn),增速有望保持在 50%左右, 《鋼鐵俠》中的“Jarvis”作為智能管家,除了起到鋼鐵俠的小秘書(shū)的作用,還幫主人打理著日常生活,向我們展示了一個(gè)理想中的智能家居系統(tǒng)。雖然我們目前可能離那個(gè)無(wú)所不能的智能管家還很遙遠(yuǎn),但智能家居對(duì)我們生活的變革確實(shí)已經(jīng)開(kāi)始了。根據(jù)《2012-2020 年中國(guó)智能家居市場(chǎng)發(fā)展趨勢(shì)及投資機(jī)會(huì)分析報(bào)告》的預(yù)測(cè),我國(guó)智能家居市場(chǎng)在 2016年將達(dá)到605.7億的規(guī)模,同比增長(zhǎng)50.15%,到2020年市場(chǎng)規(guī)模將達(dá)到3294億,年均增速將保持在50%左右,具備充足的向上延伸空間。而智能家居想達(dá)到“Jarvis”般的終極效果,必然需要引入AI技術(shù),實(shí)現(xiàn)家居的感應(yīng)式控制甚至自我學(xué)習(xí)能力。
AI有望成為智能家居的核心,實(shí)現(xiàn)家居自我學(xué)習(xí)與控制。按照智能家居的發(fā)展進(jìn)度,大致可以分為四個(gè)階段:手機(jī)控制、多控制結(jié)合、感應(yīng)式控制、系統(tǒng)自我學(xué)習(xí)。當(dāng)前的發(fā)展水平還處在手機(jī)控制向多控制結(jié)合的過(guò)度階段。而從多控制結(jié)合向感應(yīng)式控制甚至自我學(xué)習(xí)階段進(jìn)化時(shí),AI將發(fā)揮主要功能。到今天為止,家居的實(shí)體功能已經(jīng)較為全面,未來(lái)的發(fā)展重點(diǎn)可能在于如何使之升級(jí)改造,實(shí)現(xiàn)家居的自我行為及協(xié)作,因此未來(lái)AI在智能家居領(lǐng)域的應(yīng)用有望成為其核心價(jià)值。AI對(duì)智能家居的重構(gòu)可以深入到方方面面,包括:控制主機(jī)、照明系統(tǒng)、影音系統(tǒng)、環(huán)境監(jiān)控、防盜監(jiān)控、門(mén)窗控制、能源管理、空調(diào)系統(tǒng)、花草澆灌、寵物看管等等。
無(wú)人駕駛:政策漸萌芽,AI決定可靠性
優(yōu)點(diǎn)多、動(dòng)機(jī)足、政策漸萌芽。據(jù)麥肯錫的調(diào)查顯示,如果能解放駕駛員的雙手,一輛無(wú)人駕駛汽車內(nèi)的乘客通過(guò)移動(dòng)互聯(lián)網(wǎng)使用數(shù)字媒體服務(wù)的時(shí)間多一分鐘,每年全球數(shù)字媒體業(yè)務(wù)產(chǎn)生的利潤(rùn)將增加 50億歐元。此外,由于自動(dòng)泊車無(wú)須為乘客下車預(yù)留開(kāi)門(mén)空間,使得停車位空間可縮減至少15%。
如果無(wú)人駕駛汽車以及ADAS系統(tǒng)能夠?qū)⑹鹿拾l(fā)生率降低90%,即可挽回全美每年的損失約1千900億美金。可以說(shuō)諸多的優(yōu)點(diǎn)使得無(wú)人駕駛技術(shù)的研發(fā)動(dòng)機(jī)還是相當(dāng)充分的,因此未來(lái)無(wú)人駕駛推行的力度應(yīng)該還會(huì)保持在一個(gè)比較高的水平。美國(guó)勒克斯研究公司曾預(yù)計(jì)無(wú)人駕駛汽車的市場(chǎng)規(guī)模在2030年將達(dá)到870億美元。
到目前為止,各國(guó)政府對(duì)于無(wú)人駕駛技術(shù)在政策上的支持正逐步放開(kāi),美國(guó)政府在年初剛剛宣布了40億美元的資助計(jì)劃;英國(guó)目前已經(jīng)不需要獲得額外批準(zhǔn)和履約保證即可進(jìn)行實(shí)際道路的無(wú)人駕駛汽車測(cè)試;而德國(guó)也在去年宣布將計(jì)劃設(shè)立無(wú)人駕駛汽車測(cè)試路段,供安裝有駕駛輔助系統(tǒng)或全自動(dòng)駕駛系統(tǒng)車輛行駛;歐盟總部正在就如何修改現(xiàn)行有關(guān)駕駛的法律法規(guī)從而支持自動(dòng)駕駛的發(fā)展展開(kāi)討論和研究工作;日本也提出要在2020年之前實(shí)現(xiàn)自動(dòng)駕駛汽車方面的立法,并將自動(dòng)駕駛作為 2016年9月七國(guó)集團(tuán)交通部長(zhǎng)會(huì)議的議題。
“無(wú)人汽車大腦”AI的智能程度決定了無(wú)人駕駛的可靠性。由于無(wú)人駕駛完全交由汽車的內(nèi)置程序負(fù)責(zé),因此AI就是無(wú)人汽車的大腦,而測(cè)距儀、雷達(dá)、傳感器、GPS等。設(shè)備都是AI的“眼睛”。AI的智能程度直接決定了無(wú)人駕駛汽車在不同的路況、不同的天氣、甚至一些探測(cè)設(shè)備出現(xiàn)故障的突況下能否及時(shí)做出正確的判斷并靈活調(diào)整行駛策略,最終決定了無(wú)人駕駛汽車當(dāng)前最亟待突破的可靠性。
NVIDIA 在2016年的 CES大會(huì)上了“Drive PX 2”車載計(jì)算機(jī),以及一套與之搭配的具有學(xué)習(xí)功能的自動(dòng)駕駛系統(tǒng)。該系統(tǒng)的亮點(diǎn)在于“自我學(xué)習(xí)”,通過(guò)讓車輛自行分析路面狀況,而不是在數(shù)據(jù)庫(kù)中尋找預(yù)先儲(chǔ)存的策略實(shí)現(xiàn)自動(dòng)駕駛,系統(tǒng)背后連接著名為NVIDIA DIGITS的深度學(xué)習(xí)訓(xùn)練平臺(tái),最終連接到NVIDIA DRIVENET神經(jīng)網(wǎng)絡(luò),為車輛的自我學(xué)習(xí)和完善提供支持。并且由于它是通過(guò)判斷物體的行進(jìn)軌跡而不是物體本身去計(jì)算路徑,因此在駕駛時(shí)受天氣影響較小。
AI 成必爭(zhēng)之地
目前全球AI主戰(zhàn)場(chǎng)依舊在歐美。Venture Scanner的統(tǒng)計(jì)顯示,根據(jù)從事 AI相關(guān)業(yè)務(wù)的公司數(shù)量來(lái)看,目前全球 AI的主戰(zhàn)場(chǎng)還是集中在北美和西歐地區(qū)。美國(guó)數(shù)量最多,達(dá)到450家左右的水平。而中國(guó)從事相關(guān)業(yè)務(wù)的公司數(shù)量還比較少,和俄羅斯、澳洲、部分歐洲國(guó)家及非洲南部國(guó)家水平接近,相比起歐美國(guó)家的AI公司數(shù)量,還有很大的提高空間。
Google:投資未來(lái)的人工智能帝國(guó)
建立Alphabet帝國(guó),具備品牌背書(shū)效應(yīng)。2015年,谷歌成立母公司 Alphabet, 搜索、廣告、地圖、App、Youtube、安卓以及與之相關(guān)的技術(shù)基礎(chǔ)部門(mén)”仍屬于谷歌,而Calico、Nest、Google Fiber、Google Venture、Google Capital 及 Google X 都將獨(dú)立出來(lái),成為 Alphabet 旗下的獨(dú)立公司。通過(guò)建立 Alphabet集團(tuán),谷歌將不同業(yè)務(wù)的研發(fā)獨(dú)立出來(lái),以子公司的形式進(jìn)行業(yè)務(wù)開(kāi)展,保留在Google這個(gè)品牌下的基本都是原有的傳統(tǒng)強(qiáng)勢(shì)業(yè)務(wù)。
而其它公司負(fù)責(zé)在各自的領(lǐng)域“打頭陣”,一旦業(yè)務(wù)研發(fā)成功,母公司連帶著google這個(gè)品牌都可以受益,而如果研發(fā)失敗,也不會(huì)公司的品牌造成多大的不良影響,建立了良好的品牌背書(shū)效應(yīng)。將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用到所有產(chǎn)品之中,我們不難發(fā)現(xiàn),谷歌近年幾乎將人工智能滲透到了旗下的各類產(chǎn)品中,可謂是全線鋪開(kāi)。正應(yīng)了谷歌 CEO的那句話:“我們將小心謹(jǐn)慎地將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用到我們所有的產(chǎn)品之中。”根據(jù)當(dāng)前Alphabet 的集團(tuán)架構(gòu),我們將涉及到AI應(yīng)用的子公司情況以及相應(yīng)的業(yè)務(wù)開(kāi)展情況羅列如下:
Nest:從事智能家居生態(tài)系統(tǒng)建設(shè)。2014 年谷歌以32億美元收購(gòu) Nest。Nest 生產(chǎn)智能恒溫器,它能夠?qū)W習(xí)用戶的行為習(xí)慣,并且根據(jù)他們的喜好去調(diào)節(jié)溫度。同時(shí),Nest 也提供火警探測(cè)器和家庭安全攝像頭等智能家居。
Google X:谷歌各類創(chuàng)新技術(shù)的“孵化池”。Google X開(kāi)展的與AI有關(guān)的項(xiàng)目有:無(wú)人駕駛汽車、Project Wing 無(wú)人機(jī)送貨項(xiàng)目、對(duì)抗帕金森氏癥的 Liftware“反抖”湯匙、用于疾病預(yù)警和健康監(jiān)控的可穿戴設(shè)備、Project Titan 太陽(yáng)能無(wú)人機(jī)項(xiàng)目、以及 Replicant 團(tuán)隊(duì)負(fù)責(zé)的機(jī)器人項(xiàng)目等。
Verily:從事生命科學(xué)業(yè)務(wù),即原來(lái)的 Google Life Science。代表產(chǎn)品有可以收集佩戴者體溫和血液酒精含量等生物數(shù)據(jù)的智能隱形眼鏡,以及監(jiān)控血液中納米粒子的智能腕表。
DeepMind:深度學(xué)習(xí)算法公司。2014年谷歌以4億美元收購(gòu)了DeepMind。