前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數據挖掘技術探討論文主題范文,僅供參考,歡迎閱讀并收藏。
【關鍵詞】信息資源管理;研究生教學;財經院校
【中圖分類號】G642 【文獻標識碼】B 【論文編號】1009―8097 (2008) 09―0125―03
信息資源管理(IRM)是為了確保信息資源的有效利用、以現代信息技術為手段,對信息資源實施計劃、預算、組織、指揮、控制、協調的一種管理活動[1]。信息資源管理的理論和實踐活動及以后信息資源管理類學科之間的集成和整合的需要,導致了一門滲透性很強的橫斷學科――信息資源管理學產生[2],其內容涉及信息科學、管理科學、數據處理、通信、計算機科學、文獻情報學等各個方面。隨著全球信息化基礎設施建設的熱潮,信息資源管理也成為國內外高校開設的一門重要課程。
一 國內外高校同類課程現狀
信息資源管理作為一門新興邊緣學科,打破了原有學科界限,具有鮮明的時代特征,作為檔案學、圖書館情報學和情報學的一個分支領域,多學科綜合性、交叉性等特點是其典型特征[2]。在國外大學,IRM課程多設置在信息科學專業,如美國東北大學,或者圖書館學專業,如威斯康星大學。根據學科專業不同,課程側重點也有所不同,主要可分為三大方向:信息系統學派、記錄管理學派、信息管理學派。
90年代初,中國學者孟廣均和盧泰宏等人系統地引入了信息資源管理理論[3]。目前,國內很多高校信息管理專業和圖書館情報學專業都開設了信息資源管理課程,大多都設置在本科專業,也有一些設立了碩士和博士研究方向。大部分還是以傳統的信息管理為主線,以理論教育為主導,和企業應用及時代特點結合的較少,教學重點也依專業有所不同。
二 課程教學探討
1 課程定位
我校自2001年開始開設此課程作為信息學院碩士研究生必修課程。不同于其他高校的信息管理專業和圖書館情報學專業,我校是財經類院校,信息學院碩士方向主要為電子商務、供應鏈管理、信息管理,是以管理學、經濟學為主、信息技術為輔助實現手段的交叉學科,因此我們的IRM課程定位也是多學科交叉,側重從管理思維及企業應用而不是技術角度,結合當前知識經濟時代特征組織課程內容體系、分析講解問題,和企業市場對具有復合型知識結構人才的需求緊密結合。
2 體系結構
本課程自開設以來,一直由作者承擔此課程的教學及相關研究工作。作者在對當前國內IRM教材著作、教學內容深入研究及6年教學實踐體驗的基礎上,結合在美國威斯康星大學圖書館和信息科學學院的交流學習經驗,提出了適合本專業方向和學生特點的創新課程體系結構,經過多次教學實踐,得到學生的認可。我們的課程體系遵循系統性和創新性原則,在保證教學內容所包含的知識是具有內在邏輯聯系的完整知識體系前提下,區別于以傳統信息系統管理為主線的內容體系,采用符合知識經濟時代特征的體系結構,反映學科領域最新成果,在這里提出來供大家探討。
(1) 信息資源管理概述:作為整個課程的基礎,這部分主要包括數據、信息、信息資源、信息化、信息產業、知識、知識經濟、知識管理等概念及其關聯,目的是使學生掌握信息資源從產生到利用到再創造的過程。
(2) 知識管理:知識是從相關信息中過濾、提煉、經過人腦加工得到的有用信息,知識管理是現代信息資源(知識資源)管理的核心。這部分主要介紹知識的生命周期;企業知識管理的原因、目的、工具和手段;知識管理的企業實施和應用;知識管理系統方案和技術平臺;北京移動、三星等企業知識管理案例分析。
(3) 數據挖掘:數據挖掘是數據庫中的知識發現,是從海量數據中抽取出潛在的、有價值的信息、知識,是針對目前企業面對大量雜亂數據無法辨別有價值的資源進行管理,而提出的方法。本部分主要介紹數據挖掘的特點、原由、過程、人員、環境、相關技術;數據挖掘的商業應用;相關軟件(重點SPSS系統);數據挖掘與CRM;數據挖掘在證券行業、網絡應用、遠程教育等方面的應用案例分析。不同于介紹技術和算法為主的數據挖掘課程,本課程重點在于數據挖掘的商業應用,側重于分析、管理和應用。
(4) 信息資源規劃(IRP):IRP是完全中國特色的信息資源管理內容,是指對企事業單位或政府部門所需要的信息資源,從采集、處理、傳輸到使用的全面規劃,是針對于國內信息化建設的總體規劃。主要內容包括:信息資源管理基礎標準的講解及應用;信息資源網;IRP在大型企事業單位的實施(四一三三原則);IRP與ERP;IRP2000系統軟件介紹;政府信息資源規劃案例。
(5) 首席信息執行官(CIO):CIO在企業的角色主要就是對企業的信息資源進行總體規劃、協調、管理,因此這部分主要介紹IRM與CIO;中國CIO面臨的挑戰和機遇;CIO與IRP的工程化方法;CIO與本組織信息化整體解決方案(IT服務鏈)。
(6) 網絡信息資源管理:適應當前網絡發展,介紹通過網絡如何對信息資源進行更好的組織和管理。主要包括網絡信息資源及信息結構;網絡信息資源組織;信息結構(導航、標志、檢索等系統)設計;網站資源設計原則;案例分析。
(7) 信息資源安全管理:在信息資源的開發、管理和利用過程中,安全問題是一個十分重要的問題,因此本部分主要從管理和技術兩方面對信息資源管理中的安全風險及應對措施進行分析,并結合案例介紹對系統進行審計和評價的方法。
3 教學資源
教師注重將所講授內容體現在教學實踐本身,隨時隨處體現“信息資源管理”觀點和方法:利用知識管理理念,整合各方面知識資源,包括各種教材著作、專家渠道、國內外最新研究論文、案例資源等內容,形成資源庫。
自課程開設以來,先后使用參考過科學出版社出版孟廣均等著的《信息資源管理導論》,高等教育出版社王景光主編的《信息資源管理》,武漢大學馬費成編著的《信息資源開發利用》,北京理工大學甘仞初主編的《信息資源管理》,電子工業出版社肖明編著的《信息資源管理》等著作,以及Ricks Betty R & Gow, KAY F. Information Resource Management Cincinnati (Ohio)等國外著作。已有教材都對信息管理學科進行了全面系統的論述,但內容大都比較抽象,理論性較強,多以信息系統論為核心,和現實企業應用及我們專業特點結合不足。因此,教師在教學中,指定其中兩本為參考教材,而圍繞課程體系的內容主要來自于教師對國內外研究資料收集整理加工后形成的教案、講義,資料來源大都為排名行業前列的學術刊物、數據庫、著名專家。除了理論知識,資源庫還納入不同企業的案例,以及知識案例獲取的各種專家渠道。
4 教學方法
結合課程和中國學生特點,教師在教學中注重創新性,借鑒國內外同行的經驗,及時引入先進的教學理念和方法手段,采用整合的教學方式“課堂講授+案例分析+Leading Discussion+小組討論/作業”相結合,目的在于盡量激發學生主動學習的愿望和能力,區別于以往“高級本科生”似的研究生教育方式。
(1) 教師的課堂講授主要在于讓學生了解知識課程體系結構及關鍵知識點,特別是重點和難點,引導學生把點串成線,配合閱讀資料和案例,進而使知識面立體化。
(2) 案例分析,主要是教師通過企業渠道獲得并整理內容詳實的企業案例,把理論知識融入到企業實際應用中,加深學生對理論和實踐如何結合起來的理解,彌補學生由于條件所限無法親自參與重要的企業實踐環節的缺口。
(3) Leading Discussion是教師借鑒美國大學研究生課程教學方法所得,培養學生獨立深度研究分析能力。由于課程內容比現有教材更新,涉及范圍更廣,僅靠教材難以獲取足夠知識。教師定期提供國際上較新的研究論文,課下每位同學獨立閱讀并總結出不超過一頁紙的summary,提出2-3個針對性問題。課堂上每次輪流由不同學生主持leading discussion對論文進行分析討論,并回答問題。這種方式有助于學生開拓視野,了解國際最新動向,督促其主動學習、思考、溝通能力(這正是中國學生普遍缺乏的),還能提高專業英語閱讀理解歸納能力和閱讀速度。
(4) 小組討論/作業主要是教師提供案例內容框架及引導問題,學生分組討論不同案例(課堂或課下,視時間而定),鼓勵brain storming,以PPT形式進行課堂演示,實現知識資源共享。最后教師對各組案例分析就行評價總結。
全程采用多媒體教學,教學中始終貫穿著啟發式、引導性和參與性的理念。啟發式教學:啟發學生通過以上各種方式實現自我學習、自我教育,克服教師滿堂貫、填鴨式的教學方式,注重研究生教育和本科教育的區別。引導性:教師在教學中先引入問題,積極啟發學生主動思考,而不是被動接受灌輸;引導學生探索性閱讀,進入學術研究領域。參與性:鼓勵學生主動參與教學環節,師生互動、教學相長,調動學生學習的積極性和主動性。
5 考核
為體現課程的多學科交叉性、復合型知識能力特點,課程采用多形式考核方式,重在考察學生對企業實際問題分析、提出解決方案的能力,以及此過程中對現代IRM管理理念和知識的理解應用和滲透。在強調“開卷+閉卷”傳統考試形式基礎之上,將參與討論、案例分析、Leading Discussion、論文撰寫、企業調研、小組作業等綜合起來全面考察學生學習情況,這種“非概念記憶”的能力考核方式進一步調動了學生主動學習的積極性和創造力。
三 結言
經過多次教學實踐不斷改進,教學內容體系和方式方法得到了專家及學生的一致認可:普遍認為課程內容新穎全面,反映信息資源管理領域的最新發展和趨勢;國外資源豐富,與國際學科發展接軌;高質量案例的引入恰當充分,和實際企業應用相聯系。教師在講授中補充很多專業領域最新的知識,擴展學生知識面;注重關鍵知識點的掌握,培養學生獨立思考和判斷、分析、解決問題的能力,非常適合財經類院校研究生階段教學的特點。
在教學中,我們也注意及時發現總結問題,充分意識到不足和需要改進之處:
1 教學中很多內容都超出現有參考教材,因此需要將教學內容資源整合成更加系統全面的教材,供學生參考。
2 對于一些最新的較為抽象的內容,以及一些專業術語,還需進一步增加關聯性更強的實例,更加深入淺出的進行講解,讓學生更容易理解。
3 信息和網絡時代,知識及企業應用的更新頻率都在加速,需要及時更新資源庫以和現實世界發展保持同步,如何追蹤最新的知識資源、企業實踐和專家渠道是很大的挑戰。
信息資源管理課程是知識經濟時代新興的一門重要課程,教學體系、方法發展還不完善。在北京召開的北京高校信息資源管理專業高級研討會上,大家也一致認為信息資源管理這門課程的教材的內容和教學方法需要進一步改革。本文提出了適合財經類院校研究生的教學內容體系和教學方法設計,供開設此課程的高校教師探討,并希望能有一定的啟發借鑒作用。
參考文獻
[1] 王景光.信息資源管理[M].高等教育出版,2002.12.
[作者簡介]王會金(1962― ),男,浙江東陽人,南京審計學院副校長,教授,博士,從事信息系統審計研究。
[摘 要]當前,我國急需一套完善的中觀信息系統審計風險控制體系。這是因為我國的中觀經濟主體在控制信息系統審計風險時需要一套成熟的管理流程,且國家有關部門在制定信息系統審計風險防范標準方面也需要完善的控制體系作為支撐。在闡述COBIT與數據挖掘基本理論的基礎上,借鑒COBIT框架,構建中觀信息系統審計風險的明細控制框架,利用數據挖掘技術有針對性地探索每一個明細標準的數據挖掘路徑,創建挖掘流程,建立適用于我國中觀經濟特色的信息系統審計風險控制體系。
[關鍵詞]中觀信息系統審計;COBIT框架;數據挖掘;風險控制;中觀審計
[中圖分類號]F239.4 [文獻標識碼]A [文章編號]10044833(2012)01001608
中觀信息系統審計是中觀審計的重要組成部分,它從屬于中觀審計與信息系統審計的交叉領域。中觀信息系統審計是指IT審計師依據特定的規范,運用科學系統的程序方法,對中觀經濟主體信息系統的運行規程與應用政策所實施的一種監督活動,旨在增強中觀經濟主體特定信息網絡的有效性、安全性、機密性與一致性[1]。與微觀信息系統相比,中觀信息系統功能更為復雜,且區域內紛亂的個體間存在契約關系。中觀信息系統的復雜性主要體現在跨越單個信息系統邊界,參與者之間在信息技術基礎設施水平、信息化程度和能力上存在差異,參與者遵循一定的契約規則,依賴通信網絡支持,對安全性的要求程度很高等方面。中觀信息系統審計風險是指IT審計師在對中觀信息系統進行審計的過程中,由于受到某些不確定性因素的影響,而使審計結論與經濟事實不符,從而受到相關關系人指控或媒體披露并遭受經濟損失以及聲譽損失的可能性。中觀信息系統審計風險控制的研究成果能為我國大型企業集團、特殊的經濟聯合體等中觀經濟主體保持信息系統安全提供強有力的理論支持與實踐指導。
一、 相關理論概述與回顧
(一) COBIT
信息及相關技術的控制目標(簡稱COBIT)由美國信息系統審計與控制協會(簡稱ISACA)頒布,是最先進、最權威的安全與信息技術管理和控制的規范體系。COBIT將IT過程、IT資源及信息與企業的策略及目標聯系于一體,形成一個三維的體系框架。COBIT框架主要由執行工具集、管理指南、控制目標和審計指南四個部分組成,它主要是為管理層提供信息技術的應用構架。COBIT對信息及相關資源進行規劃與處理,從信息技術的規劃與組織、采集與實施、交付與支持以及監控等四個方面確定了34個信息技術處理過程。
ISACA自1976年COBIT1.0版以來,陸續頒布了很多版本,最近ISACA即將COBIT5.0版。ISACA對COBIT理論的研究已趨于成熟,其思路逐步由IT審計師的審計工具轉向IT內部控制框架,再轉向從高管層角度來思考IT治理。大多數國際組織在采納COSO框架時,都同時使用COBIT控制標準。升陽電腦公司等大型國際組織成功應用COBIT優化IT投資。2005年,歐盟也選擇將COBIT作為其審計準則。國內學者對COBIT理論的研究則以借鑒為主,如陽杰、張文秀等學者解讀了COBIT基本理論及其評價與應用方法[23];謝羽霄、黃溶冰等學者嘗試將COBIT理論應用于銀行、會計、電信等不同的信息系統領域[45]。我國信息系統審計的研究目前正處于起步階段,因而將COBIT理論應用于信息系統的研究也不夠深入。王會金、劉國城研究了COBIT理論在中觀信息系統重大錯報風險評估中的運用,金文、張金城研究了信息系統控制與審計的模型[1,6]。
(二) 數據挖掘
數據挖掘技術出現于20世紀80年代,該技術引出了數據庫的知識發現理論,因此,數據挖掘又被稱為“基于數據庫的知識發現(KDD)”。1995年,在加拿大蒙特利爾召開的首屆KDD & Date Mining 國際學術會議上,學者們首次正式提出數據挖掘理論[7]。當前,數據挖掘的定義有很多,但較為公認的一種表述是:“從大型數據庫中的數據中提取人們感興趣的知識。這些知識是隱含的、事先未知的潛在有用信息,提取的知識表現為概念、規則、規律、模式等形式。數據挖掘所要處理的問題就是在龐大的數據庫中尋找有價值的隱藏事件,加以分析,并將有意義的信息歸納成結構模式,供有關部門在進行決策時參考。”[7]1995年至2010年,KDD國際會議已經舉辦16次;1997年至2010年,亞太PAKDD會議已經舉辦14次,眾多會議對數據挖掘的探討主要圍繞理論、技術與應用三個方面展開。
目前國內外學者對數據挖掘的理論研究已趨于成熟。亞太PAKDD會議主辦方出版的論文集顯示,2001年至2007年僅7年時間共有32個國家與地區的593篇會議論文被論文集收錄。我國學者在數據挖掘理論的研究中取得了豐碩的成果,具體表現在兩個方面:一是挖掘算法的縱深研究。李也白、唐輝探索了頻繁模式挖掘進展,鄧勇、王汝傳研究了基于網絡服務的分布式數據挖掘,肖偉平、何宏研究了基于遺傳算法的數據挖掘方法[810]。二是數據挖掘的應用研究。我國學者對于數據挖掘的應用研究也積累了豐富的成果,并嘗試將數據挖掘技術應用于醫學、通訊、電力、圖書館、電子商務等諸多領域。2008年以來,僅在中國知網查到的關于數據挖掘應用研究的核心期刊論文就多達476篇。近年來,國際軟件公司也紛紛開發數據挖掘工具,如SPSS Clementine等。同時,我國也開發出數據挖掘軟件,如上海復旦德門公司開發的Dminer,東北大學軟件中心開發的Open Miner等。2000年以來,我國學者將數據挖掘應用于審計的研究成果很多,但將數據挖掘應用于信息系統審計的研究成果不多,且主要集中于安全審計領域具體數據挖掘技術的應用研究。
二、 中觀信息系統審計風險控制體系的構想
本文將中觀信息系統審計風險控制體系(圖1)劃分為以下三個層次。
(一) 第一層次:設計中觀信息系統審計風險的控制框架與明細控制標準
中觀信息系統審計的對象包括信息安全、數據中心運營、技術支持服務、災難恢復與業務持續、績效與容量、基礎設施、硬件管理、軟件管理、數據庫管理、系統開發、變革管理、問題管理、網絡管理、中觀系統通信協議與契約規則等共計14個主要方面[11]。中觀信息系統審計風險控制體系的第一層次是根據COBIT三維控制框架設計的。這一層次需要構架兩項內容:(1)中觀信息系統審計風險的控制框架。該控制框架需要完全融合COBIT理論的精髓,并需要考慮COBIT理論的每一原則、標準、解釋及說明。該控制框架由14項風險防范因子組成,這14個因子必須與中觀信息系統審計的14個具體對象相對應。框架中的每一個因子也應該形成與自身相配套的風險控制子系統,且子系統應該包含控制的要素、結構、種類、目標、遵循的原則、執行概要等內容。(2)中觀信息系統審計風險的明細控制標準。控制框架中的14項風險防范因子需要具備與自身相對應的審計風險明細控制規則,IT審計師只有具備相應的明細規范,才能在中觀信息系統審計實施過程中擁有可供參考的審計標準。每個因子的風險控制標準的設計需要以COBIT三維控制框架為平臺,以4個域、34個高層控制目標、318個明細控制目標為準繩。
(二) 第二層次:確定風險控制框架下的具體挖掘流程以及風險控制的原型系統
第一層次構建出了中觀信息系統審計風險控制的明細標準Xi(i∈1n)。在第一層次的基礎上,第二層次需要借助于數據挖掘技術,完成兩個方面的工作。一是針對Xi,設計適用于Xi自身特性的數據挖掘流程。這一過程的完成需要數據資料庫的支持,因而,中觀經濟主體在研討Xi明細控制標準下的數據挖掘流程時,必須以多年積累的信息系統控制與審計的經歷為平臺,建立適用于Xi的主題數據庫。針對明細標準Xi的內在要求以及主題數據庫的特點,我們就可以選擇數據概化、統計分析、聚類分析等眾多數據挖掘方法中的一種或若干種,合理選取特征字段,分層次、多角度地進行明細標準Xi下的數據挖掘實驗,總結挖掘規律,梳理挖掘流程。二是將適用于Xi的n個數據挖掘流程體系完善與融合,開發針對本行業的中觀信息系統審計風險控制的原型系統。原型系統是指系統生命期開始階段建立的,可運行的最小化系統模型。此過程通過對n個有關Xi的數據挖掘流程的融合,形成體系模型,并配以詳細的說明與解釋。對該模型要反復驗證,多方面關注IT審計師對該原型系統的實際需求,盡可能與IT審計師一道對該原型系統達成一致理解。
(三) 第三層次:整合前兩個步驟,構建中觀信息系統風險控制體系
第三層次是對第一層次與第二層次的整合。第三層次所形成的中觀信息系統風險控制體系包括四部分內容:(1)中觀信息系統審計風險控制框架;(2)中觀信息系統審計風險控制參照標準;(3)中觀信息系統審計風險控制明細標準所對應的數據挖掘流程集;(4)目標行業的中觀信息系統審計風險控制的原型系統。在此過程中,對前三部分內容,需要歸納、驗證、總結,并形成具有普遍性的中觀審計風險控制的書面成果;對第四部分內容,需要在對原型系統進行反復調試的基礎上將其開發成軟件,以形成適用于目標行業不同組織單位的“軟性”成果。在設計中觀信息系統風險控制體系的最后階段,需要遵循控制體系的前三部分內容與第四部分內容相互一致、相互補充的原則。相互一致表現在控制體系中的框架、明細控制標準、相關控制流程與原型系統中的設計規劃、屬項特征、挖掘原則相協調;相互補充表現在控制體系中的框架、明細控制標準及相關控制流程是IT審計師在中觀信息系統審計中所參照的一般理念,而原型系統可為IT審計師提供審計結論測試、理念指導測試以及驗證結論。 三、 COBIT框架對中觀信息系統審計風險控制的貢獻
(一) COBIT框架與中觀信息系統審計風險控制的契合分析
現代審計風險由重大錯報風險與檢查風險兩個方面組成,與傳統審計風險相比,現代審計風險拓展了風險評估的范圍,要求考慮審計客體所處的行業風險。但從微觀層面看,傳統審計風險與現代審計風險的主要內容都包括固有風險、控制風險與檢查風險。COBIT框架與中觀信息系統審計風險控制的契合面就是中觀信息系統的固有風險與控制風險。中觀信息系統的固有風險是指“假定不存在內部控制情況下,中觀信息系統存在嚴重錯誤或不法行為的可能性”;中觀信息系統的控制風險是指“內部控制體系未能及時預防某些錯誤或不法行為,以致使中觀信息系統依然存在嚴重錯誤或不法行為的可能性”;中觀信息系統的檢查風險是指“因IT審計師使用不恰當的審計程序,未能發現已經存在重大錯誤的可能性”。IT審計師若想控制中觀信息系統的審計風險,必須從三個方面著手:(1)對不存在內部控制的方面,能夠辨別和合理評價被審系統的固有風險;(2)對存在內部控制的方面,能夠確認內部控制制度的科學性、有效性、健全性,合理評價控制風險;(3)IT審計師在中觀信息系統審計過程中,能夠更大程度地挖掘出被審系統“已經存在”的重大錯誤。我國信息系統審計的理論研究起步較晚,IT審計師在分辨被審系統固有風險,確認控制風險,將檢查風險降低至可接受水平三個方面缺乏成熟的標準加以規范,因此我國的中觀信息系統審計還急需一套完備的流程與指南 當前我國有四項信息系統審計標準,具體為《審計機關計算機輔助審計辦法》、《獨立審計具體準則第20號――計算機信息系統環境下的審計》、《關于利用計算機信息系統開展審計工作有關問題的通知》(88號文件)以及《內部審計具體準則第28號――信息系統審計》。。
圖2 中觀信息系統審計風險的控制框架與控制標準的設計思路
COBIT框架能夠滿足IT審計師的中觀信息系統審計需求,其三維控制體系,4個控制域、34個高層控制目標、318個明細控制目標為IT審計師辨別固有風險,分析控制風險,降低檢查風險提供了絕佳的參照樣板與實施指南。COBIT控制框架的管理理念、一般原則完全可以與中觀信息系統審計風險的控制實現完美契合。通過對COBIT框架與中觀信息系統審計的分析,筆者認為COBIT框架對中觀信息系統審計風險控制的貢獻表現在三個方面(見圖2):(1)由COBIT的管理指南,虛擬中觀信息系統的管理指南,進而評價中觀主體對自身信息系統的管理程度。COBIT的管理指南由四部分組成,其中成熟度模型用來確定每一控制階段是否符合行業與國際標準,關鍵成功因素用來確定IT程序中最需要控制的活動,關鍵目標指標用來定義IT控制的目標績效水準,關鍵績效指標用來測量IT控制程序是否達到目標。依據COBIT的管理指南,IT審計師可以探尋被審特定系統的行業與國際標準、IT控制活動的重要性層次、IT控制活動的目標績效水平以及評價IT控制活動成效的指標,科學地擬定被審系統的管理指南。(2)由COBIT的控制目標,構建中觀信息系統的控制目標體系,進而評價中觀信息系統的固有風險與檢查風險。COBIT的控制目標包括高層域控制、中層過程控制、下層任務活動控制三個方面,其中,高層域控制由規劃與組織、獲取與實施、交付與支持以及監控四部分組成,中層控制過程由“定義IT戰略規劃”在內的34個高層控制目標組成,下層任務活動控制由318個明細控制目標組成。COBIT的控制目標融合了“IT標準”、“IT資源”以及被審系統的“商業目標”,為IT審計師實施中觀信息系統審計風險控制提供了層級控制體系與明細控制目標。IT審計師可以直接套用COBIT的控制層級與目標擬定中觀信息系統管理與控制的層級控制體系以及明細控制目標,然后再進一步以所擬定的明細控制目標作為參照樣板,合理評判中觀信息系統的固有風險與控制風險。中觀信息系統中“域”、“高層”、“明細”控制目標的三層結構加強了IT審計師審計風險控制的可操作性。(3)由COBIT的審計指南,設計IT審計師操作指南,進而降低中觀信息系統審計的檢查風險。COBIT的審計指南由基本準則、具體準則、執業指南三個部分組成。基本準則規定了信息系統審計行為和審計報告必須達到的基本要求,為IT審計師制定一般審計規范、具體審計計劃提供基本依據。具體準則對如何遵循IT審計的基本標準,提供詳細的規定、具體說明和解釋,為IT審計師如何把握、評價中觀經濟主體對自身系統的控制情況提供指導。執業指南是根據基本標準與具體準則制定的,是系統審計的操作規程和方法,為IT審計師提供了審計流程與操作指南。
(二) 中觀信息系統審計風險控制體系建設舉例――構建“設備管理”控制目標體系
前文所述,中觀信息系統審計的對象包括“信息安全”等14項內容,本文以“硬件管理”為例,運用COBIT的控制目標,構建“硬件管理”的控制目標體系,以利于IT審計師科學評價“硬件管理”存在的固有風險與控制風險。“設備管理”控制目標體系的構建思路參見表1。
注:IT標準對IT過程的影響中P表示直接且主要的,S表示間接且次要的;IT過程所涉及的IT資源中C表示涉及;空白表示關聯微小。
表1以“設備管理”為研究對象,結合COBIT控制框架,并將COBIT框架中與“設備管理”不相關的中層控制過程剔除,最終構建出“設備管理”控制的目標體系。該體系由4個域控制目標、21個中層過程控制目標、149個明細控制目標三個層級構成,各個層級的關系見表1。(1)第一層級是域控制,由“P.設備管理的組織規劃目標”、“A.設備管理的獲取與實施目標”、“DS.設備管理的交付與支持目標”以及“M.設備管理的監控目標”構成;(2)第二層級是中層過程控制,由21個目標構成,其中歸屬于P的目標5個,歸屬于A的目標3個,歸屬于D的目標9個,歸屬于M的目標4個;(3)第三層級是下層任務活動控制,由149個明細目標構成,該明細目標體系是中層過程控制目標(P、A、DS、M)針對“IT標準”與“IT資源”的進一步細分。IT標準是指信息系統在運營過程中所應盡可能實現的規則,具體包括有效性、效率性、機密性等7項;IT資源是指信息系統在運營過程中所要求的基本要素,具體有人員、應用等5項。根據表1中“有效性”、“人員”等“IT標準”與“IT資源”合計的12個屬項,每個具體中層控制目標都會衍生出多個明細控制目標。例如,中層控制目標“DS13.運營管理”基于“IT標準”與“IT資源”的特點具體能夠演繹出6項明細控制目標,此7項可表述為“DS13-01.利用各項設備,充分保證硬件設備業務處理與數據存取的及時、正確與有效”,“DS13-02.充分保證硬件設備運營的經濟性與效率性,在硬件設備投入成本一定的情況下,相對加大硬件設備運營所產生的潛在收益”,“DS13-03.硬件設備保持正常的運營狀態,未經授權,不可以改變硬件的狀態、使用范圍與運營特性,保證設備運營的完整性”,“DS13-04.設備應該在規定條件下和規定時間內完成規定的功能與任務,保證設備的可用性”,“DS13-05.硬件設備運營的參與人員必須具備較高的專業素質,工作中遵循相應的行為規范”以及“DS13-06.工作人員在使用各項硬件設備時,嚴格遵循科學的操作規程,工作中注意對硬件設備的保護,禁止惡意損壞設備”。上述三個層級組成了完整的“硬件設備”控制目標體系,若將中觀信息系統審計的14個對象都建立相應的控制目標體系,并將其融合為一體,則將會形成完備的中觀信息系統審計風險控制的整體目標體系。
四、 數據挖掘技術對中觀信息系統審計風險控制的貢獻
(一) 數據挖掘技術與中觀信息系統審計風險控制的融合分析
中觀信息系統是由兩個或兩個以上微觀個體所構成的中觀經濟主體所屬個體的信息資源,在整體核心控制臺的統一控制下,以Internet為依托,按照一定的契約規則實施共享的網狀結構式的有機系統。與微觀信息系統比較,中觀信息系統運行復雜,日志數據、用戶操作數據、監控數據的數量相對龐雜。因而,面對系統海量的數據信息,IT審計師針對前文所構建的明細控制目標Xi下的審計證據獲取工作將面臨很多問題,如數據信息的消化與吸收、數據信息的真假難辨等。而數據挖掘可以幫助決策者尋找數據間潛在的知識與規律,并通過關聯規則實現對異常、敏感數據的查詢、提取、統計與分析,支持決策者在現有的數據信息基礎上進行決策[12]。數據挖掘滿足了中觀信息系統審計的需求,當IT審計師對繁雜的系統數據一籌莫展時,數據挖掘理論中的聚類分析、關聯規則等技術卻能為中觀信息系統審計的方法提供創新之路。筆者認為,將數據挖掘技術應用于前文所述的明細控制目標Xi下審計證據篩選流程的構建是完全可行的。恰當的數據挖掘具體技術,科學的特征字段選取,對敏感與異常數據的精準調取,將會提高中觀信息系統審計的效率與效果,進而降低審計風險。
(二) 中觀信息系統審計風險控制目標Xi下數據挖掘流程的規劃
數據挖掘技術在中觀信息系統審計風險控制中的應用思路見圖3。
注:數據倉庫具體為目標行業特定中觀經濟主體的信息系統數據庫
中觀信息系統審計明細控制目標Xi下數據挖掘流程設計具體可分為六個過程:(1)闡明問題與假設。本部分的研究是在一個特定的應用領域中完成的,以“中觀信息系統審計風險明細控制目標Xi”為主旨,闡明相關問題、評估“控制目標Xi”所處的挖掘環境、詳盡的描述條件假設、合理確定挖掘的目標與成功標準,這些將是實現“控制目標Xi下”挖掘任務的關鍵。(2)數據收集。圖3顯示,本過程需要從原始數據、Web記錄與日志文件等處作為數據源采集數據信息,采集后,還需要進一步描述數據特征與檢驗數據質量。所采集數據的特征描述主要包括數據格式、關鍵字段、數據屬性、一致性,所采集數據的質量檢驗主要考慮是否滿足“控制目標Xi”下數據挖掘的需求,數據是否完整,是否存有錯誤,錯誤是否普遍等。(3)數據預處理。該過程是在圖3的“N.異構數據匯聚數據庫”與“U.全局/局部數據倉庫”兩個模塊下完成的。N模塊執行了整合異構數據的任務,這是因為N中的異構數據庫由不同性質的異構數據組合而成,數據屬性、數據一致性彼此間可能存在矛盾,故N模塊需要通過數據轉換與數據透明訪問實現異構數據的共享。U模塊承載著實現數據清理、數據集成與數據格式化的功能。“控制目標Xi”下的數據挖掘技術實施前,IT審計師需要事先完成清理與挖掘目標相關程度低的數據,將特征字段中的錯誤值剔除以及將缺省值補齊,將不同記錄的數據合并為新的記錄值以及對數據進行語法修改形成適用于挖掘技術的統一格式數據等系列工作。(4)模型建立。在“V.數據挖掘與知識發現”過程中,選擇與應用多種不同的挖掘技術,校準挖掘參數,實現最優化挖掘。“控制目標Xi”下的數據挖掘技術可以將分類與聚類分析、關聯規則、統計推斷、決策樹分析、離散點分析、孤立點檢測等技術相結合,用多種挖掘技術檢查同一個“控制目標Xi”的完成程度[12]。選擇挖掘技術后,選取少部分數據對目標挖掘技術的實用性與有效性進行驗證,并以此為基礎,以參數設計、模型設定、模型描述等方式對U模塊數據倉庫中的數據開展數據挖掘與進行知識發現。(5)解釋模型。此過程在模塊“W.模式解釋與評價”中完成,中觀信息系統審計風險領域專家與數據挖掘工程師需要依據各自的領域知識、數據挖掘成功標準共同解釋模塊V,審計領域專家從業務角度討論模型結果,數據挖掘工程師從技術角度驗證模型結果。(6)歸納結論。在“Z.挖掘規律與挖掘路徑歸納”中,以W模塊為基礎,整理上述挖掘實施過程,歸納“控制目標Xi”下的挖掘規律,探究“控制目標Xi”下的挖掘流程,整合“控制目標Xi”(i∈1n)的數據挖掘流程體系,并開發原型系統。
(三) 數據挖掘流程應用舉例――“訪問控制”下挖掘思路的設計
如前所述,中觀信息系統審計包括14個對象,其中“網絡管理”對象包含“訪問管理”等多個方面。結合COBIT框架下“M1.過程監控”與“IT標準-機密性”,“訪問管理”可以將“M1-i.用戶訪問網絡必須通過授權,拒絕非授權用戶的訪問”作為其控制目標之一。“M1-i”數據挖掘的數據來源主要有日志等,本部分截取網絡日志對“M1-i”下數據挖掘流程的設計進行舉例分析。
假設某中觀信息系統在2011年4月20日18時至22時有如下一段日志記錄。
(1) “Sep 20 19:23:06 UNIX login[1015]:FAILED LOGIN 3 FROM(null) FOR wanghua”
(2) “Sep 20 19:51:57 UNIX―zhangli[1016]:LOGIN ON Pts/1 BY zhangli FROM 172.161.11.49”
(3) “Sep 20 20:01:19 UNIX login[1017]:FAILED LOGIN 1 FROM(null) FOR wanghua”
(4) “Sep 20 20:17:23 UNIX―wanyu [1018]:LOGIN ON Pts/2 BY wanyu FROM 172.161.11.342”
(5) “Sep 20 21:33:20 UNIX―wanghua [1019]:LOGIN ON Pts/5 BY wanghua FROM 191.34.25.17”
(6) “Sep 20 21:34:39 UNIX su(pam――unix)[1020]:session opened for user root by wanghua (uid=5856)”
… … …
選取上述日志作為數據庫,以前文“控制目標Xi”下數據挖掘的6個過程為范本,可以設計“M1-i.用戶訪問網絡必須通過授權,拒絕非授權用戶的訪問”下的審計證據挖掘流程。該挖掘流程的設計至少包括如下思路:a.選取“授權用戶”作為挖掘的“特征字段”,篩選出“非授權用戶”的日志數據;b.以a為基礎,以“LOGIN ON Pts BY 非授權用戶”作為 “特征字段”進行挖掘;c.以a為基礎,選取“opened … by …”作為“特征字段”實施挖掘。假如日志庫中只有wanghua為非授權用戶,則a將會挖出(1)(3)(5)(6),b會挖出(5),c將會挖掘出(6)。通過對(5)與(6)嫌疑日志的分析以及“M1-i”挖掘流程的建立,IT審計師就能夠得出被審系統的“訪問控制”存在固有風險,且wanghua已經享有了授權用戶權限的結論。
參考文獻:
[1]王會金,劉國城.COBIT及在中觀經濟主體信息系統審計的應用[J].審計研究,2009(1):5862.
[2]陽杰,莊明來,陶黎娟.基于COBIT的會計業務流程控制[J].審計與經濟研究,2009(2):7886.
[3]張文秀,齊興利.基于COBIT的信息系統審計框架研究[J].南京審計學院學報,2010(5):2934.
[4]謝羽霄,邱晨旭.基于COBIT的電信企業信息技術內部控制研究[J].電信科學,2009(7):3035.
[5]黃溶冰,王躍堂.商業銀行信息化進程中審計風險與控制[J].經濟問題探索,2008(2):134137.
[6]金文,張金城.基于COBIT的信息系統控制管理與審計[J].審計研究,2005(4):7579.
[7]陳安,陳寧.數據挖掘技術與應用[M].北京:科學工業出版社,2006.
[8]李也白,唐輝.基于改進的PE-tree的頻繁模式挖掘算法[J].計算機應用,2011(1):101104.
[9]鄧勇,王汝傳.基于網格服務的分布式數據挖掘[J].計算機工程與應用,2010(8):610.
[10]肖偉平,何宏.基于遺傳算法的數據挖掘方法及應用[J].湖南科技大學學報,2009(9):8286.
[11]孫強.信息系統審計[M].北京:機械工業出版社,2003.
[12]蘇新寧,楊建林.數據挖掘理論與技術[M]. 北京:科學技術出版社,2003.
Risk Control System of MesoInformation System Audit:From the Perspective of COBIT Framework of Date Mining Technology
WANG Huijin
(Nanjing Audit University, Nanjing 211815, China)
我們在教學的過程中,也比較比較注重案例教學。例如,在講授神經網絡時,我們可以用上海證券交易所中股市中股票隨時間變化的數據為例,讓學生討論如何應用神經網絡對股票價格進行預測。人工神經網絡是一種模仿自然界動物神經網絡行為特征,進行分布式并行信息處理的算法數學模型,能夠較好地處理具有一定復雜性的數據,在預測、擬合等方面取得了很好的應用效果。讓學生采用神經網絡進行實際數據分析和處理,可以增強他們學習的積極性,更主動地投入到學習中去。我們也要求他們使用回歸分析的方法對股票價格進行預測,然后和神經網絡預測的結果進行比較。通過這個過程,可以使學生們不但了解了神經網絡與回歸分析算法的異同,加深他們對神經網絡的認識。
加強實驗教學,增強學生動手能力
信息與計算科學專業是以信息領域為背景,數學與信息、管理相結合的交叉學科專業。該專業培養的學生具有良好的數學基礎,能熟練地使用計算機,初步具備在信息與計算科學領域的某個方向上從事科學研究,解決實際問題,設計開發有關軟件的能力。畢業生適合到企事業單位、高科技部門、高等院校、行政管理和經濟管理部門,從事科研、教學和計算機應用軟件的開發和管理工作,也可以繼續攻讀信息與計算科學及相關學科的碩士學位。從信息與計算科學專業的培養目標可以看出信息與計算科學專業的本科生不但需要掌握理論知識,還需要具有將所學知識用來解決實際問題的能力。數據挖掘作為一門應用性較強的課程,需要學生能夠運用數據挖掘知識分析和解決實際問題,要求學生能夠熟練掌握數據挖掘的程序設計,以便在將來的就業中具有更好的適應性,因此實驗環節的教學有著其必要性。基于這些原因,我們在這門課中引入實驗環節,并將其納入考核要求。我們實驗所用的基本軟件是SAS統計分析軟件。SAS軟件是一個集統計分析、報表圖形、信息系統開發和大型數據庫管理等多種強大功能為一體的大型軟件系統,是目前國際上主流的統計分析軟件之一。我們信息專業在大三時開設這門課程,之前已經學過C語言和JAVA等程序設計方法,有了一定的編程基礎,因此學習使用SAS軟件并不是特別困難。而且,在SAS軟件中,系統自帶了許多數據挖掘函數,這方便了同學們的使用。我們在平時的學習中,將一些SAS軟件的基本程序設計基礎知識先發給同學們,讓他們利用課后時間自己在個人電腦上進行熟悉,從而使得他們熟悉基本SAS程序設計方法,這樣可以在實驗課上直接運用SAS軟件進行數據挖掘程序的編寫。在實驗課上,我們主要將要實驗的內容和相關數據資料提供給同學,要求同學自己用數據挖掘的知識和SAS軟件進行編程實現,并寫出實驗分析和小結。另外,在實驗中,我們也要求學生盡可能將一些實驗結果用圖表的形式如崖底碎石圖等表示出來,以利于進一步分析。對于少部分學有余力的同學,我們也引導他們自編相關的程序。比如說在SAS軟件中進行K-均值聚類用fastclus這個函數就可以了,但是學生對程序具體實現過程可能不是很清楚。如果學生能夠將程序K-均值聚類詳細程序步驟自己編寫出來,就可以表明學生對所K-均值聚類算法也有了較清楚的認識。另外,對于屬于數學建模協會的同學,我們也引導他們將數據挖掘的知識和數學建模中某些問題相結合起來,對于以往出現的一些可以利用數據挖掘知識分析的問題讓他們利用相關的數據挖掘知識對其進行分析和求解,通過這樣的方式,可以這樣拓展這些同學的思路,也為數學建模培養了人才。
靈活的課后作業形式,提高學生的綜合能力
作者簡介:舒忠梅,中山大學教育學院講師,博士;屈瓊斐,中山大學教育學院副教授,副院長,社會學博士;郭清順,中山大學科技發展研究院副主任,研究員,博士。(廣州/510275)
*本文系國家自然科學基金“ITS中基于有向超圖的個性化的學習過程及其支持資源的優化”(61202345)的成果之一。 摘要:高等教育機構正處于數據爆炸的信息時代,高校多年來積累的大量辦學數據為學校的科學管理帶來了挑戰與機遇。現代大學的科學管理亟待加強數據的有效利用,從信息技術的利用與高等學校的管理效益出發,分析國內外高等教育機構應用商業智能技術進行教育管理和研究的狀況,探索基于商業智能技術搭建高校教育管理平臺的實踐應用,對平臺體系架構、數據挖掘技術在大學生學習成果預測的應用案例等方面進行探討。
關鍵詞:高校管理;數據分析;商業智能《國家中長期教育改革和發展規劃綱要(2010-2020年)》提出:“信息技術對教育發展具有革命性的影響,必須予以高度重視。”[1]信息技術的高速發展,為高等學校的教育教學及其服務管理提供了新的手段和豐富的資源。[2]隨著高等教育的發展和教育體制的改革,高校積極進行管理信息化建設,實施數字化校園或智慧校園等舉措,積累了大量的教育數據。國際數據公司IDC研究表明,數字大學僅2007年創建或采集2.25×1021 位數據,并預計將以每年60%的增速持續,海量的數據時代已經來臨。[3]針對海量教育數據的挑戰與機遇,本文從信息技術的利用與高等學校的管理效益出發,探討如何通過商業智能技術有效利用當前高校管理產生的大量教育數據。
一、國內外高校管理中的數據利用概況
高校管理產生和存儲的教育數據其實是高校的重要財富之一,充分利用可以有效提高高校的管理效益。同時,高校面臨著海量數據帶來的巨大挑戰,如何管理并利用好海量數據,如何從大量的教育數據中獲得有用的信息,提高高校管理系統的效率,是現代大學管理所面臨的新挑戰。
(一)現代大學的科學管理亟待數據有效利用的加強
在教育競爭日益激烈的今天,數據資源的管理和應用是現代大學取得競爭優勢的重要工作之一。數據記錄著學校的有形資源及其歷史演變,導致高校數據量巨大,而其中真正有價值的信息卻不多。數據能否帶來價值和轉化為決策效益不僅僅取決于量的多少,更重要的是取決于數據的可用性和對其合理的使用。[4]
目前,大多數高校為滿足日常工作需求,建立了校務辦公信息系統,但這些系統基本上屬于聯機事務處理(OLTP)系統,無法直接提供各種綜合程度的數據采集并加以綜合利用的功能。同時,這些信息系統產生的大量數據也不能進一步提煉升華為知識,及時提供給決策部門,讓淹沒在眾多信息系統中的海量數據能夠“說話”已成為重要課題。
另一方面,在我國高校管理系統中,高等教育研究一直較少開展對高校管理信息有關的定量和綜合研究。而在國外大學的管理系統中,一個完整的院校研究部門是必不可少的,其基本功能就是對信息的管理和分析。對數據展開研究,是增強高校管理系統職能的一個重要環節。而且,隨著國家逐漸放給大學越來越多的辦學自的發展趨勢,高校管理系統將因重視信息的管理和分析而衍生出一個新的功能,或者吸引高等教育研究人員深入關注信息管理與分析問題,從而更加實際地支持高校管理提升,是已萌芽并可預見的發展趨勢。[5]
(二)國內外高校管理中的商業智能應用
隨著云計算和云存儲的推廣,可以收集和利用越來越多的數據。為了高效地處理和有效地利用各種形式的海量數據,以數據倉庫、數據挖掘、聯機分析處理等為核心的商業智能(Business Intelligence, BI)技術應運而生。商業智能這一概念由加特納·格魯派于1989年提出,可將商業智能理解為一種能夠將機構現有的數據轉化為知識,幫助機構通過基于事實和電腦化系統,做出科學業務決策的工具。商業智能技術已成功地應用于銀行、電信、保險、制造業和零售業等行業。[6]從全球范圍來看,商業智能已經成為最具有前景的信息化領域。
通過調查了解世界各地的高等教育部門采用商業智能技術的狀況發現,高等教育已明顯落后于其它行業。然而,Dave Wells在文獻中指出,越來越多的高校正在關注商業智能應用這一主題,高等教育在技術方面已經到了應用商業智能的時候了。[7]
例如,北美高等教育界較早關注商業智能應用的重要性,美國部分高校已經采用或正開始采用商業智能技術,對學校的教育數據進行整合分析,為學校的科學決策與管理提供信息支持。如賓州州立大學、密執根大學均于2005年提出建設BI項目的倡議,弗羅里達州立大學、華盛頓大學分別于2007年、2008年開始利用BI項目分析學校整合數據進行決策支持,普渡大學于2008-2014年期間建設學校新的協同集成系統,印第安納大學2009年提出BI建設路線圖,斯坦福大學商業智能中心2009年提交的BI架構及方案獲批準、2010年正式啟動項目建設,加州大學(總部)建設StatFinder系統,伊利諾斯大學建立學校決策支持數據倉庫,亞利桑那州立大學為支持科學決策建設了儀表盤(dashboard)等。
·教育管理· 基于商業智能構建高校教育管理平臺的實踐探討 在歐洲、亞洲等地區的高等教育體系中,商業智能技術的應用才剛剛起步。我國少數高校也開始邁出了建設BI系統的步伐,如中山大學2010年開始提出學校BI系統建設倡議,現已初步完成BI系統的數據倉庫建設,上海交通大學2011年推出BI項目的子系統——財務管理駕駛艙系統,復旦大學為學校師生在校生命周期實現管理信息化“全覆蓋”,中國人民大學推出綜合數據填報、數據存儲、數據管理和數據展示等四大功能的數據平臺,浙江大學為優化資源配置建設共享數據中心進行數據集成,上海財經大學建設校務決策支持系統,常熟理工學院建立高校決策支持系統等等。
同時,基于商業智能技術產出的數據,也形成一批對高等教育和高校自身進行深入分析的研究報告。如美國教育研究的主要組織院校研究學會,年會報告除了涵蓋數據管理、數據倉庫等關于計算機技術本身的報告之外,關于評估、資源、學生、合作和分析的報告,較多地來自于商業智能系統數據的研究結果。[8]
二、數據驅動的高校教育管理智能平臺架構在海量教育數據亟待有效利用的驅動下,為提高高校管理效益,將商業智能技術應用到高校教育管理中,對高校產生的大量數據用數據挖掘等商業智能技術進行分析研究與處理,可以幫助高校決策者做出對學校發展更為有利的科學決策。其關鍵是建立綜合層面上的、能反映高校整體教育教學管理的信息集成系統平臺(下文簡稱高校BI系統平臺)。高校BI系統平臺體系架構由數據源、數據存儲與管理層、數據分析層和用戶接口層組成,如圖1所示。
圖1高校BI系統體系架構
(一)數據源
數據源是整個系統的基礎,包括高校各類業務管理信息系統的內部數據和其他外部數據。內部數據包括存放于操作型數據庫中的各種業務數據和辦公自動化系統包含的各類文檔數據,如學校財務處、人事處、教務處、科研處、設備處等部門數據庫中業務數據;外部信息包括各類教育信息、外部統計和調研數據及文檔等。
(二)數據存儲與管理
數據存儲與管理層是整個系統的核心,包括ETL管理工具、公共數據集、元數據、數據倉庫和數據集市。高校BI系統平臺建設采用數據驅動設計方法,從學校原有的各個部門的業務處理系統和外部數據源中經過ETL提取數據,并根據常見的分析和統計主題,建設校級數據倉庫以及人才培養、師資隊伍、科學研究、辦學資源、交流合作等主題的數據集市。
(三)數據查詢與分析
高校決策者常常希望從不同的角度審視教育數據,比如從時間、區域、學科、教學或科研成果、課程建設、學生層次、交流合作、辦學資源等維度全面了解學校的教育質量和狀態。高校BI系統平臺的數據分析層利用商業智能技術為高校管理主要提供固定報表、即席查詢、統計分析、多維分析、預警功能、預測分析、數據挖掘建模分析及優化分析等,根據學校現有學生、教師、資源、科研和人才培養等狀況,有助于高校決策者全面地對學校資源配置進行調控、對學校整體辦學信息的內部結構進行調整等,做出對學校發展更為有利的科學決策。
(四)用戶接口
用戶接口層根據高校用戶訪問需求和角色訪問授權機制,提供強大的多用戶數據查詢操作,并以儀表盤或表格、直方圖、餅圖等直觀方式將查詢結果或決策信息呈現給用戶。
三、應用案例
下面以高校BI系統平臺中的調研數據為商業智能技術應用案例,利用回歸方法對大學生學習成果進行數據挖掘分析。
(一)數據來源
案例分析的數據來源于高校BI系統平臺中“中山大學學生學習狀況調查”項目于2012在中山大學全校范圍內開展的在線調研數據。[13]調查覆蓋全校36個學院(系),調查總體約為3.3萬名本科生。讓學生在無壓力的情況下答題,共回收問卷7051份,回收率約為21.2%,與國際上通用的問卷回收率相當。案例分析聚焦于本科樣本,全部回收的問卷根據答題時長、問卷質量標準等原則,篩選出有效問卷數據6673份,有效率為94.6%。
本研究從學生學習經歷角度,在“生源-學習-成果”的邏輯框架中,考察分析學校因素和學生因素對于學生學習成果的影響機制。調查把學生學習經歷和成果分解為生源情況、學校學習資源供給、學生與學校的融合、學生學習投入、學生成果、學校成果6 大維度,各維度下題目的內部一致性均達到0.9以上,具有較高的信度。
(二)數據分析
逐步回歸提供了一種識別與學生學習成果相關的具體經歷的方法,對于學生學習狀況調查中的227項進行相似項合并,用向前和向后逐步回歸確定與學習成果相關的項目,對殘差圖和診斷法的徹底審查,最后確定17個獨立變量出現在多元回歸模型中(如表2所示),其中,相關系數R為0.994,校正判定系數R2為0.988,因變量變化中有98.8%左右的信息可以由預測變量解釋,說明模型的擬合優度較好;Durbin-Watson為1.937,接近最佳理想值,如表1所示。
表2顯示的是回歸系數的相關統計量,可以看出,這17個獨立變量的顯著性概率Sig.都小于0.05,說明其系數顯著不為0,這17個變量均與學生學習成果顯著相關。
分析表2中的數據可以看出,學生學習經歷中的學校學習資源提供、學生學習投入和校園文化及學校成果等四大維度的17個變量均為影響學生學習成果的重要預測變量,包括課程作業評價、專業學習經歷評價、學術規范指導、平等文化、多元能力的培養氛圍等學校因素變量,以及朋輩交流情況、自主學習情況、活動參與情況、課外閱讀情況、論文寫作情況、討論關注的內容情況、師生交流、課業活動及個人閑暇活動時間分配等學生因素變量。同時,在校經歷滿意度、綜合滿意度和能力培養滿意度等融合學校因素和學生因素的學校成果也對學生學習成果具有一定的影響。
通過標準系數可以看出,朋輩交流情況、自主學習情況和討論關注的內容情況分別是第一、第二和第三重要的預測變量,而性別、年級、所在校區等人口學變量并未出現在該回歸分析模型中,對學生學習成果的影響不顯著。
進一步分析朋輩交流情況和自主學習情況調查指標應答概況,如表3所示,“有時”、“時常”或“頻繁”進行朋輩交流的比例為63.7%~97.7%,自主學習的比例為52.5%~92.9%,朋輩交流和自主學習的平均比例相當高(81.8%)。“有時”、“時常”或“頻繁”地進行朋輩交流方面的主要比例情況為:“與家庭背景(社會、經濟的)不同的同學交流”為97.7%、“與興趣不同的同學交流”為95.6%、“在與同學的談話中得到啟發,改變自己的想法”為94.4%、“與世界觀、價值觀不同的同學交流”為93%、“與不同專業的同學交流”為92.6%、“同學與你談話后,表示受到了你的啟發”為90.8%。“有時”、“時常”或“頻繁”地進行自主學習的主要比例情況為:“利用圖書館、網絡等資源豐富自己的學識”為92.9%、“根據課程安排,做課堂展示”為91.3%、“努力掌握對自己而言較難的課程內容”為91.3%、“隨著學習經歷的豐富不斷整合、梳理自己的知識系統”為88.4%,“因課程設置和教師的要求具有挑戰性而更加努力地學習”為85.9%。
上述情形符合Vincent Tinto在研究大學生退學問題時提出的理論模型:學生取得較好的學習成果,依賴于他們在學習經歷中能否將自身的經驗和目標與學校系統內部的學術系統和社交系統相融合。[10]學術系統代表學生個人的課業表現、智力發展、學業成就等綜合表現,如表2中自主學習情況、活動參與情況、課外閱讀情況、論文寫作情況、討論關注的內容情況及課業活動等屬于學術系統的范疇。社交系統代表學生在校內的同伴關系、師生關系、社交行為等綜合表現,如朋輩交流情況、師生交流及個人閑暇活動時間分配等屬于社交系統的范疇。學生在其學習經歷中,有效地利用學習資源和校園文化氛圍、將學術系統和社交系統進行整合,可以從學業和人際關系上自我提升,從而提高學習成果。
四、小結
如今,高等教育機構正處于數據爆炸但知識貧乏的信息時代,面對浩如煙海的各類教育數據,若不能有效地加以利用,就會降低對數據的使用效益并使各級教育機構的管理和決策尤為困難。同時,隨著教育改革的逐步深入和高等教育的國際化,高校面臨著質量評估、績效考核、社會問責、大學排名等現實問題,如何有效地管理海量的教育數據,并從這些數據中獲取有用的信息,調整教育教學策略,提升教育教學質量和管理效益,是高校教育管理與深入發展的重要研究課題。
為此,對現代大學管理如何有效利用數據以提升高校管理效益進行了思考,探討了商業智能技術在高校管理中的應用情況,并從體系架構、數據挖掘技術在大學生學習成果預測評價應用案例等方面進行分析。由于高校數據來源的異構與多樣化、數據管理機制缺乏等,使得商業智能技術在高校教育管理中全面地展開深層次應用,還有很長的路要走。
參考文獻:
[1]國家中長期教育改革和發展規劃綱要工作小組辦公室.國家中長期教育改革和發展規劃綱要(2010-2020年)[N].中國教育報,2010-07-30(1-3).
[2]熊才平,何向陽,吳瑞華.論信息技術對教育發展的革命性影響[J].教育研究,2012(6):22-29.
[3]John F.Gantz et al..The Diverse and Exploding Digital Universe: An Updated Forecast of Worldwide Information Growth through 2011[EB/OL].Framingham, MA: IDC, 2008.http:///collateral/analyst-reports/diverse-exploding-digital-universe.pdf.
[4]常桐善.構建院校智能體系:院校研究發展的新趨勢[J].高等教育研究,2009(10):49-54.
[5]屈瓊斐.信息管理與中國大學院校研究的實踐環境分析[J].高等教育研究,2010(11):69-72.
[6]V.Farrokhi, L.Pokorádi.The necessities for building a model to evaluate Business Intelligence projects Literature Review [J].International Journal of Computer Science & Engineering Survey (IJCSES),2012(2):1-10.
[7]Dave Wells.Institutional Intelligence: Applying business intelligence principles to higher education[EB/OL].Campus Technology, 2007.http://campus / articles /2007/04/institutional-intelligence.aspx.
[8]S.ElAtia, D.Ipperciel, A.Hammad.Implications and Challenges to Using Data Mining in Educational Research in the Canadian Context [J].Canadian Journal of Education, 2012(2): 101-119.
關鍵詞:人工智能;案例式教學;興趣引導教學法;問題驅動教學法
中圖分類號: TP309 文獻標識碼:A 文章編號:1009-3044(2014)03-0599-02
人工智能是一門研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的綜合性技術學科[1],是計算機科學、控制論、信息論、神經生理學、心理學、語言學等多種學科互相滲透、迅速發展且與人類生活密切相關的綜合性新學科,其核心研究領域包括模式識別、自然語言處理、機器學習、數據挖掘、人工神經網絡和專家系統等等[2]。
語言信息處理是語言學與計算機科學交叉形成的一門新型學科,其課程體系以語言學、計算機應用、應用數學和認知科學為主干,研究內容是自然語言的自動化信息處理技術,是人類語言活動中信息成分的發現、提取、存儲、加工與傳輸[3]。目前該方向的主要應用領域包括機器翻譯、文獻檢索、信息提取、自然語言的人機接口等。由此可見,為語言信息處理專業開設人工智能課程是必須的。該文針對“人工智能”課程自身特點和語言信息處理專業研究生培養目標,并結合筆者多年來的教學經驗,分別從課程內容設定、教材選擇、教學方法、考核方式等多個方面對該課程的教學改革進行了探索與研究。
1 以“精”“典”為基本要求的教學內容選擇
“人工智能”課程的突出特點研究內容涉及面廣而學時數較短(大部分高校的研究生專業安排的課程的時數在36到48學時之間)。因而授課時不能追求內容“大而全”,必須“精”,選擇重點、核心基礎知識進行學習,選擇與專業方向最相關的“典”型應用領域進行重點詳細介紹,使學生在有限的時間內學到最有用的知識。“人工智能”課程教學內容總體可以分為三大部分。
第一部分是基礎理論知識,學習人工智能中知識的表示方式(謂詞邏輯表示法、產生式知識表示法、框架表示法、語義網絡表示法等)。語言信息處理專業學生本科專業背景不同(有文科,有理工科),所以該部分教學內容難點在于教學進度和難易程度的均衡。本部分內容可安排8~10學時。
第二部分是搜索與推理,對使用特定知識表示方式表達的知識和問題進行推導或搜索,得出相應結論或搜索結果。本部分安排10~12學時,重點在于啟發式搜索。
第三部分是人工智能中的典型應用領域。對于該部分內容的選擇要以學生專業為中心進行,選擇與學生專業相關性較大的領域進行教學,以期能夠有助于學生了解并掌握學術的主流發展趨勢,從而能夠更好地培養自身的科學素養和創新能力。本部分主要學習機器翻譯、機器學習、自然語言處理、數據挖掘、多Agent系統等。本部分安排18~36學時。
2 選擇“最合適”的教材
教材是教師教和學生學的主要憑借,教材的好壞在很大程度上決定了教師能否成功“教”與學生能否順利“學”。教材的選擇要以教學對象的特點和教學目標為依據,選擇最合適的教材。在廣泛研讀目前比較熱門的人工智能教材的基礎上,結合教學目標和教學對象的特點,選則清華大學出版社出版﹑蔡自興和徐光祐編著的《人工智能及其應用》(第4版)[1]作為教材。該教材總體也可以分為三部分:第一部分論述了人工智能的三大技術, 即知識表示;第二部分論述推理及搜索; 第三部分論述人工智能的主要應用領域,包括專家系統、機器學習、自動規劃、分布式人工智能和自然語言理解等。與第三版本科生用書相比,增加了如本體論和非經典推理、決策樹學習和增強學習、詞法分析和語料庫語言學等(非常適合筆者的教學對象)。
3 創新型人工智能課程教學方法
“人工智能”課程涉及的知識面廣,既包括基礎理論,也包括具體應用,即有抽象復雜的計算,也有繁雜的系統實現,為此,如何激發學生的學習興趣并保持學生的學習興趣是本課程教學的關鍵。此外,因為是研究生教學,所以更突出學生的主體地位,注重培養學生的學習興趣、自主學習的意識和能力。為此,筆者主要采用了以下幾種教學方法。
3.1 興趣引導教學法
常言“興趣是最好的老師”,如何培養學生對本門課程的學習興趣,激發學生對本門課程的求知欲,是一門課程首要任務。
為了提高學生的學習興趣,筆者在第一節課讓學生觀看美國科幻電影“機器人”的相關片斷,通過機器人安德魯非凡的創造能力、情感表達能力和自學習能力讓學生更好地了解人工智能的目標、意義,激發學生探索人工智能的興趣;在學習“博弈策略”及“極大極小分析法”時,筆者通過讓學生來參與“一字棋”對決游戲說明博弈樹的層次結構原理,通過“人機對弈”說明“α-β剪枝技術”引入的必要性;通過“啤酒與尿布”的故事說明數據挖掘技術在現實生活中的應用,讓學生認識到人工智能并不是虛無抽象的學科,而與人們的生活息息相關,激發起學生用人工智能相關技術解決現實問題的興趣。
3.2 問題驅動教學法
在講授基礎理論時,如“不確定性推理”、“數據挖掘”等這一類型內容抽象、算法復雜的知識時,采用了問題驅動式的教學方法。
教師首先提出與內容相關的若干問題,并為學生相關的資料或向學生提供找到問題的一些線索,讓學生帶著問題去思考、分析和討論等方式來查找答案,主動獲取知識,應用知識,教師在必須的時候還需給予一定的引導和幫助。如在講授產生式知識表示法時,以“動物識別系統”問題原型,給出學生系統模型,讓學生編寫一個能夠用來進行動物識別的應用程序。
此教學法很好地培養學生解決問題的能力,形成研究的態度,提高認知能力。
3.3 實踐教學法
“實踐是檢驗真理的唯一標準”。人工智能課程中,能夠動手實踐的知識一定要讓實踐。
在講“專家系統”的構造步驟時,用“營養專家系統”為案例進行介紹,將該專家系統分解為一個個小的具體任務(如知識庫構建、規則庫的構建、界面設計等),并分配給不同的學生,學生按照專家系統的一般構造步驟去完成相應的任務,最終完成一個完善的系統,從而達到掌握專家系統構建的教學目標。
實踐教學法可以提高學生分析、解決問題的能力和動手能力,并可以進一步加深對理論知識的理解。
3.4 案例教學法
案例教學法是將案例討論的方法運用到課堂教學活動中去,教師根據課堂教學目標和教學內容的需要,通過設置一個具體的案例,引導學生參與分析、討論、表達等活動,讓學生在具體問題情境中積極思考、主動探索,以提高教與學的質量和效果,培養學生認識問題、分析問題和解決問題等綜合能力的一種教學方法[4]。案例教學法中教師扮演設計者和激勵者的角色,鼓勵學生積極參與典型案例的討論,重點掌握教學進程,引導學生思考,組織討論研究,進行總結、歸納,同時教師也參與到學生共同研討。不但可以發現自己的不足,也可以從學生那里可以了解到大量感性資料。該教學法有利于調動學生學習主動性,通過生動具體的案例介紹可以促進學生對知識的理解和實際應用。
人工智能授課中,對于產生式系統和自然語言理解系統的有關概念及系統構成技術,采用了案例教學法。
在介紹產生式系統時,我們以動物識別系統為案例進行介紹。案例教學通常可以分為3個步驟,即案例引入、案例分析和案例總結。案例引入過程介紹產生式的語法和語義、產生式系統的組成及工作原理后,通過屏幕演示動物識別系統的運行過程使得學生能夠獲得老虎、金錢豹、斑馬、長頸鹿、鴕鳥、企鵝、信天翁七種動物的一些特征;案例分析階段通過向學生展示使用Prolog編寫的動物識別系統源程序,詳細介紹設計思想以及實現過程。該過程是案例教學的關鍵,教師引導學生進行案例分析,之后由學生進行補充,師生共同討論力求系統得以更完善;案例總結階段由老師對學生的討論情況進行總結,在總結討論情況的基礎上提出一些問題(例如如何進一步提高系統的效率?)。
在介紹自然語言理解系統時,以自然語言情報檢索系統LUNAR[5]為例進行介紹。從LUNAR系統的詞法分析、語義解釋和問題回答三個階段進行詳細分析。經過案例引入、案例分析和案例總結三個階段,使得學生對LUNAR系統的設計步驟、關鍵技術及設計思路有深入的了解。之后,要求學生寫出案例分析書面過程,并完成課后作業“指揮機器人的自然語言理解系統SHRDLU”。
4 課程考核方式的改革
研究生教育以培養學生的能力和素質為主要目標。人工智能課程的考核方式也以此為目標,采用以考察理解應用為目的的論述題,或結課論文形式進行,同時注重平時考核。平時考核以學生查資料的能力、閱讀相關文獻即完成課后作業的情況為考核對象。
5 結束語
為了提高人工智能課的教學質量,根據課程及教學對象的特點,結合教學過程實際問題,采用了合適的教材,安排了合適的學時,在教學過程中綜合各種教學方法的優點,并采用了適當的考核方式。教學結果表明,通過這些嘗試,提高學生學習的興趣和積極性,取得較好的教學效果,學生能夠有意識地使用人工智能中的相關知識、思想來進行學術研究。
參考文獻:
[1] 蔡自興,徐光祐.人工智能及其應用——研究生用書[M]. 第3 版. 北京:清華大學出版社,2004.
[2] 廉師友.人工智能技術導論[M].西安:電子科技大學出版社, 2002.
關鍵詞:通話行為;數據挖掘;模糊聚類;模糊C均值(FCM)聚類
中圖分類號:TP301文獻標識碼:A文章編號:1009-3044(2008)14-20926-03
1 引言
近年來電信事業蓬勃發展,隨著市場競爭的充分展開和電信資費的不斷下降,對于客戶的消費行為分析顯得越來越重要。對用戶呼叫行為進行有效分析和辨識,是對客戶分群及市場細分的必要手段。本研究希望能應用模糊數學理論和數據挖掘領域中的聚類技術,對客戶呼叫行為進行分析,為電信市場細分和營銷策略計劃的制訂提供有效工具。
要分析電信用戶的呼叫行為,需要從用戶通話記錄中找出使用電話多和少,或是電信消費高和低的用戶分群。本研究采用模糊集理論[4]作為技術基礎,只關心如何能夠從用戶的通話記錄中剖析出有意義的信息,尚有其他許多種分類方法不在我們討論范圍之內。某些通話行為特別怪異的電信用戶,需要在后續研究中加以調整改進其分類。
2 相關研究
在本章節中,我們將針對本論文研究范圍的相關領域進行探討,第一部分為聚類技術介紹;第二部分為本文采用的模糊C均值(FCM)聚類算法的原理介紹。
2.1 模糊聚類技術(Fuzzy Clustering)
2.1.1 聚類分析的基本概念
聚類就是將數據對象分組成多個類或簇,使得在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大[1] 。聚類與分類不同,前者是一種無指導的學習,而后者是一種有指導的學習。在分類時對于目標數據中存在哪些類,事先已知,只需將每個數據點屬于哪一個類識別出來;而聚類事先未知有多少類,以某種度量為標準,將具有相似特征的數據對象劃分為一類,同時分離具有不同特征的數據對象。聚類需要考察所有的個體才能決定類的劃分,并由算法自動確定。
大多數對象沒有嚴格的屬性,他們在性態和類屬方面存在著中介性,具有亦此亦彼的性質,因此適合進行軟化分。模糊集理論的提出為這種軟劃分提供了有力的分析工具,即模糊聚類分析。
2.1.2 聚類分析的分類
從實現方法上分,模糊聚類分析方法可大致分為四種類型:譜系聚類法、基于等價關系的聚類方法、圖論聚類法和基于目標函數的聚類方法等。前三種方法不適用于大數據量的情況,難以滿足實時性要求較高的場合,因此在實際中應用并不廣泛。受到普遍歡迎的是第四種方法――基于目標函數的聚類方法,該方法把聚類分析歸結成一個帶約束的非線性規劃問題,通過優化求解獲得數據集的最有模糊劃分和聚類。設計簡單、解決問題的范圍廣,還可以轉化為優化問題而借助經典數學的非線性規劃理論求解,易于計算機實現。因此,基于目標函數的模糊聚類算法成為新的研究熱點。
2.2 模糊C均值(Fuzzy C-Means,FCM)聚類算法
模糊C均值(FCM)聚類算法首先由Dunn于1974年提出,并由Bezdek于1981年改進。這種算法能自動對數據對象進行分類并求出聚類中心和每個數據點的隸屬度,使得非相似性指標的目標函數達到最小,從而決定每個數據點的歸屬。
初始化:給定聚類類別數c,2≤c≤n,n是數據個數,設定迭代停止閾值ε,指定加權指數m;用值在[0,1]區間的隨機數初始化隸屬矩陣U,使其滿足約束條件式(1);
步驟一:計算c個聚類中心ci,i=1,…,c;
步驟二:計算目標函數式(2)。如果J小于ε,或相對于上一次J值的改變量小于ε,則停止;
步驟三:重新計算隸屬矩陣U,返回步驟一。
整個計算過程就是反復修改聚類中心和分類矩陣的過程。該算法的收斂性已經得以證明[3]:FCM算法能從任意給定初始點開始沿一個迭代子序列收斂到其目標函數Jm(U,P)的局部極小點或鞍點。
2.2.2 聚類有效性控制
利用Matlab 2006a提供的模糊邏輯工具箱(Fuzzy Logic Toolbox)中的fcm函數對通話記錄進行聚類,只需要輸入一個初始變量,即分類數c,就可以很快得出結果。但是,關于初始變量c的給定,不同的c值,會產生不同的聚類結果;即使是同一c值,有時也會產生不同聚類結果。這是由于算法結果一般地依賴于初始值,而初始值的給定在計算過程中是隨機的,有時候會不可避免地陷入局部最優而非達到全局最優,關于這方面的研究,可以參考文獻[2]。聚類有效性問題一般通過建立有效性函數來解決。這種函數用于衡量聚類的緊密度和分離度,以此來判定聚類的有效性。
其中,n為樣本數,中的下標表示FCM算法中的加權指數為2,dij表示樣本i與第j類聚類中心的距離。XIE-BENI指標可以解釋為(U,V)的總方差與V的分離性指標的比值。分類效果好時,各類中心間的距離應該最大,即分離性指標比較大。由此當對應最佳類數n*時,應該最小。
根據函數確定最佳類數n*的步驟如下:
(1) 給定c的范圍是。這是根據很多研究者的使用經驗和一些理論依據給出的;
(2) 計算當2≤c≤時每個整數c所對應的V值;
(3) 比較各V的值,取V最小時所對應的c值即為所求。
3 研究設計
3.1 分析數據構成
對電信用戶通話行為進行分析,可以利用大量的通話清單記錄經過整理出分析特征維度,采用FCM聚類進行分析。分析特征的選擇確定工作可以由專家憑經驗完成,也可以由散布矩陣跡、J-M(Jeffries-Matusita)距離和變換散度等參量為類別可分性準則的最佳特征子集的選取方法[2]。一般情況下特征數目多了會產生維數災難,但太少的特征將反映不出分析模式的總體信息。為便于實施,本研究采用專家選定的方式確定分析特征。
本文采用的聚類數據是隨機選擇了某地電信2006年6月至8月三個月共120個電話的通話特征數據,考慮到客戶的隱私權,將客戶的姓名及電話號碼略去,賦以識別號ID代之。
這是一個六維的高維度數據空間(客戶識別號ID非分析特征,不列為分析維度),特征屬性分別為長途呼叫總次數、長途呼叫不同被叫號碼個數、長途平均單次呼叫時長、市話呼叫總次數、市話被叫次數以及市話被叫不同主叫號碼數,如表1所示:
3.2 程序及結果
本文使用Matlab 2006a版中的矩陣運算判定聚類有效性,并用FCM函數對以上數據進行聚類,部分源代碼如下:
load analysisdata.dat
[center,U,obj_fcn] = fcm(analysisdata,4);
maxU = max(U);
index1 = find(U(1,:)==maxU);
……
line(analysisdata(index1, 1), analysisdata(index1, 2), 'linestyle','none','marker', 'o','color','g');
……
plot(center(1,1),center(1,2),'ko','markersize',15,'LineWidth',2)
plot(center(2,1),center(2,2),'kx','markersize',15,'LineWidth',2)
……
運算后得到以下結果:
對聚類有效性函數式(3),確定類數c。
一般地,取m=2,分母權值均為1,當類數2≤c≤10時,有效性函數V取得如下結果:c=4,V=3765.7414。
可以確定,當c=4時V取得最小值,因此可分為4類,聚類中心矩陣為:
聚類結果投影在維度“市話呼叫總次數”、“市話被叫總次數”上 的示意圖如圖1。
聚類中心點在各維的取值表征了該類的特征,因此客戶分類如表2所示。
3.3 簡單的模式識別
聚類完成后,可以用以下方法進行模式識別驗證:
(1) 按與中心距離的識別
算出聚類中心center后,新樣本可根據距離判定屬于哪一類,對于一個新樣本xk,如果,則xk屬于cj類。
(2) 按最大隸屬度原則來識別
如果,則xk屬于cj類。
由前面程序輸出可以得到隸屬度矩陣U,U為一個4×120的矩陣,表示120個樣本的在四類的隸屬度。
由于樣本數較多,截取一段結果圖示如圖2:
可以看到,矩陣U每一列之和為1,即是每一樣本的各類隸屬度之和為1。取每一列的最大值,最大值在第幾行,該樣本就屬于第幾種類型。
在此簡單抽取兩個樣本查看確認分類是否正確,如樣本:
樣本16屬于第一類“主叫活躍,被叫少”,而樣本89屬于第二類“主叫不活躍,被叫活躍”。經過查核某地電信IBSS系統及計費帳務系統,樣本16登記的屬性為“個體商鋪”;樣本89登記的屬性為“住宅”。客戶屬性的使用習慣與聚類結果相符。
4 結束語
電信用戶呼叫行為分析中聚類分析是一個新的研究領域,與之相似的研究可以追溯到市場營銷中的市場細分,市場細分與客戶聚類功能相同,都是將產品或服務的銷售對象進行分類。但兩者是有區別的,市場細分的分析數據來自企業外部,比如消費者的人口特征、區域特征、行業性質等等,用的只是一種“普遍適用”的策略,很難真正做到個性化服務。而客戶通話行為聚類分析的數據源自于企業內部掌握的通話記錄,根據客戶本身的使用行為、消費傾向,保證每個客戶的消費行為的連續性與一致性,有利于對現有客戶進行管理,如發現優質客戶,對不良客戶進行預警等。因此,對企業有很重要的意義。
應用模糊C均值聚類算法得到比較滿意的客戶聚類結果,主要體現在:區分出了優質客戶和普通客戶;找到了每一類客戶的特征。本文提出用FCM算法作為客戶通話行為(消費行為)聚類的方法,為企業提供分析的量化依據。
參考文獻:
[1] HSU T H. An application of fuzzy clustering in group-positioning analysis[J]. Proc Natl Sci, Counc ROC(C),2000,10(2):157-167.
[2] 高新波. 模糊聚類分析及其應用. 西安:西安電子科技大學出版社,2004,1:37-54.
[3] Bezdek J C. A convergence theorem for the fuzzy ISODATA clustering algorithm. IEEE Trans. PAMI, 1980, 1(2):1-8.
[4] Zadeh L A. Fuzzy logic. IEEE Trans. On Control System Magazine, 1988. 83-93.
關鍵詞:大數據:信息安全;個人信息保護
一、引言
當人們歡呼大數據時代降臨時,棱鏡門事件就如平地驚雷,炸響了人們對個人信息保護的重視。然而,與國外相比,我國的個人信息保護工作仍停滯不前,行政單位缺乏監管,過度收集個人信息:企業自律性不足,任意獲取公民信息,滿足商業目的:而普通公民則缺乏個人信息保護意識,變成了“透明人”。隨著這些問題的日益突出,大數據時代的個人信息保護研究顯得愈發重要。
二、大數據時代個人信息保護研究的主要內容
本文以CNKI中的相關文獻為基礎,從個人信息安全風險、個人信息保護立法、監管以及個人隱私保護四個方面介紹個人信息保護的主要研究成果。
(一)大數據時代個人信息安全的風險研究
大數據技術的快速發展給個人信息安全增加風險,但隨著更多研究者的推進,風險也給個人信息安全保護帶來了機遇。本文從法律、監管、技術三方面進行風險研究,探尋保護個人信息的有效方法。
法律風險方面,史為民從立法的角度分析了個人信息安全風險,提議出臺具有權威性的相關法律。張毅菁則希望政府借鑒他國經驗,引入域外立法機制,構建適應我國國情的立法模式。
監管風險方面,我國相關研究者普遍認為我國行政機構職權不夠細化,缺乏明確的監管體系。王麗萍等人提出行業自律問題,認為企事業單位缺乏自制力,容易侵犯公民個人權益。
技術風險方面,李睿等人以信息抓取和數據分析技術為著力點分析相關的技術風險。另外,也有學者分析了用戶搜索行為,并從網絡與現實兩方面闡述個人信息安全受到的影響。
現階段的風險研究雖取得一定成果,但本層面的討論還需進一步發展,立法方面,我國還需借鑒域外模式,形成一套適應時代的立法體系:監管機制方面還要調到政府、行業、公民一體化:技術方面需重點開發最新防御技術。
(二)大數據時代個人信息保護的立法研究
針對國內外發生的隱私泄漏事件,公民對個人隱私權愈發重視,然而相關法律至今未完善。針對現實情況,眾多學者將研究重點投入到立法研究上,分為:法律研究與權利研究。
通過回顧,童園園等人認為應從刑法的角度完善個人信息保護法律條款,為個人信息保護提供制度背景。侯富強則提議將“歐美模式”與我國國情相結合,制定統一立法。
權利研究主要集中在兩方面:一是隱私權研究:二是主體權利研究。連志英等人強調了隱私權對我國個人信息保護立法的重要意義。在主體權利方面,侯富強提出個人信息保護法的立法目的在于保護信息主體的權利。
立法研究一直是個人信息保護研究的主要方向,但現有研究明顯底氣不足。為了本領域的更好發展,未來的的研究方向應集中在立法體系的建立,法律內容的細化,吸收發達國家經驗,形成成熟的立法機制。
(三)大數據時代個人信息保護的監管研究
大數據的飛速發展帶來經濟利益,但隨之而來的也有信息安全問題。為解決該項問題,本領域研究者提出了一套政府、企業、公民相結合的個人信息保護監管體系,根據主體不同,分為行政監管、行業自律與公共監督。
從行政監管效果來看,李慶峰等人列舉了行政監管體系的不足之處,提議整合相關部門,明確責權。張毅菁則重點分析政府過度監管行為產生的不利影響,呼吁政府加強自我管理,強化法律意識。
在行政監管體系研究后,行業自律受到關注。侯富強一方面肯定行業協會的積極作用,另一方面要求加大企業監管力度。史為民則分析了行業自律的局限性,提出改善措施,促進行業對個人信息的保護。
在公共監督研究方面,劉雅琦等人認為一個完善的監督機制除了行政監管與行業自律,還需公眾的監督,只有三者相互配合,才能更好地發揮監管體系的作用,保護好公民的個人信息安全。
雖然監管體系發揮了一定保護作用,但也存在局限性:監管機構職權不定、行業主體自律不足、公民保護意識不強等。為此,政府應加大作為,運用行政手段和法律手段,嚴厲打擊泄漏個人信息行為。
(四)個人隱私保護研究
隨著近幾年個人隱私侵犯現象加劇,個人隱私保護開始受到高度關注,與個人信息保護研究相比,隱私保護研究在法律、監管、技術層面具有一些新內容。
法律研究的目的是為個人隱私保護提供制度依據,維護公民的隱私與尊嚴。例如李睿分析了個人隱私泄漏問題,為個人隱私保護提供法律指導。童圓圓呼吁社會加強對個人隱私權的重視,并提出幾項保護個人隱私安全的建議。
監管研究將個人隱私保護置于監管體系內,降低高額的社會執法成本。李慶峰認為公民自身可加強對企業的監督,保護網絡隱私。王麗萍等人則將目光重點投向行業自律上。
技術研究是隱私保護研究的重點。劉曉霞提議將加密、匿名技術與隱私保護規則相結合保護用戶個人隱私。連志英則提出加大安全技術開發與資金投入,依仗安全技術應對高級持續的技術攻擊。
個人隱私保護主要從法律、監管、技術三大方向進行研究。法律方向,提出隱私權與被遺忘權:監管方向,強調了對網絡隱私的監管:在技術方向,提出開發加密技術與匿名技術,這反映了公民對個人隱私的重視。
三、大數據時代個人信息保護研究展望
大數據時代的個人信息保護研究在理論與應用方面都取得了一定成果,但仍存在較多問題,本文擬從公共監管、域外立法模式、隱私權方面做進一步討論。
(一)公共監管研究
當審視現行監管機制時,不難發現政府占據主導地位,若政府監管不力,將導致整個監管體系崩盤。為此,政府應發揮公民個人作用,將個人信息保護責任承擔給每一位公民,形成公共監管模式。
(二)域外立法模式研究
通過對現有法律的分析,我國個人信息保護立法還在發展階段。因此,國內相關學者一方面提出完善法律體系,出臺專門的個人信息保護法,另一方面大力研究國外個人信息保護立法體系,吸收具有可行性的立法方案。
(三)加大隱私權研究
對于隱私權的探討,我國一直處于緩慢階段。例如:缺乏系統性的司法解釋、政府內部監管存在漏洞、行業自律性差、數據挖掘技術存在爭議等。為此,加大隱私權研究仍是今后的主要任務。
本課題的研究目的是改變普遍存在于計算機基礎課程傳統教學中,學生單一接收、被動接受的學習方式,使學生親歷知識產生與形成的過程,追求“知識”發現、“方法”習得與“態度”形成的有機結合與高度統一。
(一)計算機基礎課程的現狀
我校從1979年就開設了算法語言課。在計算機技術飛速發展的情況下,計算機課程的內容也在不斷擴充。伴隨著計算機文化的形成,授課內容涵蓋了數據結構、數據庫和操作系統等基礎學科領域。目前開設的計算機基礎課程主要有《C程序設計》《計算機軟件技術基礎》等,講授程序設計語言和計算機基礎知識,使學生掌握用計算機解決實際問題的能力。目前的計算機基礎課程大多采用傳統教學模式,完成教學內容是課堂的首要教學任務,教師的講授代替了學生主體活動,教師的認知結果代替了學生認知結果。在課堂上進行大量的講授和習題訓練,很少開展研究性學習。目前國內也已開展相關課題研究,但理論研究不夠深入,在實踐中也沒有得到充分應用。
(二)創新教學模式的實踐
我們在研究性學習的方法和理論指導下,進行創新教學,情感、知識、技能構成了新的教學模式。2010至2012連續三年,在《計算機軟件技術基礎》《C程序設計》等計算機基礎課程中進行研究性學習的教學實踐。
1.改革傳統教學方法,靈活運用現代化教學手段在計算機基礎課程創新教學模式實踐過程中,教學方法的選擇是關鍵環節之一。教師根據教學內容的難易不同,采用不同方法教授。學生自主預習課程內容,根據教師提出的問題在課堂上分析討論。在教學中綜合運用CAI課件等各種現代化教學手段,增強學習的主觀能動性。采用現代化教學手段包括使用現代化的教學設備、采用新的教學模式等。在教學過程中引入科研活動,引導學生主動思考,探索知識。參加科研活動可以將新知識融入課堂教學,拓寬學生的知識面,增加學習興趣。學生在親身實踐中獲得了知識,提高了解決問題的能力。
2.重視學生自我發展,指導學生主動探究在計算機基礎課程的教學中,課堂上以小組合作的形式提出問題并討論解決方案。鼓勵學生通過在課下收集資料、分析整理和處理信息等實踐活動來學會學習,學會合作。學生在課堂上充分交流探討,發表自己的觀點。在課外自主研究,同學間積極合作。教師也要在學生的探究學習過程中,給予恰當的引導,給出學生探究的問題,最后要進行分析總結。
3.網絡教學模式由于課堂上班級組織的限制,要實現按層次的分級教學比較困難。嘗試在課外利用網絡進行分級教學。網絡教學系統包括分組討論、分組教學、搖控輔導、答題示范等功能,徹底彌補了傳統教學方式的不足。通過網絡開展教學,在網上學生可以隨時和教師交流溝通;教師利用網絡完成課外答疑,將教案、課件和習題等放到網絡上資源共享。學生不出門,就完成了答疑。這種方式深受學生喜愛,效果良好。此外,還可以通過在網上建立班級用戶群,完成網絡作業等方式,進行教學和輔導。班級用戶間可進行相互討論、互相答疑。學生網絡討論、網絡作業完成等可計入平時成績。對表現良好的學生給予獎勵,從而激發學生的自主學習的興趣。
4.反饋信息,及時評價實踐教學期間,在我校理工科多個專業,針對各個學習階段開展問卷調查,以全面了解學生對研究學習的態度、收獲等。統計結果顯示學生的主要收獲是:促進了自主學習、主動學習;學會了利用網絡收集資料;學到更多課外知識和有利于創新精神與創新能力的培養。2012年度,在本校光電工程學院的探測技術及儀器、光電信息工程等專業,進行了抽樣調查。調查結果顯示:85%的學生認可并喜歡研究性學習方式;通過采用研究性學習,實踐前后學習興趣和收獲分別提高了28%和37%。實踐結果表明,學生對計算機基礎課的興趣明顯提高。實踐教學中,教師充分與學生交流,學生參與學習的結果被及時地反饋回來,同時獲得恰當的評價。教師注重激發并保持學生的學習熱情,幫助學生逐步形成良好的認知結構。
(三)建設立體化教學資源與實現網絡化考試管理在實踐中,更新教學內容,完善基礎課教材改革。教學內容和思想通過主教材體現,配合學生用書為學生提供實踐指導。不斷總結經驗,形成綜合理論、設計、實踐于一體的立體化教學資源系統。為學生提供參考書目、案例教程、習題庫等豐富的學習參考資源。改革考試管理,建立試題豐富、覆蓋范圍廣泛的題庫,用全自動考試系統完成組卷、考試、評分、試卷分析等全部過程,考試過程全部實現網絡化管理。所有學生考試數據一律存儲在數據庫中,可以對其數據進行深層次的數據挖掘,對教學質量評估起到輔助決策的作用。除常規考試外還包括自選題目的論文(包括答辯)、自選題目的項目訓練(包括答辯)等考核方式。考試過程實現計算機管理,學生的考試更加公平、公正、透明化、正規化。
二、實踐結果
關鍵詞 教育信息化;大數據技術;應用
【中圖分類號】G434 【文獻標識碼】A
【論文編號】1671-7384(2014)03-0064-03
隨著網絡信息技術的加速發展和應用,物聯網、移動互聯、社交網絡等大大拓展了互聯網的疆界和應用領域,數據正以前所未有的速度在不斷地增長和累積,大數據時代的大幕已經開啟。大數據在社會經濟、政治、文化、生活等各方面產生深遠的影響,將給各行各業的發展模式和決策帶來前所未有的革新與挑戰。教育行業也不例外,教育管理、思維方式、學習行為、教學評估等,無不受到大數據的影響。
大數據的概念及時代背景
大數據是一個正在發展中的概念。到目前為止,學術界對于“大數據”一詞還沒有準確、統一的定義。著名學者涂子沛在《大數據》一書中指出:“大數據(BigData)是指那些大小已經超出了傳統意義上的尺度,一般的軟件工具難以捕捉、管理和分析的大容量數據,一般以‘以太節’為單位。大數據之大,并不僅僅在于容量之大,更大的意義在于通過對海量數據的交換、整合和分析,發現新的知識,創造新的價值,帶來‘大知識’、‘大科技’、‘大利潤’和‘大發展’。”最早提出“大數據”時代到來的是全球知名咨詢公司麥肯錫。麥肯錫全球研究院報告《大數據:創新、競爭和生產力的下一個前沿》則對“大數據”定義如下:大數據是指大小超出了傳統數據庫軟件工具的抓取、存儲、管理和分析能力的數據群。麥肯錫稱:“數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來。”可見,大數據就是指蘊涵著巨大價值的、可有效利用的、多樣化的海量數據集。
進入2012年以來,世界各國大數據的關注度與日俱增。在2012年1月份的達沃斯世界經濟論壇上,大數據是主題之一,并特別針對大數據了報告BigData,BigImpact:New Possibilities for InternationalDevelopment ,探討了新的數據產生方式下,如何更好地利用數據來產生良好的社會效益。2012年3月,美國奧巴馬政府投資2億美元,正式啟動“大數據發展計劃”,這一計劃是美國政府繼信息高速公路計劃之后在信息科學領域的又一重大舉措。同時,聯合國一個名為GlobalPulse的倡議項目在2012年5月報告《大數據發展:挑戰與機遇》,闡述大數據時代各國特別是發展中國家在面臨數據洪流時的機遇與挑戰,并對大數據的應用進行了初步的解讀。目前,一些發達國家、著名研究機構以及大集團公司已將大數據作為獲取有效信息和知識的重要來源、調整和部署戰略決策的重要依據,大數據技術則成為信息挖掘、整理和分析的重要工具。
大數據時代對人類的數據駕馭能力提出了新的挑戰,也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間。互聯網時代的數據正在迅速膨脹,它決定著組織的未來發展,隨著時間的推移,人們將越來越意識到數據對組織的重要性。對于企業組織來講,大數據的價值體現在兩個方面:分析使用和二次開發。對大數據進行分析能揭示隱藏其中的知識信息,對大數據的二次開發則是通過大數據創造出新產品和服務。例如,Facebook通過結合大量用戶信息,定制出高度個性化的用戶體驗,并創造出一種新的廣告模式。大數據這股洶涌浪潮正在興起,將給各行各業的發展模式和決策帶來前所未有的革新與挑戰,教育領域同樣不可避免,面臨新的挑戰和機遇。
大數據的主要特點
大數據時代的數據存在著以下幾個主要特點。
規模巨大。個人和組織面臨著數據量的大規模增長,呈現為海量數據。典型個人計算機硬盤的容量為TB量級,一些大企業的數據量已經接近EB量級。而根據麥肯錫全球研究院(MGI)估計,全球企業2010年在硬盤上存儲了超過7EB(1EB等于10億GB)的新數據。2015年全球移動終端產生的數據量將達到6300PB。目前,大數據的規模尚是一個不斷變化的指標,單一數據集的規模范圍從幾十TB到數PB不等。此外,各種意想不到的來源都能產生數據。
類型多樣。數據來自多種渠道,如網絡日志、社交媒體、互聯網搜索、手機通話記錄及傳感器網等,內容包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等。這些實際是多視角的,不僅有正規的數據、媒體新聞數據、時效性的數據,還有帶有個人情感的數據。而這些數據又打破了之前限定的結構化數據范疇,包含著結構化、半結構化以及非結構化的數據,并且半結構化和非結構化數據所占份額越來越大。
產生速度快。即數據被創建和移動的速度快,時效性要求高,這是大數據區別于傳統數據挖掘最顯著的特征。在高速網絡時代,通過基于實現軟件性能優化的高速電腦處理器和服務器,快速創建實時數據流已成為流行趨勢。如一天之內谷歌公司處理幾十PB的數據,Facebook新產生約10億張照片、300TB以上的日志,淘寶網進行數千萬筆交易、產生20TB以上的數據,新浪微博的約3億用戶可產生上億條微博。
價值密度低。隨著物聯網的廣泛應用,信息感知無處不在,數據信息海量,但其價值密度較低。價值密度的高低與數據總量的大小成反比,大數據中單條數據可能無價值,無用數據多,但綜合價值大。例如,視頻數據中,1小時的視頻中有用的數據可能僅有一兩秒鐘,其余的可能是無用的數據,價值密度相對較低。因此,如何通過強大的數據挖掘算法更迅速地完成數據的價值“提純”,是大數據時代亟待解決的難題。
存儲要求高。種類多樣的數據源,既提供了大量的數據,又帶來了科學存儲的問題。大數據通常可達到PB級的數據規模,因此,海量數據存儲系統也一定要有相應等級的擴展能力。當前互聯網中的數據向著異質異構、無結構趨勢發展,新數據類型不斷涌現,用戶需求呈現出多樣性。目前的存儲架構難以解決數據的異質異構、爆炸性增長帶來的存儲問題,靜態的存儲方案滿足不了數據的動態演化所帶來的挑戰。因而在海量分布式存儲和查詢方面仍然需要進一步研究。
管理復雜。大數據的規模和復雜結構是傳統IT架構所面臨的直接挑戰,使得傳統的數據管理技術不適合處理海量異構數據。許多公司已經擁有大量的存檔數據,卻沒有能力來處理它。傳統的關系數據庫無法處理大數據的規模,目前可選擇的方法包括大規模并行處理架構、數據倉庫,或類似Greenplum的數據庫以及ApacheHadoop解決方案等。
大數據在教育領域中的主要應用
1. 革新教育理念和教育思維
隨著大數據時代的來臨,教育大數據深刻改變著教育理念、教育思維方式。新的時代,教育領域充滿了大數據,諸如學生、教師的一言一行,學校里的一切事物,都可以轉化為數據。當每個在校學生都能用計算機終端學習時,包括上課、讀書、寫筆記、做作業、發微博、進行實驗、討論問題、參加各種活動等,這些都將成為教育大數據的來源。大數據比起傳統的數字具有深刻的含義和價值。例如,對于一張試卷、一次考試,考試得分為90分,它可以是簡簡單單的一個傳統的數字,但如果換一個角度來分析,把它作為一個數據來看待,就可以得到其背后所隱含的許多充滿想象力的數據信息:可以是每一大題的得分,每一小題的得分,每一題選擇了什么選項,每一題花了多少時間,是否修改過選項,做題的順序有沒有跳躍,什么時候翻卷子,有沒有時間進行檢查,檢查了哪些題目,修改了哪些題目,等等,這些信息遠遠比一個90分要有價值得多。不單是考試,課堂、課程、師生互動的各個環節都滲透了這些大數據。教育將不再是靠理念和經驗來傳承的社會科學,大數據時代的教育將步入實證時代,變成一門實實在在的基于數據的實證科學。大數據使得教育者的思維方式發生了深刻變化,傳統的教育大多是教育主管部門和教育者通過教學經驗的學習、總結和繼承來展開的,但是有些經驗是不具有科學性的,常識有時會影響人們的判斷。大數據時代將可以通過對教育數據的分析,挖掘出教學、學習、評估等符合學生實際與教學實際的情況,這樣就可以有的放矢地制定、執行教育政策,制定出更符合實際的教育教學策略。
2. 實現個性化教育
大數據帶來的一個變化在于實施個性化教育具有了可能性,真正實現從群體教育的方式轉向個體教育。利用大數據技術,我們可以去關注每一個學生個體的微觀表現,比如,他在什么時候翻開書,在聽到什么話的時候微笑點頭,在一道題上逗留了多久,在不同學科的課堂上提問多少次,開小差的次數分別為多少,會向多少同班同學發起主動交流,等等。這些數據的產生完全是過程性的,包括課堂的過程、作業的過程、師生或生生互動的過程,等等,是對即時性的行為與現象的記錄。通過這些數據的整合能夠詮釋教學過程中學生個體的學習狀態、表現和水平。而且這些數據完全是在學生不自知的情況下被觀察、收集的,只需要一定的觀測技術與設備的輔助,而不影響學生任何的日常學習與生活,因此其采集非常自然、真實,可以獲得學生的真實表現。大數據技術將給教師提供最為真實、最為個性化的學生特點信息,教師在教學過程中可以有針對性地進行因材施教。比如,在課堂學習過程中,哪些學生注意基礎部分,哪些學生注意實踐內容,哪些學生完成某一練習,哪些學生可以閱讀推薦書目,等等。不僅如此,當學生在完成教師布置的作業時,也能通過數據分析強化學習。比如,通過電子設備做作業時,某一類型的題目有幾次全對,就可以把類似的題目跳過;如果某個類型的題目犯錯,系統則可進行多次強化,這樣不僅提高了學習效率,也減輕了學生的學習負擔。
3. 重新構建教學評價方式
在教學評價中利用大數據分析,可以通過技術層面來評價、分析,進而提升教學活動,從依靠經驗評價轉向基于數據評價。教學評價的方式不再是經驗式的,而是可以通過大量數據的“歸納”,找出教學活動的規律,更好地優化、改進教學過程。比如新一代的在線學習平臺,具有行為記錄和學習誘導的功能。通過記錄學習者鼠標的點擊,可以研究學習者的活動軌跡,發現不同的人對不同知識點有何不同反應,用了多長時間,以及哪些知識點需要重復,哪些知識點需要深化等。對于學習活動來說,學習的效果體現在日常行為中,哪些知識沒有掌握、哪類問題最易犯錯等成為分析每個學生個體行為的直接依據。通過大數據分析,還可以發現學生思想、心態與行為的變化情況,可以分析出每個學生的特點,從而發現優點,規避缺點,矯正不良思想行為。此外,大數據通過技術手段,記錄教育教學的過程,實現了從結果評價轉向過程性評價。例如,基于網絡學習平臺或電子課本,能記錄下學生完成作業情況、課堂言行、師生互動、同學交往等數據,教師在期末時將這些數據匯集起來,有了更加豐富的素材與數據依據,可以發現學生學習成長過程的特點,能對學生的發展提出建議。同時,這些數據也可以促使教師進行教學反思,自己在哪些方面需要改進,從而促進和優化教學實施過程。
4. 加強學校基于數據的管理