{首页主词},&

前言：一篇好文章的誕生，需要你不斷地搜集資料、整理思路，本站小編為你收集了豐富的教育測量與評價論文主題范文，僅供參考，歡迎閱讀并收藏。

教育測量與評價論文

第1篇：教育測量與評價論文范文

關鍵詞：高校教師；科研生產力；測量指標：對比研究

隨著知識經濟時代的到來，科學技術和創新能力已成為國家間競爭的核心要素。高校作為國家科技創新體系的重要組成部分，扮演著越來越重要的角色。作為科研生產活動的主體，高校教師的科研生產力在很大程度上影響著高校整體的科研產出水平和創新能力。

因為科研產出具有不確定性（即較多的投入并不一定能夠獲得相應的產出結果，在自然科學研究中表現得尤為明顯）、多樣性、連續性（即本期的研究成果可能會影響下一期的項目申請）、直接傳播性、社會影響深遠性等，所以，教育界對于高校教師科研生產力的測量指標莫衷一是。

一、概念界定

科學研究是科學工作者生產知識、應用知識的活動，這種活動屬于高度社會化的一般勞動，使人類擁有認識和改造自然的巨大力量，反映了人與自然的關系，應該歸屬于生產力的范疇。學者趙紅州認為，社會的科學能力應該屬于特殊的生產力，也就是科學領域的生產力或科研生產力。謝彩霞等人指出，科研生產力由科研生產要素構成，整個科學研究過程離不開科研生產要素。姚東瑞進一步指出，科研生產力作為科學研究活動的一種產出能力，既包括通過發現、創造而實現創新理論、生產知識與發展科學的能力，又包括通過整合和應用而實現技術創新、知識運用和轉化的能力。葉鐘靈就美國對科研生產力的評價指標進行了綜述，按研究開發工作的成果進行統計，常見的指標有專利發明數、論文出版數、成果得獎數、論文引述數等。科研生產力是科學勞動社會化的必然結果，結合已有研究，本文中的科研生產力是指科學研究活動的產出能力，具體表現在產出的數量和質量上。

二、文獻綜述

（一）數量測量

從國家層面上看，國外對高校教師科研生產力的評價非常重視，尤其是美國和英國。美國主要是從教學、科研以及服務三個方面對高校教師進行評價，其中科研評價包括學術研究和科研項目。學術研究包括舉行學術報告、展覽，發表學術論文、專著，申請專利等；科研項目包括開展各級政府部門的縱向基金項目研究，為社會上的公司、企業進行人員培訓，提供技術服務等。英國對高校教師的科研評價也比較系統，設有英國大學科研評價體系，由專家組按照統一的標準，依據達到國內或國際先進水平的成果數量，將評價結果分為七個等級同。澳大利亞科研評價體系則包括文獻計量指標和非文獻計量指標。文獻計量指標包括出版物（賦有權重）、引用、展現科研特色的結構指標（包括出版物的領域分布、合作級別、科研類別）。非文獻計量指標包括常用非文獻計量指標（科研人員數量、科研時間、外部資金、研究生數據、榮譽和獎勵、演講、國際訪問），適用于人文社會科學的非文獻計量指標（與校外機構的研究合作產生的方案以及合作發表的出版物、參與大學管理、為社會提供學術服務等），以及適用于創造性藝術學科的非文獻計量指標（舞蹈家、演員、音樂家、劇作家在公開場合的表演，建筑師和設計師的建筑或者創造等）三個方面。

國外研究者認為，雖然用出版物的數量來衡量高校教師的科研產出有諸多局限性，但是從數據的可得性以及可靠性出發，出版物的數量是一個很好的評價高校教師科研產出的指標。出版物主要指發表的論文和所著專著兩個方面。

國內學者在測量高校教師科研生產力時，也傾向于采用出版物的數量作為重要指標，但是，考慮到學科性質的不同以及科研產出的多樣性，在借鑒國外經驗的同時，國內學者對高校教師科研產出的測量指標做了進一步整理，主要從指標分類、指標篩選兩個方面進行。他們認為，科研產出主要表現為學術專著、、專利授權、成果鑒定、技術轉讓等方面。

1.指標分類

有學者根據科技績效評價產出指標性質，將指標分為源生指標、追加指標和派生指標三類。源生指標包括論文、專著、專利授權、成果鑒定、技術轉讓、人才培養等；追加指標建立在源生指標的基礎之上，包括科技獎勵、論著引證、文章被索引及摘錄情況等；派生指標是建立在優秀的源生指標和優秀的追加指標基礎之上的，包括學會、研究會、專業期刊的兼職、獲得榮譽稱號等。學者劉丹平、周建方等人采用層次分析法將高校教師科研能力評價指標體系分為目標層、準則層和指標層。目標層即高校教師科研能力評價，準則層包括科研項目、科技成果、論文、論著、專利與著作權、科研綜合能力6個方面，指標層包括國家級科研項目、省部級科研成果、三大檢索論文、學術專著、發明專利、專業創新能力、學科建設和團隊合作精神等24項。

2.指標篩選

在各類指標中可能存在一些次要的評價指標，因此，需要對這些指標進行篩選，分清主次。通常使用的篩選方法主要有系統分析法、文獻資料分析優選法以及應用數理統計法等。靳希、張火春和姚力等人在總結國內外有關業績考核工作經驗的基礎上，根據專業技術人員業績考核的目的，高校教師從事科研工作的特點以及模型設計的基本原則，建立了教師業績考核的指標體系。這個體系包括研究任務、科研專著、科技論文、鑒定科技成果、獲獎科技成果、專利成果以及研究效益7項指標。在這7項指標的基礎上，根據科研績效定量評價體系的設計原則，賀天偉和張景林增加了培養人才這一指標。鄭秀才從承擔的科研任務和取得的科研成果兩個方面綜合設定了高校教師科研績效評價指標：科研項目及經費、科研論著（期刊和專著）、科技成果（專利等）、科技成果應用、科技成果獲獎。胡金秀、周國強等人從縱向科研立項、科研經費、成果鑒定、科技獎勵、學術論文、專利及計算機軟件、著作、對合作完成科研業績的分配這幾個方面來考察科研績效。胡俊在分析了國內外教師科研業績以及高校教師科研特點的基礎上，建構了包括學術論文、著作、鑒定成果、技術轉讓等在內的新的指標體系。

為使對高校教師科研生產力的評價科學、合理、全面、有效，在已有研究的基礎上，學者們進一步完善了科研生產力的評價指標體系。劉仁義選定以下指標作為科研產出指標：學術論文，學術著作，專利申請與授權，科技成果鑒定，研發成果應用和其他科技服務，人才培養，科技獎勵，論著被引、被索及被摘，學術兼職，縱向項目，縱向科技經費，排名與貢獻率，這些指標下又分二級指標，以計算教師的科研產出。吳小妹通過專家訪談和問卷調查的方式，對高校教師科研能力指標框架進行了修正，其中，科研產出指標又分為、發表專著、獲取專利、獲得獎項、研究報告、項目資助6個二級指標，這6個二級指標下又分論文級別、作者排名、出版社等級、專著字數等15個三級指標。張宏琴在對當前國內許多高校正在使用的評價體系進行考察的基礎上，提出了科學研究指標、成果指標、學術論文指標、人才培養情況、社會工作情況（指學術講座、黨政職務）等適用于教學研究型大學的高校教師科研績效評價指標體系。

（二）質量測量

國外學者考慮到出版物之間存在著質量差異，高校教師在一本引用率很高的期刊上發表文章和在一本幾乎沒有人引用的期刊上發表文章所付出的努力和時間是不同的，因此，僅以出版物的數量來衡量高校教師的科研產出是片面的。于是，不少學者在計算出版物數量的基礎上增加了期刊質量權重以及文章引用率，英國學者杰蘭特·瓊斯和吉爾·瓊斯為了區分文章的質量，將出版物分為學術期刊上的論文、學術期刊上的書信、專業期刊上的文章、流行雜志上的文章、專著、書籍、官方報告、對編輯工作的貢獻8類。還有學者認為，不同的學科面臨著不同的文章發表的競爭壓力，因此，不同學科學者的發表文章數量應該用競爭壓力進行修正。而競爭壓力可以用與該學科相關的期刊提供的空間和教師的發表需求之間的比值計算。

國內學者也意識到了這個問題，在對高校教師科研生產力測量的指標進行層層篩選后，國內學者考慮到各個指標對科研生產力評價結果的貢獻大小不同，設計了各個指標的權重。確定權重系數的方法通常有三種：主觀賦權法，如德爾菲法、同行評議法、強制打分法等；客觀賦權法，如熵值法、層次分析法等；主客觀結合賦權法，如高太光、陳培友采用的群決策特征根法（專家評后進行量化評價）計算教師科研產出評價指標權重。

第2篇：教育測量與評價論文范文

科技教育活動作為素質教育理念施行的重要手段之一，是以實踐項目為載體，以發展學生的科學精神、知識與技能、方法與能力、行為與習慣為目的的教育活動。長期以來，一線教育工作者在組織科技教育活動時，往往面臨著度淺（活動研究深度不夠）、面窄（活動參與人數較少）等諸多的困擾。根據“多元智能理論”“豐富教學模式”的指導，針對不同智能類型、不同能力水平的學生設計不同方向、深度的項目活動，可以在一定程度上解決上述困擾。下面，我們以“多層次城市夜空光度測量科技教育活動”為例，談談如何基于項目來實施分層次的科技教育活動。

一、活動背景

光污染是繼水、氣、聲和渣污染之后的一種新型污染，主要包括白亮污染、人工白晝和彩光污染。光污染的影響首先在于破壞天文觀測環境，歷史上天文臺因此而被迫搬遷的案例屢見不鮮。英國格林尼治天文臺早在1948年就為躲避光污染和大氣污染而遷往東南沿海環境優美、觀測條件更好的赫斯特蒙蘇堡地區。在美國、加拿大、日本、西班牙、葡萄牙等國，多個著名天文臺都曾幾次遷址。我國紫金山天文臺的觀測工作也全部轉移到了其他觀測站點，紫臺園區則已改建為天文博物館，以天文科普和天文旅游為主，僅保留了少量與太陽觀測有關的科研工作。

光污染的影響其實并不局限于天文觀測。居高不下的學生近視率、迷途的海龜幼崽、撞上玻璃幕墻的飛鳥、爆發性增殖的水藻、能源緊缺與氣候變暖，這些看似并無關聯的人與事，其實背后都與燈光之擾息息相關。

作為長三角地區的重要城市之一――無錫的光污染較為嚴重。在距市中心三陽廣場約6.2公里遠的天一中學校園里，天空是白的是灰的是橙的是多彩的，北斗七星中的天權是看不到的，獅子座的鐮刀是認不全的……在距三陽廣場16.9公里遠的斗山山頂，連仙女座大星系M31和獵戶座大星云M42都僅能勉強分辨，山腳下的路燈和遠近城鎮的光源清晰可見，天空泛著淺淺的灰白色……在與市區間隔有10公里的太湖十八灣地區竟連天頂附近的銀河都徹夜不現，三角座星系M33也必須要通過雙筒鏡才能被觀察到……

為提高學生及公眾對光污染的認識，學校針對性地引進了一批測光儀，并依托天一天文社加賀谷穰工作室（文化宣傳部）、達蓋爾工作室（學術委員會）、伽利略工作室（普及委員會）和斯科特工作室（項目辦公室），設計了“多層次城市夜空光度測量科技教育活動”，策劃并實施了多個文宣、教育、科普和研究性項目。

二、活動目標

知識與技能：

1.理解夜空光度、光污染的概念，了解導致夜空光度增大的主要原因。

2.掌握夜空光度分級的方法，并能運用器材測量夜空光度值。

3.了解背景光對天文觀測的影響，

學會設計反映此原理的科普實驗。

過程與方法：

1.開展觀星活動、光污染攝影與夜空光度測量活動，掌握天文觀測及夜空光度測量的基本方法。

2.了解策劃、組織活動的過程，學會科學研究的一般方法，實驗設計的一般結構。

情感、態度和價值觀：

1.了解城市對自然地理環境的改變，不合理的城市亮化帶來的環境問題，敢于解決問題。

2.在活動中，提升科學素養，發展科學思維、合作創新精神。

三、參與對象與活動形式

活動對象以天一天文社社員為主體，包括國際分社約40人，少年分社約40人，高中分社約70人，榮譽分社約20人。此外，還包括無錫市中小學天文聯合會（錫天聯）下屬成員學校約150人，以及其他相關單位的學生約300人。

活動主體――天一天文社社員參與了“多層次城市夜空光度測量科技教育活動”的全部項目、環節的活動，包括項目研究、實驗設計、科普觀測和攝影活動。錫天聯成員學校、無錫市少年宮等其他相關單位的學生主要參與了科普觀測和攝影活動。

四、活動的重點、難點、創新點

活動重點：搭建天文研究平臺，以光污染研究為抓手，調動學生積極性，讓更多的學生參與到天文活動中來。

活動難點：城市夜空光度測量研

究，光污染相關實驗設計。

活動創新點：由中學發起并組織

的使用國際頂尖測光儀對城市進行高覆蓋度的夜空光度測量研究，夜天光監測站點建設在世界范圍內都具有唯一性；由中學生開展科普實驗設計與教材編寫同樣具有開創性；以光污染為主題的攝影大賽在當今世界也是少見的。

五、可利用的各類科技教育資源

1.技術指導：中科院紫金山天文臺科普部、北京師范大學天文系高爽老師、國家天文臺劉博洋博士等以技術顧問的身份，參與了“城市夜空光度測量”的相關活動指導。此外，南京大學、中國科技大學、北京天文館的專家教授們也曾多次來校指導天文課程建設。

2.團隊建設：錫天聯成員學校、無錫市少年宮等作為天一天文社緊密的合作伙伴，不僅為開展與夜空光度相關的科普活動提供了場地與學生支持，而且還有一批教師參與共同開展天文教研活動，形成了教研團隊。

3.資金支持：天一中學為開展天文教育投入了大量的資金，已多批次采購天文實驗器材如望遠鏡、測光儀、相機、野營設備、圖書等，并已建設完成天文創新實驗室一間；天文創新實驗室作為學校“STS綜合創新課程基地”的重要組成部分，還得到了省市區各級教育部門的專項建設資金支持；錫天聯成員學校、無錫市少年宮等單位也配套投入了相關的天文基地建設。

六、活動內容

“多層次城市夜空光度測量科技教育活動”的全部項目、環節的活動，包括項目研究、實驗設計、觀測實踐和攝影活動等多個層次，分別由天一天文社斯科特工作室（項目辦公室）、伽利略工作室（普及委員會）、達蓋爾工作室（學術委員會）和加賀谷穰工作室（文化宣傳部）等四大工作室具體負責。表1為各工作室的智能類型列表。

（一）主題活動一：城市夜空光度測量（項目研究）

1.選題背景及意義：

無錫作為長三角地區的重要城市之一，經濟發達，城市光污染情況總體比較嚴重，但是不同區域的污染程度也存在明顯差異。夜空光度是衡量城市光污染程度的重要指標，通過使用專門的測光儀器，對無錫城區進行高覆蓋度的光度測量，從而了解無錫城區整體的污染程度，不同區域的污染水平差異，以及分析光污染產生的背景，并嘗試提出防治的建議，有利于提高公眾對光污染的認識，也能為城市管理部門在優化城市燈光設置時提供參考。

2.活動過程和步驟：

（1）編寫《無錫市夜空光度測量指導》方案。指導學生收集、整理與夜空光度測量相關的研究論文及其他材料，對“光污染”“夜空光度”等概念進行界定，并組織編寫《無錫市夜空光度測量指導》方案，就測量時間、地點、方法及報告填寫的格式予以統一規范。

（2）撰寫開題報告。指導學生撰寫《無錫城市夜空光度測量》開題報告，對研究背景、要解決的問題、選題意義及研究價值，核心概念的界定、相關現狀、參考文獻，研究目標、研究內容、研究假設，研究思路、研究計劃，預期成果等內容進行項目論證。經論證后的項目被中國教育學會地理教學專業委員會研究性學習課題專家組立項。

（3）開展測量活動。指導學生開展城市夜空光度測量活動，具體步驟有：

①儀器編號：為支持本課題組

的研究工作，學校從加拿大購置了9臺SQM測光儀，并予以編號（以分辨儀器本身存在的機械誤差）。

②路線設計：將無錫市區劃分為

不同的片區，并設計好測光的具體行

進路線和測光任務。

③實地測量：將課題組成員分成不同的小組，每組由3人組成，分別負責儀器操作、數據記錄和坐標定位，每個坐標點測5個數據，以減小誤差。

④數據處理：將測光所得的數據（經度、緯度、時間、測光值）輸入EXCEL表格，進行誤差分析，取平均值，得到各坐標點夜空光亮度的最終值。

（4）撰寫結題論文。指導學生根據開題報告中預期成果的要求對收集的數據進行不同角度的分析，并將結論撰寫成結題論文《無錫城市夜空光度測量研究》。結題論文主要結構包括：夜空光概述，測量儀器及方法，數據分析及測量結果（數據測量與分析步驟、夜空光亮度的地區分異、夜空光亮度的地區變化、夜空光亮度的地平高度及方位分異、夜空光亮度的時間變化），反思及討論等。于2015年第4期《地理教學》雜志。

3.活動效果及呈現方式：

活動進行過程中及之后，我們得到了諸多媒體的關注：指導教師受邀赴上海復旦大學為2015年第六屆全國天文社團發展論壇作了《也談高中天文社團建設》的專題報告，赴江陰為2015年第二屆無錫市高中生峰會作了《城市天文學》的專題報告。項目組還收到了國際天文學聯合會普及工作委員會及香港大學物理系的邀請函，受邀加入國際夜空光度監測網絡并赴香港大學開展項目交流與培訓。

在前期活動的基礎上，天一天文社發起成立了錫天聯、無錫城市夜空光度監測網絡兩個組織，吸引了南菁中學、青陽中學、山明中學、旺莊實驗小學等多家單位參與，將在無錫建設若干城市夜空光度監測站，并以此為抓手，開展進一步的天文教育活動。

（二）主題活動二：光學相關實驗設計（科普實驗）

1.選題背景及意義：

激發學生對科學的熱情，培養并學習掌握科學研究的方法與技能是我國進行素質教育的目的之一。科學研究的方法和技能至少應包括：分析和觀察周圍世界的技能，發現問題、提出問題、作出假設、安排實驗的技能，真實地記錄觀察結果與數據的技能，按照正確方法處理數據的技能。

天文因為不屬于中小學必修課程而不被大多數學生所了解，中學階段非常缺乏天文科普實驗或科技制作的教學內容，非常有必要利用天一天文社的資源優勢整理、設計一些科普天文實驗或制作，這些源自我們身邊的天文科學知識將極大地激發學生對天文的興趣，增加他們對天文的認識，促進天文知識在基礎教育階段的普及。

2.活動過程和步驟：

（1）編寫“光學相關實驗設計”模板。指導學生學習《高中物理實驗手冊》等專業書籍，在此基礎上，編寫“光污染相關實驗設計”模板：活動目標、概念與方法、材料準備、活動步驟、活動建議、活動拓展等，同時，設計一份樣稿《在微光中辨認顏色》。

（2）開展“光學相關實驗設計”。指導學生開展“光學相關實驗設計”，具體步驟有：

①創意征集：發動學生提出光學

相關實驗（及制作）設計的創意，組織人員從投稿的創意中精選可操作性較高的方案。

②方案編寫：制訂編寫計劃，并為課題組每一位學生分配編寫方案（草案），指導他們根據模板和樣稿的格式及要求進行方案編寫。

③實驗驗證：將課題組成員分成不同的小組，每組2人，以小組為單位對所編寫的方案進行實驗驗證。

（3）組織“光學相關實驗設計”比賽。面向全校師生組織開展“光學相關實驗設計”比賽，吸引對天文有興趣、樂于動手實踐的學生參加“在微光中辨認顏色”“彗星為什么長尾巴”“簡易望遠鏡制作”等比賽，并評優頒獎。

（4）舉辦“光學相關實驗設計”科普活動。面向錫天聯成員學校、無錫市少年宮及無錫地區其他中小學、幼兒園開展“光學相關實驗設計”科普活動，針對不同年齡階段的受眾舉辦光污染科普講座或科普游戲。

3.活動效果及呈現方式：

學生編寫的“光學相關實驗設計”將被編入校本教材《中小學生天文學習指南3》，這是一本專門介紹天文相關科普實驗及科技制作的教材，受眾定位為中小學天好者及天文指導教師。

上述科普實驗及科技制作被引入天文社“宇宙意識”少兒天文科普項目及“天文全球化”社區天文科普項目，作為寓教于樂的教學素材向少年兒童及社區的天好者推廣。

（三）主題活動三：星空光害旅行團（觀測實踐）

1.選題背景及意義：

對業余天好者來說，觀星是極大的樂趣所在。然而，嚴重的光污染正將燦爛的星空從我們身邊

奪走。

為便于普通學生及其他業余天好者通過對比觀測，直觀地了解無錫各地的光污染情況，我們依托天一天文社組織的“天一觀星營”項目，開展了“星空光害旅行團”活動，帶領旅行團的團員們利用晚上的時間，去往錫城不同的地點，實地觀測、考察并對比分析星星的數目，從而普及光污染的防治意識、夜空光度的概念。

2.活動過程和步驟：

（1）編寫觀測方案。指導學生編寫觀測方案，使用最常見的目視極限星等法，即通過肉眼能觀察到的最暗星等來進行估算：選擇2個或2個以上地平高度大于40°的定標天區，數出該天區內能觀察到的恒星數目，與國際流星組織提供的表格對應來確定極限星等。同時，為便于零天文基礎的團員參與，我們設計了簡易觀測法，請同學們觀測標志性星座所在天區的恒星數量，來比較不同地點的光污染程度。

（2）開展觀測實踐。帶領旅行團的團員們利用晚上的時間，去往無錫城不同的地點，實地觀測、考察并對比分析星星的數目。具體觀測過的地點有太湖廣場、馨和苑廣場、天一中學、斗山、保利廣場、崇安寺廣場、南禪寺廣場、安鎮高鐵新城、太湖十八灣等。（見圖9、圖10）

3.活動效果及呈現方式：

通過“星空光害旅行團”活動，結識了一批無錫地區的成年及未成年業余天好者。以此為抓手，天一天文社發起成立了“無錫市業余天

好者協會”QQ群。以此活動為素材撰寫的《星星都去哪兒了》發表在《天好者》雜志2016年第2期。

（四）主題活動四：光污染攝影大賽（文化藝術）

1.選題背景及意義：

為推動公眾思考光污染在無錫及其所在社區的狀況，讓公眾參與光污染活動，我們發起了“光污染攝影大賽”活動。邀請公眾使用攝影設備捕捉各種光污染的畫面，從而了解及思考無錫地區乃至全世界日益嚴重的光污染問題。比賽主題分為：光污染與生態、光污染與健康、光污染與能源、光污染的分布、光污染的來源等。評選標準主要有：攝影照片視覺美感、作品說明表達技巧、光污染意涵、手法創意等。

2.活動過程和步驟：

指導學生起草“光污染攝影大賽章程”，包括組織單位、大賽目的、比賽主題、參賽資格、參賽設備、照片格式、相關權益、比賽日程、評選規則等。

章程起草完畢后，通過錫天聯官網、錫天聯微信公眾號（AUWS2015）、無錫市業余天好者協會QQ群（91462404）、牧夫天文論壇無錫天協專版等渠道向外比賽信息。

投稿截止后，組織專家對作品進行評審，并舉辦頒獎儀式。

3.活動效果及呈現方式：

通過光污染攝影比賽，一方面間接了解了無錫地區光污染的來源、分布情況，另一方面，在公眾中對光污染進行了有效的宣傳與普及。光污染攝影作品還被制作成海報，用于專題展覽。

七、活動可能出現的問題及解決預案

1.項目研究中的技術問題：

考慮到光污染問題在大陸地區的研究仍處于起步階段，即便在世界范圍內也未引起足夠的重視，我們在開展夜空光度測量時會遇到各種各樣的技術問題。對此我們的解決方案主要是：

（1）開題報告與測量指南兩個指

導性文件必須花大力氣保證質量，保證指導性和可操作性。

（2）爭取學校在測光儀采購上的

支持，以及年級組、班主任在學生活動時間上的支持。

（3）遇到實在難以解決的技術問題，請教中科院紫金山天文臺等相關研究機構。

2.科普實驗中的素材問題：

中學生的專業知識儲備畢竟是有限的，對生活的觀察能力也仍有待提高，這直接導致了科普實驗素材的缺乏。對此我們的解決方案主要是：

（1）大量、深度閱讀中小學階段及國外的實驗手冊，學習實驗編寫的一般結構，積累與光學相關的實驗和科技制作素材。

（2）通過天文科普書籍和天文歷

史故事，尋求實驗和科技制作素材。

（3）面向全校發起光污染相關實

驗和科技制作素材的征集活動。

3.觀測實踐中的安全問題：

夜間開展天文觀測實踐活動遇到的最大挑戰是人身與財產安全問題，很多學生、家長或教師不支持天文活動也主要是對此有深深的顧慮。對此我們的解決方案主要是：

（1）與參加活動的學生簽訂合同，

并要求學校同意、學生簽字、家長簽字。

（2）統一、強制購買意外險，分擔風險。

（3）與有資質、口碑好的旅行社合作，聯系包車或食宿。

（4）對每一個觀測地點進行事先

的實地探訪，確保觀測地的安全性，遠離陡坡與水體。

4.攝影大賽中的發動問題：

攝影大賽看似簡單，就是摁一下快門的事。但真正要發動公眾參加，激發大家的熱情卻并不是一件簡單的事。對此我們的解決方案主要是：

（1）通過錫天聯成員學校的天文

指導教師，發動學生中的天好者參賽。

（2）通過官網、微信公眾號、QQ群等網絡平臺推送攝影大賽比賽通知。

（3）積極聯系贊助，為獲獎選手準備證書、獎杯及獎品。

八、效果評價標準與方式

在評價的過程中，堅持“主體多元”“方式多樣”“向度多維”等原則。

1.主體多元：

在活動過程中，要求學生首先進行自評和互評，不同組別之間也可以進行他評。這有利于加深學生對評價標準的認識與理解，可以促進學生自我反思和自我發展。教師在此基礎上，對學生自評、互評及他評進行再評價，保證了評價的指導性。

2.方式多樣：

在活動過程中，靈活運用即時評價與延時評價。即時評價有利于表揚先進，糾正缺陷；延時評價則體現了尊重、關愛與期待。此外，還將口頭評價與書面評價，一次評價與多次評價，診斷性評價、過程性評價與終結性評價等多樣化的評價方式相結合，以保護學生的積極性，強化學生的成就感。

3.向度多維：

第3篇：教育測量與評價論文范文

關鍵詞：認知診斷理論；認知診斷模型；測驗編制；效度；應用

當前大部分測驗只能提供單一的測驗總分或能力值，但是具有相同分數或能力值學生的認知結構（或稱知識狀態）可能不同，因此，對他們采取的教學補救措施是不一樣的。由此產生了一個很重要的問題：如何才能精確地測量出學生的知識狀態呢？認知診斷理論能夠回答該問題。

一、認知診斷的發展

理論和實際需求推動了認知診斷的快速發展。理論上，認知診斷的計量模型可以提供一個有效機制來驗證認知理論；實踐中，美國政府于2001年提出的《不讓一個孩子掉隊》的法案更是促進了認知診斷的蓬勃發展。其實早在20世紀80年代，就已經有眾多學者開始注重認知科學和心理測量學的結合對教育領域的指導作用。Glaser曾批判傳統的教育測驗缺乏對被測心理特征的關注[1]，Snow和Lohman在其編寫的《認知心理學對教育測量的影響》中曾預測，教育測驗可能會要求提供更多的學習診斷及教學指導信息。Nichols首次將認知科學和心理測量學的結合稱作認知診斷評估，并在1995年出版專著《認知診斷評估》，從而使得該名稱沿用至今[2]。Stout認為在21世紀，認知診斷將會成為新的測驗范式[3]，并得到廣泛的研究。許多認知診斷研究者先后出版專著，從各個角度詳細地介紹了認知診斷理論及其應用，其中包括：Leighton和Gierl在2007年出版的《教育認知診斷評估：理論及應用》[4]，Tatsuoka于2009年出版的《認知評估：規則空間簡介》[5]，以及Rupp等人于2010年出版的《診斷測量：理論，方法及應用》[6]。

近幾年國際和國內更是掀起了認知診斷的研究熱潮。2012年9月在南昌舉辦的第十屆海峽兩岸心理與教育測驗學術研討會出版了專著《認知診斷理論、方法與應用》，對國內的認知診斷研究起到了極大的推動作用。作者僅在CNKI輸入“認知診斷”關鍵詞查詢所有期刊后，就得到了23835條結果，而且呈逐年遞增趨勢，可以看出認知診斷研究正在蓬勃發展。

二、認知診斷的相關理論

認知診斷理論主要包含Q矩陣理論及認知診斷模型（CDM）兩部分，下面分別對這兩部分進行介紹。

（一）Q矩陣理論

Q矩陣理論的先驅是Tatsuoka教授，她認為Q矩陣理論欲確定學生不可直接觀察的知識狀態，并且運用可以直接得到的觀察反應模式（ORP）表示這些知識狀態[7]。學生的知識狀態由屬性向量表征，“屬性”表示測驗項目的特征，是學生正確解決特定項目所需要的認知加工能力和技能[8]。一個完整的Q矩陣理論包含：屬性層級結構（AHS）、鄰接矩陣（A）、可達矩陣（R）、縮減矩陣（Qr）、學生Q矩陣（Qs）、測驗Q矩陣（Qt）及期望反應模式（ERP）[9]。下面用一個具體例子對Q矩陣理論進行詳細闡述。圖1為假定的關于某份認知診斷測驗的屬性層級結構。

如圖1所示，該份測驗界定的6個屬性之間存在層級關系。例如，屬性1是屬性2和4的先決條件，即掌握屬性2之前必須首先掌握屬性1。這種層級關系是必要的，比如掌握乘法之前，必須先掌握加法。根據圖1所示結構，可以得到鄰接矩陣A陣，它是描述屬性間直接關系的矩陣，圖1的A陣如表1左側所示。由A與同階單位陣I的和A+I，通過Warshall算法可得到可達矩陣R陣，它是描述屬性間直接、間接以及和自身關系的矩陣，如表1所示。

注：A1-A6表示圖1中的6個屬性，“1”表示存在關系，“0”表示不存在關系

在得到R陣之后，可以通過刪除法[7]或擴張算法[10]導出所有可能存在的項目類別，即在圖1所示的屬性層級結構之下，一份測驗能夠編制出來的題目類型，記作縮減矩陣Qr陣，行代表屬性，列代表項目類。在圖1所示的層級結構下，最多只能出15種類型的題目，如表2所示。

將Qr矩陣轉置并加上一列全0向量（代表該學生一個屬性都未掌握）即可得到圖1下所有可能的知識狀態的集合，共有16種知識狀態。

測驗Q矩陣，即Qt矩陣是由Qr陣的列自由組合得到，但有一點十分關鍵，即自由組合中必須包含R陣，這樣才能使學生的知識狀態與期望反應模式一一對應[11]，換句話說，Qt矩陣中必須包含R陣，才能保證對學生知識狀態評估的精確性。

期望反應模式指學生在不存在任何失誤和猜測的情況下對題目的作答反應模式，即學生掌握了題目考察的屬性就能答對該題，只要有一個屬性未掌握就答不對該題。但現實中，學生在作答時或多或少都會存在一些失誤或猜測，因此，期望反應模式是一種理想化的反應模式。

對上述概念進行串聯之后，我們可以通過圖2來理解Q矩陣理論：

（二）認知診斷模型

測驗施測后，只能得到學生的作答數據，要想得到學生的知識狀態，就需要使用認知診斷模型進行估計。目前開發出來的認知診斷模型已達100多種[12]。下面僅簡單介紹幾個比較常用的認知診斷模型。

1.線型邏輯斯蒂克特質模型（LLTM）

Fischer提出的LLTM模型是認知診斷模型的雛形[13]，它是在Rasch模型的基礎上改造而成的，其模型為：

，其中θi是學生的能力參數，bj是題目的難度參數，qjk是屬性k在題目 j上的復雜度計分， K為測量到的屬性個數，ηk是屬性k的復雜度權重，d是標準化常數。LLTM用屬性復雜度的線性組合表征題目難度，屬性對題目的貢獻越大，則題目的難度也越大。

2.規則空間模型（RSM）

Tatsuoka提出的規則空間模型是一種基于模式識別和分類技術的診斷方法。該方法首先基于Q矩陣理論，分析出測驗考察的所有認知屬性以及每道題目考察了這些認知屬性中的哪些，同時還能確定學生所有可能的知識狀態種類。RSM認為學生的作答還會出現失誤和猜測兩種意外情況，這時學生的ORP會與其ERP不符，那么該如何基于ORP估計出學生的知識狀態呢？RSM根據項目反應模型計算出一組序偶R（θ，ζ），它在規則空間中是一個坐標點，稱為純規則點。θ是學生的能力參數，ζ是基于項目反應理論的一個警戒指標，表示能力為θ的學生其實際作答反應模式偏離其真實能力水平相對應的項目反應模式的程度。基于ORP，可以計算出每個學生的序偶，然后使用貝葉斯判別或馬氏距離判別可將學生判歸為某個純規則點，這個純規則點即代表了相應的知識狀態。

3.屬性層級模型（AHM）

AHM是在RSM的基礎上發展起來的，該模型同樣采用了RSM模型的Q矩陣理論，但有兩點不同之處。第一，AHM強調首先要界定好屬性及其層級結構，據此來編制診斷測驗，RSM是在現有測驗的基礎之上，反推屬性及其層級結構。第二，AHM根據最大相似概率對學生進行判別，RSM通過建立規則空間，使用距離判別法對學生進行判別。Leighton等提出了兩種基于項目反應理論和概率論的分類方法：A方法和B方法。

方法A：

，其中

sj（01）表示學生i的期望反應為0，但觀察反應為1的所有題目的集合；sj（10）表示學生i的期望反應為1，但觀察反應為0的所有題目的集合。P（θi）為學生i的正確作答概率，由項目反應模型估計得到。

方法B：

。該方法與A方法的區別在于，B方法認為擁有某個觀察反應模式的學生，掌握了所有邏輯包含在其中的期望反應模式的屬性組合，對于那些邏輯不包含的期望反應模式，只需考慮失誤而不需考慮猜測[14]。

4.確定性輸入，噪音“與”門模型（DINA）

DINA模型是具有顯式項目特征函數的診斷模型[15]，其數學表達式為：

，其中

是潛在反應指標，具體含義是指，若學生i掌握了項目j所考察的全部屬性，則ηj=1，否則，ηj=0。從中可以看出，DINA模型能將學生分為兩類，一類是掌握了題目考察的全部屬性，一類是至少有一個題目考察的屬性未掌握。αik 指學生i是否掌握了第k個屬性（k=1，2，…，K）， αik =1表示掌握，αik =0表示未掌握。qjk表示項目j是否考察了屬性k，若qjk=1表示考察了，qjk=0表示未考察。sj是題目的失誤參數，它表示學生 i 掌握了題目 j 考察的全部屬性，反而答錯的概率；gj是題目的猜測參數，它表示學生 i 未全部掌握題目 j 考察的屬性，反而答對的概率。一個質量較好的題目，應該具有較小的 sj 和 gj 參數，并且要滿足1-sj>gj[16]。

5.融合模型（FM）

FM被認為是一個很成功的認知診斷模型[17]，其數學表達式為：

。

其中

，表示掌握題目j考察的全部屬性的學生的正確作答概率，也稱作題目的難度參數，其值越大，題目難度越小。

表示學生未掌握屬性k所帶來的懲罰，每少掌握一個題目j考察的屬性，正答概率就會下降。r*ik也稱作屬性區分度，其值越小表明屬性越重要。cj 表示學生答對項目 j 所需殘余能力的程度，它是表征 Q 矩陣完整性的指標，cj值越大說明 Q 矩陣界定越完備[18]。

三、認知診斷測驗編制方法

認知診斷測驗與傳統測驗的主要區別在于：（1）認知診斷測驗的目的是偵查出學生的知識漏洞，進而采取針對性的補救措施，促進個體的認知發展；而傳統測驗意在對學生進行整體評價或篩選，較少關注個體的認知結構。（2）認知診斷測驗需要由認知心理學和心理測量學專家事先界定出完成測驗任務所需的認知屬性，以及它們之間的層級結構，然后根據Q矩陣理論編制測驗；傳統測驗一般是根據雙向細目表來編制測驗，無法偵查出學生在認知結構和認知加工過程方面的情況。（3）在編制認知診斷測驗時，不僅要滿足測驗考察的內容、題型、難度、區分度等標準，同時還要兼顧可達矩陣、每個屬性的考察次數以及每道題目所考察的屬性個數等因素。（4）傳統測驗追求的是總分分布形態盡量呈正態分布，分數之間的變異性越大越好[19]，認知診斷測驗對總分形態沒有要求。

基于以上區別，認知診斷測驗的編制方法與傳統測驗大不相同。國外學者從不同方面對其編制方法進行了研究[20]，包括：認知設計系統[21]、證據中心設計[22]及基于KL信息量的認知診斷測驗編制法[23]。在綜合了前人研究的基礎上，我們認為編制一份優良的認知診斷測驗應該包含以下步驟：

1.確定認知診斷評估的目標和群體；

2.根據目標，由專家界定出完成測驗任務所需的認知屬性，以及它們之間的層級結構；

3.根據屬性層級結構，利用Q矩陣理論建立一系列矩陣，其中測驗矩陣Qt陣十分重要，是認知診斷的測驗藍圖[9]；

4.根據Qt矩陣編制認知診斷題目；

5.選擇合適的認知診斷模型對題目參數和學生的知識狀態進行評估；

6.對題目質量進行分析，例如，題目參數是否合理，Q矩陣質量是否合格，界定是否完備；

7.根據第6步的結果對題目進行修訂或增刪，以及對Q矩陣進行重新標定，之后重復2-7步驟，直到所有的題目均達到理想標準；

8.測驗組卷。

四、認知診斷測驗的效度檢驗

效度檢驗不應該僅局限于對測驗本身是否達到預期測量目標的范圍（內容/結構效度），還應該包括補救和指導效果的考察（校標效度）[24]。關于效度檢驗，目前有以下兩派觀點。

（一）Messick框架

Messick提出的效度檢驗框架[25]，關注的是由認知診斷設計帶來的正向或負向結果，它強調認知診斷設計與補救之間的聯系。Messick區分了認知診斷結構效度的7個方面：（1）內容是否體現了認知診斷的目標領域；（2）學生是否運用了相應的認知加工過程去完成測驗任務；（3）評分是否反映了學生能力與目標領域的交互作用；（4）認知診斷得到的結果是否能預測期望的結果；（5）認知診斷測驗的結果是否公平可信；（6）認知診斷測驗是否有較好的聚合效度和區分效度；（7）測驗結果的外推性如何，例如是否能夠推廣到不同時間、地點以及實測環境。

（二）荷蘭學者框架

Borsboom及其同事提出了認知診斷效度檢驗的三個主要概念[26]。（1）測量概念：認知診斷評估需要關注的是那些可以被量化的研究側面，其中包括測量到的內容與想要測量內容的一致性、在不同情況下測量到的結果是否具有不變性，以及測量到的結果是否準確。（2）決策概念：能夠用心理測量方法進行量化研究，包括額外評估，以及根據經驗與診斷評估分數相關聯的其他標準。強調對一個較穩定特質的測量結果是否能準確預測未來，是否采用了最佳的測量方案等。（3）影響概念：量化基于診斷評估所進行的決策評價，不能直接追溯到診斷評價的心理測量性質本身，而應該根據測量結果的變異性來考察效度。該概念包括測量的結果是否可以被接受，對不同人群測量是否公平等。

以上兩派觀點均是從理論出發，探討在認知診斷中該如何對效度進行檢驗，以及應該關注的方面。實踐中，一些學者采取具體措施對效度問題進行了檢驗。Tatsuoka和Tatsuoka將補救措施作為實證效度的證據[27]，他們對學生進行前測后，根據診斷結果對學生實施了針對性的補救措施，然后在實施后測之后發現，93%的學生有了進步，7%的學生發生了退步；Jang在對二語閱讀理解進行診斷后將結果反饋給教師和學生發現，所有的教師認為診斷信息十分有效，能夠使學生了解未掌握的屬性有哪些，并有效指導教師教學，有39%的學生經常使用反饋的診斷信息來指導自己學習，50%的學生偶爾使用反饋信息[28]。Embretson和Yang還提出建立項目難度對認知屬性的回歸檢驗，來測量認知屬性對題目難度的解釋量，以此來驗證Q矩陣的內部效度[29]。

五、認知診斷在實踐中的應用

認知診斷在實踐中得到了廣泛的運用，概括起來，主要包含兩個領域：教育領域和臨床診斷領域。其中第一個領域的研究頗豐。

（一）認知診斷在教育領域的應用

在數學學科方面，余嘉元運用RSM對江蘇省中學生解不等式題進行了診斷研究，這是RSM在國內的首次應用[30]。范士青用RSM，采用任務分析的方法歸納出加減法運算的屬性及其層級結構，以此編制測驗，調查了268名小學二、三年級學生對整數減法計算的掌握情況，研究發現，有87%的學生被成功劃歸到18個理想反應模式中[31]。

在語言研究方面，Hartz等人運用融合模型對小學三年級學生的閱讀評估測驗及PSAT測驗進行了研究[32]；劉慧以現代漢語普通話六個基本顏色詞為對象，運用RSM對漢語非母語者對這些顏色詞的認知模式作出判別，并對他們的掌握情況作出診斷性描述，這是RSM在漢語語言測試中的首次應用[33]。王靜用RSM對857名被試進行了C.TEST閱讀理解測驗的診斷性評價研究，將90.57%的被試成功地劃歸到50個理想反應模式中[34]；趙雪晶用RSM對289名以漢語為第二語言學習者進行了量詞掌握模式的診斷研究，有95.16%的被試得到了成功歸類[35]；蔡艷、丁樹良和涂冬波根據高考英語數據，采用AHM方法對82000名考生作了認知診斷分析，探明了目前高中生在英語閱讀問題解決的認知特征及存在的問題，為教學指導及評估提供了豐富信息[36]。

在認知能力測驗方面，康春花和戴海琦用LLTM對空間折疊能力（心理旋轉）進行了實證研究，取得了良好的效果[37]。戴海琦和劉聲濤還用LLTM對影響瑞文測驗項目認知難度因素進行了實證研究[38]。余嘉元用RSM編制了40道題目，對南京市中學生進行測量，發現其中有318人存在不同程度的認知缺陷，他們能夠被劃歸到16種不同的理想反應模式中[39]。趙頂位將AHM運用于三段論推理測驗編制及個體知識狀態的判別中[40]。趙頂位和戴海琦用高階DINA模型對江西省三所中小學4-8年級學生的幾何類比推理問題解決能力進行了診斷評估，探明了目前學生在解決幾何類比推理問題中所存在的問題，進而為提出針對性的補救措施提供依據，使學生能夠更好地掌握知識[41]。

在其他學科中的應用方面，劉啟亮用RSM作了初中化學認知診斷的研究，將91.46%的被試判歸為21種理想屬性反應模式，然后就根據診斷結果該如何進行補救進行了相關探討，從班級和個體兩個層面從理論上提出了一些補救方案[42]。黎嬌以歐姆定律學習為例，運用RSM進行了中學物理教學評價中的實證研究[43]。徐光建用高階DINA模型編制了高一物理認知診斷測驗[44]。

（二）認知診斷在臨床診斷領域的應用

Templin等人運用DINO模型對593名被試在病理性賭博方面進行了臨床診斷研究，按照《精神障礙診斷與統計手冊》（DSM-IV-TR）給出的10條標準，估計出了每個被試在各條標準上的“掌握程度”，從而判斷該被試是否存在病理性賭博傾向[16]。

此外，Reif等人認為以往人格問卷的編制缺乏直觀性，并且題目的難度均是由實證研究所決定。為了增加問卷題目的結構效度，他們使用LLTM編制了人格問卷[45]。

六、結語

未來認知診斷的發展不僅需要關注對測量模型的研究，更需要加強理論建設（Q矩陣理論），只有兩者齊頭并進，才能更好地壯大認知診斷理論。正如Leighton等人曾說：“認知診斷評價還處于嬰兒期，但它的起源是非常牢固的。”[5]最后，希望更多的心理學工作者能夠加入到認知診斷研究中，共同推進該測量理論的發展。

參考文獻：

[1]Glaser， R.， The future of testing： A research agenda for cognitive psychology and psychometrics[J]. American Psychologist， 1981， 36（9）： 923.

[2] Nichols， P.D.， A framework for developing cognitively diagnostic assessments[J]. Review of Educational Research， 1994， 64（4）： 575-603.

[3] Stout， W.， Psychometrics： From practice to theory and back[J]. Psychometrika， 2002， 67（4）： 485-518.

[4] Leighton， J. and M. Gierl， Cognitive diagnostic assessment for education： Theory and applications[M]. Cambridge University Press， 2007.

[5] Tatsuoka， K.K.， Cognitive assessment： An introduction to the rule space method[M]. Routledge New York， NY，2009.

[6]Rupp， A.， J. Templin， and R. Henson， Diagnostic measurement： Theory， methods， and applications[M]. Guilford Press， 2010.

[7]Tatsuoka， K.K.， Architecture of knowledge structures and cognitive diagnosis： A statistical pattern recognition and classification approach[J]. Erlbaum： Hillsdale， 1995： 327-359.

[8]丁樹良，王文義，羅芬. 認知診斷中Q矩陣和Q矩陣理論[J].江西師范大學學報：自然科學版， 2012， 36（5）： 441-445.

[9]丁樹良，汪文義，楊淑群. 認知診斷測驗藍圖的設計[J].心理科學， 2011，34（2）： 258-265.

[10]楊淑群，蔡聲鎮，丁樹良，林海菁，丁秋林. 求解簡化Q矩陣的擴張算法[J].蘭州大學學報：自然科學版， 2008，44（3）： 87-91.

[11]丁樹良，楊淑群，汪文義. 可達矩陣在認知診斷測驗編制中的重要作用.江西師范大學學報：自然科學版， 2010，34（5）： 490-494.

[12]辛濤，樂美玲，張佳慧. 教育測量理論新進展及發展趨勢[J].中國考試， 2012， 5： 002.

[13] Fischer， G.H.， The linear logistic test model as an instrument in educational research[J]. Acta psychologica， 1973，37（6）： 359-374.

[14]韓裕，張敏強. AHM分類方法的改良[J].華南師范大學學報（自然科學版）， 2012.

[15]Junker， B.W. and K. Sijtsma， Cognitive assessment models with few assumptions， and connections with nonparametric item response theory[J]. Applied Psychological Measurement， 2001， 25（3）： 258-272.

[16] Templin， J.L. and R.A. Henson， Measurement of psychological disorders using cognitive diagnosis models[J]. Psychological Methods， 2006， 11（3）： 287.

[17]涂冬波，蔡艷，戴海琦，漆書青. 現代測量理論下四大認知診斷模型述評[J].心理學探新， 2008. 28（2）： 64-68.

[18] Hartz， S.M.， A Bayesian framework for the unified model for assessing cognitive abilities： Blending theory with practicality[D]. Unpublished doctoral dissertation， University of Illinois at Urbana-Champaign， Urbana-Champaign， IL.， 2002.

[19]漆書青，戴海崎，丁樹良，現代教育與心理測量學原理[M].北京：高等教育出版社. 2002.

[20]蔡艷，涂冬波，丁樹良，認知診斷測驗編制的理論及方法[J].考試研究， 2010（003）： 79-92.

[21] Embretson， S.E.， A cognitive design system approach to generating valid tests： Application to abstract reasoning[J]. Psychological Methods， 1998， 3（3）： 380-396.

[22] Mislevy， R.J.， L.S. Steinberg， and R.G. Almond， On the role of task model variables in assessment design. In Siring & P. Kyullonene （ Eds. ）， Generating items for cognitive tests： Theory and practice[M]. Hillsdale， NJ： Erlbaum， 2003.

[23] Henson， R. and J. Douglas， Test construction for cognitive diagnosis[J]. Applied Psychological Measurement， 2005， 29（4）： 262-277.

[24]王卓然，郭磊，邊玉芳，從與標準測驗理論差異談認知診斷的特征[J].考試研究， 2012， 32（3）： 10-20.

[25]Messick， S.. Validity. In R. Linn （Ed.）， Educational measurement （ 3rd ed.， pp. 13-103） [M].NewYork： Macmillan，1989.

[26]Borsboom， D.， &Mellenbergh， G. J..Testvalidity in cognitive assessment.In J. P. Leighton&M. J. Gierl （Eds.）. Cognitive diagnostic assessment for education：Theory andapplication（pp. 85-118） [M]. Cambridge， UK：Cambridge University Press，2007.

[27] Tatsuoka， K.K. and M.M. Tatsuoka， Computerized cognitive diagnostic adaptive testing： effect on remedial instruction as empirical validation[J]. Journal of Educational Measurement， 1997，34（1）： 3-20.

[28] Jang， E.E.， Cognitive diagnostic assessment of L2 reading comprehension ability： Validity arguments for Fusion Model application to LanguEdge assessment[J]. Language Testing， 2009，26（1）： 31-73.

[29]Embretson， S.E.， & Yang， X.. Construct validity and cognitive diagnostic assessment.In J. P. Leighton.， & M. Gierl （Eds.）， Cognitive Diagnostic Assessment for Education[M]. New York： Cambridge University Press，2007.

[30]余嘉元. 運用規則空間模型識別解題中的認知錯誤[J].心理學報， 1995，27（2）： 196-203

[31]范士青. 小學生加減法計算錯誤的分類與認知分析[D]，華中師范大學碩士學位論文，2008.

[32]Hartz， S.， L. Roussos， and W. Stout， Skills diagnosis： Theory and practice[J]. User Manual for Arpeggio software. ETS， 2002.

[33]劉慧.規則空間模型在留學生漢語顏色詞掌握模式診斷中的應用[D]，北京語言大學碩士學位論文，2006.

[34]王靜.C. TEST 閱讀理解測驗的診斷性評價研究[D]，北京語言大學碩士學位論文，2008.

[35]趙雪晶. 漢語作為第二語言學習者量詞掌握模式診斷研究[D]，北京語言大學碩士學位論文，2009.

[36]蔡艷，丁樹良，涂冬波。英語閱讀問題解決的認知診斷[J].心理科學， 2011，34（2）： 272-277.

[37]康春，戴海崎. 采用LLTM作測量與認知結合研究的初步探討[J].心理科學， 2001，24（5）： 569-572.

[38]戴海崎，劉聲濤. 瑞文測驗項目認知難度因素分析及LLTM擬合驗證[J].心理與行為研究， 2004，2（2）： 411-414.

[39]余嘉元. 關于新課程改革中的診斷性測驗研究[J].教育探索， 2006. 5： 24-25.

[40]趙頂位. 屬性層次方法下的三段論推理測驗制及個體屬性掌握模式的判別[D]，江西師范大學碩士學位論文，2007.

[41]趙頂位，戴海琦. 基于認知設計系統的幾何類比推理測驗的編制及認知模型分析[J].心理學探新， 2011，31（3）： 278-283.

[42]劉啟亮. 規則空間模型在初中生化學知識學習診斷與補救中的應用研究[D]，江西師范大學碩士學位論文，2008.

[43]黎嬌. 規則空間模型在中學物理教學評價中的實證研究[D]，江西師范大學碩士學位論文，2008.

第4篇：教育測量與評價論文范文

工程教育專業認證有利于構建我國工程教育質量監控體系，推進工程教育改革，進一步提高工程教育質量；農業水利工程專業結合培養目標、畢業要求，從課程設置、實踐環節、實踐平臺、教學管理和質量保障體系等四個方面，結合專業認證要求，進一步完善專業教學體系。

【關鍵詞】

工程教育專業認證；教育質量；農業水利工程；教學體系

【基金項目】

本文系石河子大學校級教學項目“農業水利工程特色專業建設”的研究成果。

目前石河子大學農業水利工程專業的辦學條件、師資隊伍、教學水平和科研實力得到了整合和提高，整體實力顯著增強；形成了以博士研究生教育、碩士研究生教育、本科教育和成人教育多層次、多渠道、多形式的辦學模式；形成了一支專業水平較高、師資結構合理、發展趨勢良好的教師隊伍；人才培養理念先進、目標明確、規范合理、操作性強；辦學特色鮮明，優勢明顯，專業建設與教學改革成績顯著。為專業的可持續發展奠定堅實基礎，同時也為培養高素質專業性新型人才提供了平臺。結合教育部工程教育認證標準，農業水利工程專業教學體系也進一步完善。

一、農業水利工程專業認證培養目標

按照石河子大學要求，每四年一次進行培養目標的達成度評價，同時對培養目標進行全面修訂，在四年的實施過程中可進行微調，評價與修訂過程由學院、大學兩級機構組織專家評審，同時著重邀請行業和企業專家參與。經對照工程教育認證標準，農業水利工程專業學生主要學習農業水利工程基本理論和基本技能，掌握水利工程設計方法、科學研究方法及施工管理的基本能力，具備農業水利工程的勘測、規劃、設計、施工、管理等基本技能。

二、結合認證標準，完善專業課程體系

1.課程設置

農業水利工程專業課程由學校根據培養目標與辦學特色自主設置，能支持培養目標的達成，課程體系設計由農業水利工程專業資深教師完成，有企業和行業專家參與，包括人文社會科學類課程、數學與自然科學類課程、工程基礎類課程、專業基礎類課程、專業類課程等課程計60余門課。其中，人文社會科學類通識教育課程占總學分的16．7％，學生在從事農業水利工程設計時能夠考慮法律、倫理、經濟、環境等各種制約因素；符合本專業培養目標的工程基礎類課程、專業基礎類課程與專業類課程占總學分的29.8%，工程基礎類課程和專業基礎類課程應能體現數學和自然科學在本專業應用能力培養，專業類課程應能體現系統設計和實現能力的培養。

2.實踐環節

實踐環節包括課程實驗與實習、課程設計、專業認識實習、專業生產實習、畢業設計（論文）及其他實踐環節等，其中畢業設計（論文）不少于12周，課程實驗8～16學時，課程設計一般安排1～2周。實踐教學體系結構包含課程實踐教學、專業實踐教學和畢業實踐教學三部分。課程實驗包括物理實驗、水力學實驗、土力學實驗、測量學實驗、電工學實驗、材料力學實驗、建筑材料實驗、灌溉排水工程學實驗、水工模型實驗、節水灌溉實驗、水工鋼筋混凝土結構實驗等；課程實習包括測量實習、水文實習、水文地質實習；課程設計包括水文學及水利計算課程設計、灌溉排水工程學課程設計、水工混凝土結構課程設計、水土保持學課程設計、節水灌溉技術課程設計、水工建筑物課程設計等；專業實習包括認識實習、生產實習。還包括其他實踐環節，如：工程技能訓練、科技方法訓練、科技創新活動、公益勞動、社會實踐，結構模型制作大賽、全國周培源大學生力學競賽、大學生創新創業實驗計劃等。

3.畢業設計（論文）

工程實踐與畢業設計（論文）占總學分的16.7%，畢業設計（論文）選題90%以上結合本專業的工程實際問題，培養學生的工程意識、協作精神以及綜合應用所學知識解決實際問題的能力。

（1）選題。

畢業設計或畢業論文題目以所學農業水利工程知識為基礎，同時結合生產科研項目開展，進行綜合訓練；也進行涉及本專業的有關研究熱點進行專題研究，主要分為5個方向：農業水利工程規劃與設計、節水灌溉技術設計、灌區水利工程設計、灌區水利工程管理與施工組織設計、專業相關熱點問題研究（論文）。

（2）內容。

由水利工程系負責組織畢業設計的選題論證、文獻調查、技術調查、設計或實驗、結果分析、寫作、繪圖、結題答辯等，使學生各方面得到全面鍛煉，并培養學生的工程意識和創新意識。

（3）指導與評價。

畢業設計（論文）的相關材料，包括設計選題指南、設計任務書、設計開題報告，反映指導教師指導與管理過程的材料：指導教師、評閱教師、答辯記錄等齊全。結合生產項目進行的畢業設計（論文），由教師與新疆天業節水有限公司、兵團設計院一分院、石河子市天興設計院等企業專家共同指導，答辯時有兵團設計院一分院、石河子市天興設計院、新疆天業節水有限公司等企業專家參加。

三、農業水利工程專業實踐平臺建設

為了滿足農業水利工程專業實踐教學的需要，學院在校內及校外相關企業建立了專門的專業教學實習、實踐教學基地，先后與新疆天業節水灌溉股份有限公司、中國長江三峽集團公司三峽培訓中心、新疆生產建設兵團勘測規劃設計研究院、新疆兵團建設工程(集團)有限責任公司等設計、施工、監理單位簽訂了長期的合作協議。目前形成了灌溉工程實習基地、水文實習教學基地、蓄水引水工程實習基地、科研試驗實習基地、水管單位實習基地、設計單位實習基地等10多個實習基地，每年可容納200人左右學生進行課程實習、認識實習、生產實習、畢業實習等。

四、教學管理和質量保障體系

按照“以人為本、全程保障、以評促建、提升內涵”的原則，農業水利工程專業建立教學過程質量監控機制，學院主管教學領導負責，由水利工程系進行課程的教學大綱、考試大綱、教材、教案、講稿審定，同時對課堂理論教學、課程實驗、實踐等環節進行質量考核。農業水利工程專業課程體系設置每4年進行一次調整，每年進行微調；教學質量評價由大學教務處和學院組織實施，分為學生評教、大學督導評教和教師同行評教，每學期評教1次。統籌協調教學管理，抓標準、抓評估、抓建設，構建了教學評價與管理并行的質量保障運行機制。

1.教學質量體系

科學構建了目標與過程并重的本科教學質量監控體系，該體系由目標、組織、管理、評價反饋、保障五個子系統組成閉環，通過校院兩級管理、兩級督導、校院系三級保障模式有效運行，形成良性循環，對各教學環節提供了全面質量監控和質量保障。建立年度考核制度，形成保障本科教學質量的長效機制。學校實行二級教學管理模式以來，堅持對各院系本科教學工作實施年度考評，形成了保障本科教學質量的長效機制。

2.教學評估體系

學校和學院構建了學生、教師、領導、督導“四位一體”的教師教學評價體系，實施常態化教學質量評估。采用督導專家、領導聽課檢查、教師互評、學生評教、學生座談會、問卷調查等多種手段和途徑，及時廣泛地收集教學質量信息，實施公開、公平、公正的教學評估，全面監控教學質量狀況。農業水利工程專業在對教學質量有重要影響的一些關鍵點上給予了重點監控。例如，在嚴把教師教學關方面，嚴格執行教師開新課和新開課的試講制度，始終堅持對青年教師實行助課、聽課和試講制度，有效促進了新教師教學水平的提高。在課堂授課方面，建立了學院領導、專業帶頭人、督導組成員聽課制度，嚴格規范教師的課堂授課行為，并利用課堂教學檢查、專家聽課、學生評教等手段及時監控教師的授課情況。

作者：呂廷波李明思何新林單位：石河子大學水利建筑工程學院

參考文獻：

[1]倪福全,李昌文,馬榮朝,等.農業水利工程專業人才培養實踐教學體系研究[J].安徽農學通報,2011,17(1):164-166.

[2]陳元芳,李貴寶,姜弘道.我國水利類本科專業認證試點工作的實踐與思考[J].科教導刊,2013,(2):25-27.

第5篇：教育測量與評價論文范文

加入收藏

聯系我們

|首頁|最新|語文|數學|英語|政治|物理|化學|歷史|地理|生物|音樂|體育|美術|科學|計算機|公文|

論文搜索：[熱門]素質教育寫作總結說課計劃心得體會教案操行評語

首頁>>數學論文>>新課程理念下初中數學教學

【加入收藏夾】【搜索相關的文章】【關閉窗口】

（甘肅省鎮原縣平泉中學劉永強744517）

摘要：數學新課改要求教學中講背景來源，講思想方法，注重過程，聯系實際，突出應用，體現數學的文化價值；

關鍵詞：數學新課改、更新觀念、關注過程，應用、提高創新能力。

隨著數學課程改革的不斷深入，數學教學中對教師的教和學生的學的評價及要求也在不斷地發展。數學新課程所倡導的教學理念：講背景來源，講思想方法，注重過程，聯系實際，突出應用，體現數學的文化價值；在教材編排上也從封面設計，導引，章頭圖及正文的“想一想，做一做，議一議，讀一讀”等都體現了數學的美學價值和人文精神。通過兩年多的試改，感受頗深：

1、教師觀念更新，提高認識

在課堂教學中，教師一改以往的角色，成為教學活動中的參與者、合作者、組織者，而寬松、和諧、民主、生動活潑的數學課堂使學生在沒有任何壓力下產生強烈的求知興趣，同時也能發現數學的文化價值。

首先，過去對于教師的“主導”地位問題，是課堂評價的一個論據，而在數學新課程改革中對我們理解更會有不同側面和深刻程度上的差異，所以，當教師把自己變為課堂活動的一名合作者、參與者時，也將自己和學生放在了同一水平上，才能從數學學科的特點出發，考慮到每個學生的不同背景，每個學生的現實基礎，認知水平等進行教學，從而發揮每個學生的最大潛能。

其次，在新課改理念下，教師對學生的地位也有了新的認識；教師與學生在教學中的關系是動態的，不再起什么“主導”與“主體”性作用，這一定位，拉近了師生的距離。過去我們評價一節課只看表象，評課者只關注教師在這節課中“戲”演得是否令觀眾滿意，再看觀眾反應如何，來評這節課的成功與否，注重了數學教學的系統結構和形式化，而較少關注從“感知數學情景、體驗數學本質、概括數學抽象、反思數學應用。”的完整數學學習過程，這種形式化教學搞得教師手忙腳亂，學生也無所適從，且看美國中學數學教學的一個案例：

在美國西雅圖一節高二數學課上，老師講的就是一個測量塔高度的問題，一上課，老師就把這個任務交給學生，說塔是高不可及的朵想辦法測量這個塔的高度。學生聽完以后就每個人拿了一個圖形計算器，分成四、五個人一個小組就開始做了。看到這道題我覺得好笑，這不正是前幾天才給學生上的一節課嗎？是初三數學中的一道應用問題，稍微差不多的學生都很快得出答案。可問題是人家高二學生卻做得津津有味，全班同學分完工以后，老師沒有做任何提示，學生就開始做這件事情，且沒有幾個學生去努力找一個公式，絕大多數都在按分工試算：這塔多高呢？有的學生就先設它為100米，找測量點，發現湊不出準確答案，就開始分工，甲把塔放高一點，已把塔變矮點兒，丙把第一個測量點往前點，丁把測量點往后變，四個人分工做，到下課全班還不到10個學生得出結果，老師說：“我們繼續去做”。

而這節課在我們教育界的評價會是怎么樣呢？沒效率，沒結果。對比我們的評價方式，我不明白碰撞點在什么地方，如何看待這節課，曾有專家這樣認為：在沒有任何提示的情況下，大家分工用不同的方法來探索的過程，根據別人的信息來改進自己探索方向的過程，在他們看來比知識更重要。這就使我想到為什么美籍華人楊振寧能獲得諾貝爾物理學獎；2006年相當于數學諾貝爾獎的“菲爾茨獎”獲得者又是澳籍華人，年僅31歲的陶哲軒，而我們土生土長的中國人卻沒有，這一切不就說明教育改革，觀念更新的可行性嗎？

讓我們思考我們的數學教育尤其是農村中學數學教育現狀，從評價體系的導向上就決定了我們的數學教育是為“應試”而備的，從小學到中學，全部是模塊化的：考什么，教什么。而對數學的發展，她的文化價值大概問起來沒幾個人會知道，對現行新課程知道的又有多少呢？教師為了完成上級下達的任務，在拼時間，講題型，抓訓練，學生為了一個“愿望”，在這個“愿望”的奴化下，麻木的、機械的、毫無生機的學習，我曾經做過一個調查，我所在地方的農村初三學生每周周內學習數學的時間至少在800分鐘以上，而其他國家和地區平均是217分鐘，我們的代價是多么的大啊，可效果怎么樣，我只能用少得可憐來說。

在學習了“中美高層教育交流”研討后，我對自己八年的數學教學作了回顧，深感自己只不過是個知識的“二道販子”不停地學習，再將我知道最多，自認為最好的、最得意的東西傳授給學生，并告訴他們“量積累到一定程度才能引起質變”并舉了數學家蘇步青當年為了考取國際上有名的日本帝國大學，對解析幾何、微分兩門課做了近萬道題，結果以雙百的優異成績被錄取；傳說中王羲之練干了三缸水，若非如此若練，他豈能豐為書圣。可是我們學生苦了，力也出了，成績怎么樣，全縣5000多學生參加高考，幾年才培養出一個清華學生，而有關部門就認為質量可觀，大力宣揚。

2005年新課程改革在全國轟轟烈烈開展，農村中學數學教育也受到影響，但波動不大，廣大農村教師只是從課本上的變化中感覺到了課改的氣息，因為受各種因素制約，我們絕大多數都沒有外出學習和培訓的機會，這就使的我們的課改還要加大力度。

2、關注數學過程，培養創新能力

這是數學課程改革中的“重中之重”，中國教育學會副會長，東北師范大學校長史寧中反復強調“歸納與創新”，學生思維的過程遠比簡單的數學結果重要。2006年9月6日和7日，“中美數學教育的高層交流”在北京舉行，美國學者介紹了他們的數學課上教師講得很少，主要是學生進行合作交流探索，在我國偏遠的農村學校，數學課堂上仍是教師講為主，學生的自主性很難發揮，他們自小就養成被動接受的習慣，而新課標下的教材在情境創設、培養學生創新意識和實踐能力方面為農村數學教育提供了方便，給學生給了更多的思維空間。

在課程改革中，教育理念的更新，必然帶來教學行為的變化，只要我們時時做個教學有心人，了解數學發展方向，數學價值，不失時機地反思自己的教學，就可積極穩妥地解決好新與舊的關系。

參與文獻：

第6篇：教育測量與評價論文范文

關鍵詞：高職院校創業課程體系評價

一、創業教育課程評價體系建設的意義

課程體系評價是指對課程計劃及其實施實際達到教育目的的程度的價值判斷活動。創業課程體系的評價目的是通過監控創業課程的實施效果和存在問題，從而達到創業課程體系建設目標。通過創業課程的開展，培養具有良好創業素質、正確的職業價值觀的高職學生，形成穩定的創業基本素質和開拓型個性特征，具有較高的發展潛力、競爭能力和社會適應性；培養自我工作崗位的創造者，通過創業知識傳授、創業實踐活動鍛煉以及創業品質的個性化培育，使大學生能自謀職業，并在適當條件下能夠開創自己的事業，成為自我工作崗位的創造者；針對有強烈創業動機并具備創業條件的大學生量身定做個性化人才培養方案，培育優秀的創業品質，使其最終走上自主創業之路。

二、創業教育課程評價體系建設現存問題

一是創業課程評價體系缺失。目前，我國創業課程體系與其他課程體系相比，是一個新生事物。大多數高職院校并沒有形成有效的創業教育模式以及創業課程體系，只采取公共選修的形式，選用一種或幾種教材，采用比較單一的教學模式，從而達到培養學生的創業意識的目的，而不是系統地培養創業人才。在這種創業課程體系尚未建立的情況下，創業課程評價體系自然缺失。

二是創業課程評價體系尚不成熟。現有創業課程評價體系大多是有幾種簡單的評價方法構成。有的院校單純以創業成功率來評價創業課程體系的成功與否，有的院校以學生在創業過程中的表現作為評價標準。具體采用的方法包括如下幾種：目標評價模式、目標游離評價模式、CIPP評價模式、CSE評價模式等。

三、國外創業教育課程評價體系對我國的影響

隨著高校創業教育的迅速發展，其相應的評價體系也變得日益重要。為了更好地評估大學的創業教育項目，威斯帕提出了進行評價的七個因素：提供的課程、教員發表的論文和著作、對社會的影響力、畢業校友的成就、創業教育項目自身的創新、畢業校友創新企業情況、外部學術聯系。

通過分析國外創業課程體系建設的文獻發現，創業課程體系對于人才培養效果的評價指標可以大致分為如下幾種：長期指標和短期指標、主觀指標和客觀指標、離散指標和系統化指標。短期指標主要衡量實施創業教育后，短期所呈現的效果。包括：創業興趣、創業信心和創業自我效能感、創業知識和創業技能等。但是，創業課程體系對于人才培養的效果并不是全部在短期內表現出來，因此，引發了人們對于長期指標的思考。包括：創業率、創業成功率、創業績效、進入高層管理的人數等等，這些指標的測量都必須長期跟蹤。主觀指標一般用來測量被調查者的創業興趣、創業意向、工作滿意度、團隊合作能力等。客觀指標往往測量創業課程體系對于受教育者的長期影響，創業企業的財務業績、創業企業提供的就業崗位等等。但是這些指標單獨的測試往往是離散的，系統的指標和離散的指標結合起來，短期指標和長期指標結合起來，主觀指標和客觀指標結合起來，評價結果才更有借鑒價值。

研究結果表明：創業課程評價體系的構建與評價機制的運作，增強了高校間的競爭意識，也促進了創業教育的快速發展。

四、高職院校創業教育課程評價體系的構建

（一）高職院校創業課程體系的構建

高職院校課程體系的構建是服務于創業人才培養目標的。經過調查，我們發現“三階段”創業教育模式和“三階段”能力遞進的創業課程體系的建立是能夠被大多數人接受的。按照創業教育培養范圍不同和個體差異，結合實際情況，建立三階段創業教育模式：第一階段，面向全體學生提高就業能力的一般教育；第二階段，面向部分學生提高自我開創事業能力的專門教育；第三階段，面向少數學生提高自主創業能力的特定教育。由此對應的“三階段”能力遞進的創業課程體系就應該是創業理論課程體系、創業實訓課程體系、創業實踐課程體系。

（二）高職院校創業課程評價體系的構建

1、構建原則。一是多元化。評價體系的構建絕對不是一個維度的考核，而是多角度的一個測量。既要測量創業興趣、創業信心和創業自我效能感、創業知識和創業技能等，又要測量創業率、創業成功率、創業績效、進入高層管理的人數等。既要測量創業業績，也要測量創業過程。

二是系統化。評價指標盡管呈現多元化態勢，但是根據人才培養目標的要求，測量各個指標所用的權重也應該是不同的。

2、構建模塊。創業課程體系的評價不應該是一個標準，針對不同的模塊應采用不同的測量標準。因此，創業課程評價體系應包括三個模塊：一是創業理論課程體系評價模塊；二是創業實訓課程體系評價模塊；三是創業實踐課程體系評價模塊。在創業理論課程體系評價模塊中，創業興趣、創業信心、創業自我效能感、創業知識是主要的測量指標。在創業實訓課程體系評價模塊中，創業技能是主要測量指標。在創業實踐課程體系評價模塊中，創業率、創業成功率、創業績效、進入高層管理的人數是主要測量指標。

五、結論

目前，雖然創業課程體系的構建仍然存在很大的爭議，創業教育課程評價體系的建立更是為時尚早。但是，隨著就業壓力的不斷增大，隨著國家對創業教育的加倍關注，培養為區域經濟服務的創業人才的質量和規格就會成為高職院校增加自身競爭力的重大砝碼。

參考文獻：

[1]邢娣鳳.高職院校創新創業教育的路徑選擇[J].黑龍江高教研究，2011（04）

第7篇：教育測量與評價論文范文

關鍵詞：經典測量理論信度難度區分度

一、引言

教育測量與評價是教育研究領域中重要的組成部分，是學科教學活動中科學管理的有效手段。《國家中長期教育改革和發展規劃綱要（2010-2020年）》明確把提高教育質量作為教育改革發展的核心任務，并多次強調與教育質量的監測和評價相關的內容[1]。顯然，在當前教育制度下，各種筆試仍是一種重要而有效的教育質量定量評價方式。試卷質量自然影響對教育質量的正確評價，因此，針對筆試試卷的質量分析顯得尤為重要。

試卷質量的分析一般是利用經典教育測量理論（CTT： Classical Test Theory）和項目反應理論（IRT：Item Response Theory）進行分析。

經典測量理論又稱為真分數理論，假定觀察分數X與真分數T線性相關，即CTT的數學模型為X=T+E，其中，隨機誤差E服從均值為零的正態分布。該理論最重要的四個指標正是反應試卷是否真實可靠、準確有效、難易適中、鑒別力強的信度、效度、難度和區分度等測驗質量指標[2]。當然，由于其比較依賴樣本、信度估計精度不高、難度和被試水平沒有定義在同一參照系上，同時，無法回答總分相同的考生的真實能力有無差異等問題，該理論也存在一定的局限性[3]。

項目反應理論是一種新興的心理與教育測量理論。該理論的前提假設非常嚴格，主要包括單維性假設和局部獨立性假設[4]。主要方法是在利用參數模型的基礎上，利用項目特征曲線、試題信息函數進行探討，同時利用EM算法，用邊際極大似然估計方法尋找項目參數的一致估計[5]。

本文主要利用南寧市某中學2013年秋季學期數學期末考試成績，在經典測量理論（CTT）范疇下探討該次期末考試數學試卷的信度、效度、難度、區分度和成績分布情況。通過試卷“四度一分布”了解試卷質量，并反饋教學效果情況。

二、基于CTT的試卷質量情況分析

1.成績分布情況

一般而言，一份好的試卷考試的成績都服從或近似服從正態分布，因此，考試成績的正態性是考察試卷質量的一個首要指標。檢驗正態性的方法很多，常見的是利用直方圖和卡方檢驗、K-S檢驗。從參加本次考試的872人中隨機抽取387人的成績進行檢驗，結果如圖1所示：

圖1 學生成績的直方圖

正態分布的K-S統計量顯著性概率P值為0.095>0.05，因此，這次考試學生成績服從正態分布。

2.信度

中學試卷中，選擇題分數可簡化為0，1得分情況來解釋，解答題和填空題可以看成非0，1記分的項目。因此，選擇題信度主要采用折半信度[斯皮爾曼-布朗（Spearman-Brown）公式、盧隆（Rulon）公式、弗拉納根（Flanagan）公式]和庫德-理查遜（Kuder-Richardson）信度（K-R20、K-R21公式）進行分析[7]。填空題和解答題為非0、1記分的項目，采用克龍巴赫系數進行統計，結果如表1所示。

表1 試卷信度分析結果

結果表明，每種方法計算的選擇題信度都接近0.7，信度系數處于尚可使用范圍之內。研究表明，對于標準化的大型測試題目信度要求一般要在0.9以上，而學校期末考試的信度在0.6以上即可接受[1]。選擇題、解答題的克龍巴赫系數為0.905，可以認為填空題和解答題的信度非常好，綜合考慮，試卷整體信度是可信的。

3.效度

效度（validity）是指測驗結果的有效性或準確性，即通過測驗能夠正確測量出它所要測量的屬性的程度[5]。測量的效度的種類很多，其中基于專家和教師對試題與所涉及的范圍進行符合性判斷的邏輯判斷法的內容效度使用較多。內容效度是指測驗內容對所要測驗的全部內容的代表性程度。但一次考試很難包含學生所學課程的所有內容，因此只能選擇具有代表性的試題進行考核，來了解學生的知識技能掌握情況[8]。

根據測量的目標與內容的雙向細分表，經過該校7位一線數學教師（其中高級教師4位，中教一級2位，中教二級1位）不記名反饋信息來看，本次考試所設計的試題覆蓋了所要測內容的主要方面，考查目標清晰明確，題型和分數結構合理恰當，總體符合考試大綱和教學要求。

4.難度

試題難度是反映考題難易程度的指標，一般而言是按照答對人數的百分比確定的，是衡量試卷質量的最主要的數量性指標，簡單來說可以利用測驗分數的分布情況和特征進行觀測，例如考察測驗分數的全距、零分、滿分、眾數、平均分數等相關指標進行定性的判斷，也可以根據不同的情況，利用有關公示進行精確計算。

一般而言，難度的取值范圍在[0，1]之間，取值越大，難度越小。難度在0.7以上的為比較容易的題，在0.4-0.7為中等難度的題，在0.4以下的則為較難的題或是難題。在實際教學中試卷難度水平的選擇，應取決于測驗的目的和試題的形式。如果測驗是用于區分學生水平，那么應該將試題或試卷的難度系數控制在0.5左右，各試題難度值在0.2-0.8，同時各題平均難度值在0.5左右是比較適宜的[5]。

對于采用0，1記分的選擇題，用通過率P、平衡猜測的校正公式CP和極端分組法計算各個試題的難度。

表2 選擇題的難度

對于非0，1記分的填空題、解答題和總分，用難度系數和極端分組法計算各個項目的難度。

表3 填空題、解答題的難度

結果顯示，就選擇題而言，三種計算方法的計算的難度差異不大，整體趨勢較一致，從三種公式的難度均值看，第1、2、5、6、7、8、9屬于難度較小的題目，3、4、10、11、12屬于難度中等偏上的題目，其中第4題難度最大，10，11，12三題難度也較大，選擇題總體難度為0.767，屬于比較容易，從試題編排上看，除個別題目外，整體趨勢是容易的題型放在前面，中等難度試題放在題型中間，較難試題放在題型后面，較合理。

對填空題和解答題而言，題目難度顯然大于選擇題，填空題總體難度均值為0.499，難度中等，解答題總體難度均值為0，472，屬于中等偏難程度，8道解答題的難易程度也和題目順序基本一致，越難的題目越在后面，符合數學試卷的一般規律。

從考試成績來看，難度系數為0.548，綜合選擇題、填空題、解答題三種類型的難度均值，整張試卷難度均值為0.579，和總分難度系數接近，因此，可以判定該份試卷總體難度適中。

5.區分度

區分度是反映試題效用的一個主要參數，同時也是試題對考生實際水平的鑒別能力，將不同層次的考生區分開來的統計量。若試題的測試結果是水平高的學生答對或者得高分，水平低的學生答錯或者得低分，則認為試題的區分能力強。一般而言，區分度在0.4以上為最佳效果，在0.3～0.39為合格，修改會更好，在0.2～0.29為勉強，仍需耍修改，區分度在0.19以下為差，必須淘汰[6]。

對于0，1記分的選擇題，利用極端分組法、點二列相關計算各個試題的區分度。

表4 選擇題的區分度

對于連續記分的主觀性試題填空題、解答題和總分，用極端分組法和相關法計算各個項目的區分度。

表5 填空題、解答題以及試卷的區分度

注：試卷區分度是將各題區分度進行加權平均計算的。

結果顯示，對于選擇題而言，總體看來，整個選擇題中大部分題目的區分度都在0.4以上。通過極端分組法和點二列相關系數計算的區分度在大部分題目中相差不大。極個別題目有明顯差異，主要在于兩種方法考慮的視角不一致，就第1題而言，極端分組法的區分度指標0.093，是利用高分組和低分組之間差異進行計算的，兩者差異很小，說明該題無論是高分組還是低分組都能完成，就區分能力而言屬于應該淘汰的題目，但正是由于該題目在高低分組中完成率都較高，和總分的相關性自然就大，因此，點二列相關法計算出來該題的區分度較高。兩種方法計算的試卷區分度均在0.6以上，說明該試卷區分能力強，區分效果佳。

三、有關結論

事實上，該次試卷為全市統一考試題目，從一定程度上說屬于“較大的標準化”考試題目。從上述分析可知，本次考試成績的分布直方圖并未凸顯畸形特征，基本上呈正態分布，單峰，稍微右偏。就四度而言，填空題、解答題的信度很好，但選擇題的信度適中。常見的提高測驗信度主要有以下方式：一是適當增加試題量；二是提高質量，試題難度要適中，區分度大；三是調整試題編排順序，盡量做到先易后難。

測驗的效度采用學科專家通過邏輯分析法進行分析的，根據測量的目標與內容的雙向細分表，了解到試題覆蓋了所要測內容的主要方面，考目標清晰明確，題型和分數結構合理恰當，總體符合考試大綱和教學要求。

試題的難度較合理，大部分選擇題難度偏低，其中第4、10兩題難度最大。而最后一道解答題的難度系數則過大。這和數學試卷利用最后一題作為壓軸題有密切關系。

試題的區分度方面反應較好，但選擇題第1、2題和解答題最后一道題在兩種計算方法中差異很大。可能的原因在于第1、2題屬于難度很低的送分題，因此區分度也不高，最后一道壓軸題屬于難度最大，很多學生放棄作答，因此存在這方面的問題。

四、結語

考試是衡量教學效果的必要手段。隨著統計學及經濟計量學邊緣的不斷擴張，對于教學結果的評價越來越依賴于科學的理論和方法。教育評價技術方法中教育測量理論就是應用教育統計學方法實現的，成為測評學生能力、考核教育效果的重要措施。利用SPSS測度考試的難易度、區分度、信度、效度等指標，不僅可以直觀、便捷分析考試結果，發現考試中的重要信息和規律，還可以為教學效果評估提供重要的考核指標和模式。目前在教育教學及科研領域，人們采用科學的測評方法測度試卷科學性的嘗試并不多，尤其是一些規模較小的考試，這不利于教學質量和教師素質的提高，亦不利于考試學研究者開啟新的研究視域。應該加強對試卷科學化測度的研究及實踐，使考試這一重要的教學環節日益走上科學化和規范化的軌道。

通過試卷質量分析，不僅可以了解試卷情況，更可以利用試卷科學性測評的方式了解教師的教學效果，同時也可以通過建立試題庫、制定命題雙向細目表等方式，提高試卷質量。

參考文獻：

[1]《國家中長期教育改革和發展規劃綱要》關注教育質量監測[N].基礎教育質量監測信息簡報，教育部基礎教育質量監測中心，2010，1.

[2]郭熙漢，何穗，趙東方.教學評價與測量[M].武漢：武漢大學出版社，2008.

[3]杜洪飛.經典測量理論與項目反應理論的比較研究[J].社會心理科學，2006（6）：15-17.

[4]Christine DeMars.Item Response Theory[M].London：Oxford University Press，2010.

[5]何穗，吳慧萍.基于教育測量理論的中學數學試卷質量評價研究[J].考試與招生，2012（08）：49-53.

[6]Robert L.Ebel.Measuring Educational Achievement [M].Englewood Cliffs，N.J.， Prentice-Hall，1965.

第8篇：教育測量與評價論文范文

【關鍵詞】實驗教學可操作性實驗考核

【中圖分類號】G633.7 【文獻標識碼】A 【文章編號】2095-3089（2014）7-0140-02

近幾年來，各級政府和教育行政部門花大力氣進行中、小學實驗儀器、電教設備的配套建設。重點中學的儀器設備已經相當完善，一些普通中學的儀器設備也得到了較大的充實，這為我們的實驗教學提供了物質基礎。“實驗教學應擺在物理教學中的首要地位”已成為廣大物理教師的共識。不少中學物理教師正在自覺地朝著大力加強實驗教學的方向努力，紛紛開展著各種“以實驗為基礎”的跟蹤對比教改試驗。

然而，由于長期受應試教育思想的影響，在很大范圍內物理實驗教學在某種程度上仍然處于“講起來重要，教起來次要，考起來不要”的狀態。實驗教學因長期未受到應有的重視而成為物理教學中的薄弱環節。為解決理想和現實的矛盾，就需要我們找到問題的“瓶頸”。

一、問題的提出

以上現狀歸結起來，主要有教師、學生和評價體系三個方面的問題。

（一）來自教師的主要問題

（1）學校和教師受傳統教育的影響，普遍存在著重理論輕實驗的思想。

（2）實驗教學模式僵化，物理實驗教學的基本原則沒有得到充分體現，教學方式呆板。

（二）學生的主要問題

（1）對基本測量儀器的使用不規范。

（2）動手操作能力差。

（3）以“背”實驗結論“代替”實驗操作。

（三）評價體系不完備

學校的教育評價很多時候只是簡單的文化課的考試，缺乏到位的可操作性評價體系。

二、問題的思考與實踐

（一）對問題的思考

中學物理實驗教學的弊端存在是現實，高考、會考、中考及其存在的價值是現實，中學現有的實驗條件和實驗員的配備是現實……；物理教學需要改革，物理實驗教學需要改革，實驗教學目標需要貫徹，相應評價體系也需要建立并付諸實施……從新的課程改革提出到現在，還是沒有多大改觀，仍存在一系列的問題，這問題出現的根源不在于實驗重不重要，不在于客觀環境條件允不允許，不在于教學改革是否合理，不在于評價體系是否完備，不在于有多少人做多少實驗教學模式的探索，筆者認為只在于“考”。這也正是為什么有很多人做各種有益的教學模式的嘗試與研究，而在實踐中卻只表現出做做樣子，研究過后還得回到起點，使研究的意義變得索然的原因。

針對以上分析，筆者認為，為避免教學改革的形式化，使改革具有現實價值，實驗教學改革應以實驗考核做為切入點，加強實驗考核。

（二）強化實驗考核――實踐

在實驗教學總目標的指導下，我們沒有將每個實驗目標具體細化，這種分解細化后再進行考核的方式由于涉及到教師素質、參加實際監考的教職人員、儀器以及測量時間等的分配問題，實行起來非常困難，就我們的現實條件還不允許。從可操作性角度出發，我們做了一系列的嘗試。

（1）階段性考核時間為各學期期末由所教學科教師和實驗教師進行，考試成績計入學科期末成績。

（2）學生畢業實驗考核成績直接計入中考成績，參加監考評價的人員組成：當地教育局人員、各校專職實驗教師或在校師范生等。

（3）從考核形式上，我們采用的是實驗操作與書面相結合的方式。教師根據實驗教學目標進行命題，由學生在實驗操作的基礎上完成試卷。

（4）實驗操作考核測量過程。

測量前，根據操作領域的實驗教學目標，編好若干實驗操作題，并提供一定量的儀器設備。試題突出典型實驗，題目形式多樣，包括排除故障式，讀取數據式，設計實驗方案式等，題目按名稱，儀器要求等欄目寫成卡片編號。由學生抽簽決定考核哪些內容。在操作過程中，教師進行適當觀察記錄，然后綜合評定成績。評分原則看學生的操作規范性，科學性和準確性。

（5）操作考核成績共20分，按實際得分結合書面考試成績計入期末和中考考試成績。

三、總結與展望

這種方式包含動手動腦的操作內容，以操作考試為主，筆試測量為輔，兩者有機結合，在實驗教學領域當屬有益的嘗試。在引起師生對物理實驗重視的同時，學生在實驗方面的精力投入也相應增加，對實驗的理解、操作和設計等方面都有較大程度提高。更為重要的是，在準備考核的過程中，學生由不會、不懂、不能完成實驗到能較好地完成實驗，并能進行實驗設計，收獲了自信，體驗了成功，為完成物理學習打下堅實的心理基礎。

當然，我們的實踐還很不完善，距離我們的目標也還有很大差距。但我們堅信，以實驗考核作為實驗教學改革的切入點，以“考”帶“改”的策略在實踐當中是有其實際價值的。以此為出發點，結合具體教學模式的探索與實踐以及實驗教學目標制定和評價體系的逐步完善，必將會使物理實驗教學有所提高。

參考文獻：

第9篇：教育測量與評價論文范文

1.課程性質與任務本課程是教師教育專業的核心課程。在掌握小學語文教育規律與教育教學理論方法的基礎上培養學生教育教學實踐技能，包括課程設計與實施；課堂教學推進與監控；課程資源開發與利用；教學評價與綜合測量等能力在內的綜合能力的養成。通過本課程的學習，能夠基本勝任小學語文教師日常工作的基本要求。

2.課程培養目標本專業主要就業面向九年義務制小學，各類民辦輔導學校提供的語文教師、班主任、教輔人員等相關崗位。學習《小學語文教材教法》課程達到的核心目標是“提高師范生對小學語文科課程的認識與理解；提高學生的語文教育教學實踐與研究能力；奠定小學語文教師的專業發展基礎并使其具有較為深厚的發展潛能。”本課程的實踐教學能力培養目標：具備準確使用口語與文字表達的技能；具備小學語文課程設計與教學的技能；具備現代科學手段呈現與適度選用的技能；具備與學生溝通交流并對其產生良好影響的技能；具備小學語文教育科研的技能。

二、實踐教學標準的實施建議

1.加強校內實訓基地與校外實踐基地建設校內實訓基地與校外實踐基地的建設是推動實踐教學標準實施的硬件基礎，在具體建設中，以“環境建設多元化、實踐場所職業化、課程教學理實化、實踐項目企業化；職業訓練平臺、教學研發平臺、交流服務平臺；進行高技能人才培養”〔3〕為設施建設的主要原則。教師教育專業應根據專業課程教學內容的需要建立能滿足全部學生進行課堂模擬教學的多媒體實訓室，并配備能滿足教學需求的相關軟件配套設施。在校外積極尋找并建立實踐基地，以一線教學現場為教學依托，發揮其教學實踐訓練場，教學科研調研場的重要作用。

2.加強課程整合及重視校本教材建設加強課程的多元整合，發揮多重課程的合力，以專業主干課為支撐，向外輻射其相關課程，使課程之間形成相關聯、有縱深的課程架構。例如以《小學語文教材教法》為主干課程，整合其與《兒童文學》《兒童教育心理學》《教學技能訓練》《寫作》等課程，使課程與課程之間跨越學科性局限，綜合發揮整體力量，構成未來教師的綜合教學技能。重視校本教材建設，建立相應政策支持鼓勵專業教師積級參與專業特色教材建設，注重教材體例、結構、內容體現實踐性及實用性，不斷提升教材編寫質量。

教育測量與評價論文精選(九篇)

第1篇：教育測量與評價論文范文

第2篇：教育測量與評價論文范文

第3篇：教育測量與評價論文范文

第4篇：教育測量與評價論文范文

第5篇：教育測量與評價論文范文

第6篇：教育測量與評價論文范文

第7篇：教育測量與評價論文范文

第8篇：教育測量與評價論文范文

第9篇：教育測量與評價論文范文

相關熱門標簽

相關文章閱讀

相關期刊推薦

早期教育·美術教育

早期教育·家庭教育

教育探索

中醫教育

石油教育

精選范文推薦