高考“一年多考”的“分數等值”研究與實踐
發布時間:2016-10-09

      成果公報

  華南師範大學心理學院張敏強教授主持完成了課題“高考‘一年多考’的‘分數等值’研究與實踐”(GFA111009)。課題組主要成員為:王蕾、關丹丹、焦麗亞、黎光明、簡小珠、方傑和張潔婷。

  •       内容與方法

  1 研究内容

  本項目通過研究及模拟數據實驗找到一種有理論基礎、為廣大考生所接受的“分數等值”方法,并應用于“一年多考”的高考實踐中去,以解決“一年多次考試”的不同難度的考卷分數比較及轉換。基于此研究目的,開展以下研究。

  (1)研究經典測驗理論(CTT)和項目反應理論(IRT)在規模考試中“分數等值”的理論依據,分别基于兩種測驗理論探讨适用于大規模考試的“分數等值”理論,并進行實證比較。

  (2)基于IRT模型在測驗等值中的應用優勢,進一步探讨IRT模型框架下的等值方法。

  通過以下子研究達到目的:

  1構建測驗等值的流程化思路;

  2探讨題組測驗局部依賴性的模型解決方法,優化測驗等值的參數估計步驟;

  3比較和歸納量表化與等值方法,為等值方法的選用提供參考性建議。

  (3)針對測量模型的優化、等值誤差的測量與控制以及測驗數據的縱向特點,分别對測量的方差分量估計、混合模型和認知診斷模型的應用與縱向數據分析方法進行拓展研究。

  本課題研究思路如下:

      2研究方法

  本研究在各等值理論方法的比較歸納基礎上,結合使用實證研究與模拟研究對各等值方法進行比較。

  2.1 等值方法

  2.1.1基于經典測量理論的等值方法

  經典測驗理論(Classical Test Theory, CTT)假設能力特質是潛在而相對穩定的,某能力特質的真正水平的數值為真分數T,實測的結果(即觀察分數X)會圍繞着真分數随測量的随機誤差(E)而在某範圍内波動,即觀察分數是真分數和随機誤差分數的線性組合。在CTT理論框架下構成了信度、效度、難度和區分度這四個指标對測驗的質量和特性進行評價,分别反映測驗的穩定性、有效性和測驗項目的難易程度、區分能力。基于CTT的傳統等值方法包括平均數等值(equi-mean equating)、線性等值(linear equating)、等百分位等值(equi-percentile equating)等。

  2.1.2 基于項目反應理論的等值方法

  項目反應理論(Item Response Theory, IRT),又稱潛在特質理論,采用非線性模型(如Logistic模型或Samjima等級模型等),建立考生對題目的作答反應(即observed score)與潛在特質(即ability)之間的非線性關系。該測驗理論有兩大基本假設:1對考生所測試的潛在能力具有單維性;2在考慮了考生的能力之後,考生對各個項目的反應是相互獨立的(即局部獨立性)。項目反應最大的特點是,考生的能力估計不依賴于項目的難度參數,即考生的分數不會由于試題的難或容易而産生高估或低估。基于IRT的等值方法在數據收集後根據題目和數據類型選擇合适的IRT模型(如單參數logistic模型、Samjema等級模型)進行IRT參數估計;然後使用某種方法,如動差方法(moment methods)、特征曲線轉換方法(characteristic curve method)、同時校準方法(concurrent calibration)進行IRT量表轉換,使參數估計置于同一個量尺上;最後進行測驗原始分數向量表分數的轉換。

  2.2 Monte Carlo模拟研究方法

  Monte Carlo模拟方法已經在應用物理、原子能、固體物理、化學、生物、生态學、社會經濟學以及經濟行為等領域中得到廣泛應用。特别是在計算機上用Monte Carlo模拟方法解決很多理論和應用科學問題,在很大程度上可以替代許多大型的、難以實現的複雜實踐或社會行為過程(楊自強, 2007)。

  • 結論與對策

  1 基于兩種測量理論的等值方法比較

  通過實證與理論研究,對經典測量理論與項目反應理論下的等值方法進行比較,得到如下結論。

  經典測驗理論的測驗等值方法存在不少困難與局限:首先,它們确定的轉換關系依賴于樣本,會随被試樣組的不同而變化,等值條件的唯一性(不變性)要求不能滿足,無論哪種方法,都難以确保求出的轉換關系是對稱的、公平的。其次,經典測驗等值方法應用重點又都在被試觀察分數等值上,很難妥善解決難度、區分度這類項目參數等值的問題。最後,更重要的是,即使在線性等值的情況下,經典等值理論所認定的應予等值的測驗分數間的線性轉換關系,也是假設能夠存在的,而不是必然能夠具有的。項目反應理論卻根本不同,在所選反應模型與實測資料适合良好的情況下,按項目反應理論方法所确定的被試特質與項目參數間的轉換關系,就是必然應該具有的,這是因為特質與項目參數本應具有不變性。也正由于轉換關系是來自模型的理論性質本身,所以,能夠保證全面地較好滿足唯一性、公平性、對稱性等要求。另外,由于項目反應理論能同時估出特質與項目參數,特别是,項目難度又是直接定義在特質參數量綱上,因而,就能同時解決特質水平與項目參數的等值問題。所以,項目反應理論等值不僅在理論上具有優良的性質,而且在實用上具有極強的功能。項目參數等值問題的解決為大型題庫的建設提供了有力的技術保證。

  因此,本項目進一步重點對IRT理論框架下的等值方法進行研究。

  2 基于IRT的等值技術

  2.1 IRT測驗等值的流程化操作思路構建

  測驗等值是測驗研究中相對薄弱的一個環節,許多重要的考試都尚未實現統計等值。造成這種窘境的原因,皆因等值操作困難化。在參考國内外關于測驗等值的相關文獻的基礎上,構建出IRT測驗等值的流程化操作思路,包括等值設計、數據收集、參數估計、量表化及測驗等值等五個步驟,如下圖所示。

 進一步,對參數估計、量表化和測量等值環節作方法上改進。

  2.2  題組測驗中處理局部項目依賴性(LID)的模型發展

  在教育和心理測驗領域中,題組是常用的測驗建構、測驗實施和評分的單元。題組(Testlet)是指共用同一個背景材料的一組題目(Rosenbaum, 1988)。由于同一題組内的多個題目共用一個刺激材料, IRT模型的局部項目獨立假他設往往難以滿足(Rosenbaum, 1988),出現局部項目依賴。局部項目依賴(Local Item dependence, LID)是指對于特定能力的被試,其在某個題目上的作答影響在其他題目的作答或受其他題目作答情況的影響。

  本研究在評述題組測驗中處理LID的标準IRT方法、多級評分IRT方法、題組随機效應方法和兩因子方法的基礎上,以參數估計精度作為準則,對這4 種處理LID方法的效果和适用條件進行了歸納并作出相應的評析。

  依據前人關于處理LID方法的研究,總結如下:(1)當題組長度較短(4-6個題目)且題組型題目所占比例較小時,可以采用标準IRT模型進行數據分析;(2)當題組LID為中等程度且測驗包含很大部分相互獨立項目時,采用多級計分IRT模型來處理LID也是可以的;(3)當題組存在較大LID時,應當采用TRT模型和兩因子模型。二者各有優點,相比兩因子模型, TRT模型更節儉,但兩因子模型參數估計軟件運行更加簡單和高效。但是,如果測驗中存在局部獨立項目,采用TRT模型會得到更為精确的參數估計值。

  2.3  IRT與MIRT在測驗垂直等值中的應用

  常用的測驗等值是水平等值(horizontal equating),是對測量同一心理特質的多個測驗形式進行分數轉換,要求各個測驗形式之間具有同質性、等信度、難度相近、對稱性、樣本不變性等特點。但是,在實際應用中,常面臨多個測驗的難度水平有明顯差異,或被評價團體的能力水平差異較大等情況。垂直等值(vertical equating)則是針對這種情況的等值,将測試同學科、同一種心理特質的不同水平測驗轉換到同一個分數量尺上。它要求測驗具有相似結構與高信度,但不要求測驗難度相同、被試水平一緻。IRT與MIRT是實現垂直等值的主要方法。

  IRT的垂直等值步驟及其适用方法總結如下。

  (1)模型選擇。研究者通常根據數據類型、參數估計精度和等值誤差選擇合适的IRT模型進行垂直等值。主要有:用于0-1 計分測驗的單參數、兩參數以及三參數邏輯斯蒂克模型,用于多級計分的測驗的等級反應模型(Graded Response Model)、分部評分模型(Partial Credit Model)、拓廣分布評分模型(Generalized Partial Credit Model)、稱名反應模型(Nominal Response Model)和評定量表模型(Rating Scale Model)。

  (2)參數估計與标定。通過标定把不同的能力測驗轉換到同一尺度上, 即構建共同量表。常用的标定方法有同時标定(concurrent calibration)和分别标定(separate calibration)。

  (3)最常用的能力分數估計方法有極大似然估計(maximum likelihood estimates, MLE)、期望後驗估計(expected a posteriori, EAP)和極大後驗估計(maximum a posteriori, MAP)。

  MIRT是在IRT和因素分析的基礎上發展起來的一種測驗理論。兩者方法和步驟類似,但仍存在以下區别:首先,模型選擇方面,IRT适合單維數據,MIRT适合多維數據;其次,标定方法選取方面,數據滿足單維性假設時,同時标定更具優勢,一旦數據無法滿足單維性假設,若采用IRT方法,分别标定優于同時标定,若采用MIRT方法,同時标定則更具優勢;第三, 能力估計方法方面,關于IRT方法的研究較多,MIRT相關的研究較少。

  2.4 非等組錨題設計的IRT等值方法及其應用分析

  本研究在非等組錨測驗設計下,根據前人的模拟與實證研究,針對常用的0-1計分三參數IRT模型,對的同時參數标定(CC)、線性參數轉換(LSC)和固定參數标定(FIPC)這三大類等值方法的優缺點總結歸納如下。

  (1)當錨題數量為中等或較大水平時,群體能力分布沒有差異或差異很小時,CC和LSC的等值效果都很好,測驗工作者可根據實際需要等值到哪個量尺上來選擇不同的方法:當需要等值到基準組被試群體的量尺上時,可選用LSC;當需要等值到基準組和目标組合并後的被試群體的量尺上,應選用CC。

  (2)當錨題數量為中等或較大水平時,若群體能力分布差異較大時,采用CC等值效果更佳,若需轉換到基準測驗量尺上,可先采用CC方法估計出項目參數,再采用矩估計法轉換到基準測驗量尺上。

  (3)當錨題數量為較小水平時,使用LSC中的特征曲線法時等值效果較好。

  (4)當構建大型題庫時,采用FIPC更為靈活、有效、省時。

  (5)樣本量越大,不同等值方法的差異越小,當樣本量較大時(一般為3000左右),不同等值方法的等值精度均較高,且差異很小,測驗工作者可靈活選擇等值方法,若對等值樣本量沒有信心,可參照上述四條選擇合适的等值方法。

  2.53PLM和3PTM對題組測驗的參數等值比較研究

  考慮題組形式在實際考試中的普遍性和意義,本課題基于前人研究以及課題前階段的研究成果,引進基于題組的TRT模型-三參數題組模型(3 Parameters Testlets Model, 3PTM)。該模型由三參數邏輯斯蒂模型(3 Parameters Logistic Mode, 3PLM)加入了與每個題組相關的随機影響參數擴展而來的,考慮了題組測驗中的局部依賴性。對其與3PLM的參數等值效果進行比較,考察3PTM在題組等值中是否具有優越性。

  本研究給出了利用IRT特征曲線法求解等值系數的方法和具體步驟。以等值系數估計值的誤差大小作為衡量标準,以Wilcoxon符号秩檢驗為依據,進行了Monte Carlo模拟實驗。實驗結果表明,對含題組的測驗等值:

  (1)從被試人數、題組相依性程度,猜測度等方面比較3PTM和3PLM用于題組等值的效果,表明考慮了局部相依性的題組模型3PTM絕大部分情況下都比未考慮相依性的局部獨立模型3PLM等值更為精确,絕大部分情況下優勢顯著。

  (2)采用6種不同的等值準則對3PTM對題組測驗的等值進行研究。研究結果表明,等值系數A取值0.5-1.0之間時,SLcrit表現優于其他的等值準則。A取值為1.4-2.0之間時,Hcrit的表現最好,SQRcrit在A取值1.0-1.3之間時表現較好。SREcrit、COScrit、Wcrit占優的情況不多,勝出的範圍也沒有規律。

  3 與等值相關的一些基礎研究

  針對等值誤差的控制、垂直等值和等值的測驗模型等問題,本項目拓展了與等值相關的基礎研究。

  3.1概化理論的方差分量估計

  本部分研究主要探讨改善GT方差分量估計,為各種分數分布形态下測量誤差的估計及誤差來源的控制提供更精确的方法,進而優化等值誤差。結論如下:

  (1)在各種參數分布形态下,采用GIRM模型進行IRT參數估計和GT方差分量估計是可行的;在被試能力參數為标準正态分布時,GIRM模型對被試變異的估計準确性高于傳統GT方法,但在均勻分布和伽馬分布下略差于傳統GT方法;在題目難度參數為偏态分布時,GIRM方法對題目變異估計的準确性不及傳統GT方法。

  (2)Traditional方法估計正态分布和多項分布數據的方差分量相對較好,估計二項分布數據需要校正,Jackknife方法準确地估計了三種分布數據的方差分量,校正的Bootstrap方法和有先驗信息的MCMC方法估計三種分布數據的方差分量結果較好。

  (3)關于方差分量估計及方差分量估計變異量的研究結果,不論何種數據分布形态,Bootstrap方法最優,校正的Bootstrap方法相比未校正的Bootstrap方法估計結果更為可靠。

  3.2縱向數據方法探讨

  “一年多考”所涉及的垂直等值需要考慮數據的縱向性分析以及數據的整合分析。因此通過對縱向數據的方法性研究,開拓垂直等值的統計分析思路。結論如下:

  (1)對于追蹤研究的方法,樣本量、測量次數和持續時間應依據理論模型和研究條件确定,當樣本量受限,可适當增加測量次數和持續時間降低對樣本量的要求,但樣本量和測量次數應滿足理論模型和統計模型的最低要求。對數據缺失問題可從研究設計、研究過程和缺失原因分析等多方面進行準備和幹預。

  (2)加速追蹤設計(ALD)可以在大型發展心理、教育研究的應用,這不但具有ALD的其他優點, 而且可獲得更廣泛的信息, 有利于系統探索複雜心理與行為發展的外在和内在影響因素及作用機制。

  (3)整合數據分析(IDA)有以下優點:1提高了結論的論證強度和效應的評估力度;2增加樣本的異質性,提高研究的外在效度;3構建廣泛的心理評估,提高對心理結構的評估力;4擴展發展研究的時間段。

  3.3混合模型在測驗中的應用

  混合模型與測量模型的結合有助于考慮測驗中的個體質化差異,使模型更貼近實際的測量數據。因此,對混合模型的理論、方法、應用以及與測量模型的結合展開研究。結論如下:

  (1)基于混合因素模型的方法是潛變量空間研究的主導趨勢之一,而模型選擇是判斷潛變量空間的關鍵。模型選擇主要受類别間的重疊程度、外顯變量數目、計分方式和樣本量的影響,對群組分類時應根據群組下的平均樣本量nk選擇模型指标。當nk≥40時,首選AIC3,其次是BIC,且nk最好達到50;當nk≤30時,建議選用BIC*或AIC,但無法保證很高的正确率。此外,在抽樣中,盡可能詳細地記錄各種人口學變量,進而考慮群組水平樣本的差異。

  (2)混合IRT 在IRT 與LCA 的基礎上繼承和發展了新的優勢:不僅可以通過構造分類潛變量發掘潛在的類别,還可以對不同潛在類别之間的連續潛變量進行對比研究。同時,與傳統的DIF 分析方法相比,可以提煉出被試的潛在分類信息, 而不用事先假定被試的分組信息。

  • 成果與影響

  本項目針對高考“一年多考”的分數等值問題展開一系列的理論和方法研究。首先對基于兩大測量理論下的等值方法進行比較,發現IRT等值方法的優點。然後,進一步對IRT的等值思路流程進行梳理,總結出等值的五大步驟,分别是等值設計、數據收集、參數估計、量表化及測驗等值。這五步驟中的每一步所采取的方法都會影響等值的結果,其中,對于高考這種大規模考試形式基本上确定了等值設計與數據收集的方法,而對于參數估計、量表化和測驗等值的方法還有待研究,這也是本項目的研究問題的關鍵。一方面,通過改善測量模型,來提高參數估計的精确度,例如建立适用于題組測驗的題組項目反應模型,适用于垂直等值的多維項目反應模型,适用于能力的混合分布,根據不同的計分方式選擇羅吉斯蒂模型、等級反應模型等。另一方面,對于等值方法的選取,需要根據錨題數量、群體能力分布差異等因素“分而治之”。此外,還基于概化理論這一現代測量理論,對測量誤差的估計以及誤差來源的控制提供更精确的方法,為等值誤差的估計與控制提供研究的理論和技術鋪墊。

  本項目一般結論為:

  第一,對于高考“一年多考”的分數等值,可以基于經典測量理論,通過原始分轉換為标準分并使用線性轉換的方法進行等值,隻要對考試難度做較好的控制,等值的結果可靠,并易于被考生接受。

  第二,采用IRT的理論方法,有效地控制測量誤差,建立題庫,入庫題目可以采用本研究中提供的等值方法,建設基于項目反應理論的項目參數等值的考試題庫,在編制試題時選用等值的題目組成試卷,從而實現報告分數的等值。

  • 改進與完善

  本項目重點對等值中的參數估計與等值方法進行理論與應用研究,對于方法的理論探索,還可在以下方面進行改進完善:

  第一,對不同的等值方法的比較,未來可考慮高考的不同題型(0-1記分,多級記分,混合題型,題組題型)和數據分布所形成的不同IRT模型,并基于不同模型下對等值方法進行更系統的比較。

  第二,對于不同等值方法得到的等值函數,還可以通過求取等值函數均值的方法得到新的等值函數,以減少等值誤差,提高等值穩定性。未來的模拟研究可将求取等值函數均值的方法,與CC、LSC和FIPC進行比較研究。

  第三,對于含題組的測驗等值問題,目前僅考察了被試人數、題組相依性以及猜測度等影響因素,還有其他一些影響因素如題組數量、參數估計誤差等,還可進一步探讨。對于更為複雜的多級評分模型,如何與題組模型相結合,也是值得将來深入研究的問題。

  第四,對于垂直等值,未來研究應納入更多變量條件進行比較研究, 拓展方法的應用。同時,垂直等值現階段多是在直接等值(direct equating)的條件下進行的,對于間接等值(indirect equating)下不同等值方法還有待系統比較。

  此外,雖然多數模拟研究會采用等值結果對真值的修複程度、RMSD等指标,但是等值效果的評價标準問題一直是等值研究中的難點,不同的研究采用的評價标準不完全一緻,确定或者尋找一種評價等值研究的一緻評價标準是值得進一步研究的議題。

  五、成果統計一覽表(請按下頁的“課題組成果統計一覽表”欄目填寫完整)

  課題組成果統計一覽表






 

    本項目完成了由此項目資助的學術論文共28篇,其中《IRT與MIRT在測驗垂直等值中的應用》是唯一指向的成果。在發表的論文中,CSSCI論文21篇(2篇《心理學報》),SCI 1篇;此外,碩士論文1篇。參加國際會議1次,共被收錄論文23篇,同時被SSCI雜志摘要收錄;參加國内學術會議2次,共被收錄論文26篇。在學術期刊發表的論文列表如下,其中由負責人作為第一作者或通訊作者的文章有21篇(粗體标注):

  注:* 為通訊作者。

  1.“成果形式”請注明為論文、編著、專著或教材

  2.“獲獎情況”請填寫政府頒發的、省部級二等獎以上的獎勵,獎項名稱應與課題名稱對應。

  3.“決策采納”指被省部級以上黨政領導機關完整采納吸收,并附有基本材料和相關證明。

http://19vco.dnsnn2m.top| http://4dae4m4.dnsnn2m.top| http://r5idh6.dnsnn2m.top| http://zgez0hg.dnsnn2m.top| http://716liw5w.dnsnn2m.top|