CEFR対照表が大学入試に使用できるかどうか重大な懸念がある-GTEC調査報告を例に-

12月18日の文部科学大臣記者会見の中で、柴山文科相は、

各試験のスコアとCEFRの対応関係について、専門家による検証を実施するとともに文部科学省の作業部会においてそのプロセスが適切であるということ、それぞれの試験内容について英語教育等の専門家等がまた学習指導要領との整合性を確認しております。文部科学省としては大学入学者選抜に用いることは問題ないと考えております。

と発言した。以下の動画の8分50秒あたりから。

柴山文部科学大臣会見(平成30年12月18日):文部科学省 - YouTube

 

 しかしCEFR対照表が客観性や科学的根拠、公正性に欠けるものであるとの指摘は既に多くの面からなされている。

 南風原朝和編『検証 迷走する英語入試』(岩波ブックレット)の中で、京都工繊大の羽藤由美氏が指摘しているように、

  • CEFR対照表として公表された2016年版、2017年版、2018年版を比較すると、CEFRレベルと対照されるスコアが年々変化し続けてきたこと

を見れば、CEFR対照表の根拠そのものが疑われる。

資格・検定試験CEFRとの対照表|資格・検定試験 関連情報[英語4技能試験情報サイト]

で3つの年度の対照表を見ることができる。

 加えて、上記の柴山文科相の言う「対照表作成プロセスの適切性を確認」した「作業部会」とは、

 というものであり、

  • 対照表作成者が適切性を確認する委員として選ばれているという極めて不公正な人選が行われていること

は明白である。議事要旨しか公開されていないようであるから、作業部会でどのような議論がなされたか明確とはいいがたいことも付け加えておかねばらない。

 さらに、『検証 迷走する英語入試』の中で羽藤氏は、

作業過程では、メンバー間で閾値設定についての意見がかなり割れており、万全の対応付けとは言い難い(p.46)

と指摘している。本記事では、この点を、自分の手で

CEESとBenesseが作成した「GTEC スコアと CEFR レベル関連付け調査報告」

https://cees.or.jp/pdf/reports/2017/Standard_Setting_Report.pdf

の中から具体的に記述を拾い出して検証したい。

(i)CEFRレベルの境界となるスコアの定め方が恣意的。
(ii)委員の憶測が答案内容から逸脱。
(iii)境界値を識別できない可能性にすら言及。
(iv)参照答案が極めて少ない事例あり。

という4つの視点から具体例を引いてみる。

これから述べる具体的な事例を見れば、 英語教育の専門家や言語学の専門家でなくても、CEFR対照表が、1点を巡って出願基準や合否に影響が出るような選抜試験のために供することは全く公平でないことは、明らかであると考える。

 文部科学大臣が、この作業部会によるプロセスの確認をもって、CEFR対照表の大学入試に活用することを是認したことは、極めて重大な問題である。

 

GTECにおけるスピーキングとライティングのCEFR閾値スコアの決め方

 スピーキングとライティングの場合、スコアを付された受検者の答案が用意され、それらを具体的に検討しながら、各CEFRレベルの閾値がどのスコアになるかを決定する方法が採られている。ここでCEFRレベルとの対照は、

  • まず、CEFRのcan-doリストやディスクリプタ*1を見ながら各CEFRレベルに属する能力を持つとはどのようなレベルであるかをすり合わせた上で、
  • 例えば「ある得点を取った受検者の50%がB1レベルの域に入っている」かどうかを調べてB1レベルの下限を決定するというものである。

 すり合わせがそもそも困難な作業ではないかとか、「受検者の50%」という判定基準の根拠は何かといった問題点は即座に指摘できるが、これから述べる具体例は、こうした問題点はいったん脇へ置いておいたとしても、到底許容できない代物であろう。

 

(i) CEFRレベルの境界となるスコアの定め方が恣意的

例えば、ライティングのA1/A2閾値の決定では、GTEC,GTEC-CBTで次のような議論が行われている。

f:id:rochejacmonmo:20181219221552j:plain

A2/B1閾値の決定でも同様の議論がある。

f:id:rochejacmonmo:20181219221554j:plain

 これらは、「スコア△の答案とスコア□の答案の間に閾値がありそうだという判断から、△と□の間の値である○と閾値と決定する」という議論になっている。実際にスコア○の答案を確認しているわけではなく、この○という値の設定は恣意的と言わざるを得ない。例えばGTECでスコア168と196の間にあるスコア170やスコア180の人がA1と判定されることになるが、その合理的な根拠はない。このような方法で決定された閾値を出願資格として、あるいは1点を争う二次試験の相対評価に組み込めるとは到底思えない。

 同様の議論はスピーキングでも見ることができる。例えばGTEC-CBTのA2/B1閾値の決定では、本文中に出てくる答案のスコアとして223が挙げられ、紆余曲折の末*2なぜか220を超えていれば確実にB1レベルと判定されている。220の答案についての言及はひとつもない。にも関わらず、閾値は220と決定されている。(調査報告p.28)

 

(ii)委員の憶測が答案内容から逸脱。

  例えば、ライティングのA1/A2閾値を決定する場面で次のような議論が出てくる。

f:id:rochejacmonmo:20181219223447j:plain

A2/B1閾値を決定する場面でも同様の議論がある。

f:id:rochejacmonmo:20181219223452j:plain

 似た議論がスピーキングにもある。今度は逆方向にも使われている。

 例えば、GTEC-CBTのA2/B1閾値決定の場面で、スコア200の答案がB1レベルにあると判定された。しかし、この答案はタスク2の意味を読み違えているために減点されているとわかったため、スコア200の受検者を代表している答案ではないと結論し、閾値を220に決定している。GTEC-CBTのB2/B1閾値でも同じ議論があり、スコア293の受検者がB2レベルに達していると判断したものの、オフトピックによる減点を受けていることを根拠に、スコア300を閾値とするのが妥当だと判断している。

 これらは、スコアが十分でない答案に対して、問題が別の形(例えばもう少し易しいとか慣れているなど)ならもっと得点できたであろうとか、減点理由からみてスコアを代表しているとはみなせないなどと推測しているに過ぎない。ライティングのA1/A2のスコア196やA2/B1のスコア220は不十分なところがあるとされているにも関わらず、上記のような根拠に乏しい判断によって上のレベルだと判定されることになり、スピーキングの200や293は上のレベルに入りうるとされたにも関わらず下のレベルだと判定されてしまった。このような実物答案から憶測を重ねて実際の実力はもう少し上とか下であろうなどという判断を行うことは、大学入試の採点場面では決してあり得ないことである。答案に現れた内容のみが評価の対象になるという入試の原則から明白に逸脱している。

 

(iii)境界値を識別できない可能性にすら言及。

  調査報告の随所にわたって、主として上位レベルの識別や判定が十分に出来ていない可能性について明示的に言及されている。

 例えば、GTEC-CBTのライティングでは、25分250語のライティング問題では、B1/B2の識別が難しいことが述べられている。

f:id:rochejacmonmo:20181219230326j:plain

 スピーキングでも、例えばGTEC-CBTのA2/B1閾値の議論の中で、「一人の解答音声を数種類聴聞くと、同じ受検者間でもタスクによって出来具合が異なることが判定を難しくさせた」(p.28)という指摘がある。

 また、GTECのB2/B1閾値の決定では、スコア320でもB1に達していないという指摘がなされたにも関わらず、スコア320がGTECの上限であり、上級者はすべて320に集約されるから、320ならB1と決定してしまっている。「日本人の特徴として、概念化や言語化が得意でないということもあり、同様のタスクを他国の受検者が受検した場合は、もう少しアウトプット量が増えるのではないかという予測も含めての判断であった。」(p.30)という意味不明の記述とともに。

 さらにGTEC-CBTのC1/B2閾値も、そもそも「テスト項目の中にC1レベルを測る問題が用意されていない」(p.32)と述べているにも関わらず、結局満点のスコア350はC1と決定してしまっている。

 このように適切に測定できる問題が用意されていない可能性がある中で、明らかに強引な手法で閾値が設定されている。CEFRレベルがより上位になることで二次得点へより多くの得点が加算される試験制度は、まったく根拠を持たないことになる危険な制度であると言わざるを得ない。

 しかも付言すると、CEFR対照表におけるGTEC-CBTのスコアは、2016年度は満点1400のみC1であったものが、2017年には1400-1370となる。このスコア1370は、リーディング330、リスニング340、ライティングとスピーキングはいずれも350というスコアの合計値である。それが、2018年には1400-1350とさらに下限が低下してしまった。これでは、ライティングやスピーキングにおける、ただでさえ根拠に乏しい「満点ならC1」という判定さえ、さらに引き下げられて、満点でなくともスコアによってはC1評価が付く可能性が出てきてしまう。

 

(iv)参照答案が極めて少ない事例あり。

  GTECのスピーキングとライティングの閾値決定の議論を見ていると、当然のごとく次のような疑問から逃れられなくなる。すなわち、そもそもこの調査で、一体何枚の答案が実際に検証に利用されたのかという点である。

  例えば、ライティングで、満点のスコア350ならC1であるとの判定に用いられた答案は、わずか2枚であることが述べられている。しかもそのうち一つはC1に達しないとされている。

f:id:rochejacmonmo:20181219233225j:plain

  スピーキングの方では、特定のスコアの答案の詳細が述べられている箇所が複数ある。いくつかの例があるが、例えば、A2/A1閾値設定の場面で、特定のスコアの答案が問題のどのパートにどのように答えているかを述べている場面がある。

f:id:rochejacmonmo:20181219234108j:plainf:id:rochejacmonmo:20181219234117j:plain

これらの例では、例えばスコア90の答案が複数あって、それらの傾向を述べているというよりは、スコア90の特定の答案1つについて、その状況を述べているように見える。

 このような記述は、閾値を判定するために準備されている答案の枚数が非常に少ないのではないかという疑いを抱かせる。もともと調査では、あるスコアの受検者の50%がそのレベルに入っているかどうかを基準としてCEFRレベルの閾値を定めるとしていた。もしそうだとするならば、上記で設定した閾値が、この「50%」の条件を満たしているかどうか、一定の根拠をもって示さなければならず、そのためには、十分な量の答案を検討しなければならないはずである。複数日にわたるワークショップとされているが、実際に作業にあたったのは(大学院生2名を含む)6名であり、しかも4技能すべてを調査している。本当に多くの枚数の答案を検討したのかどうか疑問である。この点でも、CEFR対照表に示された閾値となるスコアの信頼性は危ういものと言わざるを得ない。

*1:「私は~できる」といった形でCEFRの各レベル・技能別に行うことができる言語によるコミュニケーション活動を記述したもの。

*2:223はB1レベルに達しているとある。198はB1に達せず、200の答案は解答の個別事情を考慮するとスコア200を代表していないと判断された。