2019-09-16

大学入学共通テストの記述式問題に関する問題点の一覧を作りました。

f:id:rochejacmonmo:20190916054130j:plain

2019-08-19

共通テスト第2回試行調査　国語第2問は不適切な出題を含んでいる

新井紀子氏が、朝日新聞の天声人語や論理国語を批判する人たちを念頭に、次のように述べている。新共通テスト第2回試行調査の第2問で扱われた著作権法とその解説に関わる問題を、「国語として妥当」と評価し、この問題を取り上げないことは「やり方が汚い」と述べている*1。

こういう時に、本当に「やり方が汚い」と思うのは、論理国語反対主義者が執拗に第一回目の試行調査の「駐車場の契約」の話だけを繰り返し持ち出すこと。第2回目調査のこの問題は国語として妥当なので、都合が悪く「ないことにしたい」のだろう。
— 新井紀子/ Noriko Arai (@noricoco) August 17, 2019

しかし、第2回試行調査の第2問は、少なくとも試験問題としては極めて不適切な内容を含んでおり、到底妥当ではないと考える。本記事では3点指摘する。

問二の正答とされる選択肢が、正答としての許容範囲を逸脱している。
問六の正答の根拠が本文や条文に記載されていない。
事実上条文はまともに読まなくてよいという「隠れたカリキュラム」を助長している。

私個人は論理国語という科目に対する様々な懸念を持っている*2。しかし、論理国語なる科目を推進したいと考えている新井氏のような人こそ、実はこの第2問は問題として不適切であると述べるべきなのではないかと考えている。以下、そのことを説明したい。

新共通テスト国語第2問

問題はこちらから見ることができる。　全文を画像で引用しておく。

f:id:rochejacmonmo:20190819003426j:plain

f:id:rochejacmonmo:20190819003432j:plain

f:id:rochejacmonmo:20190819003440j:plain

f:id:rochejacmonmo:20190819003445j:plain

f:id:rochejacmonmo:20190819003451j:plain

f:id:rochejacmonmo:20190819003500j:plain

f:id:rochejacmonmo:20190819003508j:plain

問二の正答とされる選択肢が、正答としての許容範囲を逸脱している。

問二は、「記録メディアから剥がされた記号列」について、「考えられる例として最も適当なもの」を選ぶ問題である。選択肢は

実演、レコード、放送及び有線放送に関するすべての文化的所産。
小説家が執筆した手書き原稿を活字で印刷した文芸雑誌。
画家が制作した、消失したり散逸したりしていない美術品。
作曲家が音楽作品を通じて創作的に表現した思想や感情。
著作権法ではコントロールできないオリジナルな舞踊や歌唱。

の5つである。

　文章中にあるように、著作権法のコントロールする対象は、原作品が載せられた実体＝記録メディア（オリジナル）ではなく、その中に存在するエッセンスとして「記録メディアから剥がされた記号列」である。著作権法は、「記号列としての著作物」という概念を通じて、複製物などの物理的な実体に対してコントロールを及ぼす。この観点から設問を考えるとき、「記号列」の具体例として、実体にあたる選択肢2や選択肢3は外れる。1はやや紛らわしくも見えるが、文化的所産はやはり実体の側にあると考えるべきであろう。そもそも著作権法が対象としているものを考えているのだから、「著作権法でコントロールできない」とある選択肢5も外れる。従って正答となるべき選択肢は4以外にない。

　しかし、著作権法第二条の一は

著作物　思想又は感情を創作的に表現したものであって、文芸、学術、美術又は音楽の範囲に属するものをいう。

と述べているのに対し、選択肢4は

作曲家が音楽作品を通じて創作的に表現した思想や感情。

となっている。「思想又は感情を創作的に表現したもの」と「創作的に表現した思想や感情」とが（正答として許容されうる程度の）ほぼ同じ意味であると解釈することの妥当性が問題になる。現実の著作権法の解釈においても、ごく一般的な常識的な理解からいっても、「表現したもの」と「思想や感情」は分けて考える。作曲家がある作品をどのような動機や思想や感情から制作したのかということではなく、出来上がった音符の列としての作品（記録メディアによらない記号列）が著作権法の保護の対象になると考える。

　文章の第13段落には、「表現/内容の二分法」についての記述があり、「表現の持つ価値の程度によって、その記号列が著作物であるのか否かを判断する」とあり、著作権法の保護する対象は、内容ではなく表現であると述べられている。作者の思想や感情そのものは「内容」に属するものであり、その「表現」を抽象的な概念として取り出して保護することで、どのような記録メディアに載せられているかに依らない保護を与えていると読むべきであるように見える。

　もし今回の文章がそこを分けて考えず、「記号列」の中に「思想や感情」を含めるとするのなら、そう読み取れる根拠が必要になる。しかしそのような箇所を文章中から拾うことはできないように思われる。後の論点ともつながるが、「思想又は感情を創作的に表現したもの」を「創作的に表現した思想や感情」と読み替えることを許容しているのは、文章の筆者である名和小太郎氏ではなく、出題者の方ではなかろうか。だとすれば、解答を強要される受験者は、出題者の雑な理解を受け入れて選択肢を選ばなければならない状況に置かれていることになる。

　念のため注意しておきたいことは、本問が実際の試験で出題され、それを目の前にして解答しなければならない受験者の立場に立てば、たとえ選択肢が明らかに正答とするべき基準から逸脱しているように見えても、正答と最も近いと思われるものを選択するしかない。「最も適当なもの」を選ぶのであるから、正答との相対的な距離だけを測ればよいとする議論もありうる。この問題のように出題者の用意した選択肢が正答としうる範囲からみるとかなり大きく外れている可能性もある。そういうことも想定し、相対的に最もまともなものを選ぶように指導しなければならない場合もあるだろう*3。しかし、特に試験問題としての妥当性の観点から言えば、私は、仮に他の選択肢が正答から明らかに外れており、該当する選択肢を選ぶしかないということを認めたとしても、なおその正答との絶対的な距離が開きすぎているのであれば、その問題は事実上の出題ミスであると言わざるを得ないと思う。本問は事実上の出題ミスであるというのが私の考えだ。

問六の明示的な根拠が条文にも本文にも見当たらない

問六は、市民楽団が市民ホールで行う演奏会について、「権利者の了解を得ずに著作物を利用できる」著作権の例外規定の条件として「当てはまるもの」を3つ選ぶ問題である。

原曲にアレンジを加えたパロディとして演奏すること
楽団の営利を目的としていない演奏会であること
誰でも容易に演奏することができる曲を用いること
観客から一切の料金を徴収しないこと
文化の発展を目的とした演奏会であること
演奏を行う楽団に報酬が支払われないこと

パロディ演奏であれ、容易に演奏できるものであれ、目的が文化の発展であれ、著作物を演奏するなら著作権法の保護下にあり、権利者の了解が必要なのだろう。条文を読まなくても、選択肢2、選択肢4、選択肢6が該当するように見える。著作権法の条文第三十八条に

営利を目的とせず、かつ、聴衆又は観衆から料金（いずれの名義をもってするかを問わず、著作物の提供又は提示につき受ける対価をいう。以下この条において同じ。）を受けない場合には、公けに上演し、演奏し、又は口述することができる。ただし、当該上演、演奏、上映又は口述について実演家又は口述を行う者に対し報酬が支払われる場合は、この限りでない。

とあるので、これが根拠ということになっているのだろう。しかし、「公けに上演し、演奏し、又は口述することができる」という部分が、「権利者の了解」を得なくてもよいのかどうかは、条文上も文章中でも明示的には触れられていない。実際、文章の第15段落以降でで触れられているのは「利用/使用の二分法」であり、利用には著作者の許可が必要だが、使用の場合には不要であると説明されている。しかし例外規定の説明は文章中にはない。うるさいことを言えば、「楽団の営利を目的としていない演奏会」という選択肢2も危ない。楽団ではなく「市民ホールの営利目的」の演奏会になる場合もありうる。第三十八条は、演奏者の営利だけに限定してはいないだろう。出題者はここを「楽団の」と限定してしまっている。また、営利目的でなく、観客から料金を徴収せず、演奏者に報酬も払わない演奏会であっても、不特定多数の人にむけて、例えば市民楽団の演奏会を無料でネット配信してもよいのかという問題もある。問題のポスターにある「例外となるための条件」が「必要条件」に過ぎないと読むべきかどうかも曖昧であろう。

　もちろん、著作権法の規定において、許諾がなくても利用できる場合がありうるということは著作権法に対するごく常識的な範囲のリテラシーであるということは可能である。しかし、それを国語という科目で、受験者の中心をなす高校生に要求してよいかどうかは別の問題である。しかも、本文中に明示的に言及している箇所がないような社会的リテラシーを問う出題は、かなり危うい。出題そのものの是非や出題者側の誤りも起きやすい。

事実上条文はまともに読まなくてよいという「隠れたカリキュラム」を助長している。

国語において契約書や法律の条文を扱うべき、そのためにも「論理国語」という科目が重要であると説く人たち（例えば新井氏）は、契約書や条文を読むことが社会生活にとって重要なものであることが念頭にあるのだろう。

例えば新井氏は次のように述べている。

10．伊藤さんも紅野さんも、あまりに「契約書」を軽んじています。契約書を読めるかどうかで「命をつなげるか」や「自分を守れるか」が直接左右されます。
憲法は当然のこと、必要に応じて生活保護を申請し、AV強要契約を拒否できるか、そのための基礎読解力は、生徒にとってライフラインです。
— 新井紀子/ Noriko Arai (@noricoco) February 1, 2019

しかし、今回の共通テストの第2回試行調査のみならず、第1回試行調査もそうだが、これらの国語問題で出題されている契約書や条文に関する出題は、現実には、上で言及されているような方向性とは逆の「隠れたカリキュラム」を持っている。たとえ試験時間が100分に増えたとしても、記述式＋複数テキストの問題という形式では、多くの受検者にとって時間的な負担はむしろ増すだろう。生徒会規約や著作権法の条文を頭から一つ一つ読んでいくのでは時間が足りない受験者も多いに違いない。そういう傾向が強まると、「規約や条文は最初から読む必要はない。むしろ設問を先に読んで必要なところだけ読めば十分」という方向へ流れがちになる。そうすれば得点でき、そうしなければ得点できない学力層の受検者は決して少なくないというのが現実である。この学力層の受検者に上のような間違った方向へ進ませないように出題者側は出題内容について十分に意を尽くすべきだし、いわんや助長するようなやり方は間違っている。

新共通テスト第2回試行調査第一問問三についてもひとこと

　第一問は、「指さし」に関する3つの文章が与えられ、記述式の設問に答えるものであった。記述式問題の、特に採点の余りの酷さは徹底的に批判されるべき代物であったが、私は、実は問三にも非常に大きな問題が潜んでいると考えている。

　問三は、川添愛氏の文章から、レストランのメニューを例に、「指さされたものが、話して示したいものと同一視できないケース」について、なぜ「同一視できないケース」でも「話し手が示したいもの」を理解できるのか、一定の条件に従って記述するものであった。しかし、そもそも川添氏の文章は、人工知能の意図理解をめぐって書かれた文章であり、問題で参照せよと指示された「文章I」と「文章II」は、いずれも「ヒトの成長段階における指さし行動と言語習得の関わり」について述べられた文章であった。出題者は、

【文章I】と【文章II】に記された「指さし」の特徴から、なぜ「同一視できないケース」でも「話し手が示したいもの」を理解できるのか

と問うている*4。しかし、文章Iや文章IIに書かれていることと、川添氏の文章に書かれていることとは、少なくとも明確に状況が異なっており、それらの間に関係があると主張しているのは、出題者である。文章Iや文章IIには、「同一視できないケース」でも「話し手が示したいもの」を理解できるのかということを根拠づける確証と呼べる記述は何もない。この問三は、3つの文章の筆者たちの議論を飛び越えて、出題者の解釈や読みが、「まことさん」なる架空の人物を通して問われていることになる。正答であることを保証するのは、本文ではなく、出題者がそう言っているということだけだ。これは、本文理解よりも出題者の意図を理解することがあまりにも全面化してしまっており、試験問題としての妥当性を大きく損ねている。

まとめ-論理国語を推進したい人たちこそ共通テストの国語問題はまずいと言うべき

　冒頭のツイートで新井紀子氏は、「論理国語」の導入に反対する人たちが、モデル問題例の「駐輪場の契約」の話ばかりを持ち出すこと*5を批判し、第2回試行調査の国語第二問は「国語として妥当」と評価し、都合が悪く「ないことにしたい」のだろうと底意を推測している。

　しかし、本記事で見てきたように、実際には、第2回試行調査の第二問こそ、出題者のかなり恣意的な読みを受け入れることを事実上強要し、問題文中には明示的な根拠のない内容を問い、しかも、契約書や条文などをまともに読まなくてもよいという「隠れたカリキュラム」を助長している。「論理国語」という科目の可能性を高く評価する人たちこそ、現状の共通テスト（や全国学力調査も含めた）国語問題は、内容的にも試験問題的にも非常にまずいと批判するべきだ*6。「論理国語」を薦めたい人たちこそ、複数テキストの問題を安易に称揚せず、一つの文章における筆者の主張を「正しく」分析することをもっと強く主張するべきだと考える。

*1:以下のツイートには、駐車場の契約の問題が第1回試行調査の問題とあるが、誤り。駐車場の契約の問題は、新共通テスト記述式のモデル問題例である。そして駐車場ではなく駐輪場の契約だ。

*2:論理国語なる科目に期待する人たちはもちろん少なくないのだと思うが、その人たちが科目としての実体をどうとらえ、どのような内容を期待しているのかがはっきりしていないように思う。初等的な論理学を教えることを期待したり、模擬裁判のような試みを支持する人もいる一方で、、SDGsの17の目標の中から「自分事」として捉え行動に移せる課題を選んで課題解決のための手立てを考えさせるというような良く分からない試みを提案する人もいる。現行の現代文Bに比べれば文学作品は明らかに排除されそうだが、評論文の取扱いがどうなるかは不透明である。しかし少なくとも定番とみなされてきた評論のウェイトは低下するであろうし、随筆に近い文章が扱える可能性も大きく減ることは間違いないように見える。論理国語の科目としての実態が見えにくいことにも大きな懸念がある。

*3:また、そもそも私大を中心に、すでに多くの国語問題でも、正答とみなしうる範囲からかなり大きく外れている出題例があるという指摘もあり、私もそのことには同意する。ただし、一つの大学が自らの大学の責任でもって出題委員を選定し、その出題者たちの合意のもとで、その大学を受ける受験生に出題するのと、大学受験を希望する高校生全体を対象とした共通テストとでは意味合いが大きく違ってくる。

*4:実際には。「まことさん」なる素性の分からない人物が、考えをまとめることにしたとあり、「どのようにまとめたと考えられるか」を書く。詳しくは論じないが、少なくとも私個人は、このような出題形式は非常に奇妙なものにうつる。うがった見方だが、出題者がどのような誤読をし、またどのような偏った見方に誘導しようとも、それは「まことさん」なる架空の人物が行っていることであると設定することで、誤読や偏った誘導の責任を「まことさん」に転嫁しているとさえ言いたくなる。

*5:批判の一面として、契約書のことばかりが具体例で取り上げられる状況には問題があるという点には私も同意する。「論理国語」と「文学国語」に関する問題はもっと広い視座で論じられるべきだ。

*6:新井氏は、論理国語反対主義者を「やり方が汚い」とか「ないことにしたい」のだろうなどと批判し、朝日の天声人語は、問題を見ずに「評論」を書いていると批判している。しかし、そんな新井氏こそ、本当に問題を見て検討したのか。もしそうなのだとしたら、「新井氏の考える論理国語」こそ底の浅い危うい代物なのではないかという懸念が生じる。

2019-08-04

令和元年度全国学力調査英語「話すこと」大問2について

　令和元年度の全国学力調査の結果がまとまった。今回初めて導入された英語の問題やその出来具合についていくつかのメディアで報道が出ている。今回は、英語の「話すこと」の大問２に焦点を当てる。資料はこちらにpdfがある。

問題と解答類型

まず問題は次のようなものである。下記の会話文を聞き取って英語で答える形式。

f:id:rochejacmonmo:20190804022359j:plain

報告書に掲載された解答類型とその説明の一部を引用する。

f:id:rochejacmonmo:20190804022520j:plain

f:id:rochejacmonmo:20190804022540j:plain

f:id:rochejacmonmo:20190804022543j:plain

問題提起のツイート

上記の解答類型４の中に、"No, I haven't."具体例が取り上げられていたので、私は次のようなツイートをした。

全国学力調査の英語「話すこと」
Do you have any other questions about them?
という問に
No, I haven’t.
と答えたらダメなの？
もっと端的にNothing.なら×にはできないのでは？ pic.twitter.com/sq6LtlmjQL
— RochejacMonmo (@RochejacMonmo) August 2, 2019

“No, I haven’t.“ という「誤答例」についての上記ツイートに様々な方から様々な角度でコメントを頂いた。ここにすべてを引用することはできないが、感謝したい。“No, I haven’t.“が正答と評価すべきかかそれ自体だけでなく、「話すこと」を問う出題の抱える様々な問題が関連しているように思う。

これは、今後導入されようとしている英語民間試験の大学入試への導入や大学入学共通テストで問われようとしている思考力や表現力、あるいは記述式出題にも実は関係している問題点なのではないかと思うので、以下私なりに整理してみた。

　主要な観点は３つ。

"No, I haven't"そのものについての是非
「２人のやり取りの内容を踏まえて，会話が続いていくように英語で応じてください。」という設問の意図
会話文自体の不自然さ

各項目に、英語民間試験や大学入学共通テストにもつながる論点を【補足】として付けた。なお、以下の議論を組み立てるにあたって参考にさせていただいたツイートは多くあるがすべてのお名前やツイートを一つ一つ引用する形では書いていない。私のアカウントで、参照したツイートはできるだけRTさせていただいたと思うので、ここでは改めて謝辞だけを述べておく。

“No, I haven’t.“そのものについての是非

　イギリス英語では認められる余地も多少ありそうだという観点、一方で（例えば学校英語がベースとしている）文法的にはまずいという観点、仮に文法的にまずくてもある程度通じるであろうことをどう評価するかという観点、そもそも“No, I haven’t.“だけで回答者の意図をはかりきれるかという観点など、多くの論者の間に意見のグラデーションがある。全国学力調査の採点者は、“No, I haven’t.“という回答を見て、こうした意見のグラデーションが生じうることを十分に検討した上で、「解答類型4：やり取りを踏まえた内容を解答していない」に分類し、「やり取りの内容を理解していないか，何を問われているかを理解していないため，適切な英語で応答できていないと考えられる」という評価を付けたのか疑問だ。しかも解答類型４に分類するという時点で、"I have no question."のような解答は想定していない可能性もあり、もしそうだとしたら出題者側の想定があまりに不足していると言わざるを得ない。

【補足】もし、“No, I haven’t.“という回答が非常に稀なものであれば全体としての解答傾向には影響を与えない場合もあり、全国学力調査としては殊更重大視する必要はないという見方もある。しかし、全国学力調査の報告者はあえて誤答の具体例としてこれを挙げている。ということは必ずしも稀ではなかったのか。誤答例がどのような基準で選ばれているかも不明瞭だ。しかもこれは大学入試に利用される英語民間試験の場合には状況を異にする。大学入試に使うのであれば、どんなに稀な回答であってもほかの回答と引き比べて相対評価を付けなければならない。従って、“No, I haven’t.“という回答の妥当性について採点者は向き合う必要がある。例えば今回の学力調査では、”What does she cooking now?”が「解答類型２：やり取りを踏まえた内容を解答しているが，コミュニケーションに支障がない程度の誤りがあるもの」に分類され、正答扱いになっている。（例えばなぜtheyではなくsheなのかは不明瞭。)大学入試に利用する民間試験だったとしたら、“No, I haven’t.“は×だが、”What does she cooking now?”は〇とした根拠を説明できなければならない。

「２人のやり取りの内容を踏まえて，会話が続いていくように英語で応じてください。」という設問の意図

　現実のコミュニケーションの場面では、“Do you have any other questions about them?”と聞かれて、”I have no question.”と応える場合はありうる。実用英語の掛け声のもと現実のコミュニケーションに資することを強調する向きもあり、現実的にありうる答えを誤答としてよいとも一概には言えない。
　しかし、本問では「会話が続いていくように」という指示があるし、コミュニケーションのための英語を教育するという大前提から考えれば、何も質問しない解答を推奨するべきではないという議論は一定の妥当性を持つと思う。ただ、「会話が続くように」という指示が何を意味しているかは必ずしも明瞭とはいいがたい。“Do you have any other questions about them?”に対する応答として意味が通ればよいということは含意している（「私はリンゴが好きだ」と応答しても会話が続いているとは言えない）。しかし、問いに応答してそれにアラン先生が答えるというところまで含めて「会話が続いていく」という指示の中に含まれているとまでは言い切れない。いや、出題者は後者の意味で「会話が続いていくように英語で応じてください」と書いたつもりでも、実際には、前者の意味でも理解しうる余地が残っている点で出題者側の指示が不徹底なのではないか。

　実際には、私は別の見方もありうると考えている。この会話文を聞いて、アラン先生に何か質問するとしたら最も聞きたいと思うことは何であろうか？写真に写っている2人がアラン先生の母と兄（または弟）であることはわかっているし、料理をしていることもわかっているし、なんとなく七面鳥料理のような雰囲気が見て取れる。もはや写真の人物についてよりも、最も質問したいことは、「アラン先生がなぜこの写真を気に入っているのか」ではないのか。だから“Do you have any other questions about them?”については、「ないです。それよりも…」と応じることは可能にさえ見える。現実的なコミュニケーションとしてみれば、この設問自体が非常に不自然にすら見えるわけだ。

【補足】大学入試で利用される英語民間試験においても、「あなたの好きな○○は何か」というような質問に答えるwritingやspeakingの問題が見受けられる。こうした場合でも、「○○は嫌いです」とか「○○には興味がありません」と応じる余地はあり、そのような場合の採点がどうなっているのかはっきりしない。
　一方で、例えば大学入学共通テストの記述式問題のように、短時間で採点しなければならない制約がある場合など、設問の中に解答の範囲を強く制約する文言を入れることで、正答とする答案の幅を狭くコントロールしようとするやり方がある。本問では、アラン先生に対する質問の内容が”about them”と非常に強く限定されたために、本当は一番聞きたいはずの「なぜお気に入りなのか」を質問する余地がなくなってしまった。全国学力調査は、採点時間にも十分余裕があるのだから、あえて解答を強く制約するような条件を付ける必要はないにも関わらずなぜこのような制約を付けようとするのか理解に苦しむ。もちろん共通テストだけではなく、英語民間試験でもこうした不自然な解答の制約を付けた問題が出題される可能性はあり、それは採点の効率化という点では意味を持っていても、学力評価としての適切性の観点からはかなり危ないと言わざるを得ない。

会話文自体の不自然さ

　設問で与えられたアラン先生とユイコの会話にも様々な不自然な点が指摘された。” He can cook very well.”という表現の拙さや” Do you have any other questions...”という問いかけのニュアンスの問題、そしてそもそもユイコの2つ目の質問” What kind of work does your mother do?”の不自然さなどだ。写真に関係することではない「母親の職業」にいきなり質問が飛ぶのは相当不自然だ。
　すでに述べたように、この問いでは、「なぜアラン先生がこの写真をお気に入りなのか？」といった自然な質問が排除されているので、「二人で作っている料理は何か？」のような質問が想定されているのであろう。ユイコにはそれを避けて何か別のことを尋ねさせる必要があったということかもしれない。

【補足】大学入学共通テストでも話題になったように、昨今のこうした調査や試験では、数人の登場人物が会話している状況を踏まえて設問に答えるという形式の問題が多く採用され、しかもそれが実用的なコミュニケーションの称揚と軌を一にしているように見える。しかし、この創作された会話は、解答を一定の幅でコントロールするための非常に雑な組み立てであったり、出来すぎな人同士が不自然な会話をしたり誘導したりすることもある。実用的なコミュニケーションをどう捉え、それに資する問題をどう設計するかということがあまりも検討不足なために、一見実際的な会話のように見えて明らかに創作的なものに堕してしまうことに懸念がある。しかも、そうした出題者の過剰な創作的会話文を元にした設問に答えることが、本当にコミュニケーション能力の向上に資するのかどうかさえはっきりしない。例えば、今回の問題の正答例とされたものを答えられるようになることが、英語を話す能力の向上に資するものなのか、そもそも話す能力を適切に測定できる問題なのかも全く判然としない。

結び

　本問が「話すこと」に関する能力を適切に測定しているのかどうかは判然としない。私は英語教育の専門家ではないので、その点について軽々しく結論めいたことを述べるのは控えたい。ただ、本問は、全国学力調査という採点のためにかけられる十分な時間を取れる調査であるにも関わらず、作問方法は過剰に解答の方向性を制限しようとしているように見える。しかもその作り方がかなり雑だし、出題者が想定される解答例やその評価方法について丁寧に検討したとは思えない文面になっている。作り物めいた会話文が、実用的な英語のコミュニケーション能力（本問の場合は「話す」能力）の評価や育成の方向性として適切なものであるかどうかもはっきりしないまま、こうした形式が氾濫していきそうな気配もある。こうした問題は、根底では、英語民間試験の「Speaking」試験の内容や大学入学共通テストにおける記述式問題、あるいは新学習指導要領といった入試制度や教育制度の見直しとも関係していると考えられる。ぜひ多くの分野の方々にこうした問題を具体的に検討して頂き、様々な意見を共有していければと思う。

2018-12-19

CEFR対照表が大学入試に使用できるかどうか重大な懸念がある-GTEC調査報告を例に-

入試教育英語入試

12月18日の文部科学大臣記者会見の中で、柴山文科相は、

各試験のスコアとCEFRの対応関係について、専門家による検証を実施するとともに文部科学省の作業部会においてそのプロセスが適切であるということ、それぞれの試験内容について英語教育等の専門家等がまた学習指導要領との整合性を確認しております。文部科学省としては大学入学者選抜に用いることは問題ないと考えております。

と発言した。以下の動画の8分50秒あたりから。

柴山文部科学大臣会見(平成30年12月18日)：文部科学省 - YouTube

しかしCEFR対照表が客観性や科学的根拠、公正性に欠けるものであるとの指摘は既に多くの面からなされている。

　南風原朝和編『検証　迷走する英語入試』（岩波ブックレット）の中で、京都工繊大の羽藤由美氏が指摘しているように、

CEFR対照表として公表された2016年版、2017年版、2018年版を比較すると、CEFRレベルと対照されるスコアが年々変化し続けてきたこと

を見れば、CEFR対照表の根拠そのものが疑われる。

資格・検定試験CEFRとの対照表｜資格・検定試験関連情報［英語4技能試験情報サイト］

で3つの年度の対照表を見ることができる。

　加えて、上記の柴山文科相の言う「対照表作成プロセスの適切性を確認」した「作業部会」とは、

【重要】(4)「各試験のスコアとCEFRの対応づけを専門家が実施。文科省の作業部会でそのプロセスが適切であることを確認した」←TEAP(英検)の開発を主導した吉田氏が作業部会長。GTEC(ベネッセ)の対応づけをした根岸氏と投野氏が委員。作業部会に他の研究者は入っていない。(続)
— KIT Speakee Project (@KITspeakee) December 18, 2018

というものであり、

対照表作成者が適切性を確認する委員として選ばれているという極めて不公正な人選が行われていること

は明白である。議事要旨しか公開されていないようであるから、作業部会でどのような議論がなされたか明確とはいいがたいことも付け加えておかねばらない。

　さらに、『検証　迷走する英語入試』の中で羽藤氏は、

作業過程では、メンバー間で閾値設定についての意見がかなり割れており、万全の対応付けとは言い難い（p.46）

と指摘している。本記事では、この点を、自分の手で

CEESとBenesseが作成した「GTEC スコアと CEFR レベル関連付け調査報告」

https://cees.or.jp/pdf/reports/2017/Standard_Setting_Report.pdf

の中から具体的に記述を拾い出して検証したい。

（i）CEFRレベルの境界となるスコアの定め方が恣意的。
（ii）委員の憶測が答案内容から逸脱。
（iii）境界値を識別できない可能性にすら言及。
（iv）参照答案が極めて少ない事例あり。

という4つの視点から具体例を引いてみる。

これから述べる具体的な事例を見れば、英語教育の専門家や言語学の専門家でなくても、CEFR対照表が、1点を巡って出願基準や合否に影響が出るような選抜試験のために供することは全く公平でないことは、明らかであると考える。

　文部科学大臣が、この作業部会によるプロセスの確認をもって、CEFR対照表の大学入試に活用することを是認したことは、極めて重大な問題である。

GTECにおけるスピーキングとライティングのCEFR閾値スコアの決め方

スピーキングとライティングの場合、スコアを付された受検者の答案が用意され、それらを具体的に検討しながら、各CEFRレベルの閾値がどのスコアになるかを決定する方法が採られている。ここでCEFRレベルとの対照は、

まず、CEFRのcan-doリストやディスクリプタ *1を見ながら各CEFRレベルに属する能力を持つとはどのようなレベルであるかをすり合わせた上で、
例えば「ある得点を取った受検者の50％がB1レベルの域に入っている」かどうかを調べてB1レベルの下限を決定するというものである。

すり合わせがそもそも困難な作業ではないかとか、「受検者の50％」という判定基準の根拠は何かといった問題点は即座に指摘できるが、これから述べる具体例は、こうした問題点はいったん脇へ置いておいたとしても、到底許容できない代物であろう。

(i)　CEFRレベルの境界となるスコアの定め方が恣意的

例えば、ライティングのA1/A2閾値の決定では、GTEC,GTEC-CBTで次のような議論が行われている。

f:id:rochejacmonmo:20181219221552j:plain

A2/B1閾値の決定でも同様の議論がある。

f:id:rochejacmonmo:20181219221554j:plain

これらは、「スコア△の答案とスコア□の答案の間に閾値がありそうだという判断から、△と□の間の値である○と閾値と決定する」という議論になっている。実際にスコア○の答案を確認しているわけではなく、この○という値の設定は恣意的と言わざるを得ない。例えばGTECでスコア168と196の間にあるスコア170やスコア180の人がA1と判定されることになるが、その合理的な根拠はない。このような方法で決定された閾値を出願資格として、あるいは1点を争う二次試験の相対評価に組み込めるとは到底思えない。

　同様の議論はスピーキングでも見ることができる。例えばGTEC-CBTのA2/B1閾値の決定では、本文中に出てくる答案のスコアとして223が挙げられ、紆余曲折の末*2なぜか220を超えていれば確実にB1レベルと判定されている。220の答案についての言及はひとつもない。にも関わらず、閾値は220と決定されている。(調査報告p.28)

（ii）委員の憶測が答案内容から逸脱。

　例えば、ライティングのA1/A2閾値を決定する場面で次のような議論が出てくる。

f:id:rochejacmonmo:20181219223447j:plain

A2/B1閾値を決定する場面でも同様の議論がある。

f:id:rochejacmonmo:20181219223452j:plain

　似た議論がスピーキングにもある。今度は逆方向にも使われている。

　例えば、GTEC-CBTのA2/B1閾値決定の場面で、スコア200の答案がB1レベルにあると判定された。しかし、この答案はタスク2の意味を読み違えているために減点されているとわかったため、スコア200の受検者を代表している答案ではないと結論し、閾値を220に決定している。GTEC-CBTのB2/B1閾値でも同じ議論があり、スコア293の受検者がB2レベルに達していると判断したものの、オフトピックによる減点を受けていることを根拠に、スコア300を閾値とするのが妥当だと判断している。

　これらは、スコアが十分でない答案に対して、問題が別の形（例えばもう少し易しいとか慣れているなど）ならもっと得点できたであろうとか、減点理由からみてスコアを代表しているとはみなせないなどと推測しているに過ぎない。ライティングのA1/A2のスコア196やA2/B1のスコア220は不十分なところがあるとされているにも関わらず、上記のような根拠に乏しい判断によって上のレベルだと判定されることになり、スピーキングの200や293は上のレベルに入りうるとされたにも関わらず下のレベルだと判定されてしまった。このような実物答案から憶測を重ねて実際の実力はもう少し上とか下であろうなどという判断を行うことは、大学入試の採点場面では決してあり得ないことである。答案に現れた内容のみが評価の対象になるという入試の原則から明白に逸脱している。

（iii）境界値を識別できない可能性にすら言及。

　調査報告の随所にわたって、主として上位レベルの識別や判定が十分に出来ていない可能性について明示的に言及されている。

　例えば、GTEC-CBTのライティングでは、25分250語のライティング問題では、B1/B2の識別が難しいことが述べられている。

f:id:rochejacmonmo:20181219230326j:plain

　スピーキングでも、例えばGTEC-CBTのA2/B1閾値の議論の中で、「一人の解答音声を数種類聴聞くと、同じ受検者間でもタスクによって出来具合が異なることが判定を難しくさせた」(p.28)という指摘がある。

　また、GTECのB2/B1閾値の決定では、スコア320でもB1に達していないという指摘がなされたにも関わらず、スコア320がGTECの上限であり、上級者はすべて320に集約されるから、320ならB1と決定してしまっている。「日本人の特徴として、概念化や言語化が得意でないということもあり、同様のタスクを他国の受検者が受検した場合は、もう少しアウトプット量が増えるのではないかという予測も含めての判断であった。」(p.30)という意味不明の記述とともに。

　さらにGTEC-CBTのC1/B2閾値も、そもそも「テスト項目の中にC1レベルを測る問題が用意されていない」(p.32)と述べているにも関わらず、結局満点のスコア350はC1と決定してしまっている。

　このように適切に測定できる問題が用意されていない可能性がある中で、明らかに強引な手法で閾値が設定されている。CEFRレベルがより上位になることで二次得点へより多くの得点が加算される試験制度は、まったく根拠を持たないことになる危険な制度であると言わざるを得ない。

　しかも付言すると、CEFR対照表におけるGTEC-CBTのスコアは、2016年度は満点1400のみC1であったものが、2017年には1400-1370となる。このスコア1370は、リーディング330、リスニング340、ライティングとスピーキングはいずれも350というスコアの合計値である。それが、2018年には1400-1350とさらに下限が低下してしまった。これでは、ライティングやスピーキングにおける、ただでさえ根拠に乏しい「満点ならC1」という判定さえ、さらに引き下げられて、満点でなくともスコアによってはC1評価が付く可能性が出てきてしまう。

（iv）参照答案が極めて少ない事例あり。

　GTECのスピーキングとライティングの閾値決定の議論を見ていると、当然のごとく次のような疑問から逃れられなくなる。すなわち、そもそもこの調査で、一体何枚の答案が実際に検証に利用されたのかという点である。

　例えば、ライティングで、満点のスコア350ならC1であるとの判定に用いられた答案は、わずか2枚であることが述べられている。しかもそのうち一つはC1に達しないとされている。

f:id:rochejacmonmo:20181219233225j:plain

　スピーキングの方では、特定のスコアの答案の詳細が述べられている箇所が複数ある。いくつかの例があるが、例えば、A2/A1閾値設定の場面で、特定のスコアの答案が問題のどのパートにどのように答えているかを述べている場面がある。

f:id:rochejacmonmo:20181219234108j:plain

これらの例では、例えばスコア90の答案が複数あって、それらの傾向を述べているというよりは、スコア90の特定の答案1つについて、その状況を述べているように見える。

　このような記述は、閾値を判定するために準備されている答案の枚数が非常に少ないのではないかという疑いを抱かせる。もともと調査では、あるスコアの受検者の50％がそのレベルに入っているかどうかを基準としてCEFRレベルの閾値を定めるとしていた。もしそうだとするならば、上記で設定した閾値が、この「50％」の条件を満たしているかどうか、一定の根拠をもって示さなければならず、そのためには、十分な量の答案を検討しなければならないはずである。複数日にわたるワークショップとされているが、実際に作業にあたったのは（大学院生2名を含む）6名であり、しかも4技能すべてを調査している。本当に多くの枚数の答案を検討したのかどうか疑問である。この点でも、CEFR対照表に示された閾値となるスコアの信頼性は危ういものと言わざるを得ない。

*1:「私は～できる」といった形でCEFRの各レベル・技能別に行うことができる言語によるコミュニケーション活動を記述したもの。

*2:223はB1レベルに達しているとある。198はB1に達せず、200の答案は解答の個別事情を考慮するとスコア200を代表していないと判断された。

2018-10-14

新共通テストにおいて記述式問題を導入することの9の問題点（11/23日追記版）

大学入試センター試験に代わって導入されることが予定されている新共通テストでは、数学と国語の問題の一部に記述式問題が導入される方向である。筆者は、この記述式問題については多くの問題点があることを、例えば試行調査の問題と採点を例に指摘してきた。

2回目の試行調査が2018年11月に予定されているが、ここで改めて記述式問題を新共通テストに導入することの問題点を整理しておきたい。以下の8点である。

成績提供までの期間が極端に短い。
採点が適正に行われない危険がある。
学力の適正な評価に資する問題でなくなる危険がある。
受験生を十分に識別できない懸念がある。
採点ミスの影響が甚大であり、対応や責任体制が不十分。
受験者による自己採点が困難であり、受験者の志望校決定に混乱を生じる懸念がある。
採点作業が民間団体に委ねられるのは公正な実施を妨げる恐れがある。
経済的格差への影響や障害を持つ学生への配慮についての懸念がある。
問題の内容や質そのものに関する懸念がある。

（本稿を書くにあたって、ツイッター上で仄聞した様々な情報源を参考にさせて頂いた。そのすべてをあげることはできないが、ここで御礼申し上げる。また、国語に関しては、「国語教育の危機─大学入学共通テストと新学習指導要領」（紅野謙介ちくま新書 2018年）も参考にした。紅野氏の主張すべてに賛同しているわけではないが、様々な観点で啓発される点が多かった。また、福嶋隆史氏による2つの論説「正解率0.7％の悪問！大学入学共通テスト試行調査（プレテスト）国語記述問題を斬る！」と「大学入学共通テスト（センター試験新テスト）モデル問題例「12の不備」を追及する」も大変参考になった。また、清史弘氏によるツイッターでの議論を参考にして自己採点の困難性を追記した。なお、本記事は、必要に応じて後日修正を行う可能性がある。）

以下、上記の9点についてさらに詳しく説明する。

1. 成績提供までの期間が極端に短い。

新共通テストが行われる1月半ばから国公立2次試験までは40日程度しかない。しかも、2月初旬から始まる私立大学入試のセンター利用型や国公立二次試験のための第一段階選抜への利用などの用途もあり、現実的に採点業務と集計に要する期間は極端に短く2週間程度にもなりうる。
例えば記述式問題のみ採点を切り離して国公立前期試験まで採点期間を延長してしまうと、私大センター利用型のみを使う受験生にとっては、記述式問題を捨ててマーク式問題のみに傾注した方が有利になるという好ましくないメッセージを与えてしまう懸念もある。
採点と集計にかけられる期間が短いことが、以下で述べる多くの点、特に採点の適正性や問題の質等を強く制約している。

2. 採点が適正に行われない危険がある。

採点枚数が50万~60万枚と極めて膨大であり、採点者の人数も相当な規模になる。しかし、学力調査の場合と異なり、1月~2月は大学等でも定期試験などがあるため、質以前にそもそも採点者を確保できるかどうかさえ危うい。
採点期間が非常に短いため、採点基準等の変更が頻繁に起こることが予想される。そうした変更や修正に対応できるためには、答案の内容が採点基準と合致しているかどうかや検討すべき答案であるかどうかを、単なる機械的なマッチングだけではなく、自ら自律的に判定できる採点者であることが必要だが、大学受験レベルの問題を自律的に判断できる質の高い採点者は元々確保しにくい恐れがある。機械的なマッチングでしか判定できない採点者が多くいれば、検収で発見されるミスや採点のブレが増大し、採点作業全体を困難にしかねない。
国語は各設問を段階評価し、数学は素点で提供する予定だが、採点基準はかなり複雑になるため、多数の採点者間で「同一内容の答案に同一の得点を与える」という最低限の公平性を維持することは極めて難しい。
学力テストにならって抽出調査で検査を行うことになると予想されるが、選抜試験ではミスは1枚も許されない。学力テストと同様の抽出調査ではミスが残存する懸念が必ず残る。しかも、期間の短さ故に検査回数が少なくなりさらに不十分となる危険がある。

3. 学力の適正な評価に資する問題でなくなる危険がある。

採点作業への負担を軽くすることを目的として、解答の方向性の過剰な誘導・限定や形式的な型通りに記述すること、極めて杓子定規な採点基準の運用などが行われることにより、受験者の理解の度合いを反映しない危険が伴う。
問題の実質的内容に比べて問題文が長く無駄な記述が多いなどの理由で、本来測定するべき学力を十分に把握しきれない可能性がある。
問題文の素材によっては、受験生の個人的な経験や科目選択・志望・社会的関心の差が強く影響しかねない出題や何を解答すれば良いかが判然としない出題によって、学力以外の面で答案に差が付く危険が伴う。
出題数が少なく、採点作業の効率化の観点からも、出題形式がパターン化して、安易な受験対策を招く恐れがある。

4. 受験生を十分に識別できない懸念がある。

採点期間を短くするために十分な量の出題を行えなくなるため、識別力の少ない出題になる危険が伴う。国語では各問の段階評価をさらに重みづけして受験者の答案のスコアを確定するため識別力はさらに落ちる危険がある。
学力分布が極めて広範な50万~60万人規模の高校生に、記述式試験を課した経験は非常に乏しく、十分にノウハウが蓄積していないために、問題の難易度が偏り識別力を損なう恐れがある。

5. 採点ミスの影響が甚大であり、対応や責任体制が不十分。

採点等にミスが発覚した場合や不正行為が後日明らかになった場合の責任体制が必ずしも明確でない。特に、各大学の二次試験とは異なり、採点ミスは当該学生の出願したすべての大学に及ぶことになり、影響範囲が大きく、混乱を引き起こしかねない。

6.受験者による自己採点が困難であり、受験者の志望校決定に混乱を生じる懸念がある。

数学においても論証や根拠記述のどの部分が本質的なのかが明らかとは言えない説明や同値な式についてどこまで正答とみなすのかが明確でない正答例の記述がみられる。国語においては、正答例として許容される記述の幅が広く、ひとつひとつの表現について自分の回答と照らし合わせる作業が困難である。
試行調査の過程で提供された自己採点確認票に記載された正答例だけでは、自分の回答がどのように採点されるのか判断することが困難である。特に、学力が十分ではない受験者は自分の答案の内容と示された正答例を適切に比較できない可能性が懸念される。
共通テストの得点は私大センター利用や国公立二次試験の第一段階選抜や二次試験の得点として利用されるため、受験者の志望校決定に大きく影響を与える。自己採点が十分に行えない場合には受験者に大きな混乱を来す危惧がある。

7. 採点作業が民間団体に委ねられるのは公正公平な実施を妨げる恐れがある。

採点作業が民間団体に委ねられた場合、現場で現実に行われたより細かな採点基準が、特定の民間団体の商品の購入者にだけ流出する可能性がある。
採点の結果得られる全体の得点分布が、採点を請け負った民間団体における様々な受験指導に利用される恐れがある。
出題と採点をその程度分離するかが不透明。採点団体に対して試験実施後に初めて問題と採点基準を提供する形の場合、採点者の研修等で実際に採点に入れる時期が遅くなる懸念がある。しかし、逆に採点団体に事前に試験問題を提示しておくことは、試験問題そのものではなくとも類題等の流出を招く危険がある。
出題者自身が実質的な採点作業に参加せず業者からの問い合わせに応じる程度では、出題に関するノウハウが十分に得られず翌年以降の出題が改善しにくくなる。後から解答類型ごとの反応率を見る程度では、出題の質は向上しない懸念がある。

8. 経済的格差への影響や障害を持つ学生への配慮についての懸念がある。

採点にかかるコストが現行よりも大幅に増えるため、それが受験料に転嫁されて、現状よりも受験料が上がり、経済的な格差の拡大に影響を及ぼす恐れがある。
記述式試験は、マーク式に比べてさらに負担が重いため、障害を持つ学生に対しては代筆回答などの様々な配慮が必要になる可能性があり、十分に対応できるか懸念が残る。

9. 問題の内容や質そのものに関する懸念がある。

証明の一部の式だけを記述させたり、実用的と言いながらそれほど現実的とは思われない文章を読ませたりすること自体、記述式問題としての質が十分ではない懸念がある。例えば国語の問題が小中学生向けの全国学力調査の問題と比べて大学入学者を選抜するという目的に資する内容や質を持っているか。
高校学習指導要領との整合性は十分に図られているか。特に国語において、試行調査等で出題されているような内容と形式の記述式問題を出題することの方向性そのものが妥当なものか十分に検討されているか。

2018-10-13

英語民間試験を「選抜試験としての大学入試」に利用することの12の問題点（暫定版）

高大接続改革に伴う2020年からの入試改革において、民間団体が実施する検定試験を大学入試に組み込むことが検討されている。しかし、この方法には様々な問題点があり、現時点でそれらは全く解決されていないと言って良い。この記事では、ひとまず以下の12個の観点に整理して、問題点を指摘する。

同一の選抜試験における受験生の（英語）得点を、異なる試験のスコアを用いて行うことは公平性を欠いている。
問題作成と採点にかかわる民間団体と受験者の間で、民間団体に利益をもたらす接触が規制されていない状況では、試験の公正な実施を損なう恐れがある。
試験の公正・公平な実施環境が確保されない危険性がある。
採点が適正に行われない危険がある。
地域的・経済的格差を助長する危険性や障碍を持つ学生への配慮が十分でない可能性がある。
受験生の英語力を十分に識別できない危険がある。
学力評価に適さない問題や選抜試験として適切でない出題がある。
解答例の公表や採点ミス、機材故障に対する対応が万全でない。
成績提供システムの準備不足。
受験生に対して過重な負担がかかることへの懸念。
高校生の「英語力向上」に資する方策として適切か。
センター試験を運営するノウハウが喪失する。

（なお、本稿を書くにあたって、『検証迷走する英語入試――スピーキング導入と民間委託 (岩波ブックレット)』（南風原朝和編)や大橋穣二氏作成の＜みんなで使おう＞英語入試関連資料、およびツイッター上で仄聞した様々な情報源を参考にさせて頂いた。そのすべてをあげることはできないが、ここで御礼申し上げる。本来はより詳細に各項目の事例集を作るべきであろうが、今はその余力はない。必要に応じて後日修正を行う可能性がある。）

なお、公平性という観点からまとめた以下の比較記事も参照されたい。

以下、各項目をさらに詳しく説明する。

1. 同一の選抜試験における受験生の（英語）得点を、異なる試験のスコアを用いて行うことは公平性を欠いている。

実施団体の異なる民間試験のスコアを比較するためのCEFR対照表は、作成過程が不明瞭。スコアの境界の確定方法が緩く根拠が弱い。しかも年々変更されているにも関わらず十分な根拠の説明がなく、客観性に乏しい。
同じ実施団体の試験であっても、実施時期や難易度が異なる試験のスコアを項目応答理論等で統計的に標準化したスコアで比較することは、同一の選抜試験の受験生を序列化するという目的に照らして公平と言えるか疑問。

2. 問題作成と採点にかかわる民間団体と受験者の間で、民間団体に利益をもたらす接触が規制されていない状況では、試験の公正な実施を損なう恐れがある。

問題作成団体が自らの試験の公式対策問題集などを販売して利益を得ることができる。
実施団体の商品を購入させる強いインセンティブが生じることで、受験者側に過重な経済的負担を強いたり、逆に自らの実施する試験の優位性を確保するためシェアの低い地域等で無料配布を行うなどの営業活動に利用される懸念がある。
試験の過去問や類題が実施団体の商品の購入者にのみ漏洩することで受験者間に不公平が生じる恐れがある。
地域的事情や経済的事情で作成団体の商品を購入できない受験者との格差拡大を助長しかねない。

3. 試験の公正・公平な実施環境が確保されない危険性がある。

受験者と一切利害関係を持たない、十分な数の監督者を確保できない可能性がある。受験者と接点のある教員が監督者になる懸念さえ残る。
カンニング等の不正行為の防止が不十分となる可能性がある。
実施会場が高校の場合など、問題の事前漏洩防止や受験者の解答の厳格な管理が不十分となる可能性がある。
異なる実施会場で、たとえば静謐な環境の確保などの点で著しい差が生じる危険がある。
統計的な標準化や難易度を調整するために事前にモニターテストを行うことで問題の漏洩を生じる恐れがある。

4. 採点が適正に行われない危険がある。

高校生の多くが新たに受験することになるため、受験者の数が増え、採点枚数が大幅に増えることが予想される。その場合、採点者も多数必要になるため、十分な能力を持つ採点者が確保されず、「同一内容の答案に同一の得点を与える」ことが損なわれる危険性がある。
選抜試験として利用するためには、一枚の採点ミスも許されないが、すべての答案をチェックし直す措置が取りづらく、抽出調査だけで済ませることにより、ミスが残存してしまう危険がある。
内容的な一貫性・論理性をどう評価するかが実施団体によって異なることにより、同程度の学力層の答案に対して異なった評価が行われる危険がある。

5. 地域的・経済的格差を助長する危険性や障碍を持つ学生への配慮が十分でない可能性がある。

民間試験の受験会場が大都市圏にしか置かれない場合、地域によっては受験できる民間試験が限定されることによる地域的な不公平を生じる危険がある。
対策教材の購入や練習と本番を含めた複数回の受験費用や場合によっては会場までの旅費が必要になるなど、経済的な不公平を生じる危険がある。
リーディング・リスニング・ライティングに関して、現行センター試験で行われている様々な障害学生への配慮が、民間試験でより後退する恐れがある。またスピーキングは障害を持つ受験者への配慮が新たに必要となるが十分に行われない可能性がある。

6. 受験生の英語力を十分に識別できない危険がある。

多くの受験生がCEFRレベルでA2に集中し、CEFRレベルだけでは多くの大学で受験生の識別＝差を付けることに失敗する危険がある。その場合、受験生の選抜の役に立たなくなる。
CEFRレベルで差が付かない状況が顕在化すると、受験者にとって例えばA2をB1に上げる学習努力よりも、他の科目の得点を引き上げる学習努力の方が効果が大きいという状況に陥る危険があり、かえって英語学習のモチベーションを失わせる恐れがある。

7. 学力評価に適さない問題や選抜試験として適切でない出題がある。

いくつかの民間試験の問題作成の目的（例えば北米大学への留学の可否の判定等）が高校学習指導要領の内容と十分に一致していない面がある。
民間試験の中には、出題の形式や内容が極端にパターン化されており、何度も練習のために受験することで実際の学力とは異なった評価を得る危険が高いと考えられるものがある。
例えば自由度の高いライティングやスピーキングの問題において、受験生の個人的な経験や科目選択・志望・社会的関心の差が強く影響しかねない出題や何を解答すれば良いかが判然としない出題もある。これらは、英語力以前の部分で解答に差が付くことにより適正な学力評価を損なう危険がある。
一定の「型」に沿ったもののみが評価される傾向が強く、学力評価が歪む危険性がある出題が見られる。

8. 解答例の公表や採点ミス、機材故障に対する対応が万全でない。

大学入試の問題は、近年、解答例の原則公表が義務付けられた。しかし民間試験は、統計的な処理の必要性などの観点から、問題や解答例の公表が不十分なものがあり、二重基準に陥っている。
採点等にミスが発覚した場合や不正行為が後日明らかになった場合の責任体制が必ずしも明確でない。特に、各大学の二次試験とは異なり、採点ミスや不正行為は当該学生の出願したすべての大学に及ぶことになり、影響範囲が大きく、混乱を引き起こしかねない。
機器の故障率を極めて低く抑えているセンター試験とは異なり、大規模な機材故障やデータ欠損が生じる危険性がある。その場合、再試験の仕組みが不十分であったり、日程的に他の試験で代替できない場合など、当該受験者の大学受験そのものに大きく影響する恐れがある。

9. 成績提供システムの準備不足。

民間試験の数が多く、提供される多様なスコアを整理し、大学側が合否判定に活用するために要求するデータを提供できるシステムの開発は十分とは言えない状況にある。また高2段階でのスコアも使用可能となる可能性もあり、システムの開発が間に合わない危険がある。その場合、大学側の合否判定で混乱を生じる危険がある。

10. 受験生に対して過重な負担がかかることへの懸念。

大学によって使用する試験の種類や活用の種類（出願基準か加点方式か等）および全得点への反映割合などが著しく異なることにより、受験者に過重な負担がかかる恐れがある。
移行期間では、民間試験と共通試験という測定する技能に重なりのある2種類の英語試験を受験する必要があり負担感が増す。

11. 高校生の「英語力向上」に資する方策として適切か。

高校の英語教育が民間試験の対策に傾注し、高校の英語学習への悪影響を及ぼすことはないか。学習指導要領と十分に整合的に行うことに困難はないか。
4技能均等を強調することでかえって英語力の育成を阻害する恐れはないか。少なくともそうした観点について十分検討されていない懸念がある。

12. センター英語の作問技術等のノウハウが喪失する。

共通一次・センター試験の英語は、受験生全体の成績概況を的確に把握した科目であり、またそのことを維持するために問題作成に関して並々ならぬ努力を傾け様々なノウハウを蓄積している。この枠組みを廃止すると、出題に関わった人たち知見が分散し、これらの蓄積はすべて喪失してしまう危険がある。

2018-09-23

大学入試における公平性の観点

入試新共通テスト大学入試センター英語入試

センター試験の代替として英語民間試験の導入や新共通テストの国語・数学における記述式問題の導入などが進もうとしている。しかし、私はこれらを50万人が毎年受験する試験科目として導入することには反対である。その端的な理由のひとつが、公平性の問題だ。大学入試における公平性の観点はさまざまなものがある。例えば、

0.同一の試験による評価
1.同内容の答案には同得点
2.受験者の経験や予備知識に過度に依存しない作問
3.試験問題の事前秘匿
4.試験の適正な実施
5.適正な学力評価に資する作問
6.地域格差や経済格差への配慮

という6点を挙げてみる。なぜか地域格差や経済格差に関する6のみに焦点があてられて現行のセンター試験や二次試験が不公平であると主張されることが多い。しかし、英語外部試験や新共通テストにおける記述式問題は、そもそも0～5のような試験としての公平性そのものに重大な疑念がある。全体を簡単にまとめるたものが次の表である。

f:id:rochejacmonmo:20180923192350j:plain

　入試における採点の公平性の中で最も重要なことは、「同じ答案には同得点」という公平性を確保することである。採点基準の客観性はもちろん重要だが、入試は学力調査ではなく選抜試験である以上、同じ内容の答案に対する評価が異なることこそが最も避けなければならない事態だ。英語民間試験でも、新共通テストの記述式問題でも、「1枚の答案を2名の採点者が採点し、一致しなければスーパーバイザーが再度チェック」という体制が採点の公平性を担保するという議論がある。しかし、「同じ答案には同得点」という公平性を担保するためにはこれでは全く不完全。以下説明する。

　記述式答案は多様。事前に採点基準を決めていても、実際の採点では、2つの判断のグレーゾーンに属し評価を確定しにくい答案や、事前に決めた採点基準とは全く違うアプローチの答案が出る。しかも誤り方も多様なため、どのような誤りに対してどう評価を確定するかは実物答案を見て決めざるを得ない。その時点の採点基準で判断が難しい場合、直ちに採点者全員が実物答案を見て合議し、判断を言語化した上で、採点基準に新たな項目を追加したり、必要に応じて部分点の付け方を修正した上で、アップデートされた採点基準を採点者全員が共有し、それまでに採点していた答案も見直す。つまり、記述式問題の採点は、採点基準のアップデートとその共有が不可欠であり、そのためには、全採点者が同時にその場で採点作業をしていることが重要である。

　次に、たとえ採点基準が言語化されていても、採点者が多ければ多いほどその共有が難しくなり、実際の評価に幅が出る危険がある。これを防ぐために、すべての採点基準を正確に理解したチェック者が、同じ内容の答案に同じ得点が与えられているかを全答案にわたってチェックできることが重要である。しかも同じ採点者であっても、全答案のチェックに長い時間が必要だということになると採点がブレる危険性が増す。できるだけ短い時間で、全答案を何度もチェックできることが望ましい。従って、「同じ答案には同得点」という公平性を保つためには、究極的には1名の採点者がすべての答案をできる限り短時間で採点するのが最も望ましい。しかしそうするとその採点者の作成した採点基準は、それに基づく採点は「同じ答案に同得点」を満たし公平ではあっても、基準が採点者の主観に依存しすぎて客観性が損なわれることが懸念される。従って、複数の採点者が採点基準を点検して必要に応じて合議や修正を行うことになる。

　記述式問題の採点を部分点込みで行うには複雑な採点基準が必要になる。
1名でも全答案をチェックできる程度の採点枚数を、採点基準を合議・言語化・共有できる質の揃った少数の採点者が、同じ場所で、短時間で採点業務にあたることが、「同じ答案には同得点」という公平性を確保する上で最も重要。

　英語民間試験や新共通テスト記述式では、

採点枚数が膨大で全チェックが困難。採点時間が長期化。
採点者数が極めて多数で、複雑な採点基準を共有することが困難。
しかも対面式面接の場合は、採点者の採点基準を言語化することが難しい。
また、採点者が海外や学生アルバイトなど多岐に渡ると、グレーゾーンに属する答案の採点基準を言語化したり、アップデートし共有することも困難となる。

その結果として、「同じ答案には同得点」という公平性が損なわれてしまうという危険性や、極めて教条的な採点基準が杓子定規に適用されて、学力の適正な評価が損なわれる危険性が極めて高くなる。

　以下の記事でも指摘したように、数学の記述式試験においてすら、根拠記述の妥当性をどこまで評価するかを正確に共有しなければ、採点にブレが出て「同じ答案に同得点」という公平性が損なわれる可能性がある。それを避けようとすると採点基準があまりに杓子定規に適用されて適正な学力評価が行われない可能性があることが如実に現れている。いわんや国語や英語ではもっと詳細に採点基準を言語化し共有しなければ公平な採点はできないであろう。

数学に限らず、国語の記述式や英語のライティングやスピーキングなどの試験は、上記の観点から言っても、志望学科ごとに採点することで採点する総枚数を抑えられる個別二次試験にこそふさわしい。採点する枚数はどんなに多くてもせいぜい数千枚が上限だろう。数万から数十万枚の答案を採点しなければならない英語民間試験や新共通テストの記述式問題は、公平な採点が行われないリスクが極めて高く、入試制度としては不適切であると言わざるを得ない。

新共通テスト 国語第2問