記述式試験の採点は公平に行われている

記述式試験は公平でないという意見

現行の大学入試センター試験の後継として計画されている新共通テストでは、記述式の問題が出題され、民間業者への委託と大学教員による採点とが導入される方向で検討が進んでいる。

私は、少なくとも現状では、提案されている国語の問題例のような出題を各大学の教員に採点させる方式には反対である。記述式試験は現行通り二次試験で課されるべきであると考える。それらの理由は、最近の動向も含めて別の記事に書きたいと思う。

もちろん、高大接続システム改革会議での議論に見られるように、記述式問題を出題するべきだと考える論者も多いことは事実である。現行の大学入試センター試験のマーク式という方式に問題が多いと考える議論である。例えば、

「そこが聞きたい　新共通テストの狙い　安西祐一郎氏」（毎日新聞）

http://mainichi.jp/articles/20160316/ddm/004/070/005000c

の中で安西祐一郎氏は、

現在のセンター試験のような多肢選択式のテストの場合、問題の解き方は与えられた選択肢の中から正解を一つ見つける、という方法になりがちです。すると、勉強の仕方もそれに合わせた形になってしまいます。例えば、国語の長文読解問題では、全文を読んで理解して解くのではなく、設問に関連した部分だけを読んで選択肢の中から正解を見つけるという傾向が成績上位層ほどある。明らかに誤った選択肢を除いていき、最後に残った選択肢を選ぶ、という解き方も見受けられます。

　これから労働生産性が低迷し、グローバル化が進むなど厳しい時代を生きていくためには、主体性を持って問題に取り組み、文章を書いたり図を描いたりして自ら答えを見つける総合力が求められる。そうした力は「大学の個別入試でみればいい」という指摘もあるが、国の共通テストでやることに意味があります。

と述べており、記述式導入を訴える多くの論者の議論の共通部分はこうした認識だと思われる。この認識そのものが妥当かどうかについてはここでは触れない*1。

ここで取り上げたいのは、記述式という方式に関して、むしろ「公平性が損なわれる」といった反対意見が語られることである。

この記事に、Newspicksというサイトで寄せられたコメントの中に次のようなものがある。

高橋孝輔新潟県アメリカンフットボール協会理事
センター試験の受験者数は56万人。

例えば採点を15営業日で終わらせないといけないとする。
受験者１人の採点時間を10分とする。

さて、何人の採点者が必要でしょうか？

１日8時間として計算すると、777人。

777通りの採点基準。

堀義人グロービス経営大学院　学長グロービス・キャピタル　代表パートナー

記述式の問題点は、採点者の主観に左右されバラツキが生まれ、不公平感があるところだ。一層の事AIに採点させたらよい。そっちの方が、不公平感は無い。グロービスは、入学願書とレポートの一次採点をAIにすることを検討中。

MINOWA MAKOTO 創医塾京都塾長

採点実務で最も重要（受験生にとって）なのは採点基準です。
絶対、必ずばらつきます。全国55万人以上が受験するのです。そして全国の採点者の所属組織もバックグラウンドも千差万別です。
やってやれないことはない、と押し切って思いもよらない不利益を被るのは受験生です。

というようなコメントである。こうした人たちはさしあたって大学教員ではない人たちだが、中には大学教員であっても記述式試験が公平でないと主張する人もいる。

例えば、武蔵大学の教員である千田有紀氏が自身のツイッターで次のように発言している。

新テストの記述式の採点を教員にやらせたいみたいだけど、個性や思考力をみるための記述っていうのは、採点者によってまさに点数が違うんだよね。どうしてそこまで採点者信用できるの？　いろいろな経験からマークシートほど公平で信頼できるテストはないと思うに至る（うちの大学はマーク式です）。
— 千田有紀 (@chitaponta) 2016年10月20日

国際化対応でクウォータ－制を導入して授業期間をさらに延長、入試の多様化を命じられてやっているというのに、1月のどこに新テストの採点期間があるのか、本気でシミュレーションしてみたのか、採点ミスしないと教員信用してるのか、答案の輸送だけでもビクビクなのに本当に大丈夫だと思ってるのか
— 千田有紀 (@chitaponta) 2016年10月20日

この2つのツイートでは「信用」という言葉が異なった意味で使用されている。前者では、採点者によって採点基準が違うがゆえに点数が異なることを信用できないといっており、後者では教員は採点ミスをするから信用できないといっている。前者は次節で述べるように通常ありえず、後者はどのような試験であれあってはならないことで、これも起らないように二重（以上）のチェックがかけられている。千田氏の発言は不当である。

実は上の安西氏のインタビューの中でも、次のような発言がある。（言わずもがなのことだが、安西氏はもともと慶応大学の教員であった人物である。）

−−記述式の採点はどうしますか。

　基本的には人が行います。文科省の試算では、受験者５３万人分の解答用紙を１日８００人で採点した場合、解答文字数が２００〜３００字の長文と８０字以内の短文を組み合わせて計６問出題すると、最長で約２カ月かかる。短文記述式３問だと最長で２５日程度です。コンピューター技術を活用するなど工夫次第で短縮できます。また、出題する時に「２段落構成で」などの条件をつければ、それをクリアしているものと、していないものを最初に選別することもできます。解答用紙を機械で読み込んで電子化し、似ている文章同士を集約して採点すれば、採点のばらつきも減らせるはずです。採点の労力を軽減するのに人工知能を使うことも考えられるでしょう。

　「採点の公平性が保たれるのか」という指摘がありますが、そもそも大学入試を受けるまでの段階で公平なのか考えてほしいと思います。家庭の所得格差が学歴格差の要因になっている。トップレベルの大学の入学者には高所得層の家庭の子どもが多いという状況もあります。そうした中で、新テストの記述式問題の採点部分だけを取り出して公平性を問うのは違和感を覚えます。機会均等の面から入学者選抜や評価に関する公平性をとらえる必要があります。

つまり、安西氏も、記述式の採点の場合、採点がばらつくことがありうると考えていることになる。

現行の大学入試では、国公立の二次試験を中心に多くの国公立・私立の大学、幅広い科目で、記述式試験が実施されている。そうした状況において、上であげたようなコメントは、あたかもそれらの記述式試験の採点が公平性に欠けているかのような印象を与えるもので、非常に危険だ。

記述式試験の採点は受験者間で公平である

同じ答案が採点者によって異なる評価を与えられるのではないか

おそらく上にあげたようなコメントをする人は、次のように考えているのではないか、と思う。

ある試験問題の答案に対し、2人の採点者AとBがチームを組んで採点作業を行うとする。
受験生Sの答案を採点者Aは満点とした。
受験生Tの答案はSと全く同じ記述の答案であるにもかかわらず採点者Bは減点した。

このような状況が起きると受験生SとTの公平性が損なわれているということなる。

採点基準は厳密に統一されている

しかし、上で述べたような受験者間で採点に違いが出るということは通常ありえない。

採点において採点基準を統一する以上、採点者Aと採点者Bの採点が同じ答案で異なることは起こりえないのである。

本ブログでは、前の記事で「PISAの落書き問題」を例に、記述式試験の採点のむずかしさについて論じた。

しかし実際に採点する際に、たとえば「落書きを正当化したかったので。」という回答を誤答とするという採点基準を決めたならば、採点者Aと採点者Bでその判断が食い違うことはありえない*2。受験者間での公平性は担保されている。

ちなみに、A・Bとは違う別の採点者甲と乙のチームがこの問題の採点を担当した場合、A・Bのチームと同じ採点基準になるとは限らない。例えば、A・Bのチームは「落書きを正当化したかったので。」を誤答とする採点基準で採点作業を行ったが、甲・乙のチームでは「落書きを正当化したかったので。」を正答とする採点基準で採点作業を行うことはあり得る。しかし一つの試験問題はひとつのチームが採点作業を行うのだから、同じ答案を書いた受験生の得点が採点者によって異なることはあり得ないのである。

奈良女子大の鴨浩靖氏は次のように言っている。

@atomotheart 入学試験では、公平のため、原則として問題ごとに同じ専攻の受験生の答案を一人で採点します。そのため、同一問題の採点基準が専攻によって異なることもありえますが、それは困りません。専攻ごとに要求される能力は微妙に異なることを鑑みると、むしろ、当然とも言えます。
— Hiroyasu Kamo (@kamo_hiroyasu) 2016年9月25日

この発言は厳密には少々勇み足の感もある。受験者数の多い学部や採点期間が短い大学など、答案を一人で採点できるとは限らない大学もそれなりにあると思われるからだ。また、答案の採点には、多くの場合採点者とチェック者がいるから、最低でも2人以上の眼で見ている。（予備校の模試などでも同様。）採点者とチェック者の間では採点基準を明確に言語化して伝達しあい、同じ採点者でも採点の揺れや見落としが起きないようにチェックしているはずだ。

重要なことは、国公立二次試験で課されている記述式試験の採点者は、各問題ごとに非常に少数で組織されており、採点基準は厳密に統一され、同じ内容の答案に異なる点数が付くという形で受験者間の公平性が損なわれることは通常ありえない、ということだ。

採点基準は多様である

採点基準が偏っているのではないか

記述試験が公平でないという意見のもうひとつの側面は次のようなことではないか、と思う。

採点チームが合議によって決定した採点基準には偏りがあるのではないか。

上で述べたように、ひとつの試験で採点を行うチームは固定されているので、受験者間での不公平は通常生じない。しかし、別のチームが採点を行う場合に採点基準が変わりうるなら、そもそもそうした採点基準そのものが適切なのか、という疑問を持つ人もいるかもしれない。

「PISAの落書き問題」の場合、「落書きを正当化したかったので。」という回答を正答だと考える人から見ると、もしこれを誤答とする採点基準が採用されていたら、その採点基準は偏っていると考えるかもしれない。

また、問題の出し方によっては、上で述べたような合議によっても採点基準の統一化を図ることが難しく、採点者の主観的な判断に左右されやすいものもありうる。例えば、

「安保法制に賛成か、反対かいずれかの立場を選択してあなたの意見を1000字以内で述べよ」

というような非常に雑駁な問題を出題すると、どのような内容の議論が論理的/説得力のある議論かを合議によって統一することはかなり難しいと予想される。反対の立場の採点者が賛成の立場の議論に「説得力」を認め得ない状況もありえる。逆も然り。このような問題だと採点者によって採点にばらつきが出ることを防ぎにくくなる。

試験問題は十分検討されて作成されている

これらの観点は、一般論としては妥当かもしれないが、現実にはそうした懸念は通常無用である。

そもそも、大学入試で出題されている記述式試験においては、採点者の主観的な立場などが入り込む余地がないように事前に検討が行われているということである。国公立二次試験を中心に行われている記述式試験では、そもそも自らのコミットする主張について論じる形式の「小論文試験」は非常に稀である。理系科目では妥当な論述の枠が明確だが、文系科目でも、例えば国語なら課題文の読解が中心であり、英語でも課題文の内容把握や文法的な観点を重視した英作文が大部分である。地歴系の科目でも実際には問題文などで解答すべき内容と方向性を限定することが大半である。記述式試験では、事前に問題が十分に検討され、どのような答案が出てくるかも想定したうえで、正答に幅が出ないように調整されている。

つまり、「PISAの落書き問題」や「安保法制に賛成か、反対かいずれかの立場を選択してあなたの意見を1000字以内で述べよ」などという問題は、大学入試問題としては適切さを欠いた問題であり、現状の大学入試における記述式試験ではこうした問題の出題は通常ありえない。

小論文試験であったとしても、多くの場合は、課題文が掲げられ、その内容を要約したり、課題文の議論に自分の議論を対置させる形式を要求したり、あるいは解答字数を少なくして答案のぶれを抑えるなどの多くの工夫が行われている。

従って、通常の記述式試験において、採点者の主観に基づく採点基準の偏りが顕在化するような事例は起こりえないと考えてよい*3。

現実の入試における採点基準の多様さはもっと複雑である

入試における採点は、確かに一面では受験生の到達度評価という意味を持っているが、現実的には、選抜という側面が重要である*4。満点や零点に成績分布が偏るような問題は、受験生を選抜する＝差をつけるという目的から見ると適切ではない。逆に言えば、受験生の答案全体を見ながら差が付くように採点基準を決めていくことになる。

安田亨氏の著書の中に、東京工業大学のある入試問題では、「nに関する帰納法で証明する」と書いただけで、満点の1/3の加点があった、というエピソードが登場する*5。これを完全に真に受けてよいかどうかは別としても*6、現実の入試の採点基準は、実際に全受験生が書いた答案を見ながら作成される。

上で引用した鴨浩靖氏のツイートにも書かれているように、学部や専攻ごとに採点基準は変わりうる。ある試験問題について、X学部では全体的に出来が良く、別のY学部では全体的に出来が悪いということがありうる。また医学部系と理工系を同一問題で試験した場合には、総じて医学部系の方が出来が良い。こうした事情から、同一問題で試験が行われたとしても、2つのX学部とY学部で見た場合、出来具合を勘案して、X学部ではより厳しい採点基準、Y学部では少し緩い採点基準が採用されることがある。X学部では減点された答案と同じ答案がY学部では満点とされる場合もありえる。入試における採点はそもそも満点が一切の論理的瑕疵のないことと同義であるとは限らないのだ。

もちろん同一問題で実施されている試験で2つの学部を併願できない以上、X学部の受験生全体で受験者間は完全に公平、Y学部の受験生全体で見ても受験者間は完全に公平であることは言うまでもない。

このように、採点基準は、受験生の答案全体を見て、得点分布に差がつくように設定されるものであり、論理性や内容の適切性のみが唯一の基準というわけではない。従って、現実の入試における採点基準は、問題だけを見て唯一こうあるべきなどと論じられるものでは、そもそもないというべきである。受験者間での公平性が担保されていれば、採点基準そのものは学部や専攻ごとに柔軟に変えざるを得ないし、内容的な観点よりもむしろ差をつける観点の方が重要なくらいなのである。

まとめると、合議によって作成された採点基準が偏っているのではないか、との懸念には、

通常採点基準が特定の採点者の主観に影響されるような形になる問題は出題されない。
正答の幅が限定されるように十分検討されているため、偏った内容が正答とされるような採点基準にはなりにくい。
むしろ採点基準は、答案の間の得点差を付け受験生の選抜に資するようにするため、全受験生の出来具合に強く影響され、学部や専攻ごとに変更される。従って、問題だけを見て採点基準が偏っているなどと論じることにほとんど意味はない。

とこたえることになる。

*1:例えば、国語の問題と成績上位者の解き方に関する議論は微妙であると思う。

*2:念のため注意しておくが、私が「落書き問題」を例に指摘したのは、採点基準を合議で決めるプロセスに時間がかかること、そして問題の質が悪いとその作業は非常に負担が大きくモチベーションが維持できないのではないか、という点であって、採点が不公平だということでは決してない。

*3:通常と書いているのは、現実には十分に内容の検討が行われていない出題などもあり得るためである。ここには直接的には書かないが、酷い事例もいくつか見聞きしている。

*4:これは予備校の模試と実際の入試の位置づけが全く違うことも意味している。

*5:『入試数学伝説の良問100』講談社ブルーバックス p.69

*6:実際にどう採点されたかを知る術は私にはないので、安田氏の記述がすべて真実その通りかどうかはもちろんわからない。