読売報道(8月12日付)のデータは酷すぎる。-志願者数は状況をミスリードするだけで正確な理解を生まない

8月12日付けで読売新聞が、「医学部入試、77%で合格率に男女差」という記事を掲載した。

読売記事のいう

読売新聞が医学部をもつ全国81大学に男女別の志願者数や合格者数などを尋ねたところ、回答した76校の77・6%に当たる59校では、今春の一般入試で男子の合格率が女子より高かったことが分かった。

 自体、そもそも男女の合格率がぴたり一致することの方が稀なわけで、こうした本文の書き方は作為的な印象を与えかねない危うさがあると感じられる。

しかし、今回問題なのはそこではない。

本文中にある次の記述は決して見落とせない。

男女ごとの全志願者に対する合格率は、男子8・00%に対し女子6・10%と1・9ポイント低かった。

読売新聞は今月初め、東京女子医科大を除く81校にアンケート方式などで▽選抜方法▽過去5年の一般入試における男女別の志願者数と合格者数▽性別などによる得点操作の有無――を聞いた。

 つまり、読売の調査は、志願者数と受験者数は異なるという点を見落としているという重大な疑いがある。これは次の3点において、実際の合格率と乖離した数値をはじき出す可能性があり、状況を誤解させかねないものである。

  1. 大学の一般入試には前期と後期の2つの試験がある。後期日程の方は、すでに前期日程で合格した者は受験しない。しかし志願の段階では、前期日程と後期日程で受験する大学を同時に申請するため、後期日程は志願者よりも受験者が大きく減少する。従って、後期試験において、合格者数/志願者数を計算しても、実際の合格者数/受験者数とは全く異なる値が出る。
  2. 国公立医学部の中には第一段階選抜(いわゆる足切り)をセンター試験の得点に基づいて行う大学があり、基準点を下回る受験生は2次試験に進めない。このような受験生は志願者数には含まれるが受験者数には含まれない。(センター試験の得点と定員に対する倍率で行われるのが通常で、ここに男女の区別は起こりえない。)
  3. そもそも志願者数と受験者数の差は、第一段階選抜、他日程での合格者、当日欠席者の3種類がある。合格率=合格者数/志願者数を比較するということは、そもそも当日試験を受験していない者まで含めて男女の合格率の一致を基準とするもので全く理解不能である。比較するべき合格率はあくまでも、「試験を実際に受けた人数」=「受験者数」で考えるのが当然ではないのか。

また、ハフポストの記事に対して指摘したのと同様、そもそも前期日程と後期日程は、試験科目や志望動向、定員などが全く異なるため、それらを合算して集計すると状況を見誤らせる危険性が高い

もう一つ。私学の順天堂大医学部がランキングの上位に挙がっているが、この大学だけ「入学者」のみを公表している。異なるデータを同じランキングに並べて比較するのはまずい。しかも私学の場合、合格者と入学者に開きがある場合も多く、他の大学のデータと一律に比較するのは不適切だ。

実例で検証してみる

実際に検証してみよう。

f:id:rochejacmonmo:20180812093005j:plain

読売の報道の上位10位以内のうち、男女別のデータが入試統計として公開されている国公立大学が6校ある。上の赤囲みの6校である。この大学のデータを使って、読売報道にある合格率の計算がどのように行われているのか、数値で検証してみる。

北海道大学医学科の場合

H30年度の入試統計資料は以下のpdfにある。

https://www.hokudai.ac.jp/admission/h30shigansha_goukakusha.pdf

医学科は前期日程のみの募集である。

  • 男性志願者261名、男性合格者87名なので男性「合格率」33.33%
  • 女性志願者80名、女性合格者15名なので女性「合格率」18.75%
  • 女性「合格率」を1とすると男性「合格率」は1.78

つまり読売報道の数値は、合格者/志願者で計算されていると推測される。

f:id:rochejacmonmo:20180812020159j:plain

実際に合格者/受験者で計算すると、女性合格率を1とした場合の男性合格率は1.73となる。

三重大学医学科の場合

H30年度の入試統計資料は以下のpdfにある。これから明らかなように、三重大学では第一次段階選抜が行われたことがわかる。

http://www.mie-u.ac.jp/exam/01ippan30.pdf

医学科は前期日程と後期日程で募集されている。

  • 前期と後期の男性志願者の総数は397名、男性合格者総数70名なので男性「合格率」17.63%
  • 前期と後期の女性志願者の総数は160名、女性合格者総数16名なので女性「合格率」10.00%
  • 女性「合格率」を1とすると男性「合格率」は1.76

三重大学の受験者数で見た合格率は次の通りである。

f:id:rochejacmonmo:20180812094650j:plain

  •  前期の合格率は、女性を1とすると男性1.71
  • 後期の合格率は、女性を1とすると男性0.47

になる。あまり好ましくないが、前期と後期の受験者数と合格者数を合算すると

  • 前期と後期の男性受験者数の総数は275名、男性合格者総数70名なので、男性合格率25.45%
  • 前期と後期の女性受験者数の総数は84名、女性合格者数総数は16名なので、女性合格率は19.05%
  • 女性合格率を1とすると男性合格率は1.33となる*1

 奈良県立医科大医学科の場合

H30年度の入試統計は次のpdfである。

http://www.naramed-u.ac.jp/university/nyushijoho/igakuka/documents/h30igakuippankekka.pdf

医学科は前期日程と後期日程で募集されている。

  • 前期と後期の男性志願者数の総数は838名、男性合格者総数64名なので、男性「合格率」7.64%
  • 前期と後期の女性志願者数の総数は292名、女性合格者数総数は17名なので、女性「合格率」は5.82%
  • 女性「合格率」を1とすると男性合格率は1.31

これは読売報道の値とはうまく合わなかった。とくに女性の数値が読売報道よりも高く出ている。原因はよくわからない。しかし受験者では志願者をベースに計算しているのは間違いがない。そうでなければ合格率が読売報道のように10%を大きく割り込むことはない。実際、受験者数は以下の通りである。

f:id:rochejacmonmo:20180812100237j:plain

  •  前期の合格率は、女性を1とすると男性0.91
  • 後期の合格率は、女性を1とすると男性1.36

あまり好ましくないが、前期と後期の受験者数と合格者数を合算すると

  • 前期と後期の男性受験者数の総数は380名、男性合格者総数64名なので、男性合格率16.84%
  • 前期と後期の女性受験者数の総数は123名、女性合格者数総数は17名なので、女性合格率は13.82%
  • 女性合格率を1とすると男性合格率は1.21となる*2

佐賀大学医学科の場合

佐賀大学のデータについて取り違えをしてしまいました。詳細はこちらにまとめ、お詫びするとともに本記事での記述は撤回させていただきます。

金沢大学医学類の場合

H29年度の入試統計は以下のpdfである。

https://www.kanazawa-u.ac.jp/wp-content/uploads/2018/04/H29nyusi-kettka.pdf

既に計算の例は上で出ているので結論だけ書く。

読売報道は、合格者/志願者の値を計算しているが、合格者/受験者で計算すると、男性合格率は42.29%、女性合格率は22.73%となり、女性を1とすると男性は1.86となる。読売報道よりも少し値が上昇する。

f:id:rochejacmonmo:20180812103152j:plain

山口大学医学科の場合

H29年度の入試統計は以下のpdfである。

http://nyushi.arc.yamaguchi-u.ac.jp/chousa/dat/H29/H29jitusijoukyou.pdf

前期と後期で募集されている。結論だけ書く。

読売報道は、前期と後期の値を合計して合格者/志願者の値を計算している。好ましくないが、前期と後期の値を合計して合格者/受験者で計算すると、男性合格率は15.13%、女性合格率は10.18%となり、女性を1とすると男性は1.48となる。読売報道よりも少し値が下がる。

f:id:rochejacmonmo:20180812103204j:plain

 

 

 

*1:ハフポスト式に男性を1とすれば女性0.75となりハフポスト報道と符合する。

*2:ハフポスト式に男性を1とすれば女性0.82となりハフポスト報道と符合する。

ハフポストの医学部合格率に関する記事も慎重に読むべき

昨日の朝、石渡嶺司氏の記事には問題点があり撤回するべきとの記事を書き、その中で、医学部合格率の男女比について調べたデータを示した。

それと同じ時期に、ハフポストが、次のような記事を掲載した。

この記事では、

ハフポスト日本版は、医学部のある81大学(共学)に、2018年度の医学科一般入試の男女別の受験者数と合格者数を請求、回答のあった76大学のデータを元に、男女別の「合格率」(合格者数/受験者数)を割り出し、さらに男子の合格率を「1」とした場合の女子の合格率を比べた。医学部でも、保健学科や看護学科など、医師養成以外の学科は外している。

 として、H30年度の国公立・私立を含めた76校分のデータを掲載している。全体として、合格率に男女比があることを問題視する記述になっているように見える。

 

 しかし、この記事のデータも注意深く見る必要がある。上の説明では、「一般入試」と書かれているが、全国の国公立医学部医学科では、前期日程のみ試験を行う大学と前期日程・後期日程の両方で試験を行う大学がある。両者の試験は、もちろん問題が違うが、試験科目や配点、募集定員などが異なることが多く、従って受験者層も変化するため、一律に比べるのは危険である。

 

旭川医科大の例

 旭川医科大の一般入試は前期と後期の両方で試験を行う。

 センター試験の配点は、900点だが、二次試験の試験科目は、前期が数学(100)+外国語(100)+集団面接(150)、後期が理科(200)+集団面接(150)と全く異なっている。

 募集定員も前期40名、後期15名と異なる。

H30年の旭川医大の合格率のデータは既に公表されている。

f:id:rochejacmonmo:20180812010236j:plain

ハフポスに従って、男性合格率を1とした女性合格率を計算すると

  • 前期日程における男性の合格率は30/248、女性の合格率13/124。男性の合格率を1とすると女性の合格率は、0.867
  • 後期日程における男性合格率は13/137、女子の合格率は2/46。男性の合格率を1とすると女性の合格率は、0.458

となる。しかし、これはハフポストが掲載しているデータにある旭川医大の合格率の比0.79には一致しない。おそらくハフポストの計算は、前期日程と後期日程の受験者と合格者を合算して計算しているのではないかと思われる。

  • 両者を合算すると男性の合格率43/385、女性の合格率15/170。男性の合格率を1とすると女性の合格率は、0.790

となるからである。しかし、この計算方法は危ういやり方である。

 後期日程の定員が極端に少ないので、たとえば15名の合格者のうち、男性13名女性2名だったものが、男性12名女性3名になったとしてみよう。

  • 後期の男性合格率は12/137、女性の合格率は3/46となり、男性を1とすると0.745

と0.458から大きく上昇する。また、前後期を合算では

  • 男性合格率42/385、女性の合格率は16/170となって、男性を1とすると0.863

とやはり上昇する。つまり、後期の女性合格者の数が1名変わっただけで、この男女比の値は大きく影響を受けることがわかる。

 実際には合格率自体、女性の合格者が1名増えるだけで大きく影響されてしまう。前期でも女性の合格者が1名増えて、男性の合格者が1名減ると

  • 男性合格率29/248、女性合格率14/124で男性を1とすると0.966

となる。これは国公立の医学部医学科全体でみても多かれ少なかれ考えうる状況である。その理由は、受験者に比べて合格者が非常に少ないことにある。

 さらに、旭川医大の場合、2017年は女性の合格率の方が高い。

f:id:rochejacmonmo:20180812002505j:plain

 

 この例からもわかるように

  1. 合格率を前後期で合算した値で集計するのは、形式の異なる試験をまとめて比較していることになるため、実態をミスリードしかねない。
  2. 合格率の値は、女性の合格者の僅かな増減に鋭敏に反応する場合があるため、注意深く取り扱わなければならない。
  3. 合格率の値は単年度で見るのではなく、経年で見る必要がある。男女比が年ごとに変化している場合もあるから2018年のデータだけで即断するのは危険である。

しかしハフポストの記事がそのことに十分注意を払っているとは言えないように思う。

 

細かい疑問(北海道大医学部医学科の例)

 例えば北海道大学医学部医学科は次のようなデータである。

f:id:rochejacmonmo:20180812020159j:plain

 この場合、男性合格率を1とした女性の合格率は0.578になる。(男性合格率87/248、女性合格率15/74)しかしハフポストのデータでは、北大は0.56となっている。微妙にずれている。例えば、志願者で見ると、男性261名、女性80名なので、合格率を志願者ベースで計算する(男性87/261、女性15/80)と、0.563となる。とすると0.56は志願者数で計算しているのだろうか?

 

細かい疑問(佐賀大医学部医学科の例)

 

 佐賀大学のデータについて取り違えをしてしまいました。詳細を以下の記事にまとめ、お詫びするとともに、本記事の記述は撤回させていただきます。

 

 

 

石渡嶺司氏の記事はミスリードだ-入学者の男女比は役に立たない

医学部入学者の男女比を根拠に作為を疑うのは完全な誤り

大学ジャーナリスト石渡嶺司氏の記事

は、大学医学部入学者の男女比を根拠に、大学入試において男女の合格者についての大学側の作為の有無を推定しようとする記事である。石渡氏は

いまどき、受験生の能力差に男女の別はないでしょう。であれば、入学者データで男女比に極端な差がついていれば、これは何らかの作為があった可能性があります。

と述べ、男女の割合に30ポイント以上の開きがあると何らかの作為が働いていると匂わせる記述になっているが、これは明らかに誤りである。

 そもそも入学者の男女比が65%と35%(30ポイント差)の大学があったとして、受験者の男女比が1:1なのか、4:1なのかで、その意味は全く異なってしまうのだから、大学医学部入学者の男女比から作為可能性を示唆する議論は完全に誤っている

 既にそのような指摘を受けているが、石渡氏は記事の末尾に次のような追記を行って、この問題を回避していると考えているようだ。

「入学者数だけで志願者数を示さないのはおかしい」「女子入学者の少ない理工系学部も入試で不正をしている、ということになるので信頼性に乏しい記事としか読めない」などのご指摘を読者からいただきました。

志願者数と合格者数・入学者数の男女別データを見ていく方が不正入試の可能性について切り込めることはご指摘の通りです。

しかし、そもそも志願者数の男女別を明示している医学部が少なく、データ化がなかなかしづらいという事情があります。

それと、女子からの人気が高くはない理工系学部(一部学科・大学を除く)と違い、医学部は女子からの人気も集めています。

それもあって、今回の記事では入学者数のみで構成しました。

ただ、ご指摘いただいたように志願者数も含めてデータ化した方が、男女差を示せることは確かです。文部科学省調査でそのあたりまで踏み込んで明らかになることを期待します。

 「志願者数と合格者数・入学者数の男女別データを見ていく方が不正入試の可能性について切り込める」という書き方は不適切だ。入学者の男女比は無意味である以上、比較級で自分の書いた記事の妥当性を論じることはできない

 後で示すように、「そもそも志願者数の男女別を明示している医学部が少なく、データ化がなかなかしづらいという事情」というのも不適切だ。防衛医大を含む)国公立51校のうち、25校*1が、男女別受験者数と男女別の合格者数を含めた詳細な統計資料を公開している。ここでは次の表を示す。左の赤い大学は石渡氏の調べた2017年度の入学者の男女比に30ポイント以上開きのある大学である。右のオレンジ欄はそれが50ポイント以上あるものを示している。そうした大学の中でも概ね半分弱の大学で詳細な統計資料が公開されている。

f:id:rochejacmonmo:20180812111024j:plain

石渡氏は

元データとしたのは、朝日新聞出版『AERA premium 医者・医学部がわかる2018』『AERA premium 医者・医学部がわかる2017』、メルリックス学院『私立医歯学部受験ガイド』の2015年度版~2018年度版。

とか、

同じ年度の入学者データを大学サイトから探し出しました。

とか

各大学におかれましては、文部科学省だけでなく、広く国民にもわかるよう、入試データの開示をお願いする次第です。

などと述べているが、大学の入試情報のページで、大学入試実施状況と題して公開されている情報があることを全く知らなかったのかもしれない。少なくとも入試状況について少し調べた経験があれば直ちに得られる情報を丁寧に調べず、「志願者数の男女別を明示している医学部が少ない」などと安易な断定を行ってしまっており、この点でも記事は明らかに不適切である。

 

 例えば上の石渡氏が提示したデータにおいて、大阪大学は57.6ポイントの差がある。男女の入学者数はおよそ4:1だということになって、石渡氏の議論では「作為の可能性」を疑うことになる。しかし、大阪大学は、直近3年の男女別の合格者数の詳細を公表しており、一般入試前期(H30・29・28)と一般入試後期(H28)における男女別の合格率は次の表のようになっている。

f:id:rochejacmonmo:20180811042607j:plain

H30は男子の方がわずかによく、H29年度は女子の方が少し良いが、この2年度はほぼ合格率は同じである。H28は男女ともに男性の方が合格率が高くなっている。石渡氏のデータはおそらくH29年度入学者に関するものだと思われるので、上のH29を見て、入学者が概ね4:1だということになるのだろうが、合格率は概ね一致している。このようなデータからみても、大学医学部入試における作為可能性を調べる目的に照らして、入学者の男女比は全く無意味である。石渡氏は追記という方法ではなく、記事そのものを撤回するべきだと考える。

 

 受験者数から男女別の合格率を見る場合に注意しておいた方が良いこと

上で見た阪大医のデータでH28では男女の合格率に一見大きな差があるように見える。しかし、注意しておかなければならないことがある。男女の合格率に差があるからといって、それが作為可能性を疑わせる根拠にはならないことだ。

 第一に、大学医学部の入試データを見る際には、合格者(定員)に比べて受験者の数が極端に多く、しかも男女の受験者数に大きな開きがある大学が多いことに注目しておく必要がある。例えば、H28年度の阪大後期は、30名の受験者について、男24名・女6名の受験であり、仮に合格者の16名が、男13名・女3名と1名性別が変わっただけで、合格率は54.2%・50.0%と変わってしまう。つまり人数の僅かな変動で合格率が大きく変化する可能性がある

 第二に、医学部入試においては、たとえば理科における物理選択の有無や試験全体の科目の種類、入試日程や定員、センター試験の難易度からくる志望校変更など様々な要因が絡むため、必ずしも男女の志望動向が一致しているとは限らず、受験者の学力分布が男女で同じであるという保証はない。大学ごと、年度ごとによって変動している可能性もある。

 第三に、仮に学力的に概ね差がない受験生たちを取ってみても、実際の試験での得点は統計的にばらつくので、それらを上から定員で切れば、実際の分布は偏る場合もありうる。どの程度の偏りがおこりうるかなどは統計的な分析が必要になる。特に、医学部入試において、男性受験者が極端に多い試験だと、合否のボーダーにおいて男性の方が女性よりも人数的に多く並ぶことになり、合否を分ける1点の刻みで結果として男性の方が多く合格してしまうことが考えられる。

 合格率だけで作為の可能性を導くことはできないことにくれぐれも注意しなければならない。

 

公表データから見る男女の合格率

以下のデータは国公立大学24校の直近数年にわたる一般入試の男女別合格率である。

データについて以下の3点に注意して使用されたい。

  • 当方が手作業で集計したものである。入力ミスなどもあるかもしれない。使用する場合は、入学試験実施状況という公開ファイルを各大学のウェブサイトで閲覧して自分の手でチェックして頂きたい。
  • 大学入試には医学部でも様々な入試の形式があり、特に推薦入試は形式や方法など様々である。以下のデータは、特に記載のない限りすべて一般入試の前期・後期日程における合格率である。詳細が知りたい方はやはり個別の大学のウェブサイトを利用するべきである。
  • 上でも注意したように、男女別の合格率に一見大きな差があっても、それが作為の結果であるということにはなりえない。

訂正(2018/08/12)

  • 旭川医大のH30のデータを1つ入力ミスしていたので修正。
  • 北海道大の後期は医学科以外だったので訂正。
  • 石渡氏は秋田大の保健学科との合算に拘っているようなので、付録の秋田大にこの旨追記
  • 島根大も男女別データを公表していることを見落としていたので追記

f:id:rochejacmonmo:20180812002505j:plain

f:id:rochejacmonmo:20180812013144j:plain

f:id:rochejacmonmo:20180811050552j:plain

f:id:rochejacmonmo:20180811050514j:plain

f:id:rochejacmonmo:20180811050614j:plain

f:id:rochejacmonmo:20180811050622j:plain

f:id:rochejacmonmo:20180811050637j:plain

f:id:rochejacmonmo:20180811050652j:plain

f:id:rochejacmonmo:20180811050706j:plain

f:id:rochejacmonmo:20180811050714j:plain

f:id:rochejacmonmo:20180811050725j:plain

f:id:rochejacmonmo:20180811042607j:plain

f:id:rochejacmonmo:20180812110946j:plain

f:id:rochejacmonmo:20180811050746j:plain

f:id:rochejacmonmo:20180811050753j:plain

f:id:rochejacmonmo:20180811050810j:plain

佐賀大学医学科のデータとして本記事に掲載していた内容は、医学部全体(看護を含む)のデータでした。お詫びして訂正させていただきます。佐賀大学の詳細なデータは下記記事をご覧ください。

 

f:id:rochejacmonmo:20180811050834j:plain

f:id:rochejacmonmo:20180811050839j:plain

f:id:rochejacmonmo:20180811050845j:plain

f:id:rochejacmonmo:20180811050901j:plain

f:id:rochejacmonmo:20180811050908j:plain

f:id:rochejacmonmo:20180811050914j:plain

f:id:rochejacmonmo:20180811050919j:plain

 男女別の合格率から、男女の合否に関する作為の可能性を導くことはできないので、ここではこれ以上の分析はしない。各大学ごとに男女の志望動向や定員、合格率などもバリエーションに富んでいることだけを指摘しておく。

 付録:合格者の男女別内訳のみを公開している大学

 

f:id:rochejacmonmo:20180812002548j:plain

 

 

*1:当初の記事は島根大が公開していることを見落としていた。

こんな問題と採点で大丈夫なのか?-新共通テスト 試行調査 国語の記述式問題について-

 私は、新共通テストで記述式試験を課すことには、現時点では反対だが、すでに各大学ごとに新共通テストをどう選抜に利用するかが公表されるなど、実施に向けて大きく舵が切られてしまっている。そういう状況の中では、さしあたってあまりにおかしな問題や採点が行われることに警鐘を鳴らすためにも、実際に試行調査で出題されている問題を検討するべきだと考える。既に平成29年11月の試行調査の結果報告が出ている。

 そこで、平成29年11月に行われた大学入学共通テストの試行調査で出題された記述式問題のうち、数学(I・A)で扱われた問題について下記記事で、問題の内容や採点基準に懸念があることを述べた。

 選択式の問題に比べて記述式の問題の方がより理解度や思考力・表現力を正確に測定できるとする意見は根強くあり、共通テストとして記述式試験を課すことに肯定的な意見も広く存在することは確かである。しかし、上の数学に関する記事の中でも述べたように、実際には理解度や思考力・表現力を測るという目的からは大きく乖離した形で、極めて杓子定規な正答基準に基づいて、パターンマッチング的な採点が行われてしまう懸念がある。枚数・人員・採点者の能力・時間などの様々なコストの面から、そうした採点しかできなくなってしまう危険が非常に高い。それは、記述式試験を導入するための

記述式問題の導入により、解答を選択肢の中から選ぶだけではなく、自らの力で考えをまとめたり、相手が理解できるよう根拠に基づいて論述したりする思考力・判断力・表現力を評価する

という美辞麗句とは逆方向を向いていることになる。

 では、国語の記述式問題はどうか。この記事では、国語の記述式問題(国語第1問)について検討する。なお、数学はある程度何が正しいかが確定するが、国語は自分の持っている語彙や経験などにも強く影響されうるので、私の国語力の乏しさが暴露されるかもしれないが。

国語記述式問題の内容

 国語の記述式問題は第1問である。

 生徒会部活動規約第1条から第16条までの条文と3枚の資料をもとにした会話文を読んで問に答える形式である。

f:id:rochejacmonmo:20180524224500j:plain

f:id:rochejacmonmo:20180524224507j:plain

f:id:rochejacmonmo:20180524224514j:plain

問1(50字以内の記述)

 

f:id:rochejacmonmo:20180524224609j:plain

という会話文について、次のように問われている。

問1 傍線部「当該年度に部を新設するために必要な、申請時の条件と手続き」とあるが、森さんが新聞に載せるべき条件と手続きはどのようなことか。五十字以内で書け(句読点を含む)。 

 正答の条件は以下の通り。

f:id:rochejacmonmo:20180524225125j:plain

この問題は無答率は非常に低く、正答率は43.7%である。単純にこれが高いか低いかではなく、つぎのように、条件の一部を書き落とした答案が32.2%あったことに注意する必要がある。

f:id:rochejacmonmo:20180524225237j:plain

典型的な誤答例として挙げられているものは以下の通り。

f:id:rochejacmonmo:20180524225257j:plain

f:id:rochejacmonmo:20180524225303j:plain

私がこの問題について主張したいことを述べると次のようになる。

(1) そもそもこの問題自体が破綻していないか。

 現在同好会として「ダンス同好会」がない以上、まずは同好会を作らなければ部を新設する申請の俎上にのらないのだから、「ダンス部設立希望」に対する回答は、「まず同好会を作って3年活動してください」以上のものにはなりえない。「当該年度」という言葉遣いも奇妙である。当該年度とはいったいどの年度のことなのか。規約の中にある「当該年度」は明確で、3年以上活動している同好会が部としての新設を希望する年度のことだ。しかし、まだ同好会にもなっていないものに対して、「当該年度に部を新設するために必要な」というときの「当該年度」とはいったいいつのことなのか不明である。実際には、同好会を新設するにはどうすればいいかは規約文の中にはないので一体何年先の話をしているのかまったく不明である。ダンス部を設立して欲しいと要望しているのは1年生だが、いま同好会を作れるとしても、この1年生たちは部の新設を申請できるまでに卒業してしまうのである。

 

(2) 50字という制約条件がついているために正答の条件が歪んでいるのではないか。

 記述式問題でよく議論になる点として、いくつかの条件がある場合、それらをすべて書くのか、一部だけでよいのかという論点がある。「申請時の条件と手続き」を書く場合、規約に規定されている条件をすべて書くなら、「同好会活動3年以上」「部としての新設を希望する年度の4月第2週までに」「所定の様式に必要事項を記入」「生徒会部活動委員会に提出」の4点をすべて書かなければならないはずだ。しかし、それをすべて書くと50字には収まらない。だから、正答の基準では、「所定の様式で申請する」と「生徒会部活動委員会に申請する」ということのどちらかが書かれていることで正答扱いしようとしているわけである。しかしそうした省略が許容されるなら、

「同好会活動3年以上が条件で、部の新設を希望する年度の4月第2週までに、規約第13条の方法で申請する。」

という答案はどうなるだろう?丸めることが許されるとして、そのうちどれかを削ってもよいとするのか、それらは細部とみて規約を引用してよいのかの判断は難しい。

 私は、正答例の「4月第2週まで」という条件も本来なら上のように「部の新設を希望する年度の4月第2週まで」と書くべきだと思う。それが会話文の中にある「当該年度」という設定に引きずられて省略してもよいことにされている。それでも48字だからぎりぎりである。

 結果報告の文書の中では、「問い掛け(目的)に応じて情報を取捨選択することや、限られた字数で正確に記載することに慣れていない」とか「正答例のように「正答の条件」をすべて満たす文章にまとめるために、必要最低限の情報の抽出に迷った」などと受験者を総括しているが、端的に言って、本問の字数制限は厳しすぎる。誤答例を見ても、受験者側は文字数を削るために四苦八苦したあげく、曖昧な文面にしてしまったように見える。本来規約に無駄なことが書かれているわけもなく、それをさらに削って記述することを求めるのは適切とは言い難い。にもかかわらず、その省略の仕方を「正答の条件」のように強制するのは不当である。

 これは記述文字数を増やして採点業務を増やしたくないという事情もあると思われる。そうであるならば問い方を変えなければだめだ。

 

問2(25字以内の記述)

 この問題は正答率が73.5%と高いようなので、引用とだけに留める。

f:id:rochejacmonmo:20180524234048j:plain

 

 問3(80字以上120字以内の記述)

 これは次のような会話文に対する問である。

f:id:rochejacmonmo:20180524234327j:plain

問題は条件付きの記述で次のような4つの条件が付いている。

f:id:rochejacmonmo:20180524234509j:plain

正答の条件は次のように示されている。

f:id:rochejacmonmo:20180524235433j:plain

この問題の正答率は極端に低く0.7%である。ここでは正答率の低さに加えて、8割の答案が設定された正答の条件の複数を満たせていないことには注意が必要である。

f:id:rochejacmonmo:20180524235412j:plain

誤答について示されているのは次のような内容である。

f:id:rochejacmonmo:20180524235748j:plain

f:id:rochejacmonmo:20180524235754j:plain

f:id:rochejacmonmo:20180524235800j:plain

この問題について私が主張したいことは次の通りである。

(1) この問題も設定に不自然さがある。

 そもそも会話文の前段で「提案の方向性はいいと思うのですが、課題もあると思います。」と述べられているのだから、その後に続く部分で、わざわざ提案することに対する基本的な立場を再度示さなければならないのだろうか?普通は、イに入る文章は、「課題」について述べたものになるだろう。「確かに~」という文章は、「提案の方向性はいいと思うのですが」の前に入るならわかるが、イの中に入るのは不自然に見える。わざわざ二文などというような細かい条件を設定せず、「○○なので、提案の方向性はいいと思うのですが、課題もあると思います。というのも○○だからです。」と述べさせ、それぞれ○○の部分に文章を補わせる方が解答が明確になって自然に見える。

 結局この問題は、「確かに○○である。しかし○○である。」というようなテンプレートに答案を押し込むことが優先され過ぎているように見える。

(2) 提案を支持する具体的な根拠を2つに限定してよいか、またその根拠は適切か疑問である。

 正答の条件では、提案を支持する根拠を「部活動時間の延長の要望が多い」と「部活動時間の延長を認める高校も多い」の2つに限定し、それらが両方記載されていなければ誤答扱いしている。資料2があるので市内の他の高校との比較を盛り込んでほしいということはわかるが、「延長の要望が多い」の方は他の言い方もできるのではないか。「大会や発表会の準備のために時間を多く使いたい」や「部活動時間が短いと中学生の志望者が減る」という意見である。資料3でそのような意見を述べている生徒がいる。こうした点を盛り込んだ答案を誤答としてしまって良いのだろうか。会話文の中に「個人的な思いだけでは提案できません」とあるから、イには、個人の意見を反映せず「要望が多い」とまとめた答えを書かなければいけないのだろうか?「具体的な根拠」として何が許容されるのかが不明確で判断しづらい。蛇足だが、「要望が多い」という点も、資料3のアンケートでは全回答のうちの4割程度だが、資料1の要望で見ると全体の投函数148通のうち28通しかない。こうした点を踏まえて「要望が多い」とまとめていいのかも少々疑問である。「市内に延長を認める高校も多い」も書きぶりが微妙と感じられる。「白鳥総合高校」は延長なしで18時30分までできるので延長しなくても遅くまでできているわけだから、「青高以外の市内の高校は無条件もしくは条件付きで18時~18時30分まで活動できるから」というような書きぶりの方がより適切のようにも思える。また、「市内の他の高校は延長できるので」のような資料2の内容と微妙にずれているような書きぶりの場合はどう判断するかという点もあるだろう。

 

(3) 延長を提案することに対する「基本的な立場」の意味するところが曖昧に見える。「提案してみてもよいと思う。」とか、「提案すべきだと思う。」はどうなのだろう?これは次の述べる「提案がどのように判断されるか」という部分とのつながりの問題もある。また答案の中には、「延長を提案すること」に対する「基本的立場」と「延長すること」に対する「基本的立場」とが区別されていないものも出てくると思われる。「要望も多いし他の高校でも延長できるから賛成」のように何に賛成しているかはっきりしないものもありうる。このような曖昧さは、採点において基準のブレを生じる大きな要因になりうる危険な個所である。

 

(4) 延長という提案がどのように判断される可能性があるか、という問題文の「判断」の意味するところが曖昧に見える。正答の基準では、「延長は認められにくい」以外の「判断」を認めていない。しかし、もっと手前の段階として、「延長の提案は、生徒の安全確保を軽視していると判断される」とか「延長の提案は、青高の交通事情を十分に検討していないと判断される」といった内容もありえる。

 そもそも、イのあと「なるほど、そう判断される可能性がありますね。それでは、どのように提案していけばいいか、みんなで考えましょう。」と続くのだから、イの中で、「認められにくいのではないか」と書くのはつながり方が不自然に見える。「安全確保を理由に却下されると思うよ」と言われて「じゃあどう提案すればいいか考えよう」となるだろうか。要望や他校との比較だけで提案すると青高の特殊事情である交通安全確保について十分検討していないと指摘されるから、その部分の対策について考えようという文脈の方が自然に見える。

 

(5) 延長の提案に対する判断の根拠として交通に関する点を具体的根拠として挙げることが正答の条件になっているが、具体的な根拠として許容される範囲が明確か疑わしい。例えば、「生徒指導担当の織田先生が難色を示しているので、提案は却下されるだろう。」は「具体的な根拠」と認められるだろうか?もう少し踏み込んで「生徒指導担当の織田先生が安全確保の点から難色を示しているので、提案は却下されるだろう。」ならどうなるだろう?安全確保という単語は入っているが、安全確保の具体的な内容は記載されていない。こうした根拠記述の幅に採点者がどれだけ対応できるのかが非常に疑問である。

 

これは揚げ足取りだが、そもそも青高には、午前7時と午後6時に交通量がピークになって、歩道も確保できず、学生が集団で登下校すると安全上問題になるような道しか、通学路として確保できていないという設定は本当に自然なのだろうか?

 

補正について

結果報告の中では、検収作業や再検収作業で採点基準の明確化にともない補正した答案例がいくつか挙げられている。これらの答案では、設問で指定された形式への合致に疵があるが、概ね内容的には正答とみなせそうな答案がかなりあるように見受けられる。こうした答案をチェックする作業はかなり膨大になると予想され、やはり採点作業の困難さを指摘せざるをえない。(なお、実際には、これらの例の挙げ方もよくない部分がある。疑問箇所はわかるのだが、そこの判断を変更しても結局政党の基準に該当していないような例が多いのである。)

f:id:rochejacmonmo:20180525010551j:plain

f:id:rochejacmonmo:20180525010557j:plain

f:id:rochejacmonmo:20180525010800j:plain

f:id:rochejacmonmo:20180525010806j:plain

まとめとおまけ

ここで見てきたように、出題者側が問題文の中でかなり解答の方向性や形式を限定しようとしても、そのやり方が結果として曖昧だと、解答にかなりの幅がでて採点が難しくなると考えられる。今回の試行調査の問題は、解答を限定するやり方が不十分すぎると思われる。また解答字数が多すぎるために解答に幅が出てしまって採点が難しくなっているようにも見える。にもかからず、数学の場合と同様に採点基準は非常に狭く、そして杓子定規に適用されてしまっているように見えるし、数学に比べて国語の採点基準や答案に対する判断の根拠が不明確になりやすい。ここでも採点上の制約から部分点などのグラデーションを付けることが難しいという事情がある。今回のような50字や120字で部分点の判断を要求すると採点者にはかなりの負担がかかるし、よほど明確な正答が決まるものでない限り、多数の採点者が同一の基準で部分点を出そうとしても採点がブレて不公平に陥る危険が高い。そのために採点基準を過剰に狭く採り、正答か誤答かの二択で採点してしまうと、かなり明確にかけている答案でも誤答扱いにされてしまって適正な評価を得られない危険もある。

 

と諸々指摘してきたわけだが、生徒会の規約とか部活動をどうするとか、そういった文章を読ませて、いろいろ書かせるという問題、正直って、内容的にくだらないと思いませんか。現行のセンター試験でも、古文や漢文の扱いはどうかとか小説を読ませるのはどうかとか、逆に、契約書や操作マニュアルのようなものを読むことを取り上げることを称揚したりする意見も確かにある。しかし、出来上がった問題がこういう問題だと、内容的にあまりにもくだらないと思うのは私だけなのだろうか...。こういう問題が大学入学共通テストの問題として本当にふさわしいのだろうか。記述式試験の導入を推進する人たちは、本当にこういう問題を適切だと思うのだろうか。

 

 

 

 

 

こんな採点で大丈夫なのか?-新共通テスト試行調査 数学の記述式問題について-

高大接続改革の一環として行われている大学入試改革のひとつである「大学入学新共通テスト」は、記述式試験の導入をひとつの大きな柱として構想されており、文科省は、たとえば次のような形で、記述式問題導入の意義を説いている。

 

2.なぜ記述式問題を導入するの?
 記述式問題の導入により、解答を選択肢の中から選ぶだけではなく、自らの力で考えをまとめたり、相手が理解できるよう根拠に基づいて論述したりする思考力・判断力・表現力を評価することができます。

 また、共通テストに記述式問題を導入することにより、高等学校に対し、「主体的・対話的で深い学び」に向けた授業改善を促していく大きなメッセージとなります。大学においても、思考力・判断力・表現力を前提とした質の高い教育が期待されます。

 併せて、各大学の個別選抜において、それぞれの大学の特色に応じた記述式問題を課すことにより、一層高い効果が期待されます。

 http://www.mext.go.jp/a_menu/koutou/koudai/detail/1397733.htm

  私はさまざまな理由で、記述式試験の導入には反対であり、できるなら現行形式の戻った方が良いと考えている。できればまとまった形で整理したいが、

 のスレッドにも簡単にその理由を述べた。

 

 しかし、現状では既に、試行調査が実施されており、平成29年11月に行われた試行調査では、実際に記述式の問題が出題され、それらの採点などの調査結果が報告としてまとめられている 

 今回記述式問題が出題されたのは、数学と国語だが、この記事では数学の記述式問題とその採点基準について取り上げる*1

 

数学において記述式問題が出題されたのは数学I・Aの第1問と第2問のなかの3つの小問である。実は、どの問題も正答率が非常に低い*2

 

 問(あ)

 問題は以下の通り。

f:id:rochejacmonmo:20180523234806j:plain

誤答例として示されているのは以下の通り。

f:id:rochejacmonmo:20180523235010j:plain

そして正答率は、2.0%。ただし、無答と同じくらい誤答もあることに注意しなければならない。

f:id:rochejacmonmo:20180523235029j:plain

 

私の見解を箇条書きでまとめると次のようになる。

  • まず第一に、端的に問題の条件付けのしかたが良くない。頂点のy座標に関する不等式を用いてとあるが、実際には、判別式が正であることからx軸と相異なる2点で交わり、しかも下に凸であることから、頂点は3,4象限にしか存在できない。つまり頂点のy座標を明示的に求めなくても概形の説明で根拠記述になりえる。また頂点のy座標の不等式というのも範囲が不明確。「頂点のy座標<0」と書いてあればいいのか、y座標の明示式が必要なのかが読み取れない。
  • 従って第二に、理由をどこまで書くか/書かれたものを正答とみなすかのグレーゾーンが広く採点しにくい。例えば、単純に

    「a>0、b^2-4ac>0より頂点のy座標<0だから。」

     

    と書かれた場合、c<0といった記述はなくなるし、頂点のy座標の明示式もない。それでも正答とできるか疑問である。

    「x軸と相異なる2点で交わる下に凸なグラフだから、頂点のy座標<0となるので。」

     

    だったらどうだろう?にもかかわらず正答の条件が非常に狭く設定されている印象が強い。a>0かつc<0が明示的に述べられていなければ誤答とか、頂点のy座標が明示的に求められていなければ誤答といった具合に判断されているのではないか。
  • そして第三に、この程度の根拠記述を求める問題でさえ、根拠をどこまで遡って記述しなければならないかということは必ずしも確定的ではない。今回の問題のように、「a>0かつc<0」だから「頂点のy座標c-b^2/4a<0」なので「頂点は第3,4象限にのみ存在」というように複数のステップを踏む場合、最初の根拠記述を明示しなければいけないというルールを強制できるわけでもない。
  • 第四に、誤答例に示されている根拠と結論の順序が正しくないものも慎重に見る必要がある。答案がすべて「⇒」を使って書いていたわけでなく、おそらく採点者の側がそう読めると判断したものを誤答としたのだろう。しかしこれは答案の書きぶりをどう採点者側が判断するかという点にかなり大きく依存するので、多数の採点者が一致して採点できたかどうか危うい

 ところで、記述式の採点が行われたあと、別の検収者によって答案のチェックも行われている。その説明はこうだ。

f:id:rochejacmonmo:20180524001554j:plain

この補正というのが正答→誤答や誤答→正答といった判定の修正を伴うものであると予想できるが、たとえば、この問(あ)で検収の結果補正された答案の例は、どのような補正作業を行ったのか実際にははっきりしない。疑問点が付記されているだけだからだ。

f:id:rochejacmonmo:20180524001326j:plain

最初の例は単に書き間違えたのだろうと判断できるかもしれないが実際の採点で正答か誤答かの判断は迷う。2つの目の例は、そもそも2つほど不備があって、結果報告を作成する作成者がミスをしているのだと思うが、そこを無視すれば、場合分けして答えても根拠記述として全く正しい。

f:id:rochejacmonmo:20180524002752j:plain

しかしこれが補正にあがるということは、最初は誤答扱いにしていたものを正答にしたのだろうと推測できる*3。しかしこういう採点が行われていると、検収作業を行った抽出答案以外にもこの種の答案は多数あると思われるので、本番の場合には、検収作業の結果すべての答案を再チェックしなければならなくなる可能性が高い

 

問(い)

問題は次の通り。

f:id:rochejacmonmo:20180524003129j:plain

 

 誤答例は次の通り。

f:id:rochejacmonmo:20180524003203j:plain

そして正答率は4.7%。しかしこれも無答ではない誤答がかなりあることに注意しなければならない。

f:id:rochejacmonmo:20180524003218j:plain

これについての私の見解は次の通り

  • ここで挙げられた誤答例を誤答扱いするのは採点基準としてはあまり杓子定規すぎる。180°と書かなければならないのはわかるが、この設定で180が180°のことを表しているということは十分推定できる。-BC cosABCと書かれると、本問では、A,B,Cは確度の大きさとして認めるが、∠ABCとかかないと文字の三つ組みは角度を書いているとはみなさないということなのだろうが、書き方からみて、ABCは角度を表していると推定できる。3番目はさらにひどく、BCと-の間にドットが打ってあるのだから、( )がなくても、BC-cosBと書きたかったわけではないことくらい了解できる。疵はあっても、これを誤答とし、無回答と同じ得点しか与えない採点基準は、まさに杓子定規の一言に尽きる。
  • 少し挑発的に言ってしまうと、私が採点者で、正答か誤答かどちらかに分類せよと言われたら、正答に分類してしまうだろう。しかも正答率が非常に低いのだからなおさらだ。

 

問(う)

問題は次の通り。

f:id:rochejacmonmo:20180524004835j:plain

誤答例は次の通り。

f:id:rochejacmonmo:20180524004844j:plain

正答率は8.4%。これも無答ではない誤答がかなり多いことに注意が必要である。

f:id:rochejacmonmo:20180524004821j:plain

この問題は、この記述式のあとに実際に最も高い県を表す点を図の選択肢から選ばせる問題(2-ス)があり、その正答率は35~40%のようである。

f:id:rochejacmonmo:20180524005039j:plain

その意味では、選べるという部分とそれを根拠づけて説明するということのギャップを測っている問題ということができるのだろう。それを良い問題であるとする向きもあるのかもしれない。しかし補正作業についての結果などを見てみると、書きぶりをどう判断するかがかなり難しかったのではないかという印象が強い。

f:id:rochejacmonmo:20180524005159j:plain

f:id:rochejacmonmo:20180524005206j:plain

これらの例は、どれも概ね方法を正しく理解しているが、1,2,4番目はいささか言葉の選び方が適切でなかったり、言葉足らずであったりする。3番目の例は問題ないので、これを誤答にしてはいけないだろう。これも問(あ)と同じコメントになるが、この程度の答案で補正が必要になるところを見ると、本番では補正作業がかなり必要になることが予想され、チェック作業が非常に過重になる可能性も高い

 

まとめ

 これらの例をもとに私が主張したいことは次のようになる。

  • 答案の内容的/表現的ばらつきを減らさなければならないという要求のために付けられた設問の誘導が必ずしも数学的に本質的とは言い難い面があり、かえって正しく理解している答案を誤答扱いしてしまう懸念がぬぐえない。
  • 部分点を付けることは採点作業を極めて煩雑にするために困難であるという制約により、正答か誤答かの二択で採点せざるを得ないために、採点基準が極めて杓子定規に運用されてしまう懸念がある。これも非常に軽微なミスが過大に減点される危険をはらむ。
  • 採点枚数が非常に膨大(万単位)であるため、すべての答案を何度もチェックする作業が難しくなるという制約があり、全答案の中で内容的理解の度合を整列し、それによって得点にグラデーションを付けるという作業が不可能になってしまっている。そのため、無答とはまったく理解の度合いが異なる答案でも誤答としなければならなくなるという本末転倒に陥る危険性がある*4
  • 採点者の数が多く、統一的な基準で採点を行うことに相当な困難が伴うため、検収作業で原答案を逐一確認する作業が非常に大きくなると予想され、採点や検収に時間的なコストが相当発生すると思われる。
  • (追記)今回の数学の問題は無答率が概ね5割弱あるが、実際の試験では無答率はかなり減ると予想されるため採点にかかる時間や人員のコストは今回のものでは到底比較にならない。

万単位の記述式答案を、同一の基準で、短期間に、採点することが、冒頭で引用した

自らの力で考えをまとめたり、相手が理解できるよう根拠に基づいて論述したりする思考力・判断力・表現力を評価する

 という目的に資するものになっているのかどうか。実際の採点は、極めて教条主義的な採点基準が杓子定規に適用されてしまうことにより、むしろ逆の効果を生んでしまわないか、ということが問題の根源にあると思う。

 

おまけ

ちなみに次のようなことも言っている。

f:id:rochejacmonmo:20180524012146j:plain

いやいや、そんなことは試行調査をする前から全部わかとったことじゃろorz

わかりきってることなのにできてないから文句を言っているわけでござる

 

 

*1:国語の記述式問題も様々な問題点があると思うが、それは別の機会に譲る。

*2:もちろんこれは他の部分の難易度などの影響を強く受けるので、これだけで一概にどうこうできる話ではないことには注意が必要。

*3:まさか正答にしていたものを誤答にしたということは考えにくいだろうと思うので。

*4:個別の大学で課される二次試験なら枚数はせいぜい千のオーダーなので、全答案の出来具合を丁寧に調べ、理解のレベルに応じた整列が可能になる。

ランダム率について新井紀子氏に説明を望むこと

 新井紀子氏が中心となって行っているリーディングスキルテストについて、特に「ランダム率」の観点から2つの記事を書いた。

これらの記事に対してかどうかはわからないが、新井氏がツイッター上でランダム率についての追加説明を行っている。以下のツイートとその返答連鎖から読める。

 私は、これらの説明を読んでも、上の2つの記事で書いた疑問点は解消されないと考える。以下にまとめる。

 

 「同義文判定」におけるランダム率は、NIRAペーパーで公表された2016年のデータ、RSTパンフで公表された2018年のデータに比して、
NHK視点・論点」および著書『AI vs....』中で公表された2017年のデータが突出して高い値を示している。

 ランダム率を計算するモデルはまだ正式な論文とはなっていないようだが、
Proc. 39th Annual Cognitive Science Society Meeting (CogSci 2017) 1556-1561
に述べられている"RSG"の説明を参考にすると、2択問題の場合、回答数が十分に確保されていないと、正答率が高いにも関わらずランダム率も高い値になることが予想される。

 従って、2017年のデータには、少なくとも同義文判定問題に対するランダム率を算出するためには不十分な回答数しかない回答者が比較的多数いた可能性がある。

 新井氏は、ランダム率と回答数の関係については発表する際に注意をしていると述べているが、少なくとも「視点・論点」における説明の中にそうした注意喚起の文言はない。

 また新井氏は、統計的に不十分な項目については公表していないと述べているが、2016・2017・2018年のデータはいずれもペーパーや番組・著書、パンフなどで公表されたデータである。にもかかわらず、同義文判定におけるランダム率は、2017年のみ異常に高い。

 しかも新井氏は、「視点・論点」の中で、ランダム率に言及する際、回答数との関係でもっとも気を使わなければならないはずの2択問題を中心に構成される「同義文判定」カテゴリのランダム率に特段の言及を行い、「中学生の7割がランダムより良いとは言えない」と解説した。

 

 以上のことから、新井氏は、

 まず第一に、「視点・論点」および著書『AI vs. ...』の中で公表した2017年のデータにおいて、同義文判定問題に回答した回答者が十分な問題数を解答していることを示す根拠を示すべきである。

 第二に、もし2017年のデータにおいて、同義文判定問題の回答数が統計的に十分なだけ確保されているとするならば、2016年と2018年のデータとして公表されたものとの著しい乖離の原因が何であるのかについて十分な説明をするべきである。

 

 この2点が十分に説明されない限り、RSTの受検者、特に学生の受検者の能力について実態と異なる言明をしたことになり、その責任は重大である。特に教育政策や研究評価においてすでに十分影響力のある立場にいる新井氏が、不十分な議論や解釈に基づいた議論を行うことは問題が大きい。

 何点か付言する。
 新井氏は、正答率・ランダム率・能力値の3つの指標をつかっていると述べているが、少なくとも「視点・論点」の中では能力値については言及がない。
 また、たとえばランダム率を計算する際の棄却域を95%に設定するのか90%に設定するのかはある程度恣意的に選べる状況にある。こうした棄却域の設定次第でランダム率が大きく変化するようだと、ランダム率そのものの妥当性が疑われる。これはベースラインの設定についても同様である。
 新井氏が述べている「複数選択の場合、すべての選択の在り方を考慮してランダム率を計算すると、逆に実態とは大きく異なり、ランダム率が不自然に低く出ます。」というのは以前にも行われた説明を補充したものであるが、具体的にどういう状況がありうるのか全く例示がないのでどのように評価すればよいか不明である。
 新井氏は、いずれ統計班が論文を出すだろうとの見通しを述べているが、本来論文が公表できる段階になって初めてプレスリリースとなるべきではないのか。妥当性が十分に検証できない統計的なデータをもとに非常に強い主張をすることは研究者の発言として必ずしも看過できるものではない。社会的にも影響力のある立場であることを考慮して慎重な発言を望みたい。

 

 

少なくとも「中3の7割が、同義文判定で、サイコロよりましとは言えない」は撤回すべきでは?(ランダム率について)

新井紀子氏を中心としたグループが実施している「リーディングスキルテスト」の結果報告に記述されている「ランダム率」について、2月末から3月初めにかけて記事を書き、ツイッターを中心とした議論をした。そのときの経緯は次の記事に追記した。

今回、

https://www.s4e.jp/wysiwyg/file/download/1/22

に、リーディングスキルテストの2018年度版(?)のパンフレットがアップされていることを知った。その中に、「2017年度実施結果」と題された「ランダム率」の表がある。

f:id:rochejacmonmo:20180329203209j:plain

ここで示されているデータは、過去にNIRAのオピニオンペーパーに記載されたデータや、NHKの「視点・論点」および新井氏の著書『AI vs. 教科書が読めない子どもたち』(p.214)で示されたデータとも異なる新しいデータである。前述の2つのデータは上で書いた記事に引用したので、ここまでの推移を改めてまとめなおした表を掲げる。(今回は正答率は示されていない。)

f:id:rochejacmonmo:20180623225428j:plain

一目でわかるように、視点・論点」および著書『AI vs. ...』で示されたデータにおけるランダム率の高さは異常である。

奥村さんからご示唆頂いた「ランダム率」の計算方法についてのひとつの理解が以下のツイートにある。

 この計算法の場合、2択問題を10問回答すると8問以下の正答数の受検者はランダムよりよいとは言えないと判定され、20問回答すると14問以下の正答数の受検者はランダムよりよいとは言えないと判定されることになる。つまり、10問回答する受検者が多いとたとえ正答率が8割でもランダムよりましとは言えないと判断され、正答率に比してランダム率が高く出ることが考えられる。つまり、同義文判定という本質的に2択の問題の場合、回答数がある程度大きい受検者について議論しなければ、ランダム率の持つ意味を正確に理解できないと考えられる。従って、新井氏らの提示している「ランダム率」が意味あるものかどうかを検討するためには、単純な正答率だけではなく、少なくとも各受検者の回答数などの情報が与えられなければならないはずである。(もちろん、上で0.95としている棄却域を実際にはどう決めているかとか、各問題の難易度の評価などはどう反映しているかなど、計算方法の詳細もわからなければ議論できないのは当然である。)

 

そうであるにも関わらず、新井氏は、NHKの「視点・論点」の中で、同義文判定について特に言及して、

同義文判定の列を見てください。なんと、中学3年生の7割が「サイコロを投げるよりまし、とはいえない」のです。

 と述べている。

f:id:rochejacmonmo:20180329205657j:plain

上でも述べたように、このデータにおける同義文判定問題のランダム率の高さは明らかに異常に見える。回答数の少ない受検者が多く含まれている可能性が考えられる。このデータをもとに、中3の7割が、同義文判定において、サイコロよりましとは言えない、と判断するのは不当であり、少なくとも、この言及については撤回するべきではないか。

 

(参考)他のカテゴリのランダム率の変化は以下の通り。10%以上変化しているカテゴリや学年もあるが、それでも概ね一定の水準で推移しているように見える。2択よりも多い選択肢であれば、こうした数値の安定が見られるのは納得できる。

f:id:rochejacmonmo:20180329210012j:plain

f:id:rochejacmonmo:20180329210020j:plain

f:id:rochejacmonmo:20180329210029j:plain

f:id:rochejacmonmo:20180329210050j:plain

なおNIRAのデータでは(辞書と理数に)区分されていないので具体例同定のランダム率は省略した。具体例同定(理数)のランダム率がかなり高い理由はいまのところよくわからない。真に読解力に問題があるのか、そもそもリーディングスキルテストの問題に原因があるのか、検討が必要かもしれない。