少なくとも「中3の7割が、同義文判定で、サイコロよりましとは言えない」は撤回すべきでは？（ランダム率について）

新井紀子氏を中心としたグループが実施している「リーディングスキルテスト」の結果報告に記述されている「ランダム率」について、2月末から3月初めにかけて記事を書き、ツイッターを中心とした議論をした。そのときの経緯は次の記事に追記した。

今回、

https://www.s4e.jp/wysiwyg/file/download/1/22

に、リーディングスキルテストの2018年度版（？）のパンフレットがアップされていることを知った。その中に、「2017年度実施結果」と題された「ランダム率」の表がある。

f:id:rochejacmonmo:20180329203209j:plain

ここで示されているデータは、過去にNIRAのオピニオンペーパーに記載されたデータや、NHKの「視点・論点」および新井氏の著書『AI vs. 教科書が読めない子どもたち』（p.214）で示されたデータとも異なる新しいデータである。前述の2つのデータは上で書いた記事に引用したので、ここまでの推移を改めてまとめなおした表を掲げる。（今回は正答率は示されていない。）

f:id:rochejacmonmo:20180623225428j:plain

一目でわかるように、「視点・論点」および著書『AI vs. ...』で示されたデータにおけるランダム率の高さは異常である。

奥村さんからご示唆頂いた「ランダム率」の計算方法についてのひとつの理解が以下のツイートにある。

ランダム率，https://t.co/CdZs8hW3xh からダウンロードできる "Reading Skill Test to Diagnose ..." 論文から推測すれば，m択n問を解いて正答数が
qbinom(0.95,n,1/m)
以下の受験生の割合だろうと思われます（0.95は論文に書いてないけれど推定）
— Haruhiko Okumura (@h_okumura) 2018年3月1日

この計算法の場合、2択問題を10問回答すると8問以下の正答数の受検者はランダムよりよいとは言えないと判定され、20問回答すると14問以下の正答数の受検者はランダムよりよいとは言えないと判定されることになる。つまり、10問回答する受検者が多いとたとえ正答率が8割でもランダムよりましとは言えないと判断され、正答率に比してランダム率が高く出ることが考えられる。つまり、同義文判定という本質的に2択の問題の場合、回答数がある程度大きい受検者について議論しなければ、ランダム率の持つ意味を正確に理解できないと考えられる。従って、新井氏らの提示している「ランダム率」が意味あるものかどうかを検討するためには、単純な正答率だけではなく、少なくとも各受検者の回答数などの情報が与えられなければならないはずである。（もちろん、上で0.95としている棄却域を実際にはどう決めているかとか、各問題の難易度の評価などはどう反映しているかなど、計算方法の詳細もわからなければ議論できないのは当然である。）

そうであるにも関わらず、新井氏は、NHKの「視点・論点」の中で、同義文判定について特に言及して、

同義文判定の列を見てください。なんと、中学3年生の7割が「サイコロを投げるよりまし、とはいえない」のです。

と述べている。

f:id:rochejacmonmo:20180329205657j:plain

上でも述べたように、このデータにおける同義文判定問題のランダム率の高さは明らかに異常に見える。回答数の少ない受検者が多く含まれている可能性が考えられる。このデータをもとに、中3の7割が、同義文判定において、サイコロよりましとは言えない、と判断するのは不当であり、少なくとも、この言及については撤回するべきではないか。

（参考）他のカテゴリのランダム率の変化は以下の通り。10％以上変化しているカテゴリや学年もあるが、それでも概ね一定の水準で推移しているように見える。2択よりも多い選択肢であれば、こうした数値の安定が見られるのは納得できる。

f:id:rochejacmonmo:20180329210012j:plain