「ランダム率」がわからない(ので教えてほしい)2018/3/1追記

新井紀子氏を中心としたグループが行っている「リーディングスキルテスト」(RST)の結果、日本の子どもたちの読解力について様々な問題があることが指摘されている。この結果の意味するところなどを適切な言葉で表現するためにどのような言葉を選ぶべきか、という点はかなり難しい部分もあると思うが、この記事では、「ランダム率」というトピックに絞って考えてみる。

現時点では、私には「ランダム率」の定義も、それがどのようにして計算および運用/解釈されるべきかもよくわからない。従って、この量をどのくらい真面目に取り扱ってよいかに確信が持てない。

 そのことを少し説明するのが本記事の目的である。できれば統計に造詣のある方に詳しく説明をお聞きしたいところである。

 

2018/3/1(追記)

2018/2/28に以下の記事を書いた後、

Reading Skill Test to Diagnose Basic Language Skills in Comparison to Machines
Noriko H. Arai, Naoya Todo, Teiko Arai, Kyosuke Bunji, Shingo Sugawara, Miwa Inuzuka, Takuya Matsuzaki, Koken Ozaki
Proceedings of the 39th Annual Cognitive Science Society Meeting (CogSci 2017) 1556-1561

の中に、ランダム率の定義と思われる記述を見つけました。

f:id:rochejacmonmo:20180301160648j:plain

f:id:rochejacmonmo:20180301160654j:plain

この定義だと同義文判定の二択問題は、正答率5割とくらべて有意に差があるかどうかを各受検者ごとに検定しているということになるのでしょうか?

これらをもとに以下の記事をお読みいただき、「ベースライン云々」の議論や私の持っている疑問(2016年と2017年で同義文判定問題だけランダム率が大きく上昇している理由)に妥当な説明が付けられるのか、造詣のある方からのご示唆が頂けるとありがたいと思います。

 →奥村晴彦さんから次のようなご示唆を頂きました。

 これで非常にすっきりしました。改めて奥村さんに御礼申し上げます。有難うございます。

これでランダム率に基づく新井氏の議論の妥当性について評価できる前提に立てたように思います。

 いまのところの私の判断は、次の通りです。

 特に、同義文判定のような二択の問題が出題されているカテゴリで、しかも正答率がそれなりに高い場合には、各受検者の回答する問題数がある程度大きくないと、ランダム率そのものの妥当性が危うくなってしまいます。従って、新井氏の分析にどの程度妥当性があるかは、実際の受検者の状況がはっきり公開されない限り、確たることは言い切れないように思います。今後公開される論文等でそうした点が明らかになるのかどうかはわかりませんが。

 

以下、2018/2/28に書いた記事も記録として残します。

 

§1 ランダム率というものについての新井氏による説明

RSTの結果を分析するにあたって、「ランダム率」と呼ばれる概念が導入されている。

の中で、新井氏は、

リーディングスキルテストの問題は、すべて選択式ですから、サイコロを投げて適当に答えを選んでも、一定の確率で当たります。そこで、「サイコロを投げて当てるよりも、まし、とは言えない受検者」がどれだけいるかを調べました。その結果が、この表です。数値が大きければ大きいほど、好ましくない結果です。

同義文判定の列を見てください。なんと、中学3年生の7割が「サイコロを投げるよりまし、とはいえない」のです。

 と述べている。しかし一方で新井氏は、

という記事の中で

推論は中学3年生の10人に7人、高校3年生の7人に4人がランダム回答よりも正答率が低かった。

と述べられている部分について、

この記者は「ランダム率」を理解していない。講演では「ランダムよりも良いとはいえない受検者の率」と正確に説明しました。

他社からも「ランダム率」(統計的に、ランダムに選択肢を選んだのよりもましとは言えない受検者の率)という概念が理解できないので、もっとわかりやすい指標はありませんか?と言われました。

大変残念だと言うより他ないです。

 と批判と苛立ちを表明している。

https://twitter.com/noricoco/status/926789340117663745

これに対して、結城浩氏の質問

「①統計的に、ランダムに選択肢を選んだのよりもましとは言えない受検者の率」と「②ランダム回答よりも正答率が低い受検者の率」は異なる概念なのでしょうか。日刊工業新聞の記事で②のように読み取ったのですがそれは「ランダム率」とは異なるのでしょうか。 

 に対して、新井氏は、

はい、異なります。
たとえば二択の場合、ランダム率は50%ですので、②の解釈の場合、「正答率が50%以下の受験者の率」になります。一方、統計では「ランダムより良いかどうか」を検定します。検定の結果、「ランダムよりも良い」とは言えなかった受検者の率が①になります。

と回答している。

 

 選択肢2個の問題を10問行った場合、ランダムに回答を選ぶと、正答する問題の個数の期待値は5問になる。そこで5問以下の正答率の受検者を「ランダムより良いとは言えない」と判定する、というのなら話は分かりやすい。おそらく上の日刊工業新聞の記者が使った表現や結城氏の②の記述はこれに当たるのではないかと思われる。しかし新井氏の言う「ランダム率」とは、この意味ではないように思われる。単なる期待値ではなく、統計的な検定を行うようである。

 

 ただ、新井氏が先ごろ出版した『AI vs. 教科書が読めない子どもたち』の中では

調査に使った問題はすべて選択式です。サイコロを振ったり当て推量で答えたりしても、正答率は四択なら25%、三択なら33%です。そこで、受験した各学校や機関の中で「ランダム並みよりもましとは言えない受検者」が何割いるか、ということを計算したのです。

「ランダム並み」ということは、当該の問題タイプが「多少できない」とか「できない場合がある」のではありません。「まったくできない」と解釈すべきでしょう。(p.214)

 と述べている。この文章だと、「ランダム率」と、「期待値よりも正答率が悪い受検者の割合」とがどう違うのかよくわからなくなる。

 

§2 具体的なデータをみてみる

 

実際に新井氏によって提示されたランダム率のデータを見てみる。

NHKの「視点・論点」の中で提示された正答率とランダム率のデータは次のようなものだった。

f:id:rochejacmonmo:20180228052037j:plain

f:id:rochejacmonmo:20180228052040j:plain

新井氏は、 同義文判定に関するランダム率の高さに言及していた。

しかし、この結果を見ると、たとえば高校2年生の同義文判定問題に対する正答率は81.0%であるにも関わらず、ランダム率は65.7%になっている。確かに同義文判定は問題の性質からして二択しかありえないため、正答率の期待値は他のカテゴリの問題よりも高くなる。それにしても、81.0%の正答率でランダム率65.7%は高すぎるのではなかろうか?

(仮に、ランダムより良いと判定された35%程度の受検者がみな満点だったとしても、平均の正答率が81%になるためには、少なくとも正答率70%程度の受検者が相当な数いて、しかもそれらの受検者は全員「ランダムより良いとは言えない」と判定されていることになる、ように思われる。)

 

 なお、『AI vs. 教科書が読めない子どもたち』の中にもより詳細なデータが載っている。

f:id:rochejacmonmo:20180228053843j:plainf:id:rochejacmonmo:20180228053845j:plain

 私がこうした疑問を抱くのは、NIRAオピニオンペーパーNo.31に新井氏と尾崎幸謙氏が執筆した「デジタライゼーション時代に求められる人材育成」という文章のデータと比較したからでもある。

http://www.nira.or.jp/pdf/opinion31.pdf

この文章の中で紹介されたデータは、次のようなものだった。

f:id:rochejacmonmo:20180228053431j:plain

 このデータでは、同義文判定のカテゴリで、中3でも正答率74.7%に対しランダム率41.8%である。

ランダム率というものをどのように計算しているのかはわからないし、データが増えていくにつれて正答率やランダム率が多少上下しうることはわかるが、この違いは大きすぎるのではなかろうか?

 

§3 新井氏とのやりとり

以上の観点について、新井氏に質問した。

https://twitter.com/RochejacMonmo/status/932325837482770432

新井氏からの回答は次のようなものだった。

お尋ねがあったのでお答えします。
RSTは半年に一回それまでのデータを全部再計算して結果を公表しています。そのため、発表時期によって、正答率、ランダム率は異なります。
ランダム率は、選択肢の数によりますが、複数選択の場合、真にランダム(ベースライン)を計算してもかえって意味がないことがあるため、解答状況を分析しつつ、「どのあたりをベースライン(ランダム)に設定するのが適切か」を統計的に検討した上で、ベースラインを定めた上で、それより統計的に有意によいかを検討しています。

 NIRAは2016年、視点・論点や『AI vs....』で述べられているデータはより新しい2017年のデータだということだと思うのだが、ランダム率が大きく乖離していることの説明として読み取れるのは、「解答状況を分析」するということだけに見える。よくわからなかったので、

同義文判定について、NIRAのペーパーと現在のデータとでは、解答状況に何らかの変化が生じ、ベースラインが上がったという理解でよいでしょうか?正答率はそれほど変化していないにも関わらずベースラインを大きく引き上げるような「解答状況」の変化とはどういうものなのでしょうか?

https://twitter.com/RochejacMonmo/status/932486980067213312

 などと再質問してみたが、いまのところ返答はないように思う。

 

§4 よくわからないので教えてほしい

新井氏が「視点・論点」の中で述べた

同義文判定の列を見てください。なんと、中学3年生の7割が「サイコロを投げるよりまし、とはいえない」のです。

は衝撃的だと思う。しかし上で見てきたことからは、少なくとも私は「ランダム率」というものをどう受け取ってよいか判断が付きかねている。同義文判定以外のカテゴリにおける「ランダム率」をどれだけ重大なこととして受け取らなければならないかが良くわからない。

新井氏は、『AI vs...』の中で、

私たちは「ランダム率」という新しい概念を編み出しました。(p.213-214) 

と述べている。もしこれが本当に今までにない新しい「量」なら、定義を厳密に述べてほしい。また単純な正答率ではなく、受検者の正答率の分布を示してもらう方が状況が理解できるようになるのではないか。

いずれにしても現時点では、私は「ランダム率」をどう扱えばよいかわからない。残念ながら私には統計的リテラシーがないので、造詣のある方から、何らかの示唆が得られると大変ありがたく思う。