ランダム率について新井紀子氏に説明を望むこと

 新井紀子氏が中心となって行っているリーディングスキルテストについて、特に「ランダム率」の観点から2つの記事を書いた。

これらの記事に対してかどうかはわからないが、新井氏がツイッター上でランダム率についての追加説明を行っている。以下のツイートとその返答連鎖から読める。

 私は、これらの説明を読んでも、上の2つの記事で書いた疑問点は解消されないと考える。以下にまとめる。

 

 「同義文判定」におけるランダム率は、NIRAペーパーで公表された2016年のデータ、RSTパンフで公表された2018年のデータに比して、
NHK視点・論点」および著書『AI vs....』中で公表された2017年のデータが突出して高い値を示している。

 ランダム率を計算するモデルはまだ正式な論文とはなっていないようだが、
Proc. 39th Annual Cognitive Science Society Meeting (CogSci 2017) 1556-1561
に述べられている"RSG"の説明を参考にすると、2択問題の場合、回答数が十分に確保されていないと、正答率が高いにも関わらずランダム率も高い値になることが予想される。

 従って、2017年のデータには、少なくとも同義文判定問題に対するランダム率を算出するためには不十分な回答数しかない回答者が比較的多数いた可能性がある。

 新井氏は、ランダム率と回答数の関係については発表する際に注意をしていると述べているが、少なくとも「視点・論点」における説明の中にそうした注意喚起の文言はない。

 また新井氏は、統計的に不十分な項目については公表していないと述べているが、2016・2017・2018年のデータはいずれもペーパーや番組・著書、パンフなどで公表されたデータである。にもかかわらず、同義文判定におけるランダム率は、2017年のみ異常に高い。

 しかも新井氏は、「視点・論点」の中で、ランダム率に言及する際、回答数との関係でもっとも気を使わなければならないはずの2択問題を中心に構成される「同義文判定」カテゴリのランダム率に特段の言及を行い、「中学生の7割がランダムより良いとは言えない」と解説した。

 

 以上のことから、新井氏は、

 まず第一に、「視点・論点」および著書『AI vs. ...』の中で公表した2017年のデータにおいて、同義文判定問題に回答した回答者が十分な問題数を解答していることを示す根拠を示すべきである。

 第二に、もし2017年のデータにおいて、同義文判定問題の回答数が統計的に十分なだけ確保されているとするならば、2016年と2018年のデータとして公表されたものとの著しい乖離の原因が何であるのかについて十分な説明をするべきである。

 

 この2点が十分に説明されない限り、RSTの受検者、特に学生の受検者の能力について実態と異なる言明をしたことになり、その責任は重大である。特に教育政策や研究評価においてすでに十分影響力のある立場にいる新井氏が、不十分な議論や解釈に基づいた議論を行うことは問題が大きい。

 何点か付言する。
 新井氏は、正答率・ランダム率・能力値の3つの指標をつかっていると述べているが、少なくとも「視点・論点」の中では能力値については言及がない。
 また、たとえばランダム率を計算する際の棄却域を95%に設定するのか90%に設定するのかはある程度恣意的に選べる状況にある。こうした棄却域の設定次第でランダム率が大きく変化するようだと、ランダム率そのものの妥当性が疑われる。これはベースラインの設定についても同様である。
 新井氏が述べている「複数選択の場合、すべての選択の在り方を考慮してランダム率を計算すると、逆に実態とは大きく異なり、ランダム率が不自然に低く出ます。」というのは以前にも行われた説明を補充したものであるが、具体的にどういう状況がありうるのか全く例示がないのでどのように評価すればよいか不明である。
 新井氏は、いずれ統計班が論文を出すだろうとの見通しを述べているが、本来論文が公表できる段階になって初めてプレスリリースとなるべきではないのか。妥当性が十分に検証できない統計的なデータをもとに非常に強い主張をすることは研究者の発言として必ずしも看過できるものではない。社会的にも影響力のある立場であることを考慮して慎重な発言を望みたい。