2006年8月13日
TOEICは絶対評価なのか相対評価なのか:TOEIC界の権威は絶対評価説
10から990までのスケールで示されるTOEICスコアは、全部で200ある問題の正答数を直接反映するものではありません。ですからいくつか間違ったのに990(いわゆる満点)ということがざらにあります。それだけにわかりにくいとも言えますが、私に言わせれば、そもそもTOEICスコアは、TOEIC という部分社会における順位表であり、「860〜990はNon-Nativeとして十分なコミュニケーションができるレベル」から始まって「10〜220はコミュニケーションができるまでに至っていないレベル」という計5つの区分も、順位表に基づく独特の階級です。
そして順位表であれ、それに基づいての階級の区分であれ、一般社会とは異なる部分社会での約束事を前提にしているので、TOEIC界では、「Non-Nativeとして十分なコミュニケーションができる」階級に属していても、実社会では、英語でかかってきた電話一本取れないということが起きます。統計技術を駆使して設計された特殊な試験のこれまた目一杯統計技術が盛り込まれた特殊な評価がTOEICスコアだというのが私の理解です。
もとより「だからTOEICなんか駄目だ、やめとけ」と申しあげるつもりはありません。その限界をわきまえた上で、勉強の目安として使う分にはそれなりに有用なツールです。ただ、このスコアの意味が格別論じられることのないまま、英語能力の判定基準として独り歩きしているのが気になるので、スコアの意味合いを知っておいてもいいのではないかと感じています。特に絶対評価だとする向きが多いだけに余計気になります。
このようなTOEICスコアにつき、本家本元(www.toeic.or.jp )がどう説明しているかと言うと、正確を期しているのか、親切なのか、ともかく原英文をカッコ書きで示しながら、「スコアは正答数そのままの素点(Raw Score)ではなく、標準化(Equating) と呼ばれる統計処理によって算出された換算点(Scaled Score)です」となっています。つまり、受験した人やTOEICのスコアを英語力と同視する人は、単にスコアと言っているものの、正確には、
(a) 個々の設問での正誤による「素点」
(b) これの換算プロセスである「標準化」
(c) プロセスの結果である「換算点」注:日本言語テスト学会の言語テスティング用語集を見ると、ここで言う「標準化」は「等化」、「換算点」は「尺度得点」としていますが、何かしっくりこないので、この用語で行きます。
という、三つの要素から成っており、これがTOEICスコアの中身だ、ということになります。
一方、本家に当たる www.toeic.org にある同様の説明を見ると、Scores on the TOEIC test are determined by the number of correct answers. The number of correct responses on each section is converted to a scale score.(TOEICのスコアは正答数で決まりますが、各セクションにおける正しい解答は 換算点に変換されます)ということです。となると日本のTOEICが "scaled score" と呼び、本家の方が "scale score" と呼ぶ、この換算点は何ぞやということになります。
そこで調べてみたところ、 ミシガン州政府が教育関係で使われる統計用語を解説したマニュアル では、「(一次データの変形である)二次データの一種で、スケーリングと称されるプロセスから導かれたもの。換算点は、相異なるレベルや様式のテストを通じて連続性のあるスコアスケール[リスニングの得点は 0 - 30 という得点可能な範囲のこと]にそった得点を示し、異なる受験者グループどうしを直接比較できるようになる。これはテストが実施された年や実施されたテストのレベル、様式に左右されることもない(すなわち時系列で並べて比較するのに適している)こうした換算点は、パーセンタイルランクや評価段階値(grade equivalents)と異なり、刻み値が等間隔となっているので、足したり、引いたり、平均を求めることができる。換算点は、標準得点 (standard score) とも言う」とありました。
受験者の得点つまり一次データをそのまま使えばよさそうなものですが、TOEIC の場合、単純に正答率でスコアを出さないのかと言うと、TOEICの制作業者であるETSみずから、TOEIC(R) From A to Z (2003) の8ページで言うとおり TOEICが norm-referenced test (集団参照基準テスト)だからです。
「相異なるレベルや様式のテストを通じて連続性のあるスコアスケールにそった得点を示し、異なる受験者グループどうしを直接比較する必要があるということです。受験者の成績を比較の対象である別の母集団と比べて、今回受験したこの人の成績を母集団でのランキングに置き換えるための共通の尺度として、換算点が用いられるという理屈です。
もともと集団参照基準テストの場合、受験者の得点分布は正規分布つまりベルカーブを描くように出来ています。 テスト理論の大御所、Lyle F. Bachman が Fundamental Considerations in Language Testing (OUP) で言うように、If the NR test is properly designed, the scores attained will typically be distributed in the shape of a 'normal' bell-shaped curve. (しかるべく作られた集団参照基準テストであれば、テストにおける得点は典型的には「正規分布曲線どおりの」ベルカーブにそくした分布を見せる」のです。それに基づいて受験者をランキングして選別しようというのがこの手の本来の狙いなのであり、ベルカーブの下の横軸にそって、得点の最上位から最下位までを100分割した場合、カーブの一番右側の所にあるスロットより左側には99個のスロットが並ぶことになるわけで、これを利用して、「どちらが上か」を簡単に判定できるようパーセンタイル(100分位数)が用いられます。
その意味でTOEICの成績通知にパーセンタイルが載っていること自体、相対評価による選別タイプのテストである何よりの証拠です。対照的に、運転免許試験のような何ができるか、一定以上の技量があるかをチェックする能力判定テストの場合なら、まるで運転できない人が集まったテストで、君は80パーセンタイルだから合格とするわけにはいきませんから、端的に達成度を示す正解率をパーセンテージで表します。(事実、相対評価での選別を行う、norm-referenced test ではパーセンタイルを使い、試験範囲の事項をマスターしたかをチェックし、能力を判定する、criterion-referenced test ではパーセンテージを使うというのは、テスト関連の資料で両者を見きわめる上のポイントとしてよく出てきます)
現行 TOEIC の毎回の受験者が一体誰と比較されているんだと思われるでしょうが、この点については、TOEICの日本での元締めである財団法人国際ビジネスコミュニケーション協会の広報責任者が 北大のチャップマン先生によるインタービューの中で、次のように明言しています。
TOEIC test scores are reported on a scale which was instituted on the first TOEIC test administration. (TOEICスコアは、初回TOEIC当時に確定されたスケールに則っています)
今回、こういった点数を取っている人は、あの初回のTOEIC当時のスケールで評価すると、このスロットに収まっていたから…と仕分けされるのです。ただ、実際は、正答数がそのまま使われるのではなく、統計学的処理が行われる「ブラックボックス」、しかも内容が公開されていないプロセスを経ているので正確な分類か否かは知るよしもありません。
以上を要するに、TOEIC自体、一定の母集団との対比で毎回の受験者の得点が仕分けされるという norm-referenced test であるため、正答数といった「素点」がそのまま使われるのではなく、統計的な処理によりそれを換算して、母集団でのランキング上、どこに相当するのかをはじきだしているのです。運転免許試験のように受験者本人の能力だけを見てことを決めているのでなく、他との対比で成績が決まるわけで、その意味で、どう見ても「相対評価」です。
★ TOEICは絶対評価だと主張する人たち
以上で見たとおり、制作業者みずから、TOEIC は norm-referenced test であるとし、相対評価型の選別テストであることを認めている上、スコアの算出法の説明の中で、得点が正規分布する、つまりベルカーブを描くことを前提とする標準テストに特有の概念である scale scoreないし scaled scoreを持ち出しているのに、TOEICは絶対評価なのだと見る方々もいらっしゃいます。思うにその原因は、受験者のスコアが各回のテスト内容で乱高下しないようにするために使われている equating という統計技術にあるようです。その点はあとで説明するとして、けっこうおもしろいので、TOEICは絶対評価だ、いや、相対評価だという、この論争をざっと見ておきたいと思います。
そもそもこういう問題が起きるのはTOEICの評価というかスコアの出し方が理解されていないからでしょう。理解されていないと言うか、誰も強いて関心を持たないと言ったほうがいいのかも知れません。私の知っている受験経験者たちも、単純に最終的な数字で一喜一憂しているだけで、正解した数とスコアの関係などどうでもいいようです。
それはともかく、TOEIC受験界の権威である中田達也さんに「勘違い」と怒られている 「TOEICスコアは偏差値?’は、こう説明しています。
一番多い勘違いが "1問5点" という勘違いです。TOEICにはリスニングセクション、リーディングセクションそれぞれ100問ずつあり、満点が495点。さらに5点刻みということで "1問5点"と勘違いする方が多いのです。そこでよく"なんで500点満点じゃないんですか? それとも99問正解なら満点ということですか?"という質問をよく受けます。
次に多い勘違いが"パート1は1問3点、パート4は1問7点"というように難易度によって配点があるという勘違いです。これも間違えで、パート1の1問もパート4の1問も価値は同じなんです(少なくともそういうことになっています)。
実はTOEICの点数は1問何点という方式ではないんです。"TOEICの点数は偏差値みたいなもの"と考えると分かりやすいと思います。
この記事(中田さんはACEと呼んでいます)につき、中田達也さんは、 「TOEICスコアは偏差値のようなものって本当?」という記事で、「ACEやダン上野氏のHP」などいくつかのインターネットの英語学習サイトでは、TOEICのスコアは偏差値のようなものですといった解説をしているものがあるようで、例えば、ACEの作者によれば、TOEICのスコアに関しては『勘違い』している人が多いということですが、悲しいことに、『TOEICのスコアは偏差値のようなもの』というそのサイトの解説自体が『勘違い』です」と厳しい批判を加えています。
この中田さんは、以下のような表を引き合いに出して、あるスコアの人は次に受けても実力が同じである限りスコアの水準は変わらないから、その意味で、 TOEICスコアは「絶対評価」と断言されています。ここまで思い切ったことを言えるからこそ、TOEIC受験界で信奉者が多いのだと改めて感心します。
それはともかく、おっしゃるには、「一方で、『絶対評価』の指標の1つであるTOEICスコアは、受験者がどのくらいの英語力を持っているかを示」すのであり、「自分以外の受験者のレベルが高いと平均点が高くなり、自分以外の受験者のレベルが低いと平均点が低くなるが、自分以外の受験者のレベルが高くても・低くても、点数のとりやすさは変わりません」とのこと。言い換えれば、各回の具体的テストの難易度に拘らず、スコアが600レベルの人であれば、次回のテストが難しく、他の人の出来が悪くても、逆に、やさしくて、他の人の出来がやたらよくても、実力が変わらない以上、600は600だとおっしゃっていると解されます。
860〜990は「Non-Nativeとして十分なコミュニケーションができる」レベル
730〜860は「どんな状況でも適切なコミュニケーションができる素地を備えている」レベル
470〜725は「日常生活のニーズに充足し、限定された範囲では業務上のコミュニケーションができる」レベル
220〜465は 「通常会話で最低限のコミュニケーションができる」レベルです。
10〜220は「コミュニケーションができるまでに至っていない」レベルです。
そして、この記事では、TOEICスコアと偏差値とは違うんだよと例を出しながら説明した上、「600点のレベルに達している学習者が受験すれば、周りの受験者の実力には係わらず、常に600点というスコアが得られます。言い換えれば、TOEICのスコアは偏差値ではなく、受験者がどのくらいの英語力を持っているかを示す『能力値』です」という論法で、TOEICスコアは相対評価ではなく、絶対評価に基づくものだと説明されています。要するに、偏差値とは違うんだという点、受験者本人の実力が変わらない限り、スコアも変わらないようになっているという点の二つをもって、TOEICは絶対評価だと論じてらっしゃるわけです。
なるほど偏差値は相対評価の一つのやり方でしょうが、偏差値とは違うんだ、だからTOEICは絶対評価だというのは飛躍があると感じます。相対評価によるテストのすべてが偏差値方式で成績を示すわけではないからです。また、スコアが一定となるよう仕組まれているというのは、毎回の具体的テスト内容が違っていても、統計技術を用いて実質的に同じテストを受けているのと変わらないようにし、スコアの一貫性を確保しているだけの話で、これも絶対評価か、相対評価かの問題とは次元の違う話です。あとで見るとおり、ある回のテストが前回より難しいか、易しいかでスコアが変化しないようにし、比べられるようにしているだけで、これは絶対評価であれ、相対評価であれ、どちらの形式のテストでも使われうる「技術」です。
長くなってきたので、今回はこのぐらいにし、次回、TOEICスコアを確定する三つの要素、素点、換算点、そして equating のうちの最後、「スコアの同一化」とか「標準化」あるいは「得点等化」と訳される、この equating がどういうものかを見てからひとまず話を終えたいと思います。
[つづく]
・
・
・
![]()
人気ブログランキングに参加しておりますので、このリンクをクリックすることで一票入れてくださると、うれしい限りです。深夜零時に再スタートするしくみなので、前回、投票してくださった方も、新たな一票をお願いします。どうぞよろしくお願いします。人気blogランキングへ
- [TOEICのはなし]
- Comments (4)
- Trackbacks (0)
Trackbacks
Trackback URL:
Comments
> おっしゃるとおり、中田さんのような方がIRTの中身をご存じないはずもありませんから、
中田さんは2005年11月に公開された記事ですでにIRTについて解説されていらっしゃいますので、IRTの内容をふまえたうえでのご説明だと思います。
http://allabout.co.jp/study/toeic/closeup/CU20051121A/index.htm
[返信]
おしえてくださり、ありがとうございます。実は中田さんとは以前、一度ランチをご一緒したことがあり、緻密ぶりに感心したことがあります。ですから、当然、この程度のことには通じてらっしゃるだろうなと思っておりました。
- Conta
- 2006年8月22日 22:49
私はデータ解析を専門とする通りすがりですが、
中田さんの解説は、IRT(項目反応理論)によるTOEICの仕組みを知った上での、素人さん向けの解説である、という印象を持ちました。
理屈を省略すれば、誤解も生まれます。
平易な解説は、言葉が足りないことで、場合によっては少しの嘘と理解されることがあります。
TOEICの得点が相対評価か絶対評価の議論では、「母集団」と「たまたまある一回のテスト受けた集団(統計学では標本といいます)」という概念を理解する必要があるのではないでしょうか。
ここでの母集団は、たとえば、実施される国や第何回かといったことを超えて想定される、相当数に大きな集団です。そこでの相対評価を考えて調整を行うからこそ、TOEICの得点は安定的であると言えます。
一方、一回こっきりで、たまたまできる人ばかりが受けたTOEICの得点が、一回だけの結果だけに基づいて相対的に評価されたら、厳しい結果になってしまいます。
ですので、一回こっきりではなく、母集団を考えて、「今回はたまたまできる人だけが受けている」といったことをも考慮に入れて調整するのが、TOEICで利用されているIRTというテスト理論なわけです。
ですから、受験者の「感覚」としては、絶対評価のように感じるかもしれない、ということです。
(みんながほぼ満点であれば、一回だけの結果で算出した偏差値なら、90点でも評価が下がってしまいますが、そうではない、という意味で、絶対評価的な性質がある、といっているのだと思います。)
ただし、正確な定義上の絶対評価は、「みんなができる子であれば、全員よい評価をつける」ということになります。
TOEICでは、一回こっきりの標本での評価をみれば、そういうことが起こりえますが、母集団の分布上は、そういったことが絶対に起こりえない仕組みとなっています。
母集団という概念や等化という作業についての専門的な知識を持ち合わせている立場で言えば、TOEICは相対評価としかいえません。
しかし、標本だけを捕らえて感覚だけで答えるなら、絶対評価的な印象を持つかもしれない、な、と思いました。
[返信]
おっしゃるとおり、中田さんのような方がIRTの中身をご存じないはずもありませんから、やさしく解説しているうちに、何だか危なっかしい言い方になってしまったということでしょうか。いずれにしろ、短いコメントながら中身が濃く、味わいながら勉強させていただきました。ありがとうございます。また、ぶらりと立ち寄ってください。こちらの勘違いもあるでしょうから、そういったものを遠慮なくチェックしてください。
- 匿名
- 2006年8月17日 10:12
「偏差値」への私の理解がそもそも乏しいのですが・・・(~~;)、
> 「600点のレベルに達している学習者が受験すれば、周りの受験者の実力には係わらず、常に600点というスコアが得られます。言い換えれば、TOEICのスコアは偏差値ではなく、受験者がどのくらいの英語力を持っているかを示す『能力値』です」
周りの受験者の実力でスコアが変わってしまうのを防ぐために、各受験者が「初回のTOEIC受験者」と同時に受験したと仮定した場合の「偏差値」を算出していたはずでは? 「周りの受験者の実力でのスコアの変動」よりも、「試験の難易度によるスコアの変動」がないことが、(過去の先生の記事に表れた)TOEIC側の主張だったはずで、それは「偏差値」の持つ特性そのものだと思うのですが、違うのでしょうか?
それより、そのTOEIC側が主張する「難易度のバラツキの影響の調整」に、「周りの受験者の実力」の影響を受ける「最高点」や「最低点」を利用してしまっているように(以前の先生の記事で参照された)TOEIC側の記事からは思えるのが気になります。単に過去2回分遡ってequatingしているから「最高点」や「最低点」に与える「周りの受験者の実力」の影響を薄められる、というだけなんでしょうか・・・(スミマセン、以前のコメントと同趣旨のままで~~;)。
一方、「能力値だ」と言いたいがために「偏差値(のようなもの)ではない」と主張するのと同様、「(絶対評価でなく)相対評価なのだから英語能力を測ることにはならない」という主張も、やはりピントがずれているように思います。1mm刻みの身長を持つ多くの人間を集めて比較対象とすれば、「相対」評価により身長の絶対値を測れます。TOEICでは、「初回TOEIC当時に確定されたスケール」(←この言葉の意味がまだ謎ですが)が、この「1mm刻みの身長を持つ多くの人間」に相当するのだと思いますが、違いますでしょうか?
[返信]
スコアの変動のないことと偏差値との関係については不勉強で知りません。最高点や最低点が実際にどのように扱われるかはブラックボックスの中のことなので、これ以上踏み込む勇気がありません。ネットでcriterion referenced と norm referenced を対比した記事はいくらでもありますが、そういったものをご覧になればわかるとおり、相対評価による選別を目的とする norm referenced 型のテストでは、その人があることができるか否かを判定できません。そのことを指して、「相対評価なのだから英語能力を測ることにはならない」と書いたつもりですが、どうも書き方がへたくそだったようで、反省しています。
- conde
- 2006年8月14日 22:34

まだTOEIC = IRTだと思っている人がいたのか・・・