2006年8月15日
(続)TOEICスコアは絶対評価なのか相対評価なのか
前回見ましたとおり、TOEIC受験界の権威、中田達也さんは、「600点のレベルに達している学習者が受験すれば、周りの受験者の実力には係わらず、常に600点というスコアが得られます」とおっしゃっていますが、これは、テストの実施回によって同一レベルの受験者の成績が極端に変わらないようにするための「標準化」という統計技術を踏まえてのご発言と見受けられます。
この「標準化」というのは、600レベルの受験者にとり、ある回のテストが相対的にやさしく、したがって、まわりの受験者の出来もいいときは、よりたくさん正答しないと600レベルにランキングされないようにする一方、次の回のテストがむずかしく、まわりの受験者も概ね出来が悪いときは、前回より少ない数の正答数でも600レベルにランキングされるようにするという統計技術のことです。受験回としては異なる別のテストの結果を共通の尺度で語れるよう、実質的な同一性を担保する技術と言えそうです。
例えば、財団法人国際ビジネスコミュニケーション協会(TOEICの日本での実施団体)の広報責任者は、北大のチャップマン先生のインタピューに答えて、 こう説明しています。
For example, a candidate taking one version of the test may need to answer 88 items correctly to receive a scale score of 450, while a candidate taking another version of the test may need to answer only 85 items correctly to receive the same scale score. This indicates that the first candidate's test form was easier than the second candidate's test form. (例えば、一人の受験者がある回のテストで換算点として450獲得するために88問正答しなければならないとします。他面、別の回に実施されるテストにおいて別の受験者が同様に450獲得するための正答数としては85問で足りるということがありえます。これは88問の正答を要した回のテストが85問で済んだ回のテストよりやさしかったことを意味しています)
制作業者のETSが出している2003年版のTOEIC(R) A to Z(英文) にも「標準化」の説明が載っていますが、「この問題が出たら、解答はこれ」と暗記してスコアを上げようとする向きへの対策として、回によって設問の内容を変えるようにしているそうです。ところが、受験回によって内容が実質的に異なるとあっては、別の回の受験者どうしのスコアを比較できなくなってしまうので、それが可能となるよう、前2回の試験内容と実質的に同じものとなるよう工夫し、異なる受験回を比べるときでも、600という標準得点なら、どの回でも600は600と、実質的意味が変わらないようにしていると言います。
私の知っているところでは、こうした標準化のためには、項目反応理論または項目応答理論と呼ばれる統計手法に基づく操作がポピュラーなようです。「第10回何とかテスト」の実施を例に言えば、この設問の難易度は上、あの設問の難易度は下というふうに、先行するテストの結果、難易度が予めわかっている設問を混ぜておき、次いで、そのテストの結果を、比較対照の基準として決めてある「第7回何とかテスト」の得点に換算し、共通の尺度として使えるスコアを求めることで、異なるテストの結果についても実質的には同一視できるようになり、相互比較が可能になるという理屈です。
どうしてこんなことが可能かと言えば、テストの研究が進むに応じて、「能力レベルが X と判定される受験者がこの設問に正答する確率は X」ということがわかってきているからです。設問1につき、X レベルの受験者が正答する確率が半々と判定されたとして、X より高いレベルに設定した設問2では正答する確率は50%を下回る一方、逆に X より高めに設定した設問3での正答率は50%より高くなる計算です。そして、こうした属性のわかっている設問をいくつかテストにまぶしておけば、属性のわかっていない他の設問についても、受験者が正解に至る確率をはじき出せるというのですから、統計というのはすごいものです。
すごいと言えば、項目反応理論を使った標準化のアプローチとしては、上の難易度に着目した設問の「個性化」以外に、同じ設問につき、達人クラスと初心者クラスとで答え方がどう違うのか、あるいは、能力の低い人が当て推量で解答しようとする確率にまで注目して、個々の設問の属性を捉えようというものなど、いろいろとバリエーションがあるようです。
結局、テストにおける個々の項目つまり設問自体、難易度等で識別されるような「個性」が与えられているわけで、いわば項目ごとにウェイトづけが行われるというのが私の理解です。したがって、2人の受験者の正答数つまり単純な正解率がまるで同じでも、設問ごとの換算値が異なる結果、最終的なスコアでは違った結果にもなりえます。
こう見てきますと、標準化なる統計技術のおかげで、ある回で600レベルのスコアを達成した人は、次の回でも、つまり、具体的なテスト内容が異なっている回でも、統計技術上は実質的に同一のテストを受けているも同然なので、実力が上がっていない以上は、スコアが上がることはないように仕組まれているということです。そうとすれば、それは飽くまでも形式的に異なるテストの結果を比較できるようテスト内容の実質的同一性が担保されているというだけの話であり、このことを持ち出して、「だからTOEICは絶対評価」なのだと断言するのはおかしいと考えます。
他面、実力が上がればスコアも上がるのですから、感覚としては多くの人にとり絶対評価と映るでしょう。こうなってくると何をもって絶対評価とするかという定義の問題になってしまいますが、それはそれとして、忘れてはならないのは、これはTOEICという部分社会でのスコアでしかなく、実社会ではそのまま通用しないということです。この点、愛知県立大学の Susan Gilfert は、 A Review of the TOEICという論文で、こう指摘しています。
Many examinees become expert in taking language tests, but do not learn how to use the language. Therefore, the authors maintain that TOEFL and TOEIC tests operate in an "artificial reality." The tests, when used alone, are valid and reliable in themselves, but not in a larger sense. Examinees who score well on these tests may have self-confidence in the language classroom, but using their language skills in the real world may be quite a different thing.(多くの受験者について言えるのは、言語テストの受け方はうまくなるかも知れないが、その言語を使うのがうまくなるわけではないということだ。そこで筆者は、TOEFLと言い、TOEICと言い、存立基盤がバーチャルリアリティーの世界の中だけにあると申しあげたい。こうしたテストは、テストそれ自体としては、測定すべきものを測定しており、測定効果の信頼性も認められるが、それ以上の意味はない。この種のテストのスコアが高い受験者は、語学のクラスでは自信をもって臨めるかも知れないが、実社会の中でその言語運用能力となるとずいぶんと話が違うということになりうる)
In theory, an examinee with a score of 650 would be expected to operate in a English-speaking business context better than a examinee with a score of 600. In the real world, examinees will be reading and generating faxes and reports, listening to and making presentations, and using the telephone. Examinees who excel in taking paper tests, yet are unable to use their language productively, will be at a loss in the real world.(理論上、スコアが650という受験者は、英語が使われているビジネス環境においてスコアが600という者より仕事ができるはずだ。しかし、実社会ではファックスや報告書を読んだり書いたりし、プレゼンターションを聞いたり、みずから行ったりし、また電話を使うわけで、ペーパーテストでの成績は優秀なのに言語を積極的に運用する能力が身についていない受験者は、途方にくれることんなる)
なお、前も申しあげましたが、私は決してアンチTOEICではありません。TOEICのスコア上昇を励みに英語を勉強するのはいいことだと思います。ただ、TOEICの本質や社会的影響力の是非を誰も問わないまま、それがどんどん肥大化しており、しかも、択一テストでコミュニケーション能力が向上するはずもないのに、TOEICスコアが高いとコミュニケーション能力や英語の運用能力が高いかのように受け止められている現状に不安を感じているのです。
・
・
・

またまたTOEICものになってしまいましたが、この記事、いかがでしたか?おもしろかったという方、役立ったという方、人気ブログランキングに参加しておりますので、新たな一票をお願いします。どうぞよろしくお願いします。ここをクリックすると人気blogランキングに一票はいります
- [TOEICのはなし]
- Comments (1)
- Trackbacks (0)
Trackbacks
Trackback URL:

日向先生
TOEICスコアのスコア算出法についての掘り下げたご解説、大変参考になりました。
TOEICはスコアを出すのにずいぶん複雑な統計処理をしているようですね。
そのおかげで回ごとに問題の難易度や受験者の学力に差があっても、得点がぶれないということでしょう。
それでもTOEICスコアは「何がマスターしたか」を示すものではなく、「スケール上の位置」を示す数値なので、相対的な性質のものです。
結果が数字で示されることがTOEICの魅力でもあります。
テスト結果が5点刻みの数字で表されることで、前回と比べてどれだけ上がったか下がったかが数量的に認識できます。
また他の人との比較で、どのくらい上だ下だということも一目瞭然です。
「英語力」という捉えにくい曖昧なものも「数字」に置き換えることで明確になります。
それが受験者の競争心や向上心を煽ります。
そもそも「英語力」を「数字」で表すこと自体、無理なことで、TOEICスコアが英語力、特にコミュニケーション能力を適切に示す指標となるかは大いに疑問です。
しかし、点が上がればうれしいし、下がれば悲しいという受験者の心理も私はよく分かります。
スコアの持つ意味まで考えず、数字だけ見て一喜一憂してしまうのが常です。
まあ、ゲーム感覚で点が上がった下がったと言っているうちはいいのですが、TOEICスコアが就職や昇進に係わってくると問題です。
企業の人事部の方にはTOEICスコアの持つ意味をよく理解した上で利用していただくことを願います。
神崎正哉
[返信]
一方で「点が上がればうれしいし、下がれば悲しいという受験者の心理」があり、他方で「、TOEICスコアが就職や昇進に係わってくると問題」だとされている点、このTOEIC問題とも言うべきものの本質を突いていると感じました。TOEICコースご担当の先生がおっしゃるだけあって実感もひとしおです。