Тестування

Суспільство 30 грудня 2023

1. Тести, їх класифікація

2. Напрями тестування
Застосування тестів
Технологія тестування
Переваги методу тестів
1. Стандартизація умов і результатів
2. Оперативність і економічність
3. Кількісний диференційований характер оцінки
4. Оптимальна трудність
5. Надійність
6. Справедливість
7. Можливість комп'ютеризації
8. Психологічна адекватність
Недоліки тестування
1. Небезпека «сліпих» (автоматичних) помилок
2. Небезпека профанації
3. Втрата індивідуального підходу, «стресогонність»
4. Втрата індивідуального підходу, «репродуктивність»
5. Відсутність довірчої обстановки
6. Втрата індивідуального підходу, неадекватна складність
Надійність тесту
Валідність тесту

Тести - це спеціалізовані методи психологічного діагностичного дослідження, застосовуючи які можна отримати точну кількісну або якісну характеристику явища, що вивчається.

Від інших методів дослідження тести відрізняються тим, що: 1) передбачають стандартизовану, вивірену процедуру збору та обробки даних, а також їх інтерпретації; 2) за допомогою тестів можна вивчати і порівнювати між собою людей, давати оцінки їх психології та поведінці.

1. Тест-опитувальник заснований на системі заздалегідь відібраних і перевірених з точки зору їх валідності та надійності питань, за відповідями випробовуваних, на які безумовно можна судити про їх психологічні якості.

2. Тест-завдання передбачає оцінку психології та поведінки людини не на основі того, що вона говорить, а на базі того, що вона робить. У тестах цього типу людині дається серія спеціальних завдань, за підсумками, виконання яких судять про якість, що вивчається.

Тести-опитувальники та тести-завдання - застосовні до людей різного віку, що належать до різних культур, що мають різний рівень освіти, різні професії та неоднаковий життєвий досвід. Це позитивна риса даних тестів.

Недолік полягає в тому, що при використанні їх випробовуваний при бажанні може свідомо вплинути на отримувані результати, особливо якщо він знає, як влаштований тест і яким чином за його результатами будуть оцінювати його психологію і поведінку.

Тести-опитувальники та тести-завдання є непримінними в тих випадках, коли вивченню підлягають властивості та характеристики, в існуванні яких випробовуваний не може бути повністю впевнений, не усвідомлює чи не хоче визнавати їх наявність у себе. Такими характеристиками є, наприклад, багато негативних якостей і мотивів поведінки, інші властивості, наявність яких засуджується.

3. Проективні тести зазвичай призначені якраз для вивчення тих психологічних і поведінкових особливостей людини, які їм слабо усвідомлюються або викликають до себе з її боку вкрай негативне ставлення.

В основі проективних тестів лежить механізм проекції, згідно з яким не усвідомлювані людиною позитивні і особливо негативні характеристики він схильний приписувати не собі, а іншим людям, «проектувати» їх на інших.

При застосуванні тестів подібного роду про випробовуваного судять на основі того, як він оцінює ситуації, інших людей, які властивості їм приписує.

Користуючись проективними тестами, психологи вводять випробовуваних у невизначену ситуацію, з якої вони повинні самостійно знайти вихід. Такими ситуаціями можуть бути:

1) пошук певного сенсу в сюжетно-невизначених картинах;

2) завершення незакінчених пропозицій;

3) оцінка поведінки та вчинків незнайомих людей у неясних ситуаціях тощо.

Тести проективного типу:

1) пред'являють підвищені вимоги до рівня освіченості та інтелектуального розвитку випробовуваних, і в цьому полягає їх основний недолік;

2) вимагають при їх застосуванні високої професійної кваліфікації психолога і великого досвіду роботи.

Всі розглянуті методи дослідження можна використовувати для збору даних про психологію і поведінку людей як в реальному житті, так і в спеціальних експериментальних умовах. Через безліч причин, які можуть вплинути на психологію і поведінку людини, і те, що в звичайних умовах ці причини важко контролювати, психологи протягом останніх 40-50 років частіше зверталися до експерименту як найнадійнішого засобу отримання достовірної інформації про вивчення явищ.

2. Напрями тестування

Ідея квантування як відрізка розрізнення була дуже евристичною. Її сприйняли і почали застосовувати для розробки об'єктивних методів оцінки практично у всіх напрямках психології.

В основі методу об'єктивної психологічної оцінки лежить тест (або проба), який може являти собою:

1) стимул певної модальності, якщо це психофізичне дослідження;

2) завдання різного рівня складності, якщо це педагогічна психологія;

3) завдання, пов «язані з дослідженням уваги, пам» яті, кмітливості тощо у загальній та віковій психології.

Для того, щоб ці тести (проби) могли дати об'єктивні та вимірювані дані, вони попередньо перевіряються на великому числі випробовуваних. Наприклад, у педагогічній психології - на дітях одного віку або людях одного рівня освіти тощо.

При цьому з усіх запропонованих завдань відбираються ті, які успішно вирішуються значною кількістю всіх випробовуваних (наприклад, двома третинами).

Ця процедура називається нормуванням, або визначенням «норми». З нею згодом порівнюються рішення тих випробовуваних, знання, вміння і навички яких вимірюються.

Результати цих вимірювань оцінюються в умовних балах (або в рангових оцінках), об'єднаних у шкалу порядку і зазначених, яке місце даний випробовуваний міг би зайняти по відношенню до відповідної групи випробовуваних (тобто до «норми»).

Завдання психологічних тестів, таким чином, - виміряти відмінності між індивідами або між реакціями одного іда в різних умовах. Вирішення цього завдання призвело до розвитку диференційної психології. Велике значення психологічних тестів і для інших напрямків психології.

Кількість і різноманітність різного роду тестів, опитувальників і шкал в даний час величезна. А починалося тестування з розробок Ф. Гальтона (1822-1911), який першим їх:

1) застосував для вимірювання психічних властивостей;

2) розробив методи математичної статистики для аналізу даних за індивідуальними відмінностями.

Надалі помітний внесок у розвиток психологічного тестування зробили роботи Джеймса Кеттела (1860-1944) з його «розумовими тестами», які містили вимірювання м'язової сили, швидкості руху, чутливості до болю, гостроти зору і слуху, часу реакції, пам'яті тощо.

Виміром пам'яті у школярів займався Г. Еббінгауз (1897).

У Франції в 1908 р. свою першу шкалу розумового розвитку для дітей створили А. Біне і Т. Сімон.

Коли США вступили в Першу світову війну, під керівництвом Р.М. Йеркса (1876-1956) були розроблені армійські так звані «альфа і бета тести», що дозволяють відібрати придатних до військової служби осіб. Згодом ці тести неодноразово перероблялися і стали зразком для більшості групових тестів інтелекту. Тестування отримало потужний стимул для свого розвитку, і незабаром були розроблені групові тести інтелекту для різного віку і рівнів освіченості (від дошкільнят до аспірантів). Їх почали широко використовувати в школах, коледжах. Коефіцієнт інтелекту враховувався при прийомі до навчальних закладів та на роботу. Однак незабаром стало ясно, що застосовувані тести є дуже грубим інструментом і область їх застосування досить обмежена. Проте вони широко поширені, продовжують вдосконалюватися і застосовуватися для різних цілей.

Поряд з тестами інтелекту у відповідь на запити практики виникли також тести досягнень. Їх ще називають тестами об'єктивного контролю успішності: шкільної, професійної, спортивної тощо. Від різних типів контролю знань і вмінь (усних і письмових) ці тести відрізняються своєю формою. Учням пропонується питання, відповідь на яке в декількох варіантах представлена на цьому ж бланку. Одна з відповідей вірна, решта - ні. Потрібно відзначити вірну відповідь. При підготовці тестів досягнень практикується експертна оцінка знань, яка проводиться паралельно з тестуванням. Коли тест відпрацьований і стандартизований, необхідність у цьому відпадає. На жаль, застосування тесту досягнень обмежене лише тією областю знань, яка піддається формалізації.

Застосування тестів

Як методичний інструмент тести широко використовуються в сучасних дослідженнях. Однак перш ніж вирішити, який із сотень наявних тестів може бути застосований для дослідження, психолог задається питанням:

1) яка мета тесту?

2) для якої групи осіб він краще підходить?

3) чим він відрізняється від інших методів вивчення індивідуальності людини?

4) наскільки відповідально він конструювався?

5) наскільки він точний?

6) наскільки адекватні і дійсні його результати?

Від кожного вимірювального інструменту потрібно, щоб він був якомога точнішим, щоб на отримані результати можна було покластися як на дані, близькі до «справжньої» величини вимірюваної ознаки. Отже, точність можна розуміти як міру достовірності, з якою тест вимірює її. Існує ряд джерел похибок, які знижують точність тестів і надійність результатів. До них належать:

1) несприятливі умови тестування;

2) недостатня увага до стану випробовуваних у момент випробування;

3) неправильна поведінка експериментатора;

4) суб "єктивність у витлумаченні результатів тесту.

Окрім обліку та усунення джерел похибок, надійність тесту (тобто його узгодженість) підвищують за допомогою повторного випробування з подальшим обчисленням коефіцієнта кореляції між даними першого та другого тестування. Подібна ретельна і об'єктивна перевірка надійності тесту необхідна психологам, щоб знати, для яких цілей і в яких межах його можна застосовувати.

Поряд з надійністю до тесту пред'являється вимога валідності, або адекватності. Валідність - це ступінь, в якій тест є інструментом, що вимірює те, для чого він призначений.

Для встановлення валідності зазвичай потрібен незалежний зовнішній критерій щодо того, що тест має виміряти. Наприклад, якщо тест призначений для вимірювання схильності до ризику, то він може бути валідизований перевіркою цієї схильності в групі мотогонщиків, каскадерів тощо. Сукупність таких зовнішніх показників ризику буде критерієм, з яким слід співвіднести вихідні тестові показники ризику. Далі визначається коефіцієнт валідності за допомогою коефіцієнта кореляції. При конструюванні тестів застосовується ще цілий ряд спеціальних статистичних процедур, що дозволяють зробити тест більш чутливим і надійним інструментом.

При роботі з тестами слід зазначити також і етичний аспект. Використання, проведення та інтерпретація психологічних тестів обов'язково повинні йти під контролем кваліфікованого психолога. У руках недобросовісного або некомпетентного експериментатора тести можуть завдати серйозної шкоди. Особливо це стосується особистісних тестів або опитувальників, у зв'язку з чим важливо запобігти доступності їх змісту для будь-якого бажаючого.

Описані вище базові методи досліджень, а також методи вимірювання та тестового оцінювання індивідуальних відмінностей лежать у підставі багатьох сучасних об'єктивних методів емпіричних досліджень. До основних з них належать методи опитування, проективне та відображеної суб'єктивності.

Технологія тестування

Метод тестів є одним з основних у сучасній психології. За рівнем популярності в освітній та професійній психодіагностиці він міцно утримує перше місце у світовій психодіагностичній практиці вже фактично протягом століття.

Домовимося розуміти під тестами в цьому розділі технології, що складаються із серії завдань з вибором з готових варіантів відповіді. При підрахунку балів з тесту обрані відповіді отримують однозначну кількісну інтерпретацію та підсумовуються. Сумарний бал порівнюється з кількісними тестовими нормами, і після цього порівнюються стандартні діагностичні висновки.

Переваги методу тестів

Популярність методу тестів пояснюється наступними головними його достоїнствами.

1. Стандартизація умов і результатів

Тестові методики відносно незалежні від кваліфікації користувача (виконавця), на роль якого можна підготувати навіть лаборанта із середньою освітою. Це однак не означає того, що для підготовки комплексного висновку щодо батареї тестів не треба залучати кваліфікованого фахівця з повноцінною вищою психологічною освітою.

2. Оперативність і економічність

Типовий тест складається із серії коротких завдань, на виконання кожного з яких потрібно, як правило, не більше півхвилини, а весь тест займає не більше години (у шкільній практиці це один урок); тестування одночасно піддається відразу група випробовуваних, таким чином, відбувається значна економія часу (людино-годин) на збір даних.

3. Кількісний диференційований характер оцінки

Дробність шкали і стандартизованість тесту дозволяють розглядати його як «вимірювальний інструмент», що дає кількісну оцінку вимірюваним властивостям (знанням, умінням в даній області). Хороший тест дозволяє розрізняти не тільки три категорії учнів - відмінників, «середнячків» і «хвостистів», а й добре диференціювати випробовуваних на полюсах шкали - відрізняти просто здатних від дуже здібних і талановитих, а серед тих, хто відстає, відрізняти небезнадійних від «безнадійних» (або абсолютно непідготовлених). Крім того, кількісний характер тестових результатів дає можливість застосувати у випадку тестів добре розроблений апарат психометрії, що дозволяє оцінити, наскільки добре працює даний тест на даній вибірці випробовуваних в даних умовах.

4. Оптимальна трудність

Професійно зроблений тест складається із завдань оптимальної труднощі. При цьому середній випробовуваний набирає приблизно 50 відсотків з максимально можливої кількості балів. Це досягається за рахунок попередніх випробувань - психометричного експерименту, або пілотажу. Якщо в ході пілотажу стає відомо, що із завданням справляється приблизно половина з обстежуваного контингенту, то таке завдання визнається вдалим і його залишають у тесті.

5. Надійність

Це, можливо, найголовніше гідність тестів. «Лотерейний» характер сучасних іспитів з витяганням «щасливих» або «нещасливих» квиточків давно став притчею во язицех. Лотерейність для того, хто екзаменується тут, обертається низькою надійністю для екзаменатора - відповідь на один фрагмент навчальної програми, як правило, не показова для рівня засвоєння всього матеріалу. На відміну від цього будь-який грамотно побудований тест охоплює основні розділи навчальної програми (тестованої галузі знань або проявів якогось вміння або здібності). В результаті можливість для «хвостиків» вибитися у відмінники, а для відмінника раптом «провалитися» різко скорочується.

Назвемо також ряд достоїнств, які в логічному сенсі є наслідками, похідними від перерахованих вище, але заслуговують самостійної згадки.

6. Справедливість

Справедливість є найважливішим соціальним наслідком перерахованих вище достоїнств методу тестів. Її слід розуміти як захищеність від упередженості екзаменатора. Хороший тест ставить всіх випробовуваних в рівні умови. Найбільш сильно суб'єктивізм екзаменаторів проявляється, як відомо, не в трактуванні рівня вирішеності завдання (не так просто можна назвати чорне білим, вирішене завдання - невирішеним), а в тенденційному підборі завдань: своїм - легше, чужим - важче. У введенні до цього посібника вже говорилося, що саме тести забезпечують найважливішу функцію школи як соціального фільтра, функцію «соціально-професійної селекції». Те, наскільки справедливою виявляється подібна селекція, має гігантське значення для розвитку суспільства. Тому так важливо всім, хто має доступ до тестів та їх результатів, вчитися культурі грамотного та гуманного їх застосування. Бо тільки сумлінне і кваліфіковане ставлення користувачів до тестів перетворює їх на інструмент, що підвищує, а не знижує рівень справедливості в суспільстві.

7. Можливість комп'ютеризації

В даному випадку це не просто додаткова зручність, що скорочує живу працю кваліфікованих виконавців при масовому обстеженні. У результаті комп'ютеризації підвищуються всі параметри тестування (наприклад, при адаптивному комп'ютерному тестуванні різко скорочується час тестування). Спеціально підкреслимо, що комп'ютеризація - це потужний інструмент забезпечення інформаційної безпеки (достовірності діагностики). Комп'ютерна організація тестування, що передбачає створення потужних інформаційних «банків тестових завдань», дозволяє технічно запобігти зловживанням з боку недобросовісних екзаменаторів. Вибір завдань, що пропонуються конкурентному випробуваному, може виробляти з такого банку сама комп'ютерна програма прямо в ході тестування, і пред'явлення даному випробовуваному певного завдання в цьому випадку є таким же сюрпризом для екзаменатора, як і для випробовуваного.

8. Психологічна адекватність

Це найважливіший психологічний наслідок оптимальної складності. Наявність у тесті (порівняно з традиційними екзаменаційними варіантами) великої кількості коротких завдань середньої труднощі дає багатьом випробовуваним (особливо тривожним, не впевненим у собі) шанс «зачепитися», повірити в себе, активізувати психологічно оптимальну установку «на подолання». Адже коли такий випробовуваний залишається обличчям до обличчя з однією-двома дуже складними і великими завданнями і не бачить, як можна з ними впоратися взагалі, то він падає духом і не розкриває всіх своїх можливостей. А якщо завдань багато і частина з них явно починає «піддаватися» (випробовуваний впевнений, що він з ними впорається), людина в процесі тестування підбадьорюється і починає «боротися» за максимальний результат. Вже згадана нами властивість оптимальної складності важлива для тесту тим, що вона забезпечує не тільки вимірювальну (різноманітну) силу тесту, а й оптимальний психологічний настрій випробовуваних. Людина не є пасивним об'єктом вимірювань при тестуванні (подібно гирі при зважуванні), а вона завжди гостро емоційно реагує на тест. Тестова ситуація оптимальної складності є оптимальним збудником - люди відчувають нормальний рівень стресу (напруги), необхідний для того, щоб показати найвищий результат. Брак стресу (у разі легкого тесту), а тим більше надлишок (у разі важкого) спотворюють результати вимірювання. Цього, як правило, абсолютно не розуміють організатори наших конкурсних іспитів, які намагаються в разі високого конкурсу дати абітурієнтам завдання складніше («на засипку»), що створює надлишковий стрес, який не дає можливості проявити себе людям, підготовленим добре, але мають знижену стресостійкість.

У багатьох країнах впровадження методів тестування (так само як і опір цьому впровадженню) тісно пов'язане з соціально-політичними обставинами. Впровадження технічно добре оснащених тестових служб в освіті - найважливіший інструмент у боротьбі з корупцією, що вражає правлячу еліту (номенклатуру) в багатьох країнах. На Заході тестові служби працюють незалежно від «випускаючих» (школи) та «приймаючих» (ВНЗ) організацій та постачають абітурієнта незалежним сертифікатом за результатами тестування, з яким він може відправлятися до будь-якого закладу. Ця незалежність служби тестування від приймаючих і приймаючих організацій є додатковим чинником демократизації процесу селекції професійних кадрів у суспільстві, що дає талановитій і просто працездатній людині зайвий шанс проявити себе.

Однак все перераховане вище не означає, що метод тестів не володіє деякими досить серйозними недоліками, що не дозволяють звести всю діагностику здібностей і знань виключно до тестування.

Недоліки тестування

Як завжди, певні недоліки методу тестів є продовженням його достоїнств.

1. Небезпека «сліпих» (автоматичних) помилок

Сліпа віра низькокваліфікованих виконавців в те, що тест повинен спрацювати правильно автоматично, породжує іноді важкі помилки і казуси: випробовуваний не зрозумів інструкцію і став відповідати зовсім не так, як вимагає стандартна інструкція, або з якихось причин застосував спотворюючу тактику, виник «зсув» у додатку трафаретки-ключа до бланку відповідей (при ручному, некомпьютерному підрахунку балів) і т. п. Мораль - користувач не повинен підходити до тесту з «магічною установкою», ніби ця чарівна «чорна скринька» повинна завжди працювати справно без жодного контролю з боку людини.

2. Небезпека профанації

Це ефект діяльності «профанів» в буквальному сенсі слова. Не секрет, що зовнішня легкість проведення тестів приваблює людей, непридатних до кваліфікованої праці. Оснастившись тестами, їм самим незрозумілої якості, але з гучними рекламними назвами, профани від тестування агресивно пропонують свої послуги всім і вся. В результаті всі проблеми передбачається вирішувати за допомогою 2-3 тестів - «на всі випадки життя».

До кількісного тестового бала приклеюється новий ярлик - висновок, що створює видимість відповідності діагностичному завданню. Ходовий приклад - повальне використання клінічного тесту MMPI для відбору кадрів у нашій країні. У цьому випадку високий бал за восьмою шкалою "Шизофренія" інтерпретується як "оригінальність мислення", за четвертою шкалою "Психопатія" - як "імпульсивність" і т. п. Думка про те, що нормальний здоровий випробуваний насторожується при вигляді багатьох питань MMPI, в яких відверто називаються психіатричні симптоми ("Я часто чую голоси" і ")

Ще раз підкреслимо, що недобросовісна профанація та елементарне невігластво йдуть в області тестування рука об руку.

3. Втрата індивідуального підходу, «стресогонність»

Тест - сама загальна «гребінка», під яку підганяють всіх людей. Можливість втратити унікальну індивідуальність нестандартної людини (тим більше дитини), на жаль, досить ймовірна. Це відчувають самі випробовувані, і це їх нервує - особливо в ситуації атестаційного тестування.

У людей зі зниженою стресостійкістю виникає навіть певне порушення саморегуляції - вони починають хвилюватися і помилятися в елементарних для себе питаннях (просто через «мандражу»). Вчасно помітити таку реакцію на тест - завдання, яке під силу кваліфікованому виконавцю.

4. Втрата індивідуального підходу, «репродуктивність»

Тести знань апелюють, насамперед, до стандартного застосування готових знань. Відсутність можливості розкрити свою індивідуальність за наявності стандартних, заданих відповідей - нічим не заповненний недолік методу тестів. З точки зору виявлення творчого потенціалу більшість тестів досить обмежені саме тим, що вони не апелюють до творчої, конструктивної діяльності. У всякому разі, окремі стандартизовані творчі тести мають справу з досить абстрактним матеріалом, а тести досягнень (знань), адаптовані на життєво важливому матеріалі (професійно релевантному), як правило, виконані у формі стандартного набору завдань із заданою відповіддю.

5. Відсутність довірчої обстановки

Бездушний і формалізований характер процедури тестування, звичайно, обертається тим, що випробовуваний позбавляється відчуття того, що психолог зацікавлений в ньому особисто, в тому, щоб допомогти йому. Діалогічні методи (бесіда, гра тощо) в цьому плані мають безсумнівні переваги: безпосередньо спілкуючись з випробуваним, кваліфікований психолог може встановити довірчий контакт, проявити персональну участь, створити атмосферу, що знімає напругу і захист.

6. Втрата індивідуального підходу, неадекватна складність

Іноді некваліфіковані «тестологи» обрушують на дитину тести занадто важкі, складні для її віку. У нього ще не склалися необхідні поняття і понятійні навички, щоб адекватно осмислити як загальну інструкцію до тесту, так і сенс окремих питань. Ми вже говорили про драматичні казуси різкої недооцінки розумового розвитку дітей при застосуванні вербальних тестів. Але багато «невербальних» тестів також вимагають розвитку мовного мислення хоча б для осмислення того, що говорить дорослий у своїй інструкції. Альтернатива «дорослому» тестуванню в дитячій психології - ігровий підхід до тестування, коли тест включається в контекст гри, і дитина виконує його наче граючись.

Таким чином, тести не можна робити єдиним вичерпним методом будь-якої діагностики (і освітньо-професійної, і особистої). Вони вимагають паралельного використання вільних письмових робіт (в особистісній діагностиці місце творів займають проективні тести з вільною відповіддю), а також усної співбесіди (інтерв'ю). Тобто місце тестів - доповнювати зазначені вище традиційні методи. У цій якості тести незамінні, оскільки не мають багатьох недоліків, властивих традиційним методам.

Спокійне раціональне усвідомлення достоїнств та недоліків методу тестування звільняє всіх (виконавців, замовників, які випробовуються) як від надмірних сподівань на метод тестів, так і від зневаги до нього.

Найкраща гарантія від профанів і профанації - серйозний і кваліфікований інтерес до того, яку експериментально-наукову роботу виконали розробники тесту, як повно ця робота і її результати відображені в супутній документації. Це насамперед питання надійності, витривалості та репрезентативності.

Надійність тесту

Надійність - одна з трьох головних психометричних властивостей будь-якої вимірювальної психодіагностичної методики (тесту). Надійність - це помехостійкість тесту, незалежність його результатів від дії всіляких випадкових факторів. До числа таких факторів слід віднести:

різноманітність зовнішніх матеріальних умов тестування, що змінюються від одного випробовуваного до іншого (час доби, освітленість, температура в приміщенні, наявність сторонніх звуків, які відволікають увагу тощо);
динамічні внутрішні чинники, по-різному діючі на різних випробовуваних під час тестування (час так званої «вироблюваності» - виходу на стабільні показники темпу і точності дій після початку тестування, швидкість стомлення тощо);
інформаційно-соціальні обставини (різна динаміка у встановленні контакту з психологом або лаборантом, що проводить тестування; можлива наявність інших людей у приміщенні; наявність попереднього досвіду знайомства з даним тестом; наявність якогось знання і ставлення до тестів тощо).

Різноманітність і мінливість всіх цих факторів такі великі, що вони обумовлюють появу у кожного випробовуваного непрогнозованого за розмірами і напрямом відхилення - виміреного тестового бала від істинного тестового бала (який можна було б в принципі отримувати в ідеальних умовах). Середня відносна величина цього відхилення визначається як «стандартна помилка вимірювання» (Se). Величина помилки вимірювання вказує на рівень неточності або ненадійності тестової шкали (спеціально підкреслимо, що в психометричній теорії надійність і точність виявляються синонімами).

Помилка вимірювання (Se) і надійність вимірювання (R), згідно з загальноприйнятою психометричною теорією, пов'язані наступною формулою:

R= 1 – S e2/ S_x2, (1)

де Sx - дисперсія тестових показників Х.

Формула (1) є суто теоретичною, і на її основі не можна визначити ступінь надійності тесту, оскільки величина Se виявляється також невідомою величиною. Тому на практиці застосовують кореляційні методи. Найвідоміший з них - метод перетестування (тест-ретест), або метод вимірювання ретестової надійності. На одній і тій самій вибірці випробовуваних (не менш ніж 30 осіб, які беруть участь у пілотажному психометричному експериментальному дослідженні) проводять перше тестування Х, а потім повторне тестування Y. Інтервал, як правило, - два тижні, що гарантує забування питань тесту.

де S_X, S_Y - стандартні відхилення Х і Y;

Cov (х, y) - підступність двох змінних Х і Y.

У цій книзі ми не ставимо за мету навчити студентів-педагогів кореляційним методам і намагаємося викласти лише принципову суть справи. Ті, хто цікавиться, знайдуть усі необхідні формули та обчислювальні приклади в будь-якому підручнику зі статистики, а також у спеціалізованих виданнях з психодіагностики та психометрики («Загальна психодіагностика», 1987; Клайн, 1994).

Що важливо для суті теорії надійності тестів, так це можливість визначити помилку вимірювання після того, як підрахована кореляція «тест-ретест» за формулою (3), отриманою шляхом простого перетворення формули (1):

S_e = S_x Ч V1 - R. (3)

Таким чином, якщо стандартне відхилення в тесті склало 10 очок (середнє відхилення, яке в середньому допускають випробовувані від середнього бала для вибірки), а кореляція «тест-ретест» виявилася рівною лише 1,5, то помилка виміру виявляється дуже великою:

S_e = 10ЧV1-0,5 "7,1. (4)

Тобто виявляється, що помилка вимірювання перекриває більшу частину розкиду тестових показників, оскільки справжній бал за тестом може відхилятися від виміреного бала на цілих 7 очок! І якщо випробовуваний набрав на 6 очок більше, ніж «середній» випробовуваний, ми не можемо з достатньою впевненістю (статистичною достовірністю) говорити про те, що він значимо перевершив середнього випробуваного, так як це відхилення виявляється в межах стандартної помилки вимірювання.

Таким чином, низька кореляція результатів тесту між першим і повторним тестуванням говорить про те, що випадкові фактори суттєво спотворюють результати тесту. Це означає, що тест не володіє необхідною помехостійкістю і його не можна використовувати як вимірювальний інструмент.

Показник надійності R, який прийнято вважати досить високим, дорівнює або перевищує 0,95. Хоча в особистісних тестах часто користуються значно менш надійними тестами з показниками 0,8-0,9.

Метод вимірювання «ретестової надійності» придатний тільки для психічних властивостей, стабільних у часі. Надійність тестів на психічні стани та динамічні установки особистості не можна перевірити таким чином. У цьому випадку застосовують різні методи «розщеплення» тесту на окремі пункти, освітлення яких виходить за межі справжнього посібника

Валідність тесту

Відповідність тесту вимірюваній психічній властивості називається валідністю тесту. Це, без перебільшення, найважливіша психометрична властивість тесту. Якщо висока надійність тесту говорить нам про те, що тест дійсно «щось» вимірює, то висока валідність вказує на те, що тест вимірює саме те, що ми хочемо. Звичайно, на валідність тесту також негативно впливають випадкові фактори. Тому в психометриці прийнято наступну основну психометричну нерівність:

ВАЛІДНІСТЬ < НАДІЙНІСТЬ,

що означає, що валідність не може перевищувати надійності тесту.

Але на відміну від надійності, крім випадкових факторів, на валідність тесту впливають систематичні фактори. Вони привносять систематичні спотворення в результати. Ці фактори є інші психічні властивості, які заважають проявитися в результатах тесту тій властивості, на яку тест спрямований.

Наприклад, ми хочемо вимірювати "п