Каталог Рефератов - Дипломная работа: Особенности статистической оценки качества теста диагностики индивидуального прогресса учащихся общеобразовательной школы


	Главная \| Карта сайта


	РАЗДЕЛЫ


	ПАРТНЕРЫ


	АЛФАВИТ

... А Б В Г Д Е Ж З И К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Э Ю Я


	ПОИСК

Дипломная работа: Особенности статистической оценки качества теста диагностики индивидуального прогресса учащихся общеобразовательной школы

Задача первого среза заключалась в первичном опробовании массива разработанных тестовых заданий. Поэтому на этом этапе статистические методы не использовались.

Задачей второго и третьего срезов являлось как получение данных об учащихся, так и статистическое подтверждение качества тестовых задач.

Для проведения соответствующего анализа были отобраны данные двукратного выполнения одного и того же набора заданий одними и теми же учащимися. То есть, по сути, была применена процедура повторного тестирования и сопоставления результатов двух идентичных срезов. При этом, для сохранения возможности сравнения данных, полученных на разном предметном материале (математика, физика и т.д.), из выборки исключались учащиеся, которые выполняли тест не полностью (например, решали задания по математике, но не решали по физике).

В итоге общая выборка испытуемых составила 4106 человек, из них 734 человека – учащиеся начальной школы и 3372 – учащиеся основной школы [15].

Напомним, что нас будет интересовать тест по математике в основной школе, в апробации которого участвовало 1140 учеников.

Решая вопрос о валидности теста, авторы исходили из того, что в данном случае говорить о содержательной валидности не имеет смысла, поскольку измеряемый объект (компетентность) на сегодня не имеет устоявшегося общепринятого описания. В то же время, поскольку в основу построения тестового инструмента положена специально разработанная для данного проекта теоретическая схема, желательна проверка ее адекватности. В литературе такого рода валидность теста называется конструктной, или концептуальной. Для проверки конструктной валидности авторами было сформулировано несколько гипотез относительно возможных результатов тестирования, которые были подвергнуты эмпирической проверке. Рассмотрим их:

1. Уровни заданий положительно связаны с мерой их статистической трудности.

2. Тестируемый параметр (мера опосредствования) имеет тенденцию прогрессировать и повторное тестирование (при достаточном временном интервале) должно фиксировать прирост результатов.

3. Результаты тестирования по разным предметам специфичны и не должны сильно коррелировать между собой.

4. Результаты тестирования с помощью данного инструмента не должны сильно коррелировать с данными классических тестов умственного развития типа ШТУР [15].

При проверке первые две гипотезы являлись основными, вторые две – вспомогательными. Для проверки гипотез вычислялся ряд первичных характеристик для теста. Главной целью статистической обработки на данном этапе было подтверждение или опровержение гипотез для проверки конструктной валидности.

Для проверки третьей и четвертой гипотез вычислялся коэффициент корреляции между достижениями по разным предметам, который показал, что корреляция является незначительной. Это означает, что школьные достижения предметно специфичны, и для получения полной картины продвижения ребенка необходимо учитывать весь набор основных предметов.

Помимо соотнесения результатов по разным предметам были подсчитаны корреляции между результатами второго среза и данными, полученными с помощью теста ШТУР (Школьный тест умственного развития – для основной школы и «Словесные субтесты» - для начальной школы). Результаты показали, что корреляция не поднимается до сильной или очень сильной. Это однозначно свидетельствовало о том, что методика ШТУР, методика «Словесные субтесты» и тесты ИП измеряют не один и тот же параметр и не взаимозаменяемы.

Таким образом, третья и четвертая гипотезы подтвердились.

Для проверки второй гипотезы была разработана авторская методика на определение линейного и уровнего прогресса. Линейный прогресс авторы определяли как изменение количества решенных задач данного уровня от среза к срезу. Другими словами, насколько больше или меньше задач заданного уровня (первого, второго, третьего) решил учащийся на очередном срезе. Уровневый прогресс определялся как переход учащегося с одного уровня опосредствования на другой.

Суть методики заключалась в то, что, во-первых, учащийся подтверждает уровень мышления и понимания, во-вторых, делается прогноз на прогресс.

Так как с разработанными материалами было проведено два среза, методику не удалось реализовать. Но, однако, по этой методике можно было утверждать, подтвердил учащийся уровень мышления и понимания или нет.

Согласно этой методике, авторы использовали данные двух срезов тестирования. Полученные результаты согласовывались с теоретическими представлениями. Данный метод не имеет аналогов, поскольку связан с новой концепцией.

Остановимся подробнее на первой гипотезе: уровни заданий положительно связаны с мерой их статистической трудности.

Для проверки первой гипотезы был введен показатель достижение учащегося (), который представляет собой отношение количества правильно выполненных заданий теста к общему числу заданий из данного набора. Было определено численное значение этого показателя для трех разных наборов задач каждого теста:

a. - общее число задач теста;

b. - суммарное число задач 2-го и 3-го уровней;

c. - число задач 3-го уровня.

Как уже отмечалось ранее, тест по математике имеет свою специфику, а именно количество , (общее число задач каждого уровня соответственно) рассчитывается, а не дано натурально (не совпадает с числом заданий в тесте). То есть,

числа заданий в тесте,

(сумма заданий 1-го, 2-го и 3-го уровней будет больше числа заданий в тесте).

Такие задания, которые учащиеся могут решить на разных уровнях называются уровневыми и при обработке они рассматриваются как несколько разных заданий. То есть, если учащийся решает задание на самом высоком уровне, то автоматически ему зачитывается, что он решил ее на более низких уровнях. (Приложение 2, задачи серии «Мозаика»).

Затем авторами были определены средние значения указанных показателей:

a. , где - количество задач первого уровня;

b. , где - количество задач второго уровня;

c. , где - количество задач третьего уровня.

Эти величины выражают точки сгущения достижений учащихся (в унимодальном распределении).

Для выяснения нормальности распределения вычислялся еще один показатель стандартное отклонение. По критерию «3-х сигм» определялась нормальность распределения, что свидетельствовало о достоверности результатов.

Также был использован показатель трудности теста в целом. Для того чтобы охарактеризовать этот показатель использовались средние значения, которые, как мы уже выяснили, показывают смещенность точки сгущения (Рис.1). Интерпретация этого показателя следующая: чем больше смещение влево, тем тест труднее для данной группы учащихся [25]. Для данной ситуации по отношению к задачам 2-го и 3-го уровней тест сложный, а по отношению ко всем заданиям теста – средней сложности.

Трудный тест Средний тест

Легкий тест

Рис.1 Определение трудности теста в целом

Теперь рассмотрим показатель трудности по отношению к задаче и проанализируем его. Авторы определяют показатель трудности как отношение количества решивших задачу к общему числу испытуемых (сколько процентов учащихся решили задачу из всех). Также авторы используют такой показатель как индекс трудности и определяют его как величину обратную трудности.

Показатель трудности характеризует не саму задачу, а ее по отношению к ситуации тестирования. Это показатель вычисляется для всех тестов, но вычисляется в зависимости от специфики теста. Если для классических (однородных) тестов показатель трудности принимает значение более 80% или менее 20%, то это говорит о том, что задачу решают или не решают почти все испытуемые. В таких случаях задачи исключают из теста. В тесте диагностики ИП наоборот, если измерять уровень задачи, то надо понять что задачи 1-го уровня должны решать больше, а задачи 3-го уровня меньше. Поэтому авторы назначают следующие диапазоны:

1. Если задачу решают от 50% до 100% испытуемых, то она является задачей 1-го уровня;

2. Если задачу решают от 10% до 50% испытуемых, то она является задачей 2-го уровня;

3. Если задачу решают менее 10% испытуемых, то она является задачей 3-го уровня [15].

Авторы отмечают, что трудность относительная характеристика, и она может меняться постоянно. Для проверки первой гипотезы вычислялась трудность задания. Если уровень, назначенный экспериментально, совпадал с уровнем, назначенным статистически, то задание оставляли в тесте. Если уровень не совпадал, то задание, либо убирали из теста, либо дорабатывали.

Для того чтобы различать учащихся на разных уровнях, вычислялась дифференцирующая способность. Но эта характеристика распознает только то, что сложное задание должны решать сильные. Коэффициент дискриминативности выражает меру сбалансированности задачи. Поясним это на примере. Проанализируем данные по двум задачам из теста по биологии (Таблица 3).

Задача II.3.3. Иногда летом в закрытых водоемах происходит замор рыбы. Укажите, какие факторы способствуют этому явлению?

А) Повышение температуры воды; Б) Понижение температуры воды; В) Чрезмерное размножение водорослей; Г) Недостаточное размножение водорослей

1) А+В

2) А+Г

3) Б+В

4) В+Г

Задача II.1.7. Придаточные корни отрастают:

1) от листьев

2) от стебля

3) от листьев и стебля

4) от главного корня

Введем следующие обозначения для показавших уровень:

0 – не показал уровень;

1 – сохранил/вышел на1 уровень;

2 – сохранил/вышел на 2 уровень;

3 – сохранил/вышел на 3 уровень.

Задача II.3.3 с коэффициентом дискриминативности 0,508 по показателю трудности (42%) соответствует 2 уровню. Процент решивших задачу от числа учащихся каждой группы возрастает. Это говорит о том, что чем выше «качество мышления» у группы, тем больший процент учащихся в группе решает эту задачу.

Теперь рассмотрим процент решивших задачу от всех испытуемых. Здесь можно наблюдать то, что, в основном, эту задачу решили те, кто показал 3 уровень (учащиеся 3-й группы).

Задача II.1.7 с коэффициентом дискриминативности 0,226 по показателю трудности (32%) соответствует тоже второму уровню. Можно было бы даже сделать вывод о том, что она сложнее задачи II.3.3. Процент решивших задачу от числа учащихся каждой группы показывает последовательность 42,19,35. Получается, что, чем выше у группы «качество мышления», тем меньшая доля учащихся этой группы решает данную задачу. Процент решивших задачу от всех испытуемых показывает, что, в основном, эту задачу решили те, кто показал 1 и 3 уровень (учащиеся 1-й и 3-й группы). А второй почти не решили. Получается, что сложность задачи остается непонятной - ее с равной вероятностью решают учащиеся и с низким и с очень высоким «качеством мышления». И, несмотря на то, что она, вроде бы, большей трудности, ее решает больший, чем предыдущую задачу, процент учащихся, показавших лишь первый уровень. Здесь можно предположить, что мыслящие на 1 уровне не воспринимают «ловушек» условия и решают задачу как стандартную, за счет знаний, и получают правильный ответ. Мыслящие на 3 уровне видят «ловушку» и успешно ее преодолевают, ну а те, кто на 2 уровне – уже видят, но еще преодолеть не могут. В таком случае надо что-то изменять в условии, чтобы, например, она стала либо уже задачей первого, либо третьего уровня. Получается, задача плохо сбалансирована и ее КД ниже нормы.

Таблица 3. Данные по задачам II.3.3 и II.1.7

		Задача II.3.3	Задача II.1.7
Коэффициент дискриминативности		0,508	0,266
Показатель трудности		42%	32%
% не решивших задачу от 358 (всех испытуемых)		58%	68%
% решивших задачу от 358 (всех испытуемых) и при этом показавших уровень (не считаются испытуемые с неправильной логикой)	0	1,12%	0,3%
	1	6,15%	13,4%
	2	3,91%	2,8%
	3	24,30%	13,4%
% решивших задачу от числа учащихся каждой группы (не считаются испытуемые с неправильной логикой)	0	4,5%	1,1%
	1	19,3%	42,1%
	2	26,9%	19,2%
	3	64,0%	35,3%

Таким образом, возникает проблема при статистическом подтверждении уровня задачи. Необходим новый метод (дополнительный критерий), который будет подтверждать уровень задания.

Первая гипотеза подтвердилась о том, что уровни заданий положительно связаны с мерой их статистической трудности, но характер ее сложный.

Вывод: анализ «Мониторинга индивидуального прогресса учебных действий школьников» [15] показал, что авторы использовали следующие статистические показатели:

· средние значения;

· стандартное отклонение;

· критерий нормальности распределения;

· коэффициент корреляции

Кроме того, вычислялись классические характеристики для тестов:

· трудность задания;

· индекс трудности;

· трудность системы заданий;

· достижение учащегося;

А также вычислялись специальные характеристики, которые являются классическими, связанные с определение линейного и уровневнего прогресса.

Заметим, что для анализа качества заданий не пришлось использовать классические характеристики валидность и надежность. Также при анализе было обнаружено, что показатель трудности задания не всегда адекватно подтверждает уровень задания.

§3.3 ИЗУЧЕНИЕ ВОЗМОЖНОСТЕЙ ПРИМЕНЕНИЯ КЛАССИЧЕСКИХ СТАТИСТИЧЕСКИХ МЕТОДОВ ДЛЯ ОЦЕНКИ КАЧЕСТВА ЗАДАНИЙ ТЕСТА ДИАГНОСТИКИ ИНДИВИДУАЛЬНОГО ПРОГРЕССА

В предыдущем параграфе мы отметили, что разработчики теста диагностики ИП почти не использовали классические методы при обработке заданий теста. По всей видимости, это связано с тем, что применение этих методов требовало решения отдельной задачи – адекватности применения методов в данной ситуации. Целью данного параграфа является ответ на вопрос, какие методы классической теории тестирования можно использовать для обработки заданий теста диагностики ИП. Перед нами будут стоять две основные задачи:

1. Рассмотреть возможности применения классических методов оценки валидности, надежности, дискриминативности к тесту ИП;

2. Выделить метод статистического подтверждения уровня задания.

3.3.1 О применении методов оценки валидности, надежности, дифференцирующей способности

Так же как и для обычных педагогических тестов, мы можем применять описательную статистику и для теста диагностики ИП. Как мы уже выяснили, основными показателями, характеризующими качество педагогического теста, являются валидность, надежность и дифференцирующая способность (дискриминативность).

Мы рассмотрели два метода нахождения валидности. Анализ показал, что оба метода мы можем использовать для теста диагностики ИП. Но, как уже говорилось ранее, данный тест имеет сложную трехуровневую структуру. Может сложиться такая ситуация, что сумма индивидуальных баллов будет больше у испытуемого, который решил все задания первого уровня, чем у испытуемого, который решил не все задания первого уровня, но решил задания второго и третьего уровней. Поэтому, первый метод вычисления валидности мы применить не можем.

Страницы: 1, 2, 3, 4, 5, 6, 7


	НОВОСТИ


	ВХОД


	ТЕГИ

Рефераты бесплатно, реферат бесплатно, курсовые работы, реферат, доклады, рефераты, рефераты скачать, рефераты на тему, сочинения, курсовые, дипломы, научные работы и многое другое.
Copyright © 2012 г. При использовании материалов - ссылка на сайт обязательна.