Методические критерии качества измерений в общественных науках

Образование и воспитание » Методические критерии качества измерений в общественных науках

Результаты измерений должны отвечать требованиям точности и надежности, зависящим от того, насколько значительно само измерение. Если мы должны принять решение, стоит ли нам садиться рядом с незнакомым человеком на время 20-минутной поездки в автобусе, то нам бывает достаточно беглого наблюдения, например: не слишком ли он толст для того, чтобы рядом с ним было удобно сидеть; отвечает ли его одежда нашим представлениям о чистоте; не придется ли нам дышать дымом его сигареты? В этой ситуации наше решение может быть легко пересмотрено. Однако, если мы в течение нескольких ближайших месяцев должны будем работать вместе с кем-то на заводе, тогда мы постараемся за короткий срок получить как можно больше информации об этом лице и, возможно, даже договоримся об испытательном сроке.

В педагогической диагностике также стараются определить качество результатов измерения. Разработаны соответствующие критерии, которые позволяют дать оценку качеству измерения. Важнейшими из них являются:

1) объективность,

2) надежность,

3) валидность.

Эти критерии представлены здесь по образцу классической теории тестов, так как она все еще имеет наибольшее практическое значение и ее критерий качества в принципе подходят и для других теорий тестов.

ОБЪЕКТИВНОСТЬ

Мы говорим об объективности измерения в том случае, если результаты измерения максимально независимы от исследователя или, иными словами, если различные исследователи при измерении одного и того же признака приходят к одному и тому же результату. Или, формулируя иначе, можно сказать: измерение считается объективным, если удается максимально исключить интерсубъектные воздействия исследователей.

Это требование в отношении ограничения, исключения или контролируемости субъективных воздействий со стороны исследователя на результат измерения имеет основополагающее значение для любой эмпирически ориентированной науки. Так как разные люди обладают различной чувствительностью к теплу, то очевидно, что на субъективных оценках этих людей, определяющих теплоту предмета, нельзя строить научного исследования цель которого — установление более точных различий в теплопроводности различных тел. Если результат измерения не позволяет определить, в какой степени он обусловлен признаками измеряемого предмета, а в какой — признаками самого исследователя, если можно предположить, что другой исследователь пришел бы к совершенно иному результату, то в таком случае результат измерения не дает права делать выводы, выходящие за рамки данного случайного факта. Мы обязаны всегда иметь это в виду, когда признаки других лиц оценивают люди, не имеющие специального диагностического образования и опробованных измерительных инструментов. Ранее нами обсуждалось, насколько необъективно оценивает преподаватель школьную успеваемость. Для того чтобы уменьшить субъективные воздействия при оценке аналогичных фактов, необходимо установить в процессе оценки как можно больше согласованных между собой рабочих этапов. Эти унифицированные шаги чаще всего входят в понятия "объективность проведения измерения", "объективность обработки данных" и "объективность интерпретации результатов измерения".

Объективность проведения измерений требует, чтобы все учащиеся "были подвергнуты одному и тому же испытанию в аналогичных условиях. Для этого унифицируются задания, время обработки заданий, пояснения к заданиям, допустимые вспомогательные средства и т. д. Естественно, можно добиться только того, чтобы все учащиеся работали лишь в приблизительно равных условиях, ибо все они всегда по-разному чувствуют себя и в различной степени испытывают чувство страха перед тестированием. Однако невозможность достичь совершенно идентичных условий для проведения измерений еще не есть повод для того, чтобы отказаться от попыток их унификации. Необходимо стремиться — насколько это возможно — к объективности проведения измерений, ибо только в том случае можно сопоставить поведение учащегося с его прежним поведением Или с поведением других учеников, если наблюдения проводятся в максимально сходных условиях.

Едва ли учителю придет в голову мысль считать сопоставимыми результаты работы по математике, если одна часть учеников могла пользоваться _ карманными калькуляторами, а другая нет, если одни учащиеся имели в -два раза больше времени для выполнения задания, чем другие, н т. д. Однако требования к объективности проведения измерений могут быть и более жесткими. Например, в сборниках диктантов часто унифицируются только тексты. В тестах, диагностирующих владение орфографическими норнами, напротив, дают точные указания о том, как произносится слово, когда и е каком классе проводится тестирование, какое время для него отводится. Помимо этого, устанавливается, каким образом должно проводиться тестирование, как следует диктовать предложение, сколько раз можно повторить одно слово. Учащиеся видят в предложенных ям тестах предложения с пропусками. Опущенные слова диктуются трижды: сначала пропущенное слово, затем все предложение и в заключение еще раз пропущенное слово. Магнитофонные записи могли бы в еще большей степени способствовать унификация условий проведения измерений, но в таком случае необходимо, иметь достаточное количество воспроизводящей аппаратуры одинакового качества.

Удалось ли в необходимой мере обеспечить объективность проведения измерений, обычно устанавливается экспертами после изучения постановки заданий, инструкций для учащихся и рекомендаций организаторам тестирования. Наблюдая за поведением организаторов тестирования во время проведения теста, можно определить, какие различия обусловлены недочетами в самих рекомендациях.

Объективность обработки данных часто вызывала особый интерес. Большинство исследований, посвященных недостаткам традиционной системы оценки успеваемости, ссылаются на отсутствие объективности при обработке данных, о чем можно прочесть в главе о письменных и устных экзаменах. Если, к примеру, разные учителя по-разному оценивают одну и ту же классную работу, то они оценивают ее необъективно.

Для придания большей объективности процессу обработки данных можно — в зависимости от требуемого поведения — действовать по-разному. Можно заранее, установить критерии наблюдения за поведением учащихся и научить пользоваться этими критериями того, кто производит оценку. Но можно также составить задания таким образом, что для их выполнения достаточно написать число, слово или поставить крестик. Составленные таким образом и снабженные ключами задания практически исключают расхождения при обработке данных. Подобные материалы могут обрабатывать даже машины. Гораздо труднее обеспечить объективность интерпретации результатов измерения. Об объективности интерпретации можно говорить в том случае, когда несколько лиц одинаковым образом интерпретируют одни и те же результаты обработки, данных, т. е устанавливают одни и те же взаимосвязи. Эти взаимосвязи могут иметь более или менее сложный характер. Результат тестирования может быть включен согласно имеющимся таблицам норм в список, отражающий успеваемость на соответствующей ступени обучения, или в соответствии с перечнем учебных целей в список, отражающий достигнутый уровень обучения. Однако может оказаться необходимым, чтобы директор школы взвесил, снабдил количественными индексами и оценил, к примеру, данные тестирования, определяющего готовность ребенка к школе, результаты наблюдения за поведением ребенка во время тестирования, заключение школьного врача, а также сведения, полученные от родителей, с тем чтобы на основании своей оценки принять решение о том, может ли ребенок посещать школу, необходимы ли ему дополнительные занятия, следует ли ему еще некоторое время посещать школьный детский сад или же необходимо обратиться к школьному психологу.

Чем разнообразнее подлежащая обработке информация и чем ее больше, чем труднее интерпретировать ее объективно, т. е. исключая интерсубъектные воздействия. При определении готовности ребенка к школе различные директора будут неизбежно иметь различные точки зрения о возможностях дифференциации на первых занятиях, о стимулирующем влиянии школьного детского сада и т. д. Полное исключение субъективных оценок означало бы изгнание из педагогики личностного момента, благодаря которому преподаватель оказывает педагогическое воздействие на оцененные тем или иным образом факты. Мы далеки от этой цели. Однако можно добиться того, чтобы те лица, которые дают опенку, были знакомы с проблематикой и старались сначала проанализировать данные, не высказывая своего мнения, обдумать альтернативные интерпретации и быть готовыми к проверке и пересмотру принятых решений. Тот, кто не стремится к объективности, тот в конечном итоге вступает на путь произвола. В то же время объективность, предполагающая унификацию материала, его обработки и оценки, всегда в определенной мере сужает возможности учеников. Каждый преподаватель русского языка знает, что ему легче сравнивать сочинения своих учеников, если он задает всего лишь одну тему. Ему также известно, что тем самым он ограничивает возможности, по меньшей мере, нескольких учеников. В каждом конкретном случае необходимо знать, что важнее.

Стремление к объективности целесообразно лишь в том случае, если существуют наиболее оптимальные решения или — по другим критериям — единственно возможные варианты решения. Практически это те же требования, которые предъявляются к экзаменационным результатам. Если же одна и та же тема предполагает множество различных и одновременно равноценных возможностей своего раскрытия, то в таком случае требовать объективности невозможно.

Если, к примеру, художники различных направлений пишут картину на один и тот же сюжет, если на одну и ту же тему сочиняются романы, драмы или новеллы, то разные лица, привлеченные в качестве экспертов, не смогут прийти к одинаковому заключению.

Измерение (и проверка!) не является в данном случае адекватным средством, ибо при наличии различных, хотя и принципиально равноценных, возможностей раскрыть тему нет условий даже для построения порядковой шкалы, другими словами, нет возможности последовательного распределения признаков в зависимости от степени их выраженности.

Здесь речь идет не об измерении, а об индивидуальной восприятии произведения искусства. Социальный аспект учебной ситуации также важен для значения объективности. Если учитель музыки дает уроки фортепьянной игры трем детям из одной семьи, то ему незачем стремиться к тому, чтобы его оценка успехов учеников совпала с оценками, которые могли бы дать этим детям его коллеги. Он должен поддерживать каждого ребенка в его развитии и поселить во всех детей уверенность в справедливом отношении к каждому из них. Совсем иначе складывается ситуация на обязательных занятиях в учебных классах, где достижение учебных целей связано с оценкой успеваемости. Здесь объективность имеет гораздо большее значение.

Объективность никогда не становилась самоцелью.

Она является только предпосылкой надежности и валидности измерений, но и это уже немало. Необъективное измерение не может быть надежным и валидным. Прочность здания зависит от его фундамента. Тот, кто отказывается от критерия объективности, отказывается и от критериев надежности и валидности. По этой причине должна быть отвергнута точка зрения, которую представляют Улих и Мертенс:

Под объективностью в этом смысле можно понимать стремление абстрагироваться при оценке от всевозможных социальных, личных и эмоциональных факторов, исключить их как "помехи", с тем чтобы прийти к наиболее объективной оценке. Как представляется, такая объективность требуется прежде всего от учителя; но при одном взгляде на то, что происходит в школе или классе, обнаруживается фиктивный характер этой объективности, расплывчатость которой мешает реализовать на практике то, к чему она якобы стремится, а именно справедливо оценить старании и трудности каждого отдельного учащегося. Место фиктивной объективности прежде всего должно занять понимание того, что оценивание не есть изолированный процесс, оно возникает в ходе коммуникативного взаимодействия всего класса как комплексное социальное мнение и продолжает действовать даже тогда, когда преподаватель уже забыл о поста и лен и он им оценке"

Эта точка зрения противоречит концепции объективности в рамках теории измерения. Мы ни в коем случае не преследуем цель проигнорировать включение оценки в комплексную социальную реальность или вовсе абстрагироваться от социальных, личных и эмоциональных факторов. При измерении какого-либо признака требуется всего лишь не допустить бесконтрольного влияния других факторов на результаты измерения.

Так, отдельные признаки должны быть охвачены по возможности изолированно друг от друга: с помощью одного теста изучается когнитивный признак, с помощью другого — социальный, с помощью анкеты — эмоциональная установка.

Тому, кто говорит только о комплексности и целостности, остается исключительно диффузная и субъективная позиция. Улих и Мертенс, очевидно, имели в виду объективность интерпретации.

Однако именно педагогическая диагностика должна научить нас тому, что констатация и оценка или измерение и интерпретация должны быть максимально отделены друг от друга, чтобы ни одна констатация не была окрашена субъективной оценкой.

Надежность

Под надежностью, или релиабильностью, измерения понимается степень надежности, или точности, с какой может быть измерен тот или иной конкретный признак.

Если бы могли измерить тот или иной признак с высокой точностью, то степень выраженности этого признака была бы обозначена на шкале одной-единственной точкой, и никакой другой. Чтобы показать различие между надежным и менее надежным измерением, мы обычно говорим: расстояние равно 4185 мм, или расстояние составляет приблизительно 4 м.

Проверка надежности измерения затрагивает прежде всего вопрос о том, насколько можно доверять результатам, полученным в ходе однократного измерения. В школьной практике оценка была бы надежной, если бы преподаватель через некоторое время оценил ту же самую работу так же, как и в первый раз. То, что в действительности все выглядит иначе, будет показано на примере изучения оценки успеваемости.

Обеспечивая надежность измерения в сфере общественных наук, следует помнить о том, что измерение не может бить надежнее стабильности признака. Если признак очень лабильный, как, например, настроение, то результат измерения не может быть столь же точным, как результат измерения более стабильного признака, скажем знаний орфографий.

Степень надежности измерения определяется с помощью коэффициента надежности, или коэффициента релиабильности.

Коэффициент надежности является корреляционным коэффициентом, "показывающим, в какой мере совпадают результаты измерений, проведенных в -одинаковых условиях одним и тем же лицом, т. е. в какой мере воспроизводимы результаты измерения" .

При определении надежности следует исходить из того, что в каждом результате измерения присутствуют "истинная" и "искажающая" части. Предпринимаются попытки оценить соотношение этих частей с помощью различных методов, которые главным образом применяются при конструировании тестов. Чаще всего используются:

-метод повторного тестирования,

-метод деления пополам и

-метод параллельного тестирования.

Метод повторного тестирования позволяет обработать одни и те же задания, выполненные одними и теми же испытуемыми в разное время, и просчитать взаимосвязь результатов, выраженную в коэффициенте надежности. Этот метод редко применяется при измерении успеваемости, так как при повторном тестирования приходится считаться с эффектом тренировки, который оказывается тем сильнее, чем легче для запоминания задания и короче промежуток времени между первой и второй обработкой полученных данных.

Это препятствие можно устранить, прибегнув к методу деления пополам. В этом случае подборка однажды выполненных заданий делится пополам. Все задания с четными номерами и все задания с нечетными номерами обрабатываются отдельно. Подборка заданий может быть разделена надвое и на основании какого-либо другого принципа. Затем просчитывается взаимосвязь полученных таким образом результатов и на основании этого расчета получают сведения о надежности метода измерения.

Для метода параллельного тестирования необходимы два различных набора заданий, которые по своему содержанию напоминают близнецов. Оба параллельных набора заданий можно предложить непосредственно друг за другом или при удобном случае. Эффект запоминания возникнуть не может, так как актуальная постановка заданий в каждом наборе несколько иная. Взаимосвязь обоих результатов выражается с помощью коэффициента надежности.

Очевидно, что коэффициент надежности содержит не только информацию об измеряемой свойстве. Чем больший временной отрезок разделяет измерения, тем сильнее сказывается на результате воздействие всевозможных факторов (иная мотивация, достигнутые за этот период успехи в учебе), которыми не следует обременять — ввиду его недостаточной надежности — измерительный инструментарий.

При обычно равном количестве заданий в одинаковом качестве их от метода деления надвое и метода параллельного тестирования можно ожидать самые низкие коэффициенты надежности. От, первого метода при тестировании индивидуальной успеваемости можно было бы ожидать коэффициент надежности чуть выше — г=0,90, от метода параллельных форм —г= = 0,80. Если мы будем сравнивать только средние величины групп, то надежность измерения может уменьшиться.

Надежность измерения сама по себе значит еще немного, так как она содержит информацию о том, -насколько точно проводится измерение, не сообщая о том, что измеряется. Однако она является предпосылкой валидности, важнейшего критерия качества измерения.

Для учителя коэффициент надежности обладает невысокой. информативностью и ограниченными возможностями использования. Гораздо больше информации для него несет стандартная измерительная ошибка. По Линерту, стандартная ошибка в измерении есть "та величина стандартного отклонения теста, :которая объясняется его ненадежностью" .

Стандартная ошибка в измерении содержит информацию о том, между какими точками (процент вероятности составляет чаще всего 68%) будет находиться "истинное" значение успеваемости индивидуума.

Величина отрезка между двумя точками зависит от надежности — всегда относительной — инструментария. Стандартная ошибка в измерении вычисляется автором теста с помощью коэффициента надежности и величины стандартного отклонения теста. От величины коэффициента надежности зависит также величина стандартной ошибки в измерении.

Если пользователю теста известно, что стандартная ошибка в измерении составляет ±4, то тогда он знает, что "истинное" значение успеваемости для ученика, набравшего 24 балла, располагается в интервале между 20 и 28 баллами (процент вероятности указывается в приложении к тесту). Если знать измерительные ошибки инструментария, то можно избежать переоценки его надежности и не принимать случайные расхождения результатов при их интерпретации за подлинные различия в успеваемости.

Надежность инструментария зависит—при, прочих равных условиях—от количества заданий. Для неформальных тестов (по результатам анализа заданий) ошибка в измерении может быть вычислена с помощью следующего основного правила:

При количестве заданий менее 24 ошибка составляет ±2 балла.

При количестве заданий между 24 и 47 ошибка составляет ±3 балла.

При количестве заданий между 48 я 89 ошибка составляет ±4 балла.

Учителям положено знать, что измерительная ошибка нашей системы оценок в целом должна составлять ±1 балл, так что колебания между оценками "2" и "4" могут быть вызваны недостаточной надежностью применяемого метода оценивания.

Валидность

Важнейшим методическим критерием качества того или иного измерения, несомненно, является достоверность, или валидность.

Достоверность, или валидность, метода необходима для того, чтобы определить, действительно ли измеряется то, что требуется измерить, или что-то другое.

Чтобы установить, действительно ли измерили то, что хотели, разумеется, требуется критерий. В зависимости от вида критерия в методике тестирования различают четыре вида валидности:

- валидность содержания,

- валидность соответствия результатов, полученных с помощью различного инструментария,

- валидность прогноза,

- валидность конструкта.

Валидность содержания является достаточно проблематичным критерием. Для того или иного конкретного поведения существует содержательное описание. Разрабатываются определенные задания, выявляющие признаки этого поведения. С помощью оценок экспертов устанавливается, в какой мере задания и обусловленное ими поведение содержательно совпадают с предварительным описанием поведения.

Так как куррикулярная валидность является особым случаем валидности содержания, то на ее примере мы можем более наглядно показать, в чем заключается валидность содержания. Учебный план содержит тематическое описание того материала, который должен быть усвоен в процессе учебы. Эксперты определяют, какие задания подходят для того, чтобы охватить важнейшие аспекты подлежащего усвоению материала. При этом различные эксперты могут прийти к различным выводам. Кроме того, эксперты не могут быть уверены в том, что при выполнении заданий важной роли не играют другие, не учтенные ими факторы. Например, они предложили оформленные в виде текста арифметические задачи для проверки выполнения учебного плана по математике. Однако эксперты не учли, что эти задания предъявляют значительные требования к пониманию прочитанного, так что данный набор заданий проверяет не только понимание сугубо математического содержания, но и в большой мере понимание прочитанного в целом.

Чем неопределеннее сформулированы тематические требования в учебных планах и чем меньше имеется заданий для проверки темы, тем скорее эксперты представят различное понимание того, какие задания лучше всего отвечают задачам учебного плана.

Новые учебные планы призваны уменьшить эти расхождения в интерпретации с помощью точных данных о необходимой учебной деятельности, с помощью описаний содержания, желаемого конечного поведения и условий его проявления, масштаба измерения поведения. Учебные цели, пройдя подобную операционализацию, могут быть преобразованы непосредственно в экзаменационные задания. Более подробно об этом будет рассказано в разделе о критериях тестирования.

Валидность соответствия помогает установить, в какой мере "результаты, полученные посредством использования исследовательского инструментария, соответствуют данным, полученным другими способами.

Вернемся к примеру с математическим тестом: здесь высчитывается соответствие между результатами тестирования значений по математике и той отметкой, с помощью которой учитель только что выразил свое мнение об успеваемости по математике того или иного учащегося.

Естественно, речь должна идти о всеми признанном критерии, с помощью которого дается оценка новому исследовательскому инструментарию. Однако здесь сразу же возникают трудности. Очень часто новый инструментарий разрабатывается именно потому, что иные способы не могут обеспечить измерение предмета исследования, удовлетворяющее методическим требованиям. В таком случае нельзя также признать удовлет-ворительным решение определять валидность нового метода исключительно по тому, насколько он соответствует методу, применявшемуся до сих пор и не отвечавшему необходимым методическим требованиям.

Валидность прогноза позволяет вычислить взаимосвязь между данными, полученными в ходе ранее проведенного исследования, и поведением, наблюдаемым позднее.

Валидность конструкта в некоторых отношениях отличается от только что названных валидности прогноза и валидности соответствия, которые объединяют также под общим названием эмпирическая валидность. Название "валидность конструкта" указывает на то, что здесь речь идет о теоретической конструкции, о конструкте, посредством которого результаты исследования могут быть проверены на валидность. Валидность конструкта, по утверждению Линерта, "имеет скорее теоретическую, чем прагматическую, направленность, Поэтому ее значение заключается не в непосредственной практико-диагностической пригодности к использованию, а в теоретическом объяснении того, что измеряет соответствующий тест".

Конструкты нельзя наблюдать непосредственно в отличие, скажем, от темпа письма. Конструкты — это производные, недоступные для непосредственного наблюдения, латентные, комплексные признаки, которые можно рассматривать как относительно долговременные, оказывающие влияние на наше поведение. Типичными конструктами являются, например, умственное развитие, интровертность, чувство страха перед экзаменами. К подобным конструктам приходят посредством теоретических допущений латентных признаков, их воздействий и разнообразных отношений к другим конструктам, а также влияния последних на наблюдаемое поведение. С помощью анкеты мы можем, к примеру, измерить чувство страха перед экзаменами. Степень валидности этого измерения можно определить лишь в том случае, если проверить возможность подтверждения позитивных или негативных реакций, предсказываемых теоретически. Падает ли под влиянием временного фактора успеваемость учащегося, испытывающего чувство страха перед экзаменами, особенно сильно, отличается ли в подобных ситуациях реакция лиц с сильно развитым интеллектом от реакции интеллектуально менее развитых людей, можно ли подтвердить появление сопутствующих явлений (появление пота, дрожи) и т. д.

Для валидизации конструкта разработаны комплексные статистические методы, например анализ факторов второго порядка и канонический анализ.

Инструментарий обладает конструктивной валидностью в том случае, если найденные отношения в значительной мере соответствуют теоретической модели.

Таким образом, становится ясно, что ни один элемент измерительного инструментария не является валидным вообще, он может быть валидным лишь в определенном смысле. Математический тест не дает сведений о развитии интеллекта. Математический тест, предназначенный для второго полугодия 6-го класса, не является валидным для другой стадии обучения. Если тест ориентирован на содержание конкретного учебника, то его валидность для учащихся, работавших по иным учебникам, еще требуется доказать.

По вопросу о корреляционных отношениях между критериями качества Линерт пишет следующее: "Релиабильность теста не может быть выше его объективности; далее, валидность теста не может быть выше его релиабильности". Важнейший критерий качества измерения — валидность основывается на критериях объективности и надежности. Несерьезно выступать против критерия объективности, не говоря ничего о том, каким еще образом можно добиться валидных измерений.

Другие критерии качества измерения

Наряду с тремя важнейшими критериями качества измерения в литературе называются и другие критерии. Линерт различает, например, следующие:

а) нормирование теста, позволяющее включать результаты индивидуального тестирования в систему соотносительных понятий.

б) сопоставимость теста, возможная благодаря параллельным формам или благодаря тестам с одинаковой валидностью. В таком случае тест можно сравнить с его "близнецом" или "двойняшкой". К тому же при групповых исследованиях в школьных классах параллельные формы затрудняют списывание;

в) экономичность теста, имеющая место в том случае, если, для проведения тестирования и обработки данных не требуется больших затрат времени и средств, если тест несложен и может использоваться в группах;

г) полезность теста, являющаяся максимальной, если существует большая практическая потребность в исследовании данного поведения и если для этой цели еще не разработано или разработано слишком мало методов. В педагогике в данном случае следовало бы проверить педагогическую значимость целей исследования. Чем значительнее исследуемое поведение, тем более, высокие требования следовало бы предъявлять к методу".

Кроме того, в педагогике необходимо учитывать в качестве важного дополнительного критерия качества измерения соответствие инструментария педагогическим задачам. Если мы хотим научиться понимать взаимосвязи, то мы не имеем права довольствоваться проверкой изолированных фактов. К этим соображениям относится и вопрос о том, какое воздействие на учащегося оказывают определенные формы проверки. Об этом мы знаем еще очень мало.

Резюме

Важнейшими методическими критериями, необходимыми для проведения измерений в сфере общественных наук, являются объективность, надежность и валидность.

Объективность применительно к методике измерения означает устранение воздействия субъективных факторов со стороны лиц, проводящих исследование. Результаты учебного процесса должны изучаться различными исследователями, проводящими измерения в максимально унифицированных условиях (объективность проведения измерений). Разные лица, обрабатывающие полученные данные, при установленном тождестве фактического материала должны прийти к одинаковым результатам (объективность обработки данных), а интерпретация результатов должна быть свободна от посторонних субъективных воздействий (объективность интерпретации).

Метод исследования считается надежным или релиабильным в том случае, если с его помощью точно измеряется тот признак, который подлежит измерению, т. е, если повторное измерение того же самого признака дает те же результаты. Только объективные методы могут быть надежными и приводить к аналогичным результатам (при известном допуске) при повторном измерении (если удается исключить эффект тренировки).

Для практика важнейшим следствием определения надежности является возможность вычислить ошибку в измерении. Измерительная ошибка содержит информацию о том, в каких пределах с определенной вероятностью находится "истинное" значение успеваемости учащегося. Знание измерительной ошибки не позволит нам интерпретировать случайные различия между несколькими измерениями в качестве подлинных изменений в поведении и не приведет к ложным выводам.

Важнейшим методическим критерием является достоверность, или валидность, метода. Инструментарий считается валидным в том случае, если с его помощью измеряется то, что должно измеряться, а не что-то иное.

Применительно к школьным условиям особое значение приобретают валидность содержания (куррикулярная валидность), валидность соответствия и валидность прогноза, в то время как валидность конструкта важна прежде всего для психологических методов.

Ни одному методу не свойственна валидность вообще, но всегда только специфическая и эмпирически доказанная валидность.

Нормы

В педагогической диагностике мы занимаемся сбором информации, которая представляется нам важной для оценки того или иного учащегося. Предположим, что собранная нами информация содержит следующие данные: количество ошибок, допущенных в диктанте, количество правильных решений из работы по математике, количество спонтанных ответов, полученных в течение трех занятии, количество верно выполненных заданий из теста, измеряющего интеллект. Эти сведения, однако, не слишком информативны. Нам не хватает соотносительных моментов, критериев, норм. Даже если нам известно, что кто-то допустил в диктанте 12 ошибок, то эта информация может интерпретироваться лишь в том случае, если мы знаем уровень сложности диктанта. Кроме того, мы должны были бы знать, как справились с диктантом другие учащиеся, находившиеся в аналогичных условиях, или какое количество ошибок считается допустимым для того, чтобы признать учебную цель достигнутой. Иными словами, требуется провести сопоставительный анализ.

Результат индивидуальной успеваемости учащегося мы можем сравнить:

- с результатами других учащихся = социальная соотносительная норма

- с прежними результатами того же учащегося = индивидуальная соотносительная норма

- с поставленными учебными целями (критериями) = предметная соотносительная норма

Несмотря на то, что в данном случае имеется в виду не критерий, а направление, в котором проводится сопоставление, его цель, в литературе укоренилось выражение "соотносительная норма".

Ни в одном из названных случаев количество ошибок в диктанте не будет достаточным для проведения интерпретации. Даже при сопоставлении индивидуальных результатов нам не поможет знание того, что в предшествующем диктанте учащийся допустил 16 ошибок, а в последнем — 12. До тех пор пока мы ничего не знаем о степени трудности диктанта, мы не можем сделать выводов о возможном улучшении ила ухудшении результатов. Для проведения социального и индивидуального сравнения лучшей опорой при интерпретации являются сопоставительные нормы.

Для проведения предметного сравнения желательно также с помощью сопоставления данных получить информацию о степени трудности отдельных слов и лишь затем определить минимум, необходимый для достижения учебной цели, предположим, 10 ошибок в диктанте. Обычно нормы разрабатывались для, проведения главным образом социальных и индивидуальных сравнений. Они должны выполнять следующие задачи:

1. Корректно и по возможности наглядно отмечать с помощью цифр индивидуальные результаты.

2. Обеспечить сопоставимость полученных данных с результатами других индивидуумов, если подобное сопоставление представляется необходимым и корректным.

3. Облегчить сравнение с результатами того же самого индивидуума, достигнутыми им в другое время.

Сведения о количестве ошибок, отметки на шкалах, данные о частотности того или иного показателя и пр. сами по себе не в состоянии выполнить эти задачи. Они должны быть соотнесены с другими данными. Можно нормировать классные работы, наблюдения, анкеты и т. д. В этой книге понятие нормы будет объясняться на примере норм для тестов, т. е. иллюстративный материал заимствуется из той области, где понятие нормы используется особенно часто.

Полезная информация:

Роль сюжетно-ролевой игры в развитии связной речи у дошкольников
В дошкольном возрасте большое значение в речевом развитии детей имеет игра. Игра – это не просто развлечения, это творческий, вдохновенный труд ребенка, это его жизнь. В процессе игры ребенок познает не только окружающий мир, но и самого себя, свое место в этом мире. Играя, малыш накапливает знания ...

Особенности развития детей младшего дошкольного возраста
Младший возраст – важнейший период в развитии дошкольника. Именно в это время происходит переход малыша к новым отношениям с взрослыми, сверстниками, с прежним миром. Психологи обращают внимание на «кризис трех лет», когда младший дошкольник, еще недавно такой покладистый, начинает проявлять нетерп ...

Пути организации занятий на начальном этапе обучения
Качество знаний учащихся во многом зависит от правильной организации занятий. Методисты предлагают следующую организацию занятий: 1. Ежедневные 15-25 минутные занятия, сопровождаемые также речью на иностранном языке во время режимных моментов (зарядка, прием пищи, уборка, переодевание). 2. Два раза ...

Методические критерии качества измерений в общественных науках

Категории