Eğitimde Ölçme ve Değerlendirme PDF

Eğitimde Ölçme ve Değerlendirme Bir Ölçme Aracında Bulunması Gereken Nitelikler Doç. Dr. Esin YILMAZ KOĞAR Ölçmede Hata Kavramı ve Hata Türleri ▪ Bir test veya ölçekten elde edilen puanlar ne zaman hatalıdır? ▪ Çoğu ölçme aracı tamamen güvenilir veya geçerli sonuçlar vermez, ölçme sonuçlarına hemen her zaman hata karışır. ▪ Ölçmeye karışan çeşitli hatalar nedeniyle gözlenen bir özelliğin gerçek değeri doğrudan elde edilemez. ▪ Hatanın miktarı arttıkça elde edilen değer bireyin gerçek değerinden (gerçek başarı, yetenek, bilgi düzeyi vb.) uzaklaşır. ▪ Ölçmede amaç, ölçülen niteliğin gerçek değerini ortaya çıkartmaktır. Ancak çeşitli faktörlere bağlı olarak ölçmeye hata karışır. Bu nedenle gerçek değer, gözlenen değere dayalı olarak tahmin edilmeye çalışılır. ▪ Ölçmede hata, gözlenen değer ile gerçek değer arasındaki fark olarak ifade edilir. Bu fark fazla ise ölçmede hata fazla, az ise ölçmede hata azdır. X=T+E X: Gözlenen Puan T: Gerçek Puan E: Hata ▪ Ölçümlerdeki hatanın mümkün olduğunca azaltılması, ölçülen özelliğin miktarı hakkında doğru bilgi edinebilmek ve bunun sonucunda doğru kararlar verebilmek açısından önemlidir. ▪ Doğrudan ölçmelerde dolaylı ölçmelere göre daha az hata yapılır. Ancak en duyarlı araçlarla ve en doğru sanılan yöntemlerle yapılan ölçmelerde bile bir miktar hata vardır. Bir ölçme sonucunun hatasız olabileceğini kabul etmek güçtür. Aynı düşünceyle, bir ölçme sonucunun tümüyle hatalı olabileceğini kabul etmek de güçtür. O hâlde, en akla yakın sayıltı, herhangi bir ölçme sonucunda, bir miktar gerçek ve bir miktar hata payı bulunduğunu kabul etmektedir. Sabit Hata: Tüm ölçme sonuçlarına aynı yönde ve aynı miktarda karışan hatadır. Örnekler: * Herkesin notuna 5 puan eklenmesi * Ucu 2 cm kırık olan cetvelle ölçüm yapılması Sistematik Hata: Belirli bir kaynağa göre bazı ölçme sonuçlarına karışan ya da tüm sonuçlara farklı miktarda karışan hatadır. Örnekler: * Devamı tam olan öğrencilerin notuna 5 puan eklenmesi * Sınav kağıdında yazısı kötü olan öğrencilerden puan kırılması * Bir öğretmenin tüm öğrencilere aldıkları notun %10’u kadar puan vermesi NOT: Sabit hata veren bir ölçme aracının tekrar tekrar kullanımı da sistematik hatayı doğurur. Tesadüfi Hata: Kaynağı, yönü ve miktarı belli olmayan ve bazı ölçme sonuçlarına tesadüfen karışan hatadır. ▪ Eğitimde en çok karşılaşılan ve en büyük sorun olan hata türüdür. Örnekler: Bir öğrencinin girdiği sınavda yer alan sorulardan 5’ini attığı halde tutması Bir öğretmenin yazılı kağıtlarını okurken bazı soruların cevaplarını görmemesi Dikkatsizce okunup puanlanan notlar Öğrencinin sınavda kaygı, heyecan, hastalık vb. nedenlerle düşük puan alması Ölçmenin yapıldığı bireyden kaynaklı hatalar: Ölçmenin yapıldığı gruba ait bireylerde gözlenen geçici ve önceden tahmin edilemeyen değişiklikler bu tür hata kaynaklarıdır. ▪ Bireyin ölçme işlemi yapılırken içinde bulunduğu motivasyon, heyecan, stres, uykusuzluk, yorgunluk, hastalık, dikkat dağınıklığı, vb. ▪ Bireyin ölçme işlemi yapılmadan önce geçirdiği kaza, tartışma, vb. ▪ Bireylerin test maddelerini cevaplarken yaptıkları gerçek hatalar değil, zaman içerisinde önceden kestirilemeyen biçimde değişen ve bu nedenle ölçmede tutarsızlığa ve hataya yol açan faktörlerdir. Ölçme aracından kaynaklı hatalar: Ölçme aracını oluşturan maddelerin kapsamı yeterince temsil etmemesi ▪ Ölçme aracındaki maddelerin iyi ifade edilememesi ▪ Ölçme aracının uzunluğu, ölçme aracındaki madde sayısı Bir test oluşturulurken gözlenmek istenen davranışların çok iyi tanımlanması, maddelerin anlaşılır olması madde sayısının ve uygulama süresinin uygun biçimde belirlenmesi, bu tür hata kaynaklarının azalmasını sağlayacaktır Ölçmeyi yapan bireyden kaynaklı hatalar: Ölçmeyi yapan kişinin, puanlama yaparken yorgun olması, dikkatsizliği ▪ Puanlayıcının, cevapları kendi bakış açısına ve anlayışına göre değerlendirmesi ▪ Puanlamanın bilgisayar ile yapıldığı durumlarda cevap anahtarındaki cevaplardan bazılarının silik olması nedeniyle optik okuyucu tarafından okunmaması ▪ Puanlamanın nesnel olmadığı, öznel kanılara dayandığı durumlarda, puanlar bir puanlayıcıdan diğerine veya puanlama zamanına göre değişecektir. Ölçmenin yapıldığı ortamdan kaynaklı hatalar: Testin yapıldığı ortamın sıcaklığı ▪ Işığın yetersiz olması ▪ Gürültü düzeyi ▪ Testin yapıldığı ortam testi alan tüm bireyler tarafından aynı olmalıdır. Aksi takdirde, testten yüksek puan alan bireyler testle ölçülmek istenen özelliğe en çok sahip olan değil, testi en iyi koşullar altında alanlar olacaktır. ▪ Aynı özelliği ölçen iki test uygulanacaksa, benzer koşullar altında uygulanmalıdır. GÜVENİRLİK ▪ Güvenirlik, bir ölçme aracının ölçmek istediğimiz özelliği ne derece hatasız ölçtüğüdür. ▪ Güvenirlik, test puanlarının tesadüfi hatalardan arınık olma derecesidir. ▪ Güvenirlik; ölçme aracının kararlı, tutarlı, duyarlı ve objektif sonuçlar vermesi ile ilgilidir. Kararlılık: Ölçme sonuçlarının birbiriyle tutarlı olması, ölçme aracının ölçülen özelliği kararlı bir şekilde ölçtüğünün göstergesidir. Bir ölçme aracının aynı gruba zaman aralıklarıyla tekrar tekrar uygulanması sonucu elde edilen sonuçların zamana rağmen aynı ya da benzer olabilme derecesine kararlılık anlamında güvenirlik denir. Tutarlılık: Aynı özelliği ölçen farklı araçların birbirine yakın sonuçlar vermesine tutarlık anlamında güvenirlik denir. Duyarlılık: Ölçme birimi ile ilgilidir. Birim küçüldükçe daha doğru ölçmeler elde edilecektir. Çünkü duyarlılık yani ölçme aracının hassaslığı arttıkça hata azalır. Eğitimde kullandığımız ölçme araçlarındaki soru sayısını arttırmak duyarlılığı arttırır. Objektiflik: Ölçme işleminin tarafsız, nesnel olmasıdır. Bu noktada karşımıza puanlama güvenirliği ve puanlayıcı güvenirliği çıkar. Puanlama Güvenirliği: Tek puanlayıcı vardır. Aynı kişilere ait puanlamayı farklı samanlarda yapar ve puanlamaları arasındaki korelasyonu hesaplar. Puanlayıcı Güvenirliği: Birden fazla puanlayıcı aynı öğrencilere ait ölçme işlemlerini puanlar ve puanlayıcıların puanlamaları arasındaki korelasyon hesaplanır. ▪ Güvenirlik katsayısı 0,00 ile +1,00 değerleri arasında değişir. ▪ Güvenirlik katsayısının 1 olması mükemmel bir güvenirliği, dolayısıyla hatasız bir ölçmeyi ifade eder. Bu durumda elde edilen ölçme sonuçları, ölçülen özelliğin gerçek değerini verir. ▪ Güvenirlik katsayısının 0 olması ise tamamen güvenilir olmayan, tümüyle hatalardan oluşan bir ölçmeyi ifade eder. Bu durumda ölçme sonuçları, gerçek değeri hiçbir şekilde yansıtmamaktadır. ▪ 0,70 ve üzerinde hesaplanan katsayılar sonuçların güvenilir olduğunu gösterir. Güvenirlik Belirleme Yöntemleri Birden fazla uygulamaya dayalı yöntemler ▪ Test Tekrar Test ▪ Paralel Formlar Test-Tekrar Test Yöntemi: Aynı test, aynı kişilere belli bir ara ile iki kez uygulanır. ▪ Daha sonra bireylerin birinci uygulamada aldıkları puanlarla ikinci uygulamada aldıkları puanlar arasındaki korelasyon bulunur. ▪ Sonucun bire yakın olması, iki uygulamadan elde edilen puanların birbirine yakın olduğunu gösterir. ▪ Eğer ölçmeye karışan hatalar gerçekten tesadüfiyse aynı hatalar birden fazla tekrarlanmayacaktır. Böylece iki farklı uygulamadan elde edilecek benzer sonuçlar ölçümlere tesadüfi hatanın pek karışmadığının göstergesi olacaktır. ▪ Süre, ölçülecek özelliğe ve hedef grubun durumuna göre kararlaştırılır. ▪ Sorular ikinci kez görünce hatırlanmamalı ▪ Mevcut bilgiler unutulmamalı ▪ Yeni bilgiler öğrenilmemeli ▪ İki uygulama arasındaki zaman ne çok uzun ne de çok kısa tutulmalıdır. ▪ Bu yöntemde bu süreyi başarı testleri için doğru ayarlamak oldukça zordur. ▪ Bu nedenle daha çok kısa zamanla değişmeyen psikolojik özellikleri ölçen testlerin güvenirlikleri bu yolla bulunur. ▪ Bu yöntemle yapılan güvenirlik kestirimleri daha çok KARARLILIK katsayısı olarak yorumlanır. Çünkü zaman içinde gerçek puanda bir değişme olup olmadığını gösterir. Bu yöntemin zorlukları ▪ Test-tekrar test yöntemi iki uygulama gerektirdiği için pratik bir yöntem olarak görülmemektedir. ▪ Aynı testin kullanılması beraberinde bazı zorluklar getirir. ▪ Zaman faktörü etkilidir. Paralel (Eşdeğer) Formlar Yöntemi: Çeşitli nedenlerden dolayı bir testin iki kere uygulanması söz konusu olmayabilir. Bu durumda kullanılabilecek yöntemlerden biri de paralel formlar yöntemidir. ▪ Bu yöntemin uygulanması için birinci uygulamada kullanılan testin paraleli olan bir başka test sağlanmalıdır. Paralel testlerin her ikisi de aynı öğrenci grubuna uygulanır. ▪ İki testten elde edilen puanlar arasındaki korelasyon katsayısı hesaplanır. ▪ Formların aritmetik ortalaması ve standart sapması birbirine eşit olmalıdır. ▪ Eşdeğer formlar yöntemi test-tekrar test yönteminde ortaya çıkan hatırlama etkisini azaltır. Bu yöntemin zorlukları: ▪ aynı değişkeni ölçen iki test hazırlamak ▪ ve hazırlanan testlerin matematiksel olarak eşitliklerini kontrol altında tutmak Bu yöntemle yapılan güvenirlik kestirimleri daha çok TUTARLILIK katsayısı olarak yorumlanır. Tek fazla uygulamaya dayalı yöntemler ▪ Paralel (Eşdeğer) Yarılar (Testi Yarılama - İki Yarıya Bölme) Yöntemi ▪ Kr-20 ve Kr-21 katsayıları ▪ Cronbach Alfa Yöntemi Paralel (Eşdeğer) Yarılar (Testi Yarılama - İki Yarıya Bölme) Yöntemi ▪ Test, tek/çift, kur’a, ilkyarı/sonyarı vb. yöntemlerle iki eş yarıya ayrılır. ▪ Öğrencilerin testin iki yarısından aldıkları puanlar arasındaki korelasyon hesaplanır. ▪ Öğrencilerin testin iki yarısından aldıkları puanlar arasındaki korelasyon hesaplanır. Bu değer yarıların eşdeğerlik katsayısını verir. ▪ Testin yarısına ait güvenirlik katsayısının testin bütününe ait güvenirlik katsayısına dönüştürülmesi için Spearman–Brown bir formül geliştirmiştir. ▪ İki yarı arasında hesaplanan korelasyondan hareketle Spearman–Brown formülünden yararlanarak testin bütünü için güvenirlik katsayısı kestirilir. ▪ İki yarıya bölme yöntemiyle bulunan güvenirlik katsayısı, testin iki yarısı arasındaki tutarlılık – eşdeğerlik anlamına gelir. ▪ Bu katsayı, test gelişigüzel cevaplanmışsa ya da testin iki yarısı farklı davranışları ölçüyorsa düşük çıkabilir. ▪ Bu katsayı yüksek bulunmuşsa test puanlarının tesadüfi hatalardan arınık olduğu ve iki yarının eşdeğer olduğu söylenebilir. ▪ Bu yöntem test-tekrar test ve eşdeğer formlar yönteminin taşıdığı ▪ iki test ▪ iki uygulama ▪ zamana bağlı olarak ortaya çıkabilecek sorunların getirdiği sakıncaları ortadan kaldırır. Bu yöntemin zorlukları ▪ Testi iki yarıya bölme yönteminde, iki yarının eşdeğer olması gerekir. İki yarının eşdeğerliği sağlanamazsa testin güvenirliği düşük çıkar. ▪ Test ikiye bölündüğü için soru sayısı azalır ve bu durum güvenirliğin düşmesine neden olabilir. KR-20, KR-21 ve Cronbach Alfa Yöntemleri ▪ Sadece bir defa uygulanan testlerin güvenirliğinin hesaplanmasında kullanılır. ▪ Testi oluşturan tüm maddelerin birbiriyle ve testin bütünüyle olan uyumuna bakılır. ▪ Bir test ne kadar homojense, maddeler birbiriyle o derece yüksek ilişkili olacak, dolayısıyla maddeler arasındaki tutarlılık da o derece yüksek olacaktır. ▪ Testi oluşturan maddeler heterojenleştikçe, maddeler arası tutarlılık azalacak ve test puanlarını yorumlamak zorlaşacaktır. ▪ Her bir maddeye verilen cevaplar doğrultusunda korelasyona dayalı katsayılar elde edilir. Kuder-Richardson Formülleri - KR-20, KR-21 ▪ İç tutarlılık güvenirliğini hesaplamak için kullanılan formüllerdir. ▪ Kuder-Richardson formülleri, testeki her maddenin aynı değişkeni ölçtüğü, yani testin ölçtüğü şeyin homejen olduğu sayıltısına dayanır. ▪ Bu formüllerle elde edilen katsayı yüksekse test maddeleri birbirleriyle tutarlıdır. ▪ Test iki kategorili puanlanan maddelerden oluştuğunda yani testteki maddeler doğru yanıta 1, yanlış yanıta 0 puan vermek suretiyle puanlandığında kullanılabilir. KR-20 kullanım koşulları; - Testteki her bir maddenin güçlük indekslerinin belirlenebilmesi durumunda kullanılır. KR-21 kullanım koşulları; - KR-21, KR-20’in özel bir formudur. Testte yer alan maddelerin güçlüklerinin hesaplanamadığı durumlarda testteki tüm maddelerin güçlük derecelerinin birbirine yakın ya da eşit olduğu varsayımına dayanır. ▪ Madde güçlüklerinin birbirine eşit olması durumunda, KR 21 ve KR 20 birbirine eşittir, eşit olmaması durumunda ise KR 21 değeri, KR 20 değerinden düşük çıkacaktır. KR-20 ≥ KR-21 Cronbach Alfa Yöntemi: ▪ KR-20 ve KR-21 gibi yorumlanır. Yalnızca kullanıldığı durumlardaki puanlama biçimleri farklıdır. ▪ Ağırlıklı puanlama veya dereceleme yöntemiyle puanlama yani çok kategorili puanlama uygulandığı durumlarda kullanılabilecek bir güvenirlik hesaplama tekniğidir. ▪ Tek uygulamaya dayalı yöntemlere iç tutarlılık belirleme yöntemleri de denir. İç tutarlılık yöntemleri tek bir uygulamaya dayanmalarından dolayı kullanışlı ve yaygındırlar. Ancak bu yöntemlerin de bazı dezavantajları vardır: ▪ Eğer tüm test aynı özelliği ölçüyorsa kullanılmalıdırlar. Testin tek bir özelliği ölçmesi durumunda bir maddeyi doğru cevaplayan bireylerin diğer maddeleri de doğru cevaplayacağı varsayılır. Bu durumda testteki maddelerin birbiriyle ve testin tümüyle tutarlı olması gerekir. Ölçmenin Standart Hatası: Ölçme aracının hatalardan arınıklık derecesini gösteren güvenirlik katsayısı, ölçme işleminde yapılan hatanın miktarını belirtmez. ▪ Ölçmede yapılan standart hatanın değerini hesaplamak için güvenirlik ve test puanlarının standart sapması kullanılır. ▪ ▪ Ölçmenin standart hatasının az olması için standart sapmasının az, güvenirliğinin yüksek olması gerekmektedir. ▪ Ölçmenin standart hatası azaldıkça, testin güvenirliği artar. ▪ Ölçme sonuçlarına karışan hata miktarının artı ya da eksi yönlü olduğu bilinmediğinden hesaplanan standart hata miktarı elde edilen ölçme sonuçlarına bir eklenip bir de çıkarılarak bir aralık değeri elde edilir. Bu aralığa güven aralığı adı verilir. ▪ Ölçmenin standart hatası (SHö), belli güven düzeyleri için testten alınan puanların gerçek puandan olan sapma miktarını hesaplamada kullanılır. ▪ Hatasız ölçme olmaz. Bu nedenle ölçme sonuçları ölçek üzerinde tek bir noktadan ziyade iki nokta arasındaki bir aralık olarak düşünülmelidir. Çünkü test puanlarına karışan hatanın yönü (- , +) bilinmez ve bireyin gerçek puanı, bir aralık olarak hesaplanır. ▪ Ölçme hatalarına ait dağılımın normal olduğu varsayılır. ▪ Normal Dağılım Eğrisi, ölçme sonuçlarının orta noktalarında yoğunlaştığı, uç noktalarda seyrekleştiği bir dağılım şeklini ifade etmektedir. ▪ Normal dağılım eğrisi simetriktir. Bu eğrinin sağındaki ve solundaki alanlar birbirine eşittir. ▪ Eğrinin temel çizgisi standart sapma birimleriyle bölümlenmiştir. Bu çizgi üzerinde aritmetik ortalamanın bulunduğu noktaya sıfır değeri verilir ve çizgi bu noktanın sağına +1 SS, +2 SS, +3 SS ve soluna -1 SS, -2 SS, -3 SS olmak üzere standart sapma birimi kullanılarak alanlara ayrılır. ▪ Normal dağılım eğrisi kuramsal olarak sonsuza kadar uzanır. Ancak uygulamada ortalamanın 3 SS üstüne ve 3 SS altına uzanıyor olarak düşünülür. ▪ Normal dağılımda ölçümlerin yaklaşık, ▪ %68’inin X ± 1 SS ▪ %95’inin X ± 2 SS ▪ %99’unun X ± 3 SS alanı içerisine düşer. ▪ X puan almış bir bireyin gerçek değeri %68 olasılıkla X - 1SHö < T < X +1 SHö sınırları arasındadır. %95 olasılıkla X - 2SHö < T < X + 2 SHö sınırları arasındadır. %99 olasılıkla X - 3 SHö < T < X + 3 SHö sınırları arasındadır. ÖRN: : X (Bir bireyin test puanı) = 60 SHö = 5 ▪ Bireyin gerçek puanı %68 olasılıkla 60 - (1x 5) < T < 60 + (1x5) (55 < T < 65) ▪ Bireyin gerçek puanı %95 olasılıkla 60 - (2x 5) < T < 60 + (2x5) (50 < T < 70) ▪ Bireyin gerçek puanı %99 olasılıkla 60 - (3x 5) < T < 60 + (3x5) (45 < T < 75) Güvenirliği Etkileyen Faktörler ▪ Ölçme aracına ilişkin faktörler ▪ Testin uzunluğu ▪ Yönergenin anlaşılırlığı ▪ Soruların homojenliği ve anlaşılırlığı ▪ Birey veya gruba bağlı faktörler ▪ Bireylerin psikolojik özellikleri ▪ Grubun homojenliği/heterojenliği ▪ Uygulama koşulları ve zaman ▪ Puanlayıcı yanlılığı …. Güvenirliği Artırmanın Yolları 1. Bir sınavda kullanılan soru sayısının arttırılması 2. Bir sınavdan kullanılacak soruların açıkça anlaşılır ve kesinlikle cevaplanabilir olması 3. Sınav puanlamasında cevap anahtarı kullanılması 4. Maddelerin ölçtükleri özellikler bakımından benzer/homojen olması 5. Testin uygulandığı grubun heterojen olması 6. Ölçme aracındaki soruların güçlüğünün orta düzeyde tutulması (Pj 0,5 ve civarı) gerekir. 7. Öğrencilerin sınava güdülenmiş olması 8. Sınav süresinin dengeli olması ……………………. GEÇERLİK ▪ Bir ölçme aracında bulunması gereken en önemli özelliktir. ▪ Bir ölçme aracının ölçmek istediği özelliği başka özelliklere karıştırmadan tam ve doğru olarak ölçebilmesidir. ▪ Bir ölçme aracının ölçmenin amacına uygun olma derecesi, aracın geçerliği olarak tanımlanır. ▪ Ağırlık ölçmek için geliştirilmiş olan tartı nesnelerin ağırlıklarını ölçme amacına hizmet eder; fakat nesnelerin boylarını ölçme maksadına hizmet etmez. Bu da demektir ki, bir ölçme aracı olarak tartı, ağırlık ölçmede geçerlidir; fakat uzunluk ölçmede geçerli değildir. ▪ Türkçe dersinde yazılı anlatım becerisini ölçen bir test bu amaca hizmet ettiği sürece geçerlidir. Aynı testi beden eğitimi dersi için kullanamayız. Çünkü o dersin amaçları için hazırlanmamıştır. ▪ Bir ölçme aracının ölçülmek istenen özelliği ölçüp ölçmediği hakkında karar vermek için birden fazla kanıta ihtiyaç vardır. Bu yönüyle geçerlik, ölçme aracını kullanan kişinin ölçme sonuçlarından çıkarılacak yorumları ve ölçme sonuçlarının kullanımını desteklemek için topladığı kanıtlar olarak tanımlanabilir. ▪ Bu açıdan bakıldığında, geçerlik tek bir katsayıyla ifade edilmek yerine testin geliştirilme ve kullanılış amacına hizmet eden kanıtların toplanmasıyla yorumlanabilir. ▪ Bu sınıflama, farklı geçerlik türünden çok, test puanlarının geçerliğini belirlemede kullanılan dört ayrı strateji olarak ele alınmalıdır. ▪ Bu açıdan bakıldığında geçerliğin amacı “test puanlarını anlama ve anlamlandırma” süreci olarak belirtilebilir. Kapsam Geçerliği ▪ Kapsam, bir sınav ile ölçülmek istenen davranışların bağlı olduğu konu ve ünitelerin oluşturduğu bütün. ▪ Bir ölçme aracının yoklaması gereken tüm davranışları kapsayıp kapsamadığı ile ilgili olup testteki soruların/maddelerin, ölçülecek davranışları (testin amacını) iyi örneklemesi beklenir. ▪ Bir testin kapsam geçerliği 1) O testteki toplam maddelerin ölçülecek davranışları ve konu içeriğini örnekleme derecesine ve 2) Testteki her bir maddenin ölçmek istediği davranışı ne derece iyi ölçtüğüne bağlıdır. 3) Değerlendirmenin amaçları arasında öğretim programının değerlendirilmesi, öğrenme eksikliklerinin saptanması, öğretimin ve öğrencinin başarısının değerlendirilmesi bulunmaktadır. Bu değerlendirmenin yapılabilmesi için ölçme yapılması, yapılacak ölçmenin kullanacağı amaca uygun kapsamda olması gerekir. 4) Ölçme aracının kullanılış amacı, 1) Programın sağlamlığının, öğretimin etkililiğinin ya da öğrenme eksikliklerinin belirlenmesi ise davranışların tümü; 2) Öğrencilerin başarılarını değerlendirmek, onlara not vermek ise tüm davranışları temsil edecek seçilmiş davranışlar söz konusudur. Kapsam geçerliğini belirlemek için kullanılan yöntemler: - Uzman görüşü alma - Kapsam geçerliği belirlenmiş başka bir testle arasındaki korelasyonu hesaplama - Belirtke tablosu hazırlama Uzman görüşü alma: - Uzmanlardan test maddelerinin ilgili davranışları yoklayıp yoklamadığı ve - testin davranış örneklemini yeterince temsil edip etmediği yönündeki görüşleri alınır. Kapsam geçerliği belirlenmiş başka bir testle arasındaki korelasyonu hesaplama: - Aynı kapsamı ölçtüğü bilinen bir testin geliştirilen testle aynı gruba uygulanmasıdır. Grubun iki testten elde ettiği puanlar arasındaki korelasyon hesaplanır. Hesaplanan korelasyon katsayının 1’e yakın olması testin kapsam geçerliğinin yüksekliğini gösterir. Belirtke tablosu hazırlama: - Hedef davranışlarla, program içeriğinin yani konuların, iki boyutlu bir çizelge üzerinde gösterilmesine belirtke tablosu denir. - Her sınav öncesi o sınava ait bir belirtke tablosu oluşturulmalıdır. - Belirtke tablosuna her konu ayrı ayrı yazılmalıdır. - Belirtke tablosunda belirlenen kazanım sayılarına göre sorular hazırlanır. - Belirtke tablosuna göre tespit edilen sorular fazla ise kritik sorular seçilmelidir. Bilişsel Davranışların Sınıflandırılması Ölçüt Dayanaklı Geçerlik ▪ Ölçme aracının geçerliği, yeterli güvenirlik ve geçerlikte olduğu bilinen bir ölçme aracıyla arasındaki korelasyona bakılarak belirlenebilir. ▪ Bu geçerlik türünde bir testin geçerli olup olmadığı ikinci bir test ölçüt alınarak incelenir. Yani bu geçerlik türünde başka sonuçlara ihtiyaç vardır. ▪ Ölçüte dayalı geçerlik, ölçüt alınan testin seçilme zamanına bağlı olarak iki başlık altında toplanır: - Yordama geçerliği - Eşzaman (Uygunluk) geçerliği Yordama Geçerliği: Ölçüt puanlar, geçerliği belirlenecek ölçme aracından elde edilecek puanlardan daha sonra elde edilir. Yani ölçüt alınan test, gelecek zamandan seçilir. Bu durumda yordama geçerliği, test puanlarının ölçüt puanları ne derece yordadığının ölçüsünü verir. ▪ Üniversite sınavı öğrencilerin gelecekteki başarısını doğru tahmin ediyor mu? ▪ Yordayıcı puanları önce, ölçüt puanları sonra elde edilir. ▪ Yordayıcıdan alınan puanlarla ölçüt puanları arasındaki korelasyon pozitif ve yüksekse testin yordama geçerliği yüksektir. Eş zaman/Uygunluk/Uyum Geçerliği: Ölçüt puanları, ölçme aracından elde edilecek puanlarla (yordayıcı puanlarla) aynı zamanda ya da daha önce elde edilmiş ise bu tür geçerliğe uygunluk geçerliği adı verilir. ▪ Yani ölçüt alınan test, şimdiki ya da geçmiş zamandan seçilir. ▪ Üniversite sınavı öğrencilerin geçmişteki başarıları ile uyumlu sonuçlar veriyor mu? ▪ Örneğin yeni hazırlanan bir okuduğunu anlama testinin (X testi) geçerlik çalışması için geçerliği bilinen bir test (Y testi) ölçüt olarak alınabilir. Bu durumda X ve Y testi birlikte ya da arka arkaya uygulanır. Aralarındaki korelasyona göre X testinin geçerlilik düzeyine karar verilir. Yapı Geçerliği: Psikolojide ölçülen özellikler zeka, mutluluk, güdü, sosyalleşme gibi soyut özelliklerdir. ▪ Doğrudan gözlenemeyen bu özelliklere psikolojide yapı adı verilir. Bu yapılar, kendileriyle ilişkili bazı kavram, olay ya da nesnelerle tanımlanırlar. ▪ Duyuşsal alan testlerinde, kişilik özelliği ölçen testlerde ve psikolojik içerikli testlerde ilk aranan geçerlik türüdür. ▪ İç tutarlığı yüksek, ayırıcı, hassas, duyarlı testlerin yapı geçerliği yüksektir. ▪ Bir psikolojik yapının açıklanması üç aşamadan oluşur: 1. Ölçülen yapı ile ilişkili davranışların tanımlanması 2. Ölçülen yapı ile ilişkili olan ve olmayan diğer yapıların tanımlanması 3. İkinci maddede tanımlanan yapılarla ilişkili davranışların tanımlanması ve her davranışın ölçülen yapı ile ilişkili olup olmadığının belirlenmesi ▪ Amaç => Testin ölçmeyi hedeflediği yapıyı ölçüp ölçmediğini belirlemektir. ▪ Bir testin yapı geçerliği bir tek katsayı ile ifade edilemez. Yapı geçerliğini belirlemede çeşitli yöntemler vardır: ✓ Uzman görüşü ✓ Testin, yapı ile ilişkisi kurulan diğer testlerle korelasyonu ✓ Faktör analizi ✓ Grup farklılıkları ✓ Ölçme araçlarından elde edilen puanların kararlılığı Görünüş Geçerliği: Ölçme aracının ölçülmek istenen özelliği ölçüyor görünmesidir. ▪ Soruların hangi derse ait olduğu kolayca anlaşılmalıdır. ▪ Testin gerçekten ne ölçtüğü ile değil ne ölçüyor göründüğü ile ilgilidir. ▪ Görünüş geçerliği olan test, kapağında ne yazıyorsa onu ölçer. «Fizik Testi» diyorsa fizik ölçmesi gibi… ▪ Başka derse ait soruların bir testte bulunması görünüş geçerliğini ve iç tutarlılığı bozduğu için yapı geçerliğini düşürür. ▪ Bazen psikolojik içerikli testlerde yapı geçerliğini korumak için görünüş geçerliği kasten düşürebilir. Geçerliği Etkileyen Faktörler ▪ Güvenirliği düşüren bütün etmenler geçerliği de düşürür. 1. Soruların dersin konularını yeterince kapsamaması 2. Soru sayısının azlığı 3. Sınavın uygulama koşullarının olumsuzluğu 4. Sınav süresinin yetersizliği 5. Sınav stresi ve güdülenme yetersizliği 6. Puanlama hatası 7. Sınavın çok zor veya çok kolay olması 8. Ölçüt puanların güvenirliği 9. Sınavda yer alan soruların birbirinden bağımsız cevaplanamaması 10. Sorularda ipuçları bulunması 11. Seçimlik soru verilmesi 12. Kopya çekilmesi 13. … Geçerlik-Güvenirlik İlişkisi ▪ Güvenirlik, geçerlik için önkoşuldur. Ancak yeterli değildir. Çünkü bir ölçüm güvenilir olduğu halde geçerliği olmayabilir. ▪ Bir ölçme aracının güvenirliği yüksek ise geçerliği yüksek de olabilir düşük de olabilir. ▪ Bir ölçme aracının güvenirliği düşük ise ölçmeye çok fazla hata karışmıştır. Bu nedenle bu ölçme aracının geçerliği de düşüktür. ▪ Ölçme aracının geçerliği yüksek ise güvenirliği de yüksektir. ▪ Geçerlik katsayısı, güvenirliğin kare kökünden büyük olamaz. geçerlik ≤ √güvenirlik Kullanışlılık ▪ Ölçme aracının ekonomik olması, uygulama süresinin kısalığı, ölçmeciden istediği beceriler, hazırlamasının ve uygulamasının kolaylığı, puanlamasının pratikliği gibi etkenler ölçme aracının kullanışlılığını gösterir.

Eğitimde Ölçme ve Değerlendirme PDF

Document Details

Tags

Related

Summary

Full Transcript