Dowody empiryczne to informacje, które naukowcy generują, aby pomóc odkryć odpowiedzi na pytania, które mogą mieć znaczące implikacje dla naszego społeczeństwa.
Wybierz pasy bezpieczeństwa. Przed ich wynalezieniem ludzie byli zabijani lub okaleczani w czymś, co dziś uznalibyśmy za drobne wypadki drogowe. Więc mądrzy inżynierowie połączyli swoje głowy, aby spróbować coś z tym zrobić.
Spróbujmy związać ludzi! Zmieńmy, z czego zrobiona jest kierownica! Umieśćmy w kierownicy eksplodującą torbę z powietrzem! (Wyobraźcie sobie, jak szalenie to zabrzmiało na spotkaniu promocyjnym.) Wszystkie te pomysły wydają się rozsądne (no, z wyjątkiem tej eksplodującej poduszki powietrznej), więc skąd mamy wiedzieć, który z nich powinniśmy zrobić?
Odpowiedzią jest wygenerowanie i zważenie dowodów empirycznych.
Teoria vs. Dowody empiryczne
Można mieć teorię na temat tego, jak coś się rozegra, ale to, co obserwujemy lub czego doświadczamy, może się różnić od tego, co teoria może przewidzieć. Ludzie chcą znać skuteczność wszelkiego rodzaju rzeczy, co oznacza, że muszą je przetestować.
Naukowcy społeczni tworzą dowody empiryczne na różne sposoby, aby przetestować teorie i zmierzyć zdolność A do osiągnięcia oczekiwanego rezultatu: B.
Zwykle badacze zbierają dane poprzez bezpośrednią lub pośrednią obserwację i analizują te dane, aby odpowiedzieć na pytania empiryczne (pytania, na które można odpowiedzieć poprzez obserwację).
Patrzmy na nasz przykład bezpieczeństwa samochodów. Inżynierowie i naukowcy wyposażyli samochody w różne urządzenia zabezpieczające w różnych konfiguracjach, a następnie rozbili je o ściany, słupy i inne samochody i zarejestrowali, co się stało. Z czasem udało im się ustalić, które typy urządzeń zabezpieczających działają, a które nie. Jak się okazuje, ta cała sprawa z poduszkami powietrznymi nie była wcale taka szalona.
Nie wszystko udało im się od razu. Na przykład, wczesne pasy bezpieczeństwa nie były chowane. Niektóre poduszki powietrzne wystrzeliwały kawałki metalu w pasażerów. Ale z czasem bezpieczeństwo samochodów poprawiło się i mimo, że ludzie przejeżdżają coraz więcej kilometrów, coraz mniej osób ginie na drogach.
Jak zbieranie dowodów empirycznych w naukach społecznych jest inne
Badanie efektów, powiedzmy, polityki publicznej na grupie ludzi stawia nas na terytorium nauk społecznych.
Na przykład, badania nad edukacją nie są takie same jak badania nad motoryzacją, ponieważ dzieci (ludzie) nie są samochodami (przedmiotami). Edukacja może być jednak lepsza poprzez próbowanie nowych rzeczy, zbieranie danych na temat tych wysiłków, rygorystyczną analizę tych danych, a następnie ważenie wszystkich dostępnych dowodów empirycznych, aby zobaczyć, czy te nowe rzeczy osiągają to, co mamy nadzieję, że robią.
Niestety, „rygorystycznej analizy” często brakuje w badaniach edukacyjnych. W laboratoriach inżynierów samochodowych bardzo dba się o to, aby zmieniać tylko jeden element projektu (zmienną) na raz, tak aby każdy test wyizolował indywidualny czynnik, który sprawia, że samochód jest bardziej lub mniej bezpieczny. OK, dla tego testu, zmieńmy tylko materiał kierownicy i zachowajmy wszystko inne takie samo, więc będziemy wiedzieć, czy to kierownica rani ludzi.
Porównanie jabłek z jabłkami
W naukach społecznych, a zwłaszcza w edukacji, próba wyizolowania zmiennych jest trudna, ale możliwa, jeśli badacze mogą dokonać porównania „jabłek z jabłkami”.
Najlepszym sposobem na uzyskanie porównania jabłek z jabłkami jest wykonanie czegoś, co nazywa się randomizowaną próbą kontrolną (RCT). Być może słyszałeś o nich w odniesieniu do testowania leków. Testowanie narkotyków używa RCTs cały czas.
W edukacyjnym RCT, uczniowie są podzieleni na dwie grupy przez losowanie i połowa uczniów otrzymuje cokolwiek edukacyjnego „leczenia” jest (nowy program czytania, zmiana w podejściu do dyscypliny, bon szkolny, itp. Naukowcy porównują wyniki tych dwóch grup i szacują efekt „leczenia”. Takie podejście daje nam pewność, że obserwowany efekt jest spowodowany interwencją, a nie innymi czynnikami.
RCT nie zawsze są możliwe. Czasami badacze mogą się do nich zbliżyć, wykorzystując zdarzenia losowe, które dzielą dzieci na dwie grupy, takie jak granice okręgów szkolnych, które są tworzone przez rzeki lub potoki, które dzielą społeczność mniej lub bardziej przypadkowo, lub granice urodzin w przedszkolu, które umieszczają dziecko urodzone 31 sierpnia w jednej klasie, a urodzone 1 września w innej, mimo że w zasadzie nie ma między nimi różnicy. W zależności od dokładnej natury zdarzenia, mogą one być znane jako analizy „nieciągłości regresji” lub „zmiennej instrumentalnej” i mogą być użytecznymi narzędziami do oszacowania efektów programu.
Badacze mogą również śledzić indywidualne dzieci, które otrzymują leczenie, jeśli mają dane sprzed i po, aby zobaczyć, jak trajektoria edukacyjna tego dziecka zmienia się w czasie. Są one znane jako analizy „efektów stałych”.
Wszystkie trzy z nich – randomizowane próby kontrolne, analizy nieciągłości regresji i analizy efektów stałych – mają swoje wady.
Bardzo niewiele zdarzeń zewnętrznych jest naprawdę losowych. Jeśli, jak to często robi analiza nieciągłości regresji, badacze patrzą tylko na dzieci tuż powyżej lub tuż poniżej wartości granicznej, lub, jak to często robi analiza efektów stałych, badacze patrzą tylko na te dzieci, które przechodzą z jednej szkoły do drugiej, to te dzieci mogą nie być reprezentatywne dla populacji. Jak interwencja wpłynęłaby na dzieci, które nie znajdują się w pobliżu granicy lub punktu odcięcia? Albo dzieci, które nie zmieniają szkoły?
W poniższym materiale SlideShare przedstawiamy dowody empiryczne oparte na rygorystycznych badaniach nad programami wyboru szkół prywatnych jako przykład tego, jak my, jako naukowcy i badacze, identyfikujemy i charakteryzujemy wysokiej jakości dowody empiryczne w danym obszarze badań.
Kilka uwag
To dużo do przebrnięcia, więc zanim to zrobisz, chcielibyśmy zaproponować dwie uwagi.
Po pierwsze, zawsze ważne jest zrozumienie kompromisów pomiędzy wewnętrzną i zewnętrzną wiarygodnością.
Wewnętrzna wiarygodność odnosi się do tego, jak dobrze badanie jest prowadzone – daje nam pewność, że efekty, które obserwujemy mogą być przypisane interwencji lub programowi, a nie innym czynnikom.
Na przykład, kiedy rząd federalny chciał wiedzieć, czy program bonów szkolnych w Waszyngtonie zwiększył wyniki testów czytania i matematyki uczniów, badacze wzięli 2 308 uczniów, którzy zgłosili się do programu i losowo przydzielili 1 387 do otrzymania bonów i 921 bez nich. Następnie śledzili te dwie grupy w czasie, a kiedy przeanalizowali wyniki, mogli wyciągnąć uzasadniony wniosek, że wszelkie różnice były spowodowane ofertą bonu, ponieważ jest to jedyna rzecz, która różniła się między tymi dwiema grupami, a różniły się one tylko z powodu przypadku losowego. Badanie to miało wysoką wiarygodność wewnętrzną.
Ważność zewnętrzna odnosi się do stopnia, w jakim możemy uogólnić wyniki badania na inne warunki.
Pomyślmy o tym samym badaniu. Program w Waszyngtonie był wyjątkowy. Ilość pieniędzy, które otrzymują uczniowie, przepisy, na które musiały zgodzić się szkoły uczestniczące w programie, wielkość programu, jego niepewna sytuacja polityczna i wiele innych czynników różniło się w tym programie od innych, nie wspominając o tym, że Waszyngton nie jest reprezentatywny dla Stanów Zjednoczonych jako całości pod względem demograficznym, politycznym lub w jakikolwiek inny sposób, który możemy sobie wyobrazić. W rezultacie, musimy być ostrożni, gdy próbujemy uogólniać wyniki. Badanie ma niższą wiarygodność zewnętrzną.
Aby zwalczyć problemy związane z niższą wiarygodnością zewnętrzną, badacze mogą zbierać i analizować dowody empiryczne dotyczące projektu programu, aby zrozumieć jego wpływ. Możemy również przyjrzeć się wielu badaniom, aby zobaczyć, jak podobne interwencje wpływają na uczniów w różnych warunkach.
Po drugie, szacunek i wykorzystanie badań nie popiera technokracji. Badania i wiedza specjalistyczna są niezwykle przydatne. Kiedy wsiadasz do samolotu lub idziesz na operację, chcesz, aby osoba, która wykonuje pracę, była ekspertem. Dowody empiryczne mogą nam pomóc dowiedzieć się więcej o świecie i być lepszymi w tym, co robimy. Ale powinniśmy również zachować powściągliwość i pokorę, uznając ograniczenia nauk społecznych.
Polityka publiczna obejmuje ważenie kompromisów, których nauki społeczne nie mogą zrobić za nas. Nauki społeczne mogą nam powiedzieć, że pewien program zwiększa wyniki w czytaniu, ale także zwiększa lęk i depresję u dzieci. Czy ten program powinien być kontynuowany? Ostatecznie sprowadza się to do ludzkiego osądu i wartości. Nigdy nie należy o tym zapominać.