Величина мощности при проверке статистической гипотезы зависит от следующих факторов:
величины уровня значимости, обозначаемого греческой буквой α (альфа), на основании которого принимается решение об отвержении или принятии альтернативной гипотезы;
величины эффекта (то есть разности между сравниваемыми средними);
размера выборки, необходимой для подтверждения статистической гипотезы.
Со времени публикации работы Джейкоба Коэна прошло уже более полувека, но авторы научных исследований все так же рассказывают о своих успехах, скрывая поражения. Это доказывают результаты еще одной работы, опубликованной недавно в Royal Society Open Science (The natural selection of bad science). Авторы этой работы – Пол Смальдино из Калифорнийского университета и Ричард МакЭлрес из Института эволюционной антропологии Общества Макса Планка. По словам исследователей, современные статьи не стали качественнее. По крайней мере, статьи, которые относятся к психологии, неврологии и медицинской науке.
Изучив несколько десятков статей, опубликованных в период времени с 1960 по 2011 год, ученые определили, что средний показатель статистической мощности в этом случае равен 24%. Это лишь немногим выше того параметра, который был просчитан Коэном. И это несмотря на то, что за последние годы методы научного исследования стали точнее, а для исследователей публикуется все больше книг и статей с описанием принципов и методов научной работы.
Усредненная статистическая мощность публикаций,
размещенных в научных журналах с 1960 по 2011 г.
Получив такой результат, ученые задумались над тем, что может изменить текущее положение вещей, чтобы авторы научных работ стали добросовестнее. Для этого МакЭлрес и Смальдино создали компьютерную эволюционную модель. В рамках этой модели около 100 виртуальных лабораторий соревновались за право получения вознаграждения. Оно выплачивалось в том случае, если в рамках исследования команда лаборатории получала действительно значимый результат. Для определения размера вознаграждения ученые использовали такой показатель, как объем публикаций.Как выяснилось, некоторые лаборатории работали более эффективно, чем другие, показывая больше результатов. В то же время, эти лаборатории часто выдавали ожидаемое за действительное. В этом случае результаты выверялись хуже, и результаты интерпретировались, как положительные. Если результаты работы выверялись тщательнее, то публиковалось меньше работ.
В каждом цикле симуляции все моделируемые лаборатории выполняли эксперименты и публиковали результаты. После этого ученые убирали наиболее старую лабораторию из ряда случайно выбранных. А лаборатории из еще одного случайного списка (критерий выборки – максимальное количество полученных вознаграждений) позволяли создать собственное подразделение, которое занималось активной работой по публикации научных материалов. Предварительные результаты анализа компьютерной модели продемонстрировали: публиковавшие больше всех работ лаборатории уделяли лишь малую толику времени проверке результатов и становились наиболее авторитетными, распространяя свои методы исследований в научном сообществе.
Но было еще кое-что. Как оказалось, повторение результатов работы какой-то одной лаборатории коллективом другой приводит к улучшению репутации первой лаборатории. А вот неудача в повторении результатов какого-либо эксперимента приводит к проблемам и понижению репутации лаборатории, которая провела такой эксперимент первой. В этом случае срабатывает фильтр, который не допускает появления в научном сообществе фальшивых исследований с модифицированными результатами исследований.
Чем сильнее было наказание для тех, кто опубликовал непроверенные результаты, тем мощнее оказывался фильтр некачественных исследований. При максимальном наказании в 100 баллов лабораторий с фальшивыми данными резко вырастало количество публикаций с реальными результатами. Кроме того, вырастало и количество повторных экспериментов, которые проводили другие лаборатории с намерением повторить полученные кем-то результаты.
Напомню, что все, сказанное выше – смоделированная на ПК ситуация. Авторы исследования делают следующий вывод: как и раньше, сейчас научные организации, которые публикуют больше работ, чем другие, считаются наиболее авторитетными. К сожалению, фильтр некачественных публикаций, который сработал в виртуальном мире, не слишком хорошо работает в мире реальном. Дело в том, что НИИ и отдельные исследователи не слишком часто проверяют результаты друг друга. Если бы такие проверки с намерением повторить результат, полученный партнером, осуществлялись чаще, то и «фальшивых результатов» в мире науки стало бы значительно меньше.
Авторы исследования считают, что компьютерная модель показала возможность изменения текущего положения вещей. Если бы фонды и научные организации не давали деньги тем ученым и лабораториям, кто публиковал непроверенные результаты своих исследований, выдавая их за положительный результат, то обманщиков быстро бы стало меньше. Но реализовать такую модель в реальном мире довольно сложно. «Легче сказать, чем сделать», – говорит Смальдино.
Так что пока в плюсе оказываются те организации, кто публикует много статей. А вот организации, которые тщательно выверяют свои результаты, публикуются реже.
marks, Geektimes
Портал «Вечная молодость» http://vechnayamolodost.ru