Прогнозирование
распространения
COVID-19
Постройте алгоритм, который наиболее точно предскажет динамику числа зарегистрированных случаев заражения коронавирусом COVID-19.
Участникам предстоит построить алгоритм, который наиболее точно предскажет динамику числа зарегистрированных случаев заражения коронавирусом COVID-19.

Задача соревнования – привлечь внимание к прогнозам пандемии коронавируса. Возможно, решая эту задачу, удастся найти проблемы в источниках данных или сделать пригодный для использования прогноз по наиболее достоверным данным.

Основной целью соревнования является развитие открытой науки, методов прогнозирования и обмен опытом в построении прогнозных моделей. Именно на подобных задачах, организованных в виде открытого и публичного бенчмарка, ученые, исследователи и инженеры получают возможность проверить и сравнить различные подходы, а также совместно прийти к лучшим практикам, сделав их доступными всему исследовательскому сообществу.

Канал соревнования в Slack ODS #proj_covid
Победители будут определяться по трем этапам:

  • Этап 1: за неделю 13.04 - 19.04 победители определяются во вторник 21.04 (дедлайн отправки решений 12.04 в 23:59 по московскому времени)
  • Этап 2: за неделю 20.04 - 26.04 победители определяются во вторник 28.04 (дедлайн отправки решений 19.04 в 23:59 по московскому времени)
    Во втором этапе соревнования итоги будут подводиться как по прогнозам по странам, так и по прогнозам по регионам России. Призы второго этапа получат те, кто сделает лучшие прогнозы по регионам России.
  • Этап 3: за неделю 27.04 - 03.05 победители определяются во вторник 05.05 (дедлайн отправки решений 26.04 в 23:59 по московскому времени)
    В третьем этапе соревнования принимаются предсказания как по странам мира, так и по регионам России. Призы третьего этапа получат те, кто сделает лучшие прогнозы по регионам России.
Источник входных данных: 2019 Novel Coronavirus COVID-19 (2019-nCoV) Data Repository by Johns Hopkins CSSE. В папках XXX_time_series находятся таблицы с информацией о подтвержденных случаях, количестве умерших и выздоровевших по странам/регионам. Следует отметить, что исходные данные не до конца достоверные, т.к. они собираются из разных источников, официальных каналов, прессы и т.д.
Решая задачу прогнозирования в реальном времени, приходится работать с теми данными, какие есть. Поэтому участникам данного соревнования требуется учесть все факторы: свойства выборок, схему получения данных, особенности государств, факт принятия мер и пр.
В ходе работы над решением дополнительно можно использовать любые доступные данные при условии, что ссылки на их источники опубликованы в канале соревнования.

В связи с тем, что втором этапе соревнования итоги будут подводиться также и по регионам России, добавлен список russia_regions.csv. Это список регионов России, для которых нужно строить предсказание, там же есть информация об их популяции, ключ — колонка iso_code. В sample_submission.csv добавлены регионы России.
В качестве источников данных рекомендованы https://github.com/grwlf/COVID-19_plus_Russia и COVID-19 Russia.
Формат решений
Участникам необходимо сделать прогноз по всем странам из списка на каждый день. С даты начала соревнования до конца года. Для каждой даты нужно предсказать количество зафиксированных случаев и смертей (всего по состоянию на этот день).
Прогноз начинает действовать в день X+1 (X = день сабмита), не учитывая предыдущие даты. Каждый день будет обновляться leaderboard, в котором будут результаты за последнюю неделю. В финальном leaderboard будут учитываться сабмиты, в которых находятся полные периоды, указанные в правилах.

Метрика качества
Mean Absolute Logarithmic Error - cредний модуль отклонений логарифмов предсказанных случаев от истинных, по формуле
FAQ
Организаторы принимают предложения по улучшению задачи от сообщества Open Data Science.
За какой период оценивается прогноз?
Прогноз делается на каждый день до конца соревнования. Промежуточные итоги подводятся за период в одну неделю. Может показаться, что это очень короткий горизонт планирования и стоит прогнозировать на более длительные временные интервалы. Однако, на динамику развития эпидемии сильно влияют карантинные меры, вводимые в каждой из стран. Предсказание точных дат их введения, а также их эффективность, в рамках подобной задачи невозможно. Более того, на дату запуска соревнования отсутствуют полные данные о введенных мерах, а эффект от реализованных мер еще предстоит оценить.
Зачем прогнозировать, если нет уверенности в достоверности данных?
Учитывая имеющиеся ограничения задачи соревнования, разработанные в его ходе алгоритмы и решения все равно могут стать полезными. Особенно с учетом повышения достоверности данных. Соревнование является в первую очередь открытым бенчмарком прогнозных моделей на данные об эпидемии COVID-19. Участникам стоит сфокусироваться, прежде всего, на моделировании, а не на инженерных аспектах и ограничениях систем и решений. Так, как если бы их требовалось сразу внедрить в рабочее окружение.
Почему решения оцениваются именно по такой метрике?
Выбор метрики обусловлен особенностями задачи. Во-первых, характер роста числа зараженных экспоненциальный. Во-вторых, общее развитие динамики эпидемии в любой из стран более важно, чем фокусировка на предсказании точного числа инфицированных в странах-рекордсменах. И, в-третьих, ввиду того, что разные страны имеют свои стандарты и подходы к тестированию на COVID-19, а также находятся на разных стадиях развития эпидемии, предпочтение отдается более устойчивым подходам.

Обращаем ваше внимание, что метрика может поменяться в ходе соревнования. Окончательный вариант должен быть принят не позднее, чем за неделю до его конца.