By 格雷戈里·西蒙,医学博士,公共卫生硕士, 高级调查员, 2022世界杯下注网站健康世界杯下注网站所 (KPWHRI); principal investigator, 心理健康世界杯下注网站网络; and 2022世界杯下注网站 psychiatrist
对COVID-19大流行过程的预测引发了关于哪种疾病模型表现最好的激烈争论. 由于相互竞争的模型给出了不同的发病率和死亡率预测, 流行病学和医学推特界的争论变得激烈起来. 鉴于专家之间的激烈分歧, 我们如何评估产生不同预测的竞争模型的准确性? 难道没有比选美比赛更客观的评判模特的方式吗?在选美比赛中,评委们根据长相和声誉来挑选获胜者? 我认为这个问题引出了不同类型的数学模型之间的一个关键区别.
大多数预测个人层面事件的模型(例如 预测自杀行为的模型 由 心理健康世界杯下注网站网络(或MHRN)遵循经验或归纳方法. 归纳模型从“大数据”开始, 通常包括大量的事件和大量的潜在预测因子. 然后数据告诉我们哪些预测是有用的,以及每个预测应该给予多大的权重. 在收集原始数据时可能涉及理论或判断, 但关键的决定是由数据做出的. 不管我们对哪个预测因素有影响的看法, 数据决定了哪些预测因素真正重要.
与此形成鲜明对比的是, 预测人口水平变化的模型(包括许多相互竞争的COVID-19发病率和死亡率模型)通常采用机械或演绎方法. 演绎模型假定了一种潜在过程的机制,例如 易感-感染-恢复(S-I-R)模型 传染病的流行, 在给定的时间段内,哪些项目可以预测易受感染的人数, 活跃感染, 或者已经从感染中恢复. 演绎模型从一个假定的过程开始, 比如S-I-R模型中不同车厢之间的关系, 这源于理论和专家意见.
此外, 就像COVID-19的具体情况一样, 例如, 流行病学家试图估计关键的比率或概率, 比如现在著名的 复制数或R0 对于COVID-19, 哪一个。, 为非统计学家做个粗略的翻译, 表示被一个具有传染性的个体感染的平均人数. 他们运用这些比率或概率来预测流行病将如何传播, 但这可能会导致问题:这样的比率通常是从多个来源估计的,至少涉及一些专家的意见或解释. 这是与经验/归纳方法的关键区别, 哪一个不依赖于对过程和模型中的关键元素做出假设.
判断经验或归纳预测模型的性能遵循一个标准路径. 至少, 我们随机地将原始数据分成用于开发模型的一部分和用于测试或验证模型的单独部分. 在使用预测模型为实践或政策提供信息之前, 我们经常测试它的运行情况 在不同时间或地点的数据中进行测试或验证. 到目前为止, 我们预测个人层面自杀行为的MHRN模型在所有这些测试中都表现良好. 归纳模型也是 在KPWHRI学习卫生系统计划中使用 并经历了类似的测试过程.
对于机械模型或演绎模型,经验验证过程通常既不可行也不合理, 特别是在新出现的流行病的情况下. 如果我们观察的是国家而不是人, 我们缺乏将世界划分为模型开发样本和验证样本的样本大小. 根据COVID-19在时间或地点上的传播情况来验证预测是没有意义的. 我们已经知道,导致大流行的关键因素因时间和地点的不同而有很大差异. 我们可以等到9月底,看看哪个COVID-19模型对夏季做出了最好的预测, 但这个答案来得太迟,无法发挥作用. 因为我们缺乏数据来判断模型的性能, 这种竞争可以像选美比赛一样主观.
我通常对机械论或演绎模型持怀疑态度. 假设的机制往往过于简单. 今年4月,一些令人放心的模型使用了 法尔定律 预测COVID-19会像爆发一样迅速消失. Dr. 威廉·法尔, 被认为是医学统计学创始人之一的英国流行病学家, 显示了19世纪晚期流行病的上升和下降大致呈钟形曲线, 从那时起,他的观察结果被准确地用于一些流行病. 不幸的是,COVID-19没有遵循这一规律.
即使假定的机制是正确的, 在机械模型中对关键比率或概率的估计往往依赖于专家意见而不是数据. 这些估计的微小差异可能导致最终结果的显著差异. 在预测2019冠状病毒病大流行的未来时,对疫情的预期存在微小差异 繁殖数量 或病死率导致预期发病率和死亡率的巨大差异.
当我们有必要的数据时, 我宁愿从等式中去掉机械假设和专家意见估计. 但是,我们有时缺乏开发经验或归纳模型所需的数据——特别是在预测一种不断演变的流行病的未来时. 因此,我们将不得不与不确定性共存——而且,我们还常常会对竞争模型的表现展开激烈争论. 而不是试图判断哪种COVID-19模型表现最好, 我会坚持我知道我需要做的事情:避开人群(尤其是在室内)。, 洗手, 戴上我的面具!