营养新闻怀疑

为什么应该对最新的营养新闻持怀疑态度：第一部分

发布日期 2018 年 9 月 27 日

在了解阅读最新的营养新闻之前，需要了解研究人员用来收集和解释数据的方法。

营养流行病学基本上相当于棋盘游戏中的通灵板——你想让它说什么，它就会说什么。——彼得·阿提亚博士

每周，我们都会被媒体上有关最新营养研究的头条新闻轰炸。以下是过去几周的一些报道：

“研究表明，低碳水饮食可能会缩短寿命”（BBC 新闻）
“每天吃奶酪和黄油与长寿有关”（《新闻周刊》）
“一项新研究表明，任何量的饮酒都对身体有害。专家们是这么说的”（《时代》杂志）
“全谷物是预防 2 型糖尿病最重要的食物类别之一”（《科学日报》）
“低碳水饮食‘应成为应对 2 型糖尿病和延长寿命的首要方法’”( iNews )

在几周时间里，我们了解到低碳水饮食可以延长寿命，但也会缩短寿命，而且对糖尿病有利有弊。我们还了解到，即使少量饮酒（长期以来一直被认为有益健康）现在也是不健康的。

几十年来，我们被告知要限制饮食中的脂肪和胆固醇，因为这些会堵塞动脉，导致心脏病发作，使人早逝。然而，在 2010 年，联邦政府从美国膳食指南中取消了对总脂肪的限制，在 2015 年对胆固醇做了同样的事情，指出胆固醇“不是一种值得担心过度摄入的营养素”。( 1 )

如果您对此感到困惑，或者您已经完全停止了倾听，那么您并不孤单。谁又能责怪您呢？斯坦福医学院教授约翰·伊奥尼迪斯博士最近在《美国医学会杂志》上发表了一篇对营养研究的严厉批评文章，他说：

营养研究可能对公众对科学的看法产生不利影响。 > > …营养流行病学的新兴图景很难与良好的科学原理相协调。该领域需要彻底改革。（2）

换句话说，你对最新的媒体头条新闻表示怀疑，或只是沮丧地举手投降，这并不疯狂！在本文中，我将探讨为什么对大多数营养研究持怀疑态度是一种适当的反应。有了这些信息，你将能够更好地保护自己和家人免受最新媒体炒作影响，专注于饮食和营养方面真正重要的东西。

观察性研究是“假设生成”，而不是证据（即相关性不等于因果性）

观察性研究是一种推断受试者的暴露或干预影响的研究，研究人员或调查员无法控制受试者。这不是研究人员指导特定干预（如低碳水饮食）来让结果发生的实验。相反，他们只是观察人群，猜测饮食方式或生活方式变量的影响。

观察性研究适合于产生假设，但无法证明特定变量会导致特定结果。

这是随机对照试验（RCT）的领域，将参与者随机分配到两组——接受所研究干预的治疗组和不接受干预的对照组——然后在特定时间段内观察他们。

我们都看到过营养新闻头条，承诺提供突破性的信息，改变我们看待健康的方式。但有多少新闻报道是基于方法错误、偏见不受控制和其他重大问题的研究？

每位科学家都知道这一点，大多数记者也应该知道。然而，如今，我们经常看到“低碳水饮食缩短寿命”和“食用加工肉类增加患癌风险”这样的标题，这些标题暗示研究证明因果性，而事实上只是建立的是相关性。

问题在于，两个相关或关联的变量并不总是具有因果性。请考虑以下示例，这些示例来自 Tyler Vigen 的出色网页“虚假相关性”：

在太空、科学和技术方面的支出与自缢、勒死和窒息自杀的相关性高达 99.8% 。
美国的人均人造黄油消费量与缅因州的离婚率相关高达 99.3%。
街机游戏厅产生的总收入与美国授予的计算机科学博士学位有98.5% 的相关性。

这些相关性非常强，但我认为很明显的是，美国的人造黄油消费量对缅因州的离婚率完全没有影响……对不对？

另一个很好的例子是，很容易得出虚假的相关性——尤其是有计划的时候——一项针对 1060 万加拿大人最常见的住院诊断的大型研究。研究人员发现，24 种诊断与参与者的星座有显著相关性：( 3 )

安大略省居民中，狮子座的人因胃肠道出血住院的风险高出 15% 。
与其他星座的人相比，射手座的人因手臂骨折住院的风险高出 38% 。

Ioannidis 伊奥尼迪斯博士在JAMA发表的评论中指出：

几乎所有营养变量都有相关性；因此，如果一个变量与健康结果存在因果性，那么在足够大的数据集中，许多其他变量也会产生显著的相关性。

为了说明这种说法有多么荒谬，他举了一个例子，如果从表面上看，观察性研究可以推断出：

…每天吃 12 颗榛子（1 盎司）可延长寿命 12 年（即每颗榛子可延长 1 年），每天喝 3 杯咖啡可延长寿命 12 年，每天吃一个橘子（80 克）可延长寿命 5 年。相反，每天吃 1 个鸡蛋会使预期寿命减少 6 年，每天吃 2 片培根（30 克）会使预期寿命缩短 10 年，其影响比吸烟更严重。

这些关系真的是因果性吗？伊奥尼迪斯说，当然不是。然而，研究作者在报告这些研究的结果时经常使用因果性语言。

事实上，根据 2013 年的一项分析，观察性研究的作者在 56% 的病例中提出了医疗或营养建议（表明他们的数据显示了因果关系）。（4）研究作者总结了他们的研究结果如下：

总之，我们的实证评估表明，将观察结果与有关医疗实践的建议联系起来目前在具有很高影响力的期刊中非常普遍。这样的建议往往代表着逻辑上的飞跃。因此，如果这些是正确的，可能会加速研究的转化，但如果是错误的，可能会造成相当大的伤害。[强调]

我应该指出，使用所谓的布拉德福德·希尔标准，至少可以合理地确信观察性研究中变量之间的因果性：

相关强度
一致性
特异性
暂时性
生物梯度
合理性
连贯性
实验
类比

满足的标准越多，存在因果性的可能性就越大。

然而，观察性营养研究很少满足这些标准，这使得频繁提出的因果性更加令人怀疑。

数据收集方法是“伪科学”

科学界有句名言：“数据的好坏取决于收集数据的工具。”

早在 13 世纪，英国哲学家、方济会修士罗杰·培根就说过，科学数据必须：（5）

可独立观察
可衡量
可证伪
有效性
可靠性

举一个简单的例子，如果有人在你面前吃苹果，你可以观察、测量，验证或推定他确实在吃苹果。但如果他只是告诉你，他在过去的某个时间吃过苹果，你既不能观察、测量、验证，也不能反驳他的故事。你只能相信他的话——这不是科学。

“观察性营养研究”这个术语用词不当，因为暗示研究人员实际上在观察参与者吃什么。但这当然不是真的；研究人员不会站在厨房里，也不会一起去餐馆。

相反，通过让人们填写问卷来收集有关吃什么的数据。研究中使用不同版本的问卷，从食物频率问卷 (FFQ)，可能要求回忆几个月甚至几年前吃过的东西，到 24 小时回忆调查，询问在过去 24 小时内吃过什么。

这些“基于记忆的评估”（“M-BM”）与实际热量或营养摄入几乎没有关系。为什么？因为记忆不是对过去事件的字面、准确甚至精确的再现。（6）

在一篇批评 M-BM 在数据收集有效性的论文中，Edward Archer 阿彻指出：

当一个人提供饮食报告时，所收集的数据并不是实际的食物或饮料消费量，而是关于食物和饮料消费记忆的、容易出错且经过高度编辑的轶事。（7）

回到上面苹果的例子，研究人员并没有观察参与者吃苹果的过程，依靠的是参与者吃苹果的报告——有时是几年前的报告！

但 M-BM 到底有多不准确？为了找出答案，阿彻分析了国家健康和营养检查调查 (NHANES) 参与者的问卷，这是一项长期研究美国公众健康和营养状况的系列研究。NHANES 一直是饮食指南和公共卫生建议的基础。

阿彻发现，在 NHANES 的 39 年历史中（他进行研究时），大多数受访者（67% 的女性和 59% 的男性）自我报告的热量摄入量在生理上并不符合常理，而超重和肥胖人群（即大多数美国人）报告的平均热量摄入量水平与生活不相容。

换句话说，一位卧床不起、体弱多病的老年妇女（即热量需求最低的人）无法靠 NHANES 调查中普通人报告的热量数量维持生命！

这不仅仅是美国的问题。三十年来，M-BM 的不准确性在全球多个国家不断重现。（8）

为什么这会是一个问题吗？

所有的常量营养素（蛋白质、脂肪和碳水化合物）和微量营养素（维生素、矿物质和微量矿物质）都会以热量形式消耗，因此当热量被错误报告时，所有的营养素也会被错误报告。

此外，某些群体更容易少报，包括肥胖或高热量摄入的人。研究发现，肥胖受试者少报了高达一半的热量摄入，尤其是脂肪和碳水化合物的摄入。（9）

这样做的后果之一是，高脂肪（或碳水化合物）摄入量带来的健康风险会被高估。假设某人报告饱和脂肪摄入量为 50 克，总胆固醇为 200 毫克/分升。但假设少报了 40% 的饱和脂肪摄入量，而实际摄入量为 80 克。这会高估饱和脂肪摄入量对总胆固醇的影响，因为假设摄入 50 克（而不是 80 克）会导致总胆固醇为 200 毫克/分升。

那该怎么办呢？阿彻毫不留情：

[从M-BM收集的数据]是伪科学的，在科学研究和国家膳食指南的制定中是不可接受的。（10）

他还指出：

…对 M-BM 的有效性和价值的盲目信任浪费了大量资源，并继续成为肥胖和营养研究领域实际科学进步的最大障碍。（11）

大多数人都不知道，整个观察性营养研究领域以及由此产生的所有媒体头条都是基于对人们饮食的调查问卷。现在你知道了，你还会以同样的方式看待营养新闻头条吗？

“健康用户”偏见

“健康用户”偏见是指这样的观察结果：从事被认为是健康的行为的人更有可能从事其他被认为是健康的行为，反之亦然。

例如，由于多年来红肉一直被视为“不健康”，因此平均而言，吃更多红肉的人更有可能：（12）

抽烟
缺乏运动
少吃水果和蔬菜
受教育程度较低

当然，大多数研究人员都很清楚混杂因素和健康用户偏见的影响，优秀的研究人员会尽最大努力控制尽可能多的这些因素。但即使在最好的研究中，研究人员也无法控制所有可能的混杂因素，因为人们的生活实在太复杂了。正如华盛顿大学前生物统计学家诺曼·布雷斯洛曾经说过的那样：

人们认为自己或许能够控制那些本质上无法控制的事情。

健康用户偏见的必然结果之一是，许多观察性研究最终比较了两组完全不相似的人，这使人们对研究结果产生了怀疑。

例如，早期研究表明素食者比杂食者寿命更长。然而，这些研究将基督复临安息日会（一个提倡素食和健康生活方式作为其信仰体系一部分的宗教团体）与普通人群进行了比较。

这很可能造成健康用户偏见，因为基督复临安息日会成员的生活方式行为（如不吸烟、不喝酒、多吃新鲜水果和蔬菜、多锻炼）已被证明可以降低心血管疾病和所有原因导致的死亡风险。因此，我们不可能知道这些研究中观察到的死亡率下降是否与素食或其他原因有关，因此这些研究结果不能推广到更广泛的人群。

（顺便提一下，后来有四项研究将素食者与更注重健康的杂食者进行了比较，发现这两组人的寿命都比一般人群长，但素食者和健康的杂食者的寿命没有差异。可以在我的文章《素食者真的比荤食者活得更长吗？》阅读更多相关内容）。

健康用户偏见困扰着大多数观察性营养研究，然而当媒体报道这些研究时，我们几乎从未听到过提及。现在您知道了这一点，您会如何对我在文章开头分享的一些标题做出不同的回应？

“研究表明，低碳水饮食可能会缩短寿命”
“每天吃奶酪和黄油与长寿有关”
“全谷物是预防 2 型糖尿病最重要的食物类别之一”

你会问这样的问题吗：

由于脂肪被认为是不健康的，而低碳水饮食脂肪含量高，那么吃低碳水饮食的人是否也会参与其他被认为不健康的行为？
吃更多奶酪和黄油的人是否还做了其他有助于延长寿命的事情？
吃更多全谷物的人是否锻炼更多或参与其他被认为健康的行为（因为吃全谷物被认为是健康的）？

与偶然性难以区分的相对风险

2015 年，国际癌症研究机构 (IARC) 发布报告指出，每消费 50 克加工肉类，与食用加工肉类最少的人相比，患癌症的相对风险增加 18%。( 13 )

我们对这一说法有多大信心？在营养学领域以外的流行病学中（甚至直到最近，在营养学领域内也是如此），相对风险的置信阈值在 100% 到 300% 之间。换句话说，我们需要看到给定干预措施的风险增加或减少 100% 到 300%，然后我们才能确信观察到的变化是由于干预措施而不是偶然因素造成的。

已故流行病学家、斯隆流行病学中心联合创始人西德·夏皮罗 (Syd Shapiro) 认为，在这个范围的高端，人们可以谨慎地保持信心，但“我们几乎从来都不能对低于 [100%] 的估计值有信心，而当估计值远低于 [100%] 时，我们就会败了。”（14）

《新英格兰医学杂志》前主编马西娅·安吉尔（Marcia Angell）在 1995 年发表于《科学》杂志的一篇题为“流行病学面临局限性”的文章中也说过同样的话：

一般来说，我们在接受一篇论文发表之前，会寻找三倍或更高的相对风险，特别是如果在生物学上难以置信，或是一个全新的发现。

而时任美国食品药品管理局（FDA）药品评估主任的罗伯特·坦普尔（Robert Temple）在同一篇《科学》文章中说得更为直白：

我的基本原则是，如果相对风险最低不到三或四，那就算了。

大多数接受《科学》杂志采访的流行病学家表示，他们不会认真对待任何一项报告癌症新潜在病因的研究，除非风险增加至少三倍。

这对观察性营养研究来说是个坏消息，因为报告的绝大多数相对风险都远低于这一阈值。大多数都远低于 100%，许多（比如 IARC 关于加工肉类和癌症的发现）低于 25%。

换个角度来说，吸烟会使患肺癌的相对风险增加 1,000% 到 3,000%。食用受黄曲霉毒素污染的谷物会使患肝癌的相对风险增加 600%。

考虑绝对风险降低和相对风险降低之间的差异也很重要。研究人员经常使用相对风险统计数据来报告营养研究的结果。例如，在 IARC 报告中表示，每食用 50 克加工肉类，患癌风险就会增加 18%。但是，当以绝对值表示相对风险的增加时，听起来并不那么令人印象深刻。素食者一生中患结肠癌的绝对风险为 100 分之 4.5；而一生中每天食用 50 克加工肉类的人，患癌风险为 100 分之 5.3。（15）

所有这些都表明，观察性营养研究中的大多数发现与偶然性难以区分，并且不太可能通过 RCT 进行验证（在大多数情况下情况确实如此，我将在稍后解释）。然而尽管如此，许多此类研究仍在媒体上大肆宣传，并且经常被报道为确实发现了因果性。

不幸的是，目前学术界和媒体的氛围助长了这种现象。无效结果（即研究人员未发现正相关或负相关）发表的可能性显著降低，而如果不发表，研究人员就会失业。（16、17）数字媒体世界中获取点击量和广告收入的压力导致标题夸大其词，夸大或歪曲研究的实际发现。一项研究发现，43% 的医学研究头版报道都是基于初步发现的研究（即是未证明因果性的观察性研究）。（18）

加州大学洛杉矶分校的流行病学家桑德·格林兰博士说：“罪过在于，因为研究得出了积极的结果，所以就相信因果假设是正确的。”（19）

可悲的是，如今这种情况更多的是常态而不是例外。

https://chriskresser.com/why-you-should-be-skeptical-of-the-latest-nutrition-headlines-part-1/

为什么要怀疑最新营养新闻

第二部分

作者： Chris Kresser，MS 2018 年 9 月 27 日

利益冲突、政治和数据解读错误在营养研究中很常见。这意味着最新的营养新闻标题往往具有误导性。

在本系列上一篇文章中，我谈到了为什么观察性研究不是证明因果关系的好工具；研究人员使用的数据收集方法如何依赖于记忆而不是事实；健康用户偏见如何影响研究结果；以及在许多情况下，营养研究如何发现看起来很像纯属偶然的“风险”。在本文中将深入探讨为什么应该对营养新闻持保留态度。

大多数结果无法复制

科学依靠可重复的实验来运作；重复实验时，必须给出相同的答案。如果实验无法重复，则一定出了问题。– Young & Karr，皇家统计学会( 1 )

正如上面提到的，重复是科学方法的一个关键特征。最初的发现本身并不重要。为了使之认为是有效的，需要被其他研究人员重复。

我们应该相信营养研究人员能帮助我们了解我们的健康状况，但在某些情况下，他们对营养的看法是错误的。查看更多应该对营养新闻持怀疑态度的理由。

在营养研究的背景下，由于观察性研究无法证明因果关系，因此理想情况下应通过随机对照试验 (RCT) 复制其研究结果。RCT 专门用于证明因果关系，虽然并不完美（见下文），但作为证据，比观察性研究更有说服力。

大多数观察性营养研究的结果尚未被 RCT 复制。事实上，一项分析发现：（2）

在针对各种饮食模式和营养补充的观察性研究中，52 项营养声明没有一项可重复，而5 项声明具有统计学意义，但结果却恰恰相反。

是的，你没看错。在观察性营养研究中提出的 52 项声明中，没有一项得到重复，还有 5 项与观察性研究的结果相反！

让我们来看一个具体的例子。观察性研究表明，摄入 β-胡萝卜素（一种主要存在于水果和蔬菜中的抗氧化营养素）最多的人与摄入量最低的人相比，死亡风险降低了 31%。然而，补充 β-胡萝卜素的 RCT 不仅未能证实这一益处，还发现摄入量最高的人群患癌症的风险增加。（3 ）哎呀！维生素E 也发现了类似的结果。（4）

注重数量，而不是质量

人们不是吃营养，而是吃食物。——玛格丽特·米德

当今绝大多数观察性研究仅关注营养素、单一食物成分或生物标志物（如饱和脂肪、碳水化合物、热量、低密度脂蛋白胆固醇），这些研究脱离了食物、饮食和身体过程的背景。

这种还原论方法被科学哲学家乔治·斯克里尼斯 (Gyorgy Scrinis) 称为“营养主义”，干扰了营养科学提供有用的个人和公共健康指导的能力。（5）

营养主义的好处是发现了药物、维生素和矿物质，拯救了数百万人的生命。坏处是美国人（以及整个工业化世界的人们）过于关注摄入的脂肪或碳水化合物的比例等细节，而不是关注更广泛、更重要的问题，比如所吃食物的质量。

过去几十年来，这种情况体现的两个例子如下：

由于担心黄油的饱和脂肪含量，人们开始推崇人造黄油，而不喜欢味道更好的黄油
鸡蛋因其胆固醇含量而被诋毁，而不考虑其整体营养价值

（当然，人们现在知道黄油比人造黄油更健康，而且膳食胆固醇对心脏病没有影响。又一个错误！）

营养主义是一种相对较新的现象。始于 1977 年的麦戈文报告，这是第一份广泛传播的营养指南，提供详细、定量、以营养为重点的膳食建议。（6）在此之前，膳食指南基于熟悉的食物类别和份量概念，以及关于购买和食用哪些食物以保持健康的相对简单信息。普通人可以轻松理解这些指南，最重要的是，可以按照这些指南行事。

麦戈文报告之后，膳食指南变得越来越复杂，普通人难以理解。1980 年的膳食指南是一本 19 页的小册子；1985 年，增加到 28 页；2010 年是 112 页；而 2015 年，最新的膳食指南则长达 571 页！

营养主义最近的一个实例是低脂肪饮食和低碳水饮食是否更有利于减肥、代谢和心血管健康的激烈争论。争论双方各有拥护者，争论仍在继续。

2018 年初，由克里斯托弗·加德纳博士领导的一组研究人员开始通过 RCT 解决这一争论。他们将参与者分为两组：低碳水和低脂肪。但问题在于：他们指示两组人：

1）尽量多吃蔬菜；2）尽量少吃添加糖、精制面粉和反式脂肪；3）尽可能多吃加工程度低、营养丰富、在家烹制的全食。（7）

例如，果汁、糕点、白米饭、白面包和软饮料等食物脂肪含量低，但不推荐给低脂组。相反，营养师鼓励参与者食用全食，如瘦肉、糙米、扁豆、低脂乳制品、豆类和水果。同时，低碳水组被指示专注于富含健康脂肪的食物，如橄榄油、牛油果、鲑鱼、奶酪、坚果酱和牧场饲养的动物产品。

这也许并不奇怪——如果不信奉营养主义的话——研究人员发现，平均而言，减少添加糖、精制谷物和加工食品的人在 12 个月内会减轻体重——无论饮食是低碳水还是低脂肪。

这是营养研究应该是什么样子的绝佳范例，得出了临床相关、实用且易于人们遵循的建议：吃真正的食物。试想一下，如果过去 40 年的大多数营养研究都是这样设计的，现在会是什么样子？

RCT 优于观察性研究，但仍存在问题

如果观察性研究无法证明因果关系，那么为什么仍是膳食指南和公共卫生建议的基础呢？答案是 RCT 也存在一些缺陷，迄今为止，这些缺陷使其无法成为研究人口健康的实用工具。

期限

营养因素与疾病之间的大多数关系可能需要数年甚至数十年才能形成。此外，一些营养干预措施的短期效果与长期效果不同。

减肥就是一个很好的例子。研究表明，低碳水和低脂肪饮食在短期内都能减轻体重，但从长远来看（超过 12 个月）往往会反弹。

样本量不足

样本量，即 RCT 的参与者人数，是决定研究结果是否适用于更广泛人群的最重要因素之一。大多数营养 RCT 的样本量都不够大。

斯坦福医学院教授约翰·伊奥尼迪斯博士在最近《英国医学杂志》的一篇题为《人类营养研究中不可信的结果》的社论中强调了这个问题。

为了找到一种能够真正将总死亡率的相对风险降低 5% 到 10% 的营养相关干预措施，需要进行的研究要比备受关注的 PREDIMED 试验（约有 7,500 名参与者）规模大 10 倍，此外还要进行长期随访、与死亡登记处的联系，以及最大限度地提高依从性的谨慎努力。

RCT 价格昂贵

设计具有足够持续时间和样本量的 RCT 是一项巨大挑战，原因之一是成本。RCT 非常昂贵。在制药界，制药公司为 RCT 付费是因为对结果有既得经济利益。但在营养界，谁会为长期 RCT 付费？营养研究（以及许多其他类型的研究）的公共资金正在减少，而不是增加，这使得不太可能在短期内看到具有足够样本量的长期 RCT。

高质量的 RCT 很难开展

正如彼得·阿提亚 Peter Attia 博士在其出色的系列研究文章中指出的那样，设计高质量的 RCT 充满挑战：

这些试验需要建立可证伪的假设和明确的目标、适当的终点选择、适当的受试者选择标准（纳入性和排除性）、临床相关且可行的干预方案、充分的随机化、分层和盲法、足够的样本量和功效，以及预测在 RCT 过程中可能遇到的常见实际问题。

这不是一项容易的任务，而且很少有营养 RCT 能够应对这一挑战。

利益冲突——财务和非财务利益冲突

如果一个人的薪水取决于是否理解某件事，那么让他理解这件事是很困难的。——厄普顿·辛克莱

许多人都写过关于经济利益冲突及其对所有形式研究（包括营养研究）的影响的文章。简而言之，研究表明，当研究由行业资助时，更有可能报告对资助方有利的结果。

在马里恩·内斯特尔（Marion Nestle）进行的一项分析中，90% 的企业赞助的研究都得到了对赞助商有利的结果。（8）有关这些问题的摘要以及如何影响营养研究质量，推荐阅读Vox的这篇报道。

在本文中，我想重点讨论另一种利益冲突：正义偏见，也称为“白帽偏见”。正义偏见不像经济利益冲突那样容易被人认识，这是对营养研究产生潜在影响的众多原因之一。

正义偏见被定义为“为了所谓正义目的而扭曲基于研究的信息的偏见”。( 9 )

例如，假设一位纯素研究人员着手进行一项关于纯素饮食对健康影响的研究。研究人员对纯素食主义意识形态承诺是否有可能有意或无意地影响研究的设计、执行和解读方式？当然可以。事实上，很难想象可能不会影响。

在 2018 年的一篇社论《营养研究中的披露：为何与众不同》中，伊奥尼迪斯博士建议研究人员应该披露正义偏见，就像披露财务利益冲突一样。他说：

因此，营养研究人员有必要披露他们的倡导或活动工作以及他们的饮食偏好（如果这些偏好与他们文章中介绍和讨论的内容相关）。这对于具体、有限制且严格遵守的饮食偏好来说更为重要。

伊奥尼迪斯继续说，倡导和行动主义虽然值得称赞，但却违背了“科学方法的一个关键方面，即不先发制人地、基于信仰或派别倾向而站队”。

纯素食主义当然符合“具体、有限制、严格遵守”的饮食建议标准。事实上，有人指出，纯素食主义符合宗教的四个维度：

信仰：素食主义最初是为了表达对非人类的侵占和苦难的道德正直的一种方式。
仪式：素食主义涉及严格的饮食限制，包括不使用任何动物产品制成的材料。
体验：素食主义的“整体联系”对于践行素食主义的人来说可视为一种宗教体验。
社区：世界各地有许多官方和非官方的素食协会，2017 年为国际素食社区创建了一面民用旗帜。

像 T. Colin Campbell、Kim Williams、Caldwell Esselstyn、Joel Fuhrman、John McDougall 和 Neal Barnard 这样的研究人员和医生都可能受到这种“白帽偏见”的影响。他们参与了纯素食倡导和活动，这两者都可能成为忠诚偏见的根源。

素食医师兼研究员 T. Colin Campbell 坎贝尔所著的《中国研究》一书就是一个很好的例子。Campbell 声称，这项未经同行评审的研究证明了：

动物蛋白致癌
植物性饮食可预防心脏病
可以从植物中获取所需的所有营养

坎贝尔甚至说道：“食用任何胆固醇含量超过 0 毫克的食物都是不健康的”，但这一说法已被彻底推翻，2015 年美国膳食指南的变化也反映了这一点，该指南不再将膳食胆固醇视为值得关注的营养素。

然而，自《中国研究》发表以来，几项独立的、同行评议的数据研究驳斥了 坎贝尔的说法。有关《中国研究》问题的详细总结，请参阅营养学家 Chris Masterjohn 博士的这篇文章。

正义偏见有多种表现形式。可能涉及：

挑选研究来支持自己珍视的观点
误导性地描述论文中引用的研究结果
“数据挖掘”在给定数据集内寻找统计意义（当不存在这种意义时）
不报告空结果
为了获得特定答案而设计实验
更多内容

需要指出的是，正义偏见并不总是有意识的，甚至经常不是。大多数研究人员都认为自己的行为符合科学的严谨性和正直性。这正是正义偏见如此难以防范的原因，也是披露正义偏见如此重要的原因。

营养政策不仅受科学影响，还受到政治和宗教的影响

在理想世界中，饮食指南和营养政策应是彻底、冷静地审查现有科学证据的产物，不会受到政治的过度影响——当然也不会受到宗教的影响。明智的异议不仅会受到欢迎，还会受到鼓励。正如西德·夏皮罗曾经说过的，“我们永远不应该忘记，好的科学是怀疑的科学。”

唉，我们生活在一个不完美的世界。在我们的世界里，不同意见不受欢迎而被压制。哈佛大学公共卫生学院营养系创始人之一 D. Mark Hegsted 博士在 1977 年麦戈文听证会上发表了这样的开场白：

美国人的饮食变得越来越丰富——富含肉类、其他饱和脂肪和胆固醇来源……[并且]脂肪和富含胆固醇的食物在整个饮食中所占的比例……有所上升。

这一说法的唯一问题在于，与美国农业部的经济数据直接相矛盾，该数据表明，报告发布时的总热量和肉类、奶制品和鸡蛋的供应量与1909 年的消费量相当或略低。1977 年的全脂奶制品消费量低于 1909 年，从 1950 年到 1977 年一直在稳步下降。（10）其他与 Hegsted 博士的观点相矛盾的证据也被忽略了。

科学界对麦戈文报告的反馈“有力且富有建设性”，明确指出“营养学家之间缺乏共识”，提供了科学界对这一问题意见分歧的证据。（11）加拿大和英国等其他国家也指出，对于是否应限制膳食胆固醇摄入量，缺乏共识。美国参议员就麦戈文报告发表了以下声明：

显然，科学还没有发展到可以建议公众将胆固醇摄入量限制在一定范围内的程度。不同个体之间的差异实在太大。在饮食改变是否有助于心脏的问题上，科学界也存在类似的分歧，这表明科学尚不能确定本报告推荐的饮食是否能预防或延缓冠心病的发生。（见脚注）

然而，这些警告被忽视了，麦戈文报告中的建议被采纳。这引发了美国在接下来的四十年里对脂肪和胆固醇的恐惧。

非科学因素如何推动营养政策的另一个例子是基督复临安息日会对美国和世界各地的公共卫生建议的影响。基督复临安息日会 (SDA) 是一个新教教派，源自美国的米勒派运动。自 19 世纪 60 年代教会成立以来，健康一直是 SDA 教义的重点。根据维基百科：

基督复临安息日会以传播“健康信息”而闻名，该信息提倡素食主义，要求信徒遵守犹太教规，尤其是利未记 11 章中描述的犹太教食物，即禁止食用猪肉、贝类和其他被禁止为“不洁”的动物。教会不鼓励其成员饮用酒精饮料、烟草或非法药物。……此外，一些基督复临安息日会信徒不喝咖啡、茶、可乐和其他含咖啡因的饮料。

早期基督复临安息日会的领袖艾伦·怀特 (Ellen White)于 1863 年首次领悟了重大的健康改革理念，“首次敦促上帝的子民戒除肉食，尤其是猪肉”。大多数基督复临安息日会饮食信仰均基于怀特的健康理念。

怀特认为，教会有责任向公众普及健康知识，以控制欲望和激情。基督复临安息日会信徒仍然认为，吃肉会激起“动物激情”，这是避免吃肉的原因之一。

另一位早期的 SDA 领袖 Lenna Cooper 是一位营养师，她与他人共同创立了美国营养学会，该学会至今仍提倡素食。Cooper 撰写的教科书和其他材料被广泛用于美国乃至全世界的营养和护理计划，至今已有 30 多年的历史。SDA 教会在世界各地建立了数百家医院、大学和中学以及数万座教堂，这些教堂都提倡素食，并在植物性食品（如肉类替代品、早餐麦片和豆浆）的开发和大规模生产中发挥了重要作用。（12）

基督复临安息日会是圣地亚哥罗马琳达大学早期素食研究的主要推动者，基督复临安息日会的领导人于 1908 年在该校建立了营养学系。这所大学由一个相信素食主义是上帝指定的宗教团体建立，表面上是一项科学研究。

如果认为这为正义偏见敲响了警钟，那没错。事实上，正如 Jim Banta 在一篇关于 SDA 对饮食影响的精彩评论中指出的那样，20 世纪中期，罗马琳达大学的管理人员最初不鼓励对素食进行研究，因为“如果发现素食者的饮食有缺陷，我们会感到尴尬。”这并不是优秀科学所特有的怀疑态度和开放的探究态度。

结论

最后，我想引用科学家爱德华·阿彻和奇普·J·拉维最近写给美国国家科学、工程和医学院的一封公开信的开头两段话作为结束语：

“营养学”如今已成为一种退化的研究范式，其中科学上不科学的方法、毫无意义的数据和共识驱动的审查制度主导着实证研究领域。自 20 世纪 50 年代以来，人们就有一种幼稚但政治上权宜的共识，即只需询问一个人记得吃过什么喝过什么，就可以测量出他的日常饮食。尽管这种基于记忆的方法轻信且不可证伪，但研究人员还是利用它发表了数十万篇出版物，并从纳税人那里获得了数十亿美元的资金。 > > 随着时间的推移，对伪科学研究方法的持续资助已经颠覆了科学的自我修正性质，并压制了持怀疑态度的学术研究。因此，数十年来，政治优先于批判性探究，导致了相互矛盾的饮食指南、失败的公共政策以及对“吃什么”的持续困惑。

我自己也说不出比这更好的话了。

https://chriskresser.com/why-you-should-be-skeptical-of-the-latest-nutrition-headlines-part-2/

2018 年 1 月 24 日

[[https://peterattiamd.com/category/understanding-science/|理解科学]]

学习研究：第三部分——观察性研究的动机

如果随机对照试验被视为建立可靠知识的黄金标准，为什么我们会在公共卫生领域看到如此多的观察性研究？

eefa53d7571f6d2a2958f9e5d8598c94

经过彼得·阿蒂亚

阅读时间11 分钟

想了解本系列的其他文章吗？

观察性研究的动机

随机对照试验( RCT) 通常被认为是确定特定干预措施的风险或益处的黄金标准。通过随机将相似的参与者分配到治疗组或对照组，观察性研究中遇到的大部分偏见大大减少。1[^研究](javascript:void(0))^人员可以更自信地评估和控制变量。简而言之，RCT 可以区分因果关系。

图片来源：PrevMedFellow (自己的作品) [ CC BY-SA 3.0 ]，通过 Wikimedia Commons。

图 1. 两组平行随机试验各阶段进展流程图，根据 CONSORT（试验报告统一标准）2010 声明修改。

如果 RCT 是黄金标准，为什么我们不更多地使用这种严格的方法来确认或反驳暴露与疾病之间的关系？[^2](javascript:void(0))^

RCT 非常昂贵

一项分析研究了 2000 年之前美国国家神经疾病和中风研究所（NIH 下属的一个研究所）资助的所有 RCT，以确定平均成本。他们发现 28 项试验的总成本为 3.35 亿美元，平均每项 RCT 的成本为 1200 万美元。

例如，妇女健康倡议( WHI) 临床试验（三个不同的实验）旨在测试饮食调整、激素替代疗法（简称 HRT） [^3](javascript:void(0))^以及钙和维生素 D 补充剂对绝经后妇女健康的益处和风险，估计耗资 6.25 亿美元。平均每次试验的成本约为 2.08 亿美元。

RCT 时间很长

根据一项研究，从开始招募到随机试验发表的平均时间为 5.5 年[^4](javascript:void(0))^

WHI HRT 试验计划持续 8.5 年，但该试验的雌激素加孕激素组（及其相应的安慰剂对照组）在 5.2 年后停止，只剩下雌激素组和安慰剂对照组，后者也在 1.6 年后停止（总共 6.8 年）。临床试验从开始到出结果通常需要几十年的时间。

高质量的 RCT 很难开展

RCT 通常被认为是确定干预和结果之间因果关系的最严格方法。但是，这种严格性必须靠努力才能获得。一项完善的 RCT 的完整性面临着许多挑战。这些试验需要建立可证伪的假设和明确的目标、适当的终点选择、适当的受试者选择标准（包括包容性和排除性）、临床相关且可行的干预方案、充分的随机化、分层和盲法、足够的样本量和功效，以及对 RCT 过程中可能遇到的常见实际问题的预测。

例如，在 WHI 的饮食调整试验中，将 48,836 名绝经后女性随机分配到低脂饮食组（占参与者的 40％，目标是将来自脂肪的能量减少到 20％，将来自饱和脂肪的能量减少到 7％）或自我选择饮食行为，这带来了许多挑战。

RCT 无法（故意）测试有害影响

RCT 可以随机将受试者分配到有指导方针的组别中，研究人员认为这些组别要么对健康有益（即干预组），要么对健康无影响（即对照组或安慰剂组）。但他们不能将受试者分配到他们认为会对受试者造成伤害的干预组。从这个意义上讲，RCT 与流行病学背道而驰：RCT 试图建立对个人有益的因果关系，而流行病学家则试图建立对人群有害的关联。

以吸烟为例。烟草业可能会辩称，没有确凿的证据证明吸烟是导致肺癌的原因，直到一项严格的随机实验（据我们所知从未进行过）证明事实确实如此。

关于香烟和肺癌的问题，研究两者之间关系的关键人物埃瓦茨·格雷厄姆 (Evarts Graham ) 于 1954 年在《柳叶刀》杂志上承认：“必须承认，确实没有绝对的证据。”格雷厄姆指出，要满足“最顽固的顽固分子”的要求，必须做到以下几点：

“找到一些愿意将支气管涂上香烟焦油的人类志愿者，也许可以通过支气管瘘来实现。
“这个实验至少要进行二十年或二十五年。
“受试者必须全程待在空调房间内，哪怕一个小时左右也不能离开，以免受到污染空气的污染。
“二十五年后，他们必须接受手术或尸检以确定实验结果。

“我想对那些愿意参加这种实验的人说，‘请向右边排队，请勿拥挤。’”

玩笑中不乏真意。即使关联性很大，观察性研究也无法提供确凿的证据。即便如此，医学面临的挑战之一是我们必须根据现有信息采取行动（或不采取行动）。观察性研究是否有助于建立更可靠的知识，使人们认识到吸烟是肺癌的重要风险因素？是的。观察性研究是否能够在几乎有无数变量需要研究的大型疾病中识别出微小的影响？可能不能。但对已报告的有害影响进行临床试验是不可能的。

诚然，流行病学在这方面表现得左右逢源：观察性研究不仅可以寻找风险，还可以寻找药物、食物或生活方式组成部分的相关益处。然而，它在确定因果关系方面的成功率远低于门多萨线。批评者指出（2011 年），当在随后的随机试验中测试观察性主张时，这些主张宣称成功率为 0/52（即，没有一个主张在观察性研究中声称的方向上得到重复）。请重读最后一句话。然后再读一遍。

不仅如此，在同样的分析中，相反方向的统计显著性出现了五次（即，根据 RCT，被认为有帮助的东西却导致了伤害）。虽然 RCT 有局限性，但它们通常需要确定关联性相对较小的假设是否更正确而不是错误（反之亦然）。

从公共卫生角度来看，微小效应可以产生巨大且可预见的影响。“比如说，如果我们能够将阿尔茨海默病的发病时间推迟 5 年，”加州阿尔茨海默病中心主任Lon Schneider 表示，“那么这种疾病的发病率就会下降一半”，这就是论点。这类例子激励公共卫生当局广泛寻找 RCT 无法检测的相对较小的风险。那么，流行病学家会采用哪种类型的研究来确定人群的益处和风险呢？回顾性和前瞻性队列研究。在我们深入研究这类研究的细节之前，花点时间来了解一下那些常常威胁其有效性的偏见会有所帮助。

§

偏见是“各种设计、数据、分析和呈现因素的结合，这些因素往往会导致不该产生的研究结果，约翰·伊奥尼迪斯在《为什么大多数已发表的研究结果都是错误的》一书中写道。更简洁的说法是，正如刘易斯和沃洛所说的那样：偏见是“任何偏离事实的结果”。

健康用户偏见

注重健康的人和不注重健康的人在很多方面都有所不同。红肉会导致结肠癌吗？（世界卫生组织似乎认为是这样的。）

注重健康的人往往不会生活在黑暗中：他们一再听说红肉有害健康，并试图采取行动。一般来说，吃红肉较多的人比健康食用者更不注重健康，或者说不太在意健康。吃红肉较少的人可能不太可能吸烟，更有可能锻炼，更有可能获得医疗保健，更有可能吃水果、蔬菜、香料、昂贵的维生素，并且不喝软饮料。名单几乎是无穷无尽的。即使调查人员意识到了这些趋势，也几乎不可能正确解释它们。

混淆偏差

这是一个未考虑的额外变量。（混杂变量“混淆”了数据。）它可以暗示两个其他变量之间存在实际上并不存在的关系。

肥胖是否会增加罹患 2 型糖尿病的风险（与胰岛素抵抗、血压、血糖、甘油三酯、高密度脂蛋白胆固醇 (HDL-C) 和腹部脂肪（即构成代谢综合征的异常集群）无关）？

图片来源：Explorable.com [CC BY-SA 3.0 US]。

图 3. 混杂变量的潜在作用。缩写：IV：独立变量；DV：因变量。

信息偏见

由于缺乏精确的测量，导致联想测量结果失真。例如，回忆过去事件的准确性或完整性存在错误（回忆偏差）。

观察性研究使用年度食物频率问卷来辨别饮食和生活习惯，这一点尤其具有启发性。1989 年，护士健康研究 (NHS) 用四份详细的 7 天饮食记录“验证”了他们的问卷，其中要求参与者称重和测量他们每年每季度完成的所有食物。研究人员发现，FFQ 可以很好地预测某些食物的“真实”[^摄入](javascript:void(0))^量，而其他食物则不太好。FFQ 预测不佳的食物有哪些？培根（19%）、肉类（12%）、加工肉类（11%）、热狗（4%）和汉堡包（1.4%）。

反向因果关系偏差

假定的因果顺序被颠倒了（也称为本末倒置偏差）。

低热量汽水与肥胖有关，有人认为低热量汽水会导致体重增加。然而，超重或肥胖的人可能更有可能喝低热量汽水。

选择偏差

受试者的选择，或者他们留在研究中的可能性，导致结果不能代表目标人群。研究的纳入和排除标准是什么？什么样的人会同意参加一项研究，在研究中，他们将被要求透露个人信息、提供血液样本以及饮食和生活习惯？

例如，在 WHI HRT 试验中，女性必须签字同意她们要么接受激素治疗，要么什么都不接受，但她们不得知道是前者还是后者。什么样的人不同意参加这项研究？什么样的人同意？

有时，会将工人群体与一般人群进行比较（健康工人偏见）。例如，护士健康研究是正在进行的最大的观察性研究之一，它针对的是一群护士（这并不奇怪）。一般来说，更健康的人更有可能被雇用。一般人群可能比职业群体包含更多不健康的人。

在一些研究中，参与者可能会失去随访（失访偏差）。在这种情况下，研究人员无法跟踪一些受试者，也不知道他们发生了什么（即他们是否患上了疾病）。当暴露组和未暴露组的失访率不相同时，这会导致选择偏差。

§

回顾性队列研究

有时，研究人员会进行一项研究，回顾过去（即回顾性地）来确定一个队列或一组个体的特定特征和感兴趣的结果。6[^在](javascript:void(0))^这种类型的调查开始时，结果在研究构思之前就已经发生了。因此，这是一项回顾性队列研究。

1950 年，JAMA发表了一篇具有里程碑意义的文章《吸烟是支气管癌的可能病因：一项针对 684 例已证实病例的研究》。这是一项回顾性研究。研究人员Ernst Wynder和Evarts Graham采访并纳入了 605 名支气管癌（即肺癌）患者。Wynder 和 Graham 报告称，吸烟是美国肺癌发病率上升的一个重要因素（图 2）。他们还指出，非吸烟者也可能患肺癌，重度吸烟者不一定会患肺癌。

图 2. 回顾性研究中吸烟量与 605 名男性肺癌之间的关系。数据来自 Wynder 和 Graham，1950 年。

回顾性队列研究容易产生混淆和偏见。混淆是指任何可以解释两个变量之间关联的变量，而这些变量通常是未知的或无法解释的。还有许多偏见可能导致这些研究得出错误的答案。

前瞻性队列研究

前瞻性队列研究与回顾性研究的不同之处在于，前瞻性队列研究构思和设计研究、招募受试者、收集基线信息，[^7](javascript:void(0))^所有这一切都是在受试者出现感兴趣的结果之前进行的。

研究人员确定了一批可以长期跟踪的潜在受试者。这使得研究人员可以跟踪受试者，确定受试者是否以及何时出现了感兴趣的结果，是否以及何时失去跟踪，以及他们的暴露状态在跟踪期间是否发生了变化。合格的受试者必须满足某些参数，称为纳入标准。此外，研究还有排除标准，这些标准是将潜在受试者排除在研究之外的特征。

前瞻性研究的优势在于可以减少回顾性研究中经常出现的某些类型的偏见。例如，前瞻性研究可以减少选择偏见，因为在基线时结果尚不清楚。

前瞻性研究似乎更具实验性。例如，通过召集两组除吸烟行为外各方面都相似的受试者，“干预”就是吸烟，而不是所谓的健康促进剂。（但请记住，这里没有随机分配。）1954 年，理查德·多尔 (Richard Doll)和奥斯汀·布拉德福德·希尔 (Austin Bradford Hill) 就是这么做的。

他们开展了一项研究，以确定吸烟者和非吸烟者未来（即前瞻性）患肺癌的概率，研究对象是吸烟习惯已知的人群（即非随机分配）。1951 年，Doll 和 Hill 致信英国所有注册医生，要求他们填写一份关于吸烟习惯的问卷。他们最终利用 24,389 名男性的数据来研究吸烟和死亡率。

Doll 和 Hill [^8](javascript:void(0))^继续跟踪这组病例，统计死亡人数，共计 789 人。数据出来后，重度吸烟者的死亡率比非吸烟者高 24 倍。不仅如此，在 36 例归因于肺癌的死亡病例中，每例都是吸烟者（图 3）。（请记住，在这些医生中，只有 12.7% 的人，即 24,389 名男性中的 3,093 人是非吸烟者。）

图 4. 吸烟者和非吸烟者中观察到的肺癌死亡率。数据来自 Doll 和 Hill，1954 年。注意：虽然图表中似乎缺乏剂量反应关系，但非吸烟者、每天 1-14 支香烟、每天 15-24 支香烟和每天 25 支以上香烟的每年每 1,000 名男性的标准化死亡率分别为 0.0、0.5、0.7 和 1.14（显示剂量反应）。

从流行病学的角度来看，这是一个“理想”的情景。最突出的例子是，流行病学作为一种建立可靠知识的系统方法的成功（吸烟和肺癌），不需要复杂的统计分析来证明其观点。换句话说，你不需要统计学博士学位就能弄清楚这一点——风险比非常大。需要明确的是，可能存在混杂因素——也许不吸烟的医生都是某种类型的医生，而这种类型的医生会错过一些真正导致癌症的其他毒素——但差异的大小会提供很大的回旋余地来“纠正”这一点。

让我们先回顾一下（大约 70 年前）。20 世纪 50 年代的吸烟情况可能与今天截然不同，而且我们知道那时吸烟更为普遍。如今几乎每个人都知道吸烟的危害及其与肺癌的关系。正因为如此，今天的吸烟者的健康意识可能远不及 20 世纪 50 年代的吸烟者，因此可能会采取许多其他与死亡和疾病风险增加相关的行为。在这方面，20 世纪 50 年代吸烟的混杂因素可能较少。健康用户偏见几乎肯定不像今天这样阴险。请记住（图 4），20 世纪 50 年代初，87% 的英国医生在 Doll 和 Hill 的调查中吸烟。到 20 世纪 90 年代，英国医生吸烟率报告低至 3%。（美国疾病控制与预防中心报告称，20 世纪 60 年代初，美国吸烟男性患肺癌的可能性是不吸烟男性的 12.2 倍；“到 2010 年，这一风险增加了一倍多，从 12.2 倍增加到 25 倍。” 2014 年卫生局局长报告认为，“通风过滤器和香烟中某些化学物质含量的增加可能起了一定作用。”我们认为这可能也与健康用户偏见有关，但稍后我们会详细介绍。）

换句话说，如今对吸烟者进行流行病学调查将更难确定因果关系，因为如今吸烟是不良健康选择的标志，而 20 世纪 50 年代并非如此。想知道食用加工肉类是否也是如此？

图片来源：美国农业部，1955 年。

图 5. 20 世纪 50 年代，美国农业部 (USDA) 推荐了“四大基本”食物类别。其中包括每天食用 2 份或更多份“肉类”食物。

“加工红肉”和“红肉”曾被广泛推荐为健康饮食的一部分（图 5），但如今在公共卫生圈中，它们已沦为令人反感的脏话，成为不良健康选择和不良健康状况的标志（例如，吸烟、缺乏运动、水果和蔬菜摄入量较低、反式脂肪摄入量较高、糖和精制碳水化合物摄入量较高、肥胖、糖尿病、代谢综合征）。尽管流行病学家希望（或声称）控制这些因素，但他们无法准确做到这一点。

https://peterattiamd.com/ns003/

讨论列表查看原帖及回帖

AKP健食天

页面工具

站点工具

用户工具

目录