那篇说睡眠监测"不如丢硬币"的文章,说对了一半
最近有篇文章在社媒上传得挺广,核心观点是:智能手表的睡眠分期准确率只有50%到65%,和丢硬币差不多,所以你每天早上看的那个深睡时长基本没参考价值。
作为目前在做智能健康戒指、在这个方向上有一手数据的从业者,我第一遍看完觉得写得不错,科普逻辑清晰,也有研究引用,除了觉得有点标题党… 但看第二遍的时候,发现它绕开了几个关键问题,考虑到身边有大量对自己的睡眠状况感兴趣的朋友,所以下面专门来聊一下:
先说文章说对的部分
我们平时说的”深睡””浅睡””REM(快速眼动期)”,是医学上对睡眠不同阶段的划分,每个阶段对应不同的脑电波形态、眼球运动模式和肌肉张力状态。消费级穿戴设备确实没法直接测这些信号。不管是手表还是手环,核心传感器就是加速度计和PPG光电传感器,靠体动频率和心率变化来反推你处于哪个睡眠阶段。这本质上是算法推算,不是直接测量。
但它拿来对比的”金标准”,本身也没那么金
文章多次用多导睡眠图(PSG)作为参照系,言下之意是:PSG才是真准,手表跟它比差远了。
![]()
PSG是目前医学上判断睡眠分期的金标准,需要专门去医院睡一晚,全身贴满传感器,直接采集脑电波、眼动、肌张力等信号(见上图)。但采集完之后,睡眠分期判读这一步,传统上是由技术员人工完成的:按照AASM(美国睡眠医学学会)的标准,以每30秒为一个片段,逐段手动打标签。
这里有个数字很少被提到:同一份PSG数据,让两位技术员独立评分,一致率大约是83%。这个数字来自AASM官方发布的跨评分员可靠性研究,超过2500名有经验的技术员参与评分得出的结论。
不是100%,是83%。
也就是说,PSG本身就有将近两成的主观判读差异。你拿50%-65%的手表准确率去跟PSG比,但PSG自己也不是绝对真理,它只是一个相对最佳的近似。这不是要否定PSG的权威性,而是把比较基准放到一个更诚实的位置上。
还有一个更根本的问题,看完上面那张图你大概已经感受到了:在这种状态下,你真的能按照平时的方式睡着吗?
这在科学上叫生态效度的问题。测量条件本身改变了被测对象。PSG测出来的,是”你在医院、被贴满传感器的那一晚上的睡眠分期”,不是你在家、放松状态下真实的睡眠。两件事并不完全等价。
那篇文章引用的研究数据,已经是三年前了
那篇文章引用的是2022年《Sensors》期刊的一项研究,53名成年人,测了6类穿戴设备,结论是睡眠分期准确率50%-65%。这个数字在2022年是准确的,但穿戴设备的算法迭代很快,2022年的结论放到2025年参考,有点像用三年前的手机跑分来评价现在的旗舰机。
2024年陆续出了两项更新的研究,数据完全不在同一量级。
一项是东京大学发表在《Sleep Medicine》上的研究,96名受试者,分析了超过42万个30秒睡眠片段,专门针对Oura Ring Gen3和其最新算法OSSA 2.0对比PSG。结果:整体准确率91.7%到91.8%,各睡眠阶段准确率在75.5%(浅睡)到90.6%(REM)之间,总睡眠时长、深睡时长等核心指标与PSG无显著差异。
另一项是哈佛医学院附属布莱根妇女医院做的,同时测了Oura Ring、Apple Watch和Fitbit三款设备对比PSG。结论是三款设备识别”是否睡着”的灵敏度均超过95%;四阶段睡眠分期准确率,Oura Ring达到76%-79.5%,已经非常接近PSG评分员间83%一致率的上限。
顺便说一下为什么戒指形态在这件事上有结构性优势:手指的血管密度比手腕更高,PPG信号更稳定;戒指的贴合度也比腕带更一致,减少了体动引入的噪声。这不是品牌溢价,是物理上的信号质量差异。
PSG还有一个更大的问题:你不可能每晚做
退一万步讲,就算PSG无论如何比手表准,也有一个无解的障碍:它不可能成为日常工具。去医院、挂号预约、在陌生环境睡一晚、醒来等报告、支付几百到几千元的检测费用。就算你愿意,也不可能每周做一次,更别说每天了。
而睡眠质量本来就不是一晚能说明问题的。它跟你的压力状态、运动量、饮食、天气、甚至喝了多少水都有关系,是一个持续波动的动态系统。一次PSG给你的,是一个医院场景下单晚的截面数据。
相比之下,一枚戴着舒适的智能戒指,可以连续几个月记录你在真实居家环境下的睡眠数据。长期的真实居家数据,在理解自己睡眠规律这件事上,反而比偶尔一次的医院精测更有价值。
真正的问题其实不是准确率
那篇文章里有个案例,一个用户换了块新手表,发现自己的深睡时长从一小时多直接跳到两个半小时,睡眠评分也从没过80分变成天天超过80分。他的第一反应是:那我之前焦虑的那些日子是白焦虑了?
这个案例说明的问题比”哪款手表更准”深得多。
不同品牌对”深睡”的算法定义本来就不同:苹果更依赖体动规律,华为更依赖心率变异性,两套算法对同一晚睡眠可能给出截然不同的分期结果。其实不只是睡眠,你在设备上看到的压力指数、情绪状态,同样是算法推算出来的,不同品牌的结果同样没有可比性。但用户在看到这些数字的时候,会把它们当成客观事实来对待,甚至用它来决定这一天的心情和自我评价。
这不是哪家厂商在刻意制造焦虑,根本原因是整个行业把”展示更多数据”等同于”提供更多价值”——精确的分钟数和指数看起来专业,发布会上讲起来也好听,但没人认真想过:用户拿到这些数字之后,到底知不知道该怎么办?
趋势是信号,单晚是噪声
那篇文章最后有一句话说得很好:”现阶段智能手表自带的睡眠监测,最大的价值是看长期的睡眠趋势,而不是纠结某个晚上的睡眠数据。”
认同。但我想往前再推一步:这不只是”使用技巧”的问题,而是产品设计该不该把用户引导到这里去的问题。
如果一款产品每天早上给你推送深睡浅睡REM的精确分钟数,那它事实上就在鼓励你每天对比昨晚和前晚。用户很自然地会焦虑,这不是用户的问题,是产品设计的结果。
我们也在做一款智能健康戒指,从一开始就在想这个问题:健康数据的意义是什么?是让用户每天早上盯着一组数字,还是让用户真正理解自己的身体在发生什么?
我们选择的方向是后者。与其把”你昨晚深睡43分钟”推送给用户,不如告诉他”过去两周你的睡眠质量在连续下滑,跟你那段时间加班频率高度相关”。与其展示HRV数值,不如直接说”今天你的身体恢复状态一般,适合轻度活动,不建议高强度训练”。
数据不缺,缺的是把数据翻译成人话的能力,以及在产品逻辑上真正站在用户一边的意愿。
原文说智能穿戴的睡眠监测准确率不如丢硬币,这个说法夸张了,而且用的数据已经过时。但它说的另一件事是对的:大多数人用错了这个工具。
我们想做的,就是让用错变得更难一点。