自从流量不值钱,音乐软件提供的音质是越来越高了。除了传统的有损......哦不,是标准品质,还有无损格式。
到了今天,竟然还有“比无损更无损”的品质。当然,这需要你氪金成为比豪华会员更豪华的会员,才能听到。
那么,无损音乐是智商税吗?为什么还有比无损更无损的音质?
为了搞清这些问题,我们不光查了资料,还找到了播客《九段琦谈》的主理人于梦琦老师,和 QQ 音乐天琴实验室音频负责人赵老师,当面“质问”他们到底是怎么回事。
视频版
↓↓ 看完这个视频就知道了 ↓↓
↑↑ 信我,真的超级好看 ↑↑
图文版
其实从严格的物理意义上来讲,不管氪多少金,你听到的“无损”音乐都不可能是真正的无损音乐。
我们之前的视频里说过,自然界里的声音,都是连续的模拟信号。而以 0 和 1 的形式存储的数字音乐,都是离散的数字信号。所以在把乐器或歌手的原声记录成数字音乐时,就存在一个转换的过程。
这个转换的精度,就是制作无损音乐的关键。
要把自然界中的模拟信号,转换成 0 和 1 的数字音乐,就需要从原声中选取一个个点,记录下它们的信息。选取的点越密集,转换越精确。这里会涉及到三个基础概念:采样、量化和编码。别怕,都很简单,学会了还能装 x~
“采样”是指每隔一段时间,对模拟信号抽取一个观测值,你可以理解为采样点的密度。一秒内采样的次数叫做“采样频率”,CD 的采样频率是 44.1kHz,也就是每一秒钟的音乐,就包含了 44100 个采样点。
而“量化”负责记录纵轴振幅信息。每段音乐声音都有强有弱,最强和最弱之间的差值,叫做“动态范围”,单位就是我们常说的“分贝”(dB)。所谓“量化”,就是把动态范围划分成相等的层次,然后把采样点的音量大小归入最近的量值。
量化当然是越细越好。量化的精度叫做“位深度”,单位是 bit。比如如果位深度为 2 bit,也就是 (2^2) ,划分 4 层, 那每个采样点的音量大小就最多只有 4 种情况。我们打电话、广播喇叭里的声音,位深度比较低,听起来比较粗糙。而 CD 中的音乐,位深度能达到 16bit,听起来细腻得多。
经过采样和量化后,我们就可以获得每一个离散点的量值。把这些量值用 0 和 1 记录下来的过程,就是“编码”。
所以说穿了,音质这件事儿也很简单:采样和量化点越密集,音质就越好。
但问题是,不管多精密,采样和量化毕竟只是记录一个个点的信息,相比于平滑的原声一定会有信息丢失,做不到严格物理意义上的无损。
但也没关系~因为你的耳朵本来也不能 100% 接收所有的音频信息。就算把周杰伦抓来你的地盘给你唱《我的地盘》,你也不可能听清他的每一个发音细节。
所以“无损音乐”并不需要做到物理意义上的无损。只要你的耳朵分辨不出来原声和录制后的音乐,那就是无损。
那么,采样要多精确才分辨不出来呢?
通常来说,人类听觉上限频率是 20kHz。而根据著名的“奈奎斯特-香农采样定理”,当采样频率大于模拟信号最高频率的两倍,那就不会丢失任何信息。所以如果采样频率达到 40kHz,也就是一秒钟内包含至少 40000 个采样点, 就足以喂饱你的耳朵了。
这也是 CD 频率为 44.1kHz、主流视频的音频采样率为 48kHz 的原因——反正超过 40kHz 就够了,人家还给你留了一点余量呢~
量化也差不多。人说话的声音通常在 40–60dB,长期听超过 90dB 的声音就会损坏听力。根据这个位深度与动态范围的公式,CD 的位深度为 16bit,动态范围理论可以达到 96dB;一些古典乐会使用 24bit 位深度储存,动态范围更高,完全足够包裹你的耳朵了。
一般来说,一首歌的音质达到 CD 级别,那就可以称为无损音乐了。无损音乐包含的信息多,体积也大。一张 CD 大概 600-700MB 容量,只能给周杰伦十几首歌的时间。
而 mp3 等有损压缩的格式,则是通过去除声音中的部分信息,来实现缩小文件体积的目的。
比如这是《我的地盘》的无损版本,和普通 mp3 版本的对比。可以看出,mp3 格式的文件中,高频信息大量消失了。但这些高频信息本就难以被耳朵捕捉到,而且 mp3 的算法设计十分优秀,你可能也听不大出来区别。
感谢飞傲提供了设备,我们在柴司内部组织了一场盲听测试。
我们选取了两首古典乐,两首流行乐,分别提供了两个不同的音质选项。第一轮让大家猜,他们两次听到的音乐究竟是不是同一音质。第二次是让大家分辨,两次听到的音乐音质孰高孰低。
结果是,绝大多数朋友的测试准确率,果然就是跟瞎蒙的准确率一样。其中有 4 位朋友全猜对了,不过其中 3 位承认,就是蒙的。只有一位朋友表示,她真能听出来高频上的那一点区别。于是我们拉着她又测了一轮,结果发现......她还是没有经得起考验。
总得来说,我们的测试结果显示了:大部分人听不出来高品质 mp3 和无损音乐的区别。但也不是完全没有任何区别, 毕竟纯蒙的话,从概率上说,出现全错跟全对的概率应该相同,但实际结果是有 4 位同事蒙的全对。也有几位表示,这首 《Yellow》在听感上的区别相对明显。
我们的测试规模比较小。不过 QQ音乐的赵老师告诉我们,他们曾做过 5 万人规模的测试,让大家盲听选择更喜欢 SQ(无损音质)还是 HQ 音质(高品质)。结果是,57% 的用户觉得 SQ 更好听,43% 觉得 HQ 更好听。这一定程度上说明了,确实有一些用户能听出来区别,但对大部分用户来说,可能确实区别不大。
但我们非常好奇,普通人听不出来我们能理解。但花了时间和金钱的烧友们,是不是真能听出优质 mp3 和无损文件的区别?
柴知道:就您这边的经验来看的话,它们在听音上能带来比较明显的区别吗?
[九段琦谈] 于梦琦:我觉得像你说的 320k 的 mp3 和无损之间的区别,其实也并不是那么容易分辨的。我原来在我们自己的朋友圈子里也试过,就是比如我准备三首曲子,然后我都打包成 wav,但有一首是 mp3 转的,有一首是真的 wav。反正我自己承认流行音乐我根本就听不出来,古典音乐我能听出来。
柴知道:那为什么会有流行音乐听不出来,古典音乐能听出来这个问题呢?它们俩之间的区别是什么?
于梦琦:相对来说,我理解古典音乐的各种声音会更连贯,而流行音乐人唱歌词这种咬字的方式,他没有那么连贯。比如说模拟(信号)就是一个完美的正弦波,数字(信号)就是台阶。如果你本身的响度变化越不连贯,其实你越难暴露数字那种台阶的感觉。而如果你本来就是一个连贯的音,比如像弦乐的很多声音,那它是比较容易有这种区别的。
但无论如何,mp3 版本确实少掉了一些人耳能听见的信息,这是再好的设备也无法弥补的。在硬盘和流量都已经不值钱的今天,如果是对音质要求高的发烧友,那听无损音乐确实有可能听出