手机k歌时人声与伴奏比例,全民k歌人声对齐怎么设置



手机k歌时人声与伴奏比例,全民k歌人声对齐怎么设置

文章插图


人类大脑对声音的响应速度和敏感程度非常高 。K歌时对人声音轨和伴奏音轨的时间对齐有很强的要求 。唱吧资深研发总监 王国腾在LiveVideoStackCon2018大会的分享中详细介绍了手机K歌在混音对齐方面存在的问题,解决方案以及值得探索的方向 。LiveVideoStack对演讲内容进行整理 。


文 / 王国腾
整理 / LiveVideoStack
大家好,我是王国腾,在唱吧主要负责音视频技术的研发和音频新技术的科研工作 。本次将主要为大家介绍手机K歌在混音时间对齐方面存在的问题,常规的工程解决方案以及值得探索的方向 。
1、手机K歌简介


手机k歌时人声与伴奏比例,全民k歌人声对齐怎么设置

文章插图


手机K歌APP模拟的唱歌过程中两个主要的界面场景,演唱和预览 。演唱界面,用户跟随伴奏和提示的歌词完成唱歌,主要生成一股人声的干声 。预览界面提供了很多音效的后期处理 。包括音准和节奏的校准、特效或预制的混音需求,干声和伴奏的合成预览,甚至是分析人声特点,添加一些动态的音效,做到一键修音 。
2、音质的评价标准


手机k歌时人声与伴奏比例,全民k歌人声对齐怎么设置

文章插图


声音后处理的效果要如何评价呢?比如一些混音师,他们有时候会说这个声音很顶,不够饱满,然而从工程和科学的角度,我们从几个抽象维度描述音效:还原度,清晰度,区分度,瑕疵的掩盖能力,以及音乐和声音融合度 。
还原度是一个比较客观的量化标准,即声音重放质量与原声对比,能够达到怎么样的程度;清晰度形容人声“咬字清晰”,比如说到元音的时候瞬态好不好,说到辅音的时候音量是不是过大或者过小了 。如果辅音的音量太大的话,听起来会比较刺耳,如果音量太小的话,会有点像大舌头似的感觉 。区分度是我们增加的一个指标,希望用户能够有很多不同的选择 。比如说以前在八九十年代的大摇滚的作品,都会做很大的混响,而现在一般都会把这个声音做得比较干,期望将歌手的原音表达更清楚 。瑕疵掩盖能力是指即便音准和节奏都正确,但由于个人的音色引起的一些声音处理的问题 。比如鼻音比较重的话,在音效处理的时候,我们应该怎样去处理这种瑕疵问题,还有些人唇齿音会比较重,这种问题要怎么处理,是瑕疵掩盖能力 。音乐和声音融合度,人声也是宽带信号,在低频上面,谐波会多一些 。一段音乐伴奏,它所能覆盖的频段是比较宽的,那么该怎样将这两个声音融合在一起,并且还能清楚的听到人声 。而另外一个就是在音乐上面特有的问题,节奏是应该严格对齐的 。音准和节奏都是有融合度问题,音准和节奏不准了,听起来会是个跑调的状态 。
我们假设人声唱的节奏本身没有问题的话,将人声和伴奏混在一起,如果偏差超过了35毫秒,人耳就会感觉到异常,如果超过50毫秒,就已经是不可接受的了 。除此之外,根据我们所做的双盲测试,专家级的耳朵,如果人声比伴奏提前10~15毫秒,或者是比伴奏晚了25毫秒,那么在专家级别人的耳中是有感觉的 。总的来说,偏差在35毫秒之内大约有90%的人是没有感受的 。在音乐节奏的场景下,人的耳朵会非常敏感 。在唱歌时,听到音乐的人本身对节奏会有一个认识,然后会再根据这个节奏唱出自己的声音,一般歌曲的速度稳定,那么唱歌的人也会跟随稳定的速度演唱,由此可见人本身就是无延迟的反馈系统 。

推荐阅读