为还未理解Jitter概念的朋友而写: 数码音频知识入门之"小白版"

reedliao · 发表于 2008-9-11 13:23:41

等白版写好了我一定树形只看楼主打印出来！

vvisher · 发表于 2008-9-11 13:24:55

snake1978你说的对
我忽略了一个问题,即耳膜是有面积的,波是有方向性的,因此不管是在录音环节还是在听音环节的声波都不会是一个波,应该是像你所说的是多个"波束"的情况
这样的话,cd对于声音信号的记录要深究还真复杂
是不是可以这样比方:录音阶段就像拍照一样,把立体的定格为平面的,所以cd记录时对声波的方向和位置就只是录音点的信息,

snake1978 · 发表于 2008-9-11 13:25:29

原帖由 mayao11 于 2008-9-11 13:18 发表
ls的帖子有些找不着重点

我感觉小白说的还是不够basic，如果连最基本的概念都不清晰，那在此之上的立论就是有问题的。既然说道科学普及了，那就来不得半点马虎和虚假，首先了解什么是波形，才能讨论他所谓的切分，网格，但电子音频未必是网格方式记载的。通过记录周期、波张、振幅等波的特性，这样的记录方式更科学，也更精确，同样可以记录与还原，这就是我的疑问。
如同电子图形，有点阵图形，也有矢量图型，电子音频格式中，可能有一种类似于矢量描述方式，来记录波形。

[ 本帖最后由 snake1978 于 2008-9-11 13:28 编辑 ]

小白 · 发表于 2008-9-11 13:31:42

现在我再画一张图,就能很直观地说明什么是jitter,它为什么对声音破坏那么大了. 请看:

这张图和前面那张"3比特/20赫兹取样"应该是完全一样的,让我们假设,这是在根据前一张图上所取到的数据,进行模拟波形的重建(即解码工作).

大家可以注意到,时间轴有了问题,20次取样(现在应该叫"重播")不再是平均,精密的,而是有了几次忽快忽慢. 特别严重的是第9和10次间,第17-18次,和第19-20次,都拖慢了. 第15-17次则快了. 这样总长还是1秒钟,但由于重建时的"钟"出了问题,不是平均的,而是有了忽快忽慢,那么,重建出来的波形,是有了很明显的扭曲(失真).

winny · 发表于 2008-9-11 13:34:29

恩，小白画的那个声波图，我看像股票图。

snake1978 · 发表于 2008-9-11 13:37:06

原帖由 winny 于 2008-9-11 13:34 发表
恩，小白画的那个声波图，我看像股票图。

对，那根本不是波形图，

pipeorgan · 发表于 2008-9-11 13:37:38

人耳并不是用耳膜来感受声音的。经过耳膜=〉听小骨=〉耳蜗=〉长短不一的无数纤毛细胞=〉生物电=〉大脑。
http://www.chinadeaf.com/edit/pa ... 04.28_09.51.22.html

不过这个问题在这个帖子里面跑题了。小白只是要最简单的解释一下jitter，当然可以用最简单的只含一个波形的模型来解释。

kliujun · 发表于 2008-9-11 13:38:24

恩象大盘

snake1978 · 发表于 2008-9-11 13:39:56

原帖由 pipeorgan 于 2008-9-11 13:37 发表
人耳并不是用耳膜来感受声音的。经过耳膜=〉听小骨=〉耳蜗=〉长短不一的无数纤毛细胞=〉生物电=〉大脑。
http://www.chinadeaf.com/edit/parentcommunity/sicenceknowledge/2008.04.28_09.51.22.html

不过这个问 ...

但我认为波形采集未必像小白所说的那种网格切分获得的，既然声音是一种波，就具备波的特性，也能通过波的特性描述，这种更具备可操作性。

mvw · 发表于 2008-9-11 13:42:13

帮顶小白也不容易真有耐性我曾经好几次试图这么做过最好都因为工作量作罢呵呵小白的执行力和实践态度让人崇拜~

小白 · 发表于 2008-9-11 13:44:06

现在我们可以看清楚一件事: 对模拟声波进行数码化的工作,必须由一个高度统一的,而且精确的时钟来控制取样和重播的频率,使各个时间点保持完全绝对的一致.

不能有任何频率点上的偏差. 如果大家都是按44100赫兹在工作,那么从1/44100秒开始的每个频率点: 2/44100秒,3/44100秒,4/44100秒,5/44100秒 .... 直到44109/44100秒,1秒 .... 数码转换时的每个点,和重播时的每个点,都必须完全一致! 只有这样才能准确地完成解码工作!

同时我们一定注意到了,这个时间点的偏差所引起的扭曲,和数据是完全无关的. 是同样的数据. 只不过在重建声波的时候,由于时间点不一致,才出现扭曲,导致听音的失真.

所以同样的0和1,重放时可以出来不同的声音,关键就在于重放时用于建立声波的各时间点,和录音时(把模拟声波转换为数码时)的各取样点,是否完全一致. 如果不一致,就叫Jitter,就会导致声波的扭曲.

[ 本帖最后由小白于 2008-9-11 17:59 编辑 ]

mvw · 发表于 2008-9-11 13:45:47

原帖由 snake1978 于 2008-9-11 13:39 发表

但我认为波形采集未必像小白所说的那种网格切分获得的，既然声音是一种波，就具备波的特性，也能通过波的特性描述，这种更具备可操作性。

其实小白只是用一种视觉化的东西结合声学化的知识来解释如果用声学理论来解释是没办法感同身受的说不上理解更加抽象难以理解

小白 · 发表于 2008-9-11 13:48:52

Snake 1978, 你不要认为你已经比几十年来所有的数码音频工程师都聪明,竟然发现了一个新思路,能简单地绕过Jitter问题,实现声波数码化的全新方案.

我画的图完全是个为说明问题而做的最简单的模型. 实际上的真实声音的声波,特别是混合声音的声波,是一片杂乱无章的东西,是完全看不出规律的. 在显微镜下才能看出它还是圆滑的模拟波形,粗看上去,就完全是一片狼籍! 这样复杂的东西,你认为可以有其他的方法,仅通过记录周期,波长,振幅,来实现数码转换,你实在是想得太简单了.

snake1978 · 发表于 2008-9-11 13:50:42

原帖由小白于 2008-9-11 13:44 发表

现在我们可以看清楚一件事: 对模拟声波进行数码化的工作,必须由一个高度统一的,而且精确的时钟来控制取样和重播的频率,使各个时间点保持完全绝对的一致.

不能有任何频率点上的偏差. 如果大家都是按44100赫兹在工作,那么从1/44100秒开始的每个频率点: 2/44100秒,3/44100秒,4/44100秒,5/44100秒 .... 直到44109/44100秒,1秒 .... 数码转换时的每个点,和重播时的每个点,都必须完全一致! 只有这样才能准确地完全解码工作!

同时我们一定注意到了,这个时间点的偏差所引起的扭曲,和数据是完全无关的. 是同样的数据. 只不过在重建声波的时候,由于时间点不一致,才出现扭曲,导致听音的失真.

所以同样的0和1,重放时可以出来不同的声音,关键就在于重放时用于建立声波的各时间点,和录音时(把模拟声波转换为数码时)的各取样点,是否完全一致. 如果不一致,就叫Jitter,就会导致声波的扭曲.

呵呵，就等着你这句话，和数据无关，您怎么确定现在各种各样的音频格式的录制中，不包括时间轴的信息，比如我在每个频率点记录了：2/44100秒：振幅,3/44100秒：振幅,4/44100秒：振幅,5/44100秒：振幅 .... 。在声音采样过程中的数据中就包含了时间信息的。前提是确认了某种音频格式的存储存在这种缺陷，才无法精确还原。

snake1978 · 发表于 2008-9-11 13:52:46

原帖由小白于 2008-9-11 13:48 发表
Snake 1978, 你不要认为你已经比几十年来所有的数码音频工程师都聪明,竟然发现了一个新思路,能简单地绕过Jitter问题,实现声波数码化的全新方案.

我画的图完全是个为说明问题而做的最简单的模型. 实际上的真实声音 ...

我说的是一种可能，您所估计的也是一种可能，您能保证现在电子音频格式就是这种时间点+振幅的函数对方式存储的？

		自动登录	找回密码
密码			注册

[解码器] 为还未理解Jitter概念的朋友而写: 数码音频知识入门之"小白版"

优秀版主奖

耳机鉴赏奖

社区建设奖

最佳创作奖