【ongoing】语音解剖学 Speech Anatomy

前言: 在语音领域(无论你的目标是语音识别,语音合成,亦或是其他跟语音相关的项目), 曾作为或者目前仍是初学者的你,一定经历过这样一个步骤。某一天,兴致勃勃地翻开了刚到手的语音教材,回味无穷的读完了书的序言以及第一章的引言,觉得自己一定要在某方面创下一番天地,已经准备好接受各种理论和挑战的洗礼。翻开书的第二章,两个大字映入了你的眼帘,“解剖”。此时此刻你也许会想,这很科学,毕竟我们处理的是语音,一切都有着其生物基础,想必我们能从中受益良多。而无论你是小心翼翼的一字一句的斟酌也好,还是狼吞虎咽的咀嚼也罢,你会发现大多数生理细节非常不重要,或者说各种晦涩难懂的专业名称让你云里雾里。 不过好在聪明的你和作者总不会让这份辛苦是分无用功,虽然有很多琐碎没有给你留下深刻的印象,你还是依然能够有所收获。比如对发声机理的研究是如何映射到语音合成技术中的,对人耳听觉的测算如何改善了语音识别的数据特征,对大脑神经的实验又如何延伸出了当下最火的神经网络模型。 作为笔者的我,刚刚正式踏入语音领域,了解到的还只是皮毛与表面,但依然怀揣着一颗勇往直前、不撞南墙不回头的心。希望通过对人体的生理更细致、更形象的了解与研究,产生出更多有创造性的、有意义的概念,为语音领域添个砖、加片瓦。因此,本文会不断更新和整理与语音相关的生理知识,从文字,二维、三维图片,模拟或真实视频、语音等多方面来对生理构造进行描述,旨在使各个细节更加清晰。也欢迎对相关内容的感兴趣的人,提出宝贵的建议与意见,望一起点燃精神之火,撩了语音这个广阔的平原。 正文序: 从狭义来讲,语音单纯是指人发出声音这一行为,它发生在人呼吸运动中的呼这一环节,与之相关的生理结构似乎并不算很多。然而从广义来讲,产生、接收、理解语音都是语音相关的人体活动。从这个角度来看,人体上半身的所有器官几乎都参与了这项活动。按功能的不同,可以将上半身划分为四个区域。用于语音气流的开端肺、气管;用于调节气流从而发声的喉、咽、口、鼻;用于接收语音,并对自身语音产生反馈的耳;通过控制以上所有运动,并对语音进行理解的大脑。接下来就会依照如上这个自底向上的次序,来对这四部分生理结构和功能依次进行讨论。 *注: 由于篇幅有限,以及便于阅读。有些更加细枝末节,似乎偏离了语音讨论范畴的内容,会用紫色标识出来。如有兴趣,点击可以跳转到相关的帖子,查看更多详细的解释。 Ⅰ气流的产生: 想要讨论语音气流的产生,就不得不从人的呼吸开始讲起。人产生呼吸的物理本质是肺部与外界气压差所产生的气流运动。当肺部的气体压强小于人体外的气体压强时,就会产生从外界流向人体肺部的气流;反之就会产生由肺部流向外界的气流,这个气流也就是我们语音的载体了。再进一步讨论压强变化的原因之前,首先明确一下本文所认定的气流的通道,细节如下图所示。气体可以分别从鼻腔与口腔流入咽,再流入喉,经过气管与各级支气管输送到肺部,最终停留在肺泡中与血管中的血浆进行气体交换。 依旧从物理层次来分析,压强由三种因素来决定,分别是温度、气体的量和体积。前两者与压强成正比,后者与压强成反比。人是一个恒温动物,虽然这个恒温是在调节中动态实现的,但其动态变化似乎不会对气体压强产生极大的影响,因此认定这个温度变化在呼吸中的作用可以忽略不记。 同样的,虽然二氧化碳、氧气等气体分子在肺部的肺泡与血管血浆中不断发生着气体交换,并且显而易见的改变了肺部气体的量,但这份改变在数量级似乎远小于气体体积在呼吸中产生的改变,因此也可以忽略不计。以上两处忽略不计确实缺乏更具体的数据和实验进行作证,如果今后有更多的发现,或许会对其进行修正与补充。综上所述,气体的体积成为了影响呼吸的决定性因素。而通过观察整个气流流通的通道可以发现,体积真正发生改变的地方就在于人体的肺部,或者说人体的胸腔之中。 又是什么导致了肺在胸腔中的体积变化呢,而什么是胸腔呢? 在回答这一问题之前需要简单描述一下肺部的生理构造。如下图所示,与这份体积变化有关的生理结构在内而外分别是:①肺(lung)本身。②包围在肺外部胸膜(pulmonary pleurae)③肋间肌(intercostal muscles)及肋间神经(intercostal nerve)④横膈膜(diaphragm)及膈神经(phrenic nerve)。其中胸膜虽然体积很小,但确实连接各个部分的一个重要环节。他(胸膜)是由两层浆模(serous membranes)围绕而成的,有点像游泳时用的救生圈。胸膜内侧的浆模贴紧肺的表面称为壁胸膜(parietal pleura),胸膜外侧的浆模贴紧肋骨下的肌肉以及横膈膜的上表面称为脏胸膜(Visceral pleura)。胸膜内部气体较少,始终低于大气压强,内部的压强被称为负压。当胸膜没有破损时,肺部的压强也永远大于胸膜内的压强,因此肺与胸膜时刻相依在一起。肺随着胸膜的移动而移动,而胸膜随着肋骨间的肌肉以及横膈膜的移动而移动。因此决定肺部体积的因素有两个,一个是肋间肌,一个是横膈膜。以肋骨环绕为顶,横膈膜为低的腔体,被称为胸腔。因此,胸腔的变大与缩小,同肺部的变大与缩小其实是一致的。后文不再做以区分。 这两个因素之间其实是相互独立又相互影响的。肋骨之间存在肋间肌,并由肋间神经所控制。被控制的肋间肌又可以分为肋间外肌和肋间内肌,分别使得肋骨向前以及两侧扩张和收缩,从而造成胸腔的变大与缩小。横膈膜是一个凸型的由肌肉纤维组成的较薄的隔膜,分隔着胸腔和腹腔。隔膜肌的收缩可以使得横膈膜中心向下移动,两侧向上移动从而扩大胸腔,挤压腹腔。当腹腔受到挤压时,腹肌就会向外膨胀,也就是肚子会鼓起来。而且受到挤压的腹腔也会间接对肋骨造成影响,使其产生一定程度的扩张。 相反腹部肌肉,腹肌(abdominal muscles)还可以主动收缩,这会间接使横膈膜中心上升,两侧下降,以及肋骨一定程度的缩小,最终导致胸腔的减小。 除了肋间肌和横膈膜这两种肌肉之外,其实还有上文提到的腹肌以及其他的很多肌肉可以对呼吸产生着影响。值得一提的是这些肌肉并不一定都会在呼吸时发生作用。此时我们要把呼与吸分开来谈了。在正常的吸气时,肋间外肌与横膈肌会主动收缩,而在快速或者很浅的吸气时,人下意识地,只会控制肋间外肌发挥作用,此时压强的变化会比较小,吸入的气体总量要小于两种肌肉同时作用所吸入的气体总量。这也是为什么唱歌的人往往需要专门练习腹式呼吸,其实就是让人体时时刻刻都利用横膈肌来进行呼吸,从而保证吸入更多的气体,以便于唱歌时使用。在正常的呼气时,几乎没有什么肌肉在发挥作用,仅仅依靠各个组织与器官的自然收缩,逐渐恢复吸气时所造成的变化,从而让胸腔自然的缩小。当有需要时,肋间内肌和腹肌以及很多其他肌肉则可以辅助加强这一变化,从而让胸腔更快以及更大程度的缩小。 目前为止我们知道了,人体就是通过控制各种肌肉的收缩与松弛,造成了胸腔的变大与缩小,改变了肺部内的压强,最终造成了人的呼和吸。那人体是通过什么来控制肌肉的呢?又为什么要控制肌肉,来完成呼吸这项活动呢?答案很简单:神经;补充血液中的氧气,排除血液中多余的二氧化碳。下面我们就神经展开更详细的探讨,所有的神经的控制最初都来源于大脑,因此我们就从大脑开始讲起。 启迪: 在讨论了上述语音气流产生的生理构造之后,针对于语音研究来说到底能有什么意义呢? 就目前而言,语音模型中真正涉及呼吸这一概念的,似乎只象征性的存在于语音合成中的声源-滤波器模型(source-filter)。而且作为声源的呼,为了计算上的简便或者实现上的可行,通常被简化为仅含有有限频率分量的声波或者白噪声。如此一来,上述所讨论的一大堆的呼吸的机制,就完全被省略掉了,真是可惜。 诚然,从声学角度来考虑,口、鼻、咽、喉等对气流所产生的调节决定了语音当中的特性,而肺部、气管传出的气流的特性与最终的语音相去甚远,被忽略也就无可厚非了。然而在很多现场教学中,对人咬字、唱歌等语音相关的训练,呼吸的作用缺从没有被忽视过。这确实是由于一个现实限制所决定的。因为呼吸是可以用肉眼或一些简单的检测装置,通过对体表的观察,就能分析出来的;而口、鼻、咽等部位的动作缺很难被观察,从而给与指导。但刨除这个现实问题来看,这依然能够证明,呼吸在语音中存在着不可忽视的影响,对呼吸的控制可以直接对语音产生影响。更具体的分析,呼吸的方式会直接决定喉部声门处气体压强的大小,这最终会影响声音的强度(幅度),连续性以及声带震动的频率。而以上三点更是决定一个歌手演唱水平的关键因素。[2]从这个角度看,呼吸似乎决定了人类对语音控制程度的高低。另外在生理机构方面,控制呼吸的神经与肌肉,与控制口、鼻、喉、咽等改变气流的神经与肌肉之间也许存在着反馈,从而相互影响。 不成熟的模型方面的思考: 1 在语音识别和合成中,对于韵律方面的研究,也许呼吸是一个很有必要引入的参数。 2 从生理上讲,人说话时长的上限完全由呼吸来决定。因此,在语音识别中,或许可以通过呼吸间隔,以及每一次的发音长短来预判下一次发音的长短。 3反过来考虑,如果能从语音中分析呼吸的特征,本身就有其医学意义。呼吸的频率就是生命特征(vitals)的一个很重要的指标。       参考文献: 【1】Fundamentals of Speaker Recognition, Homayoon Beigi, 2011 【2】The science of the sining voice, Johan […]

【unfinished】My sight in speech

In this post, I want to talk about what kind of knowledge speech can be related to and then make some plan for my future study in speech area. The picture below is a draft for building this post. When the post is finished. Draft will be deleted and replaced with a more clear structure.

【project】Gender Detection

”’ This project is from an interview task. It is accomplished in 3 days, which include literature review, corpus prep and model training. Thus many things are not tuning in to the best way. I will update it in the future. Currently, this post will record the thinking and solution to this gender classification task. […]