【ongoing】语音解剖学 Speech Anatomy

前言: 在语音领域(无论你的目标是语音识别,语音合成,亦或是其他跟语音相关的项目), 曾作为或者目前仍是初学者的你,一定经历过这样一个步骤。某一天,兴致勃勃地翻开了刚到手的语音教材,回味无穷的读完了书的序言以及第一章的引言,觉得自己一定要在某方面创下一番天地,已经准备好接受各种理论和挑战的洗礼。翻开书的第二章,两个大字映入了你的眼帘,“解剖”。此时此刻你也许会想,这很科学,毕竟我们处理的是语音,一切都有着其生物基础,想必我们能从中受益良多。而无论你是小心翼翼的一字一句的斟酌也好,还是狼吞虎咽的咀嚼也罢,你会发现大多数生理细节非常不重要,或者说各种晦涩难懂的专业名称让你云里雾里。 不过好在聪明的你和作者总不会让这份辛苦是分无用功,虽然有很多琐碎没有给你留下深刻的印象,你还是依然能够有所收获。比如对发声机理的研究是如何映射到语音合成技术中的,对人耳听觉的测算如何改善了语音识别的数据特征,对大脑神经的实验又如何延伸出了当下最火的神经网络模型。 作为笔者的我,刚刚正式踏入语音领域,了解到的还只是皮毛与表面,但依然怀揣着一颗勇往直前、不撞南墙不回头的心。希望通过对人体的生理更细致、更形象的了解与研究,产生出更多有创造性的、有意义的概念,为语音领域添个砖、加片瓦。因此,本文会不断更新和整理与语音相关的生理知识,从文字,二维、三维图片,模拟或真实视频、语音等多方面来对生理构造进行描述,旨在使各个细节更加清晰。也欢迎对相关内容的感兴趣的人,提出宝贵的建议与意见,望一起点燃精神之火,撩了语音这个广阔的平原。 正文序: 从狭义来讲,语音单纯是指人发出声音这一行为,它发生在人呼吸运动中的呼这一环节,与之相关的生理结构似乎并不算很多。然而从广义来讲,产生、接收、理解语音都是语音相关的人体活动。从这个角度来看,人体上半身的所有器官几乎都参与了这项活动。按功能的不同,可以将上半身划分为四个区域。用于语音气流的开端肺、气管;用于调节气流从而发声的喉、咽、口、鼻;用于接收语音,并对自身语音产生反馈的耳;通过控制以上所有运动,并对语音进行理解的大脑。接下来就会依照如上这个自底向上的次序,来对这四部分生理结构和功能依次进行讨论。 *注: 由于篇幅有限,以及便于阅读。有些更加细枝末节,似乎偏离了语音讨论范畴的内容,会用紫色标识出来。如有兴趣,点击可以跳转到相关的帖子,查看更多详细的解释。 Ⅰ气流的产生: 想要讨论语音气流的产生,就不得不从人的呼吸开始讲起。人产生呼吸的物理本质是肺部与外界气压差所产生的气流运动。当肺部的气体压强小于人体外的气体压强时,就会产生从外界流向人体肺部的气流;反之就会产生由肺部流向外界的气流,这个气流也就是我们语音的载体了。再进一步讨论压强变化的原因之前,首先明确一下本文所认定的气流的通道,细节如下图所示。气体可以分别从鼻腔与口腔流入咽,再流入喉,经过气管与各级支气管输送到肺部,最终停留在肺泡中与血管中的血浆进行气体交换。 依旧从物理层次来分析,压强由三种因素来决定,分别是温度、气体的量和体积。前两者与压强成正比,后者与压强成反比。人是一个恒温动物,虽然这个恒温是在调节中动态实现的,但其动态变化似乎不会对气体压强产生极大的影响,因此认定这个温度变化在呼吸中的作用可以忽略不记。 同样的,虽然二氧化碳、氧气等气体分子在肺部的肺泡与血管血浆中不断发生着气体交换,并且显而易见的改变了肺部气体的量,但这份改变在数量级似乎远小于气体体积在呼吸中产生的改变,因此也可以忽略不计。以上两处忽略不计确实缺乏更具体的数据和实验进行作证,如果今后有更多的发现,或许会对其进行修正与补充。综上所述,气体的体积成为了影响呼吸的决定性因素。而通过观察整个气流流通的通道可以发现,体积真正发生改变的地方就在于人体的肺部,或者说人体的胸腔之中。 又是什么导致了肺在胸腔中的体积变化呢,而什么是胸腔呢? 在回答这一问题之前需要简单描述一下肺部的生理构造。如下图所示,与这份体积变化有关的生理结构在内而外分别是:①肺(lung)本身。②包围在肺外部胸膜(pulmonary pleurae)③肋间肌(intercostal muscles)及肋间神经(intercostal nerve)④横膈膜(diaphragm)及膈神经(phrenic nerve)。其中胸膜虽然体积很小,但确实连接各个部分的一个重要环节。他(胸膜)是由两层浆模(serous membranes)围绕而成的,有点像游泳时用的救生圈。胸膜内侧的浆模贴紧肺的表面称为壁胸膜(parietal pleura),胸膜外侧的浆模贴紧肋骨下的肌肉以及横膈膜的上表面称为脏胸膜(Visceral pleura)。胸膜内部气体较少,始终低于大气压强,内部的压强被称为负压。当胸膜没有破损时,肺部的压强也永远大于胸膜内的压强,因此肺与胸膜时刻相依在一起。肺随着胸膜的移动而移动,而胸膜随着肋骨间的肌肉以及横膈膜的移动而移动。因此决定肺部体积的因素有两个,一个是肋间肌,一个是横膈膜。以肋骨环绕为顶,横膈膜为低的腔体,被称为胸腔。因此,胸腔的变大与缩小,同肺部的变大与缩小其实是一致的。后文不再做以区分。 这两个因素之间其实是相互独立又相互影响的。肋骨之间存在肋间肌,并由肋间神经所控制。被控制的肋间肌又可以分为肋间外肌和肋间内肌,分别使得肋骨向前以及两侧扩张和收缩,从而造成胸腔的变大与缩小。横膈膜是一个凸型的由肌肉纤维组成的较薄的隔膜,分隔着胸腔和腹腔。隔膜肌的收缩可以使得横膈膜中心向下移动,两侧向上移动从而扩大胸腔,挤压腹腔。当腹腔受到挤压时,腹肌就会向外膨胀,也就是肚子会鼓起来。而且受到挤压的腹腔也会间接对肋骨造成影响,使其产生一定程度的扩张。 相反腹部肌肉,腹肌(abdominal muscles)还可以主动收缩,这会间接使横膈膜中心上升,两侧下降,以及肋骨一定程度的缩小,最终导致胸腔的减小。 除了肋间肌和横膈膜这两种肌肉之外,其实还有上文提到的腹肌以及其他的很多肌肉可以对呼吸产生着影响。值得一提的是这些肌肉并不一定都会在呼吸时发生作用。此时我们要把呼与吸分开来谈了。在正常的吸气时,肋间外肌与横膈肌会主动收缩,而在快速或者很浅的吸气时,人下意识地,只会控制肋间外肌发挥作用,此时压强的变化会比较小,吸入的气体总量要小于两种肌肉同时作用所吸入的气体总量。这也是为什么唱歌的人往往需要专门练习腹式呼吸,其实就是让人体时时刻刻都利用横膈肌来进行呼吸,从而保证吸入更多的气体,以便于唱歌时使用。在正常的呼气时,几乎没有什么肌肉在发挥作用,仅仅依靠各个组织与器官的自然收缩,逐渐恢复吸气时所造成的变化,从而让胸腔自然的缩小。当有需要时,肋间内肌和腹肌以及很多其他肌肉则可以辅助加强这一变化,从而让胸腔更快以及更大程度的缩小。 目前为止我们知道了,人体就是通过控制各种肌肉的收缩与松弛,造成了胸腔的变大与缩小,改变了肺部内的压强,最终造成了人的呼和吸。那人体是通过什么来控制肌肉的呢?又为什么要控制肌肉,来完成呼吸这项活动呢?答案很简单:神经;补充血液中的氧气,排除血液中多余的二氧化碳。下面我们就神经展开更详细的探讨,所有的神经的控制最初都来源于大脑,因此我们就从大脑开始讲起。 启迪: 在讨论了上述语音气流产生的生理构造之后,针对于语音研究来说到底能有什么意义呢? 就目前而言,语音模型中真正涉及呼吸这一概念的,似乎只象征性的存在于语音合成中的声源-滤波器模型(source-filter)。而且作为声源的呼,为了计算上的简便或者实现上的可行,通常被简化为仅含有有限频率分量的声波或者白噪声。如此一来,上述所讨论的一大堆的呼吸的机制,就完全被省略掉了,真是可惜。 诚然,从声学角度来考虑,口、鼻、咽、喉等对气流所产生的调节决定了语音当中的特性,而肺部、气管传出的气流的特性与最终的语音相去甚远,被忽略也就无可厚非了。然而在很多现场教学中,对人咬字、唱歌等语音相关的训练,呼吸的作用缺从没有被忽视过。这确实是由于一个现实限制所决定的。因为呼吸是可以用肉眼或一些简单的检测装置,通过对体表的观察,就能分析出来的;而口、鼻、咽等部位的动作缺很难被观察,从而给与指导。但刨除这个现实问题来看,这依然能够证明,呼吸在语音中存在着不可忽视的影响,对呼吸的控制可以直接对语音产生影响。更具体的分析,呼吸的方式会直接决定喉部声门处气体压强的大小,这最终会影响声音的强度(幅度),连续性以及声带震动的频率。而以上三点更是决定一个歌手演唱水平的关键因素。[2]从这个角度看,呼吸似乎决定了人类对语音控制程度的高低。另外在生理机构方面,控制呼吸的神经与肌肉,与控制口、鼻、喉、咽等改变气流的神经与肌肉之间也许存在着反馈,从而相互影响。 不成熟的模型方面的思考: 1 在语音识别和合成中,对于韵律方面的研究,也许呼吸是一个很有必要引入的参数。 2 从生理上讲,人说话时长的上限完全由呼吸来决定。因此,在语音识别中,或许可以通过呼吸间隔,以及每一次的发音长短来预判下一次发音的长短。 3反过来考虑,如果能从语音中分析呼吸的特征,本身就有其医学意义。呼吸的频率就是生命特征(vitals)的一个很重要的指标。       参考文献: 【1】Fundamentals of Speaker Recognition, Homayoon Beigi, 2011 【2】The science of the sining voice, Johan […]

2020年6月末的热点新闻

不知道什么原因, 总感觉这个月末的热点新闻在不断刷新着自己对世界的认知. 认知的改变不只是新闻本身, 更多的是来自于不同平台不同角度的描述. 热点1: 老干妈与腾讯 知乎:如何看待老干妈回应因拖欠广告费被法院冻结财产,称是腾讯公司被骗,双方并无合作? 看着讨论里提及的拖款/回扣/垫付, 再联想到好友和家人提到各自行业中的情况. 让我产生了一种, 契约精神就是一个笑话的感觉. 保证签订契约, 再开始工作, 是第一道难题 保证签订契约的双方是真实有效的, 是第二道难题 双方自觉按照契约的内容开展工作, 是第三道难题 若有违约, 按照契约的约定/精神进行赔偿, 是第四道难题 至少一方违约又谈不拢的情况下, 法院以及执法人员能够协调和监督解决, 是第五道难题 当部分事实暴露在公众的视角中, 判断谁才是受害者是最后一道难题. 虽然这道难题只是针对的看客, 并非真正的契约双方. 但我觉得这其中的讨论和走向, 也或多或少影响着/或代表着以后契约的发展. 讨论中提到的表见代理, 更是一个由于人性而产生的名词, 也就是上述提到的第二个那题. 名词描述的情景里, 契约双方一方是非法的行为人(无代理之权, 行代理之实), 另一方是善意的相对人. 在这个语境下, 非法代理人自然是最邪恶的那一方. 但他也证明着现实中, 也存在着非善意的相对人, 以及代理权不清不楚的被代理人. 代理人的无效到底是来自于谁的恶意, 这个问题本身让人感觉不寒而栗. 热点2: 高晓松直播关闭, 公知 知乎:为什么知乎上这么多人批评高晓松? 知乎专栏: “精美”公知闭麦简史 一亩三分地:如何看待高晓松和留学生日报 北美留学生日报:高晓松被骂到关闭直播间,2020年中国公知为何被人人喊打 讨论大概有三个方向, 一个是专注高晓松本身, 分析其过往发言, […]

三十岁の友情

截止到目前, 我已活了28年7月9天. 小时候的事情实在记不起来太多, 最模糊的记忆可能是从小学时候开始. 但我清晰地感受到, 在活着的各个阶段里, 带给我最大快乐和最大痛苦的都来源于一处–羁绊最深的友谊. 大学以前的羁绊, 总结起来四个字: 形影不离. 上课在一起, 下课在一起, 玩时在一起, 补习在一起. 几乎可以说只要在清醒的时间里, 总有那么一两个伙伴陪伴在身边. 回想起来, 顶多和朋友产生摩擦, 没有什么刻骨铭心的痛苦. 大学以后, 工作初期的羁绊, 总结起来四个字: 志同道合. 朋友的交际圈从天津市的几个区, 大概拓展到了中国的几个市, 多集中于京津冀地区. 对于一些来说很小, 对于我来说却感觉到了巨大的区别. 每个人都开始有自己的理想, 为着一定的目标而努力. 或许是社团, 或许是成绩, 或许是恋爱… 大概有2-3次尝试那种形影不离的模式, 但最过程中一定会产生碰撞与痛苦. 只能说在这个不断冲刷着自己三观的过程中, 自己逐渐放弃了形影不离的幻想, 而用志同道合来安慰自己. 朋友不一定在身边, 却一直在心里. 凭着这种信念和社交平台, 确实给自己营造出了海内存知己天涯若比邻的感受. 29岁的羁绊, 强行总结四个字: 患难见真情. 但我想用另外几个字去解释它的真实体现: 它一定在心底, 但很难在心里. 父母, 工作, 家庭的负担开始展露头角. 从没发现说谁会放弃友谊, 但它在每个人内心时间与空间的比重却是阶段性的下降. 作为一个对父母不够关心, 对工作不够上心, […]

第一个三年计划2019-2021

再有两天就是公立新年了,如今我也是27岁了,再有三年就踏入而立之年。虽然如今的我依然在很多方面或主动,或被动的保持着幼稚,但希望自己能在三十岁的时候有一个完美又平凡的开端。 无暇对2018年作出一个回顾,今天旨在对将来的三年做出计划,并在三年中不断更改和完善这个计划。计划分为五个部分,重要性从大到小排列 1 健康: 目前的身体状况不是十分糟糕,但距离良好也有不小的距离。因此有必要对自身的各项数值有更深刻的了解和认识,并作出相对应的计划。目前需要做的有两点。 健身:完成一轮 90天 p90x3+Insanity Hybrid 健身计划, 之后待定 饮食:非特殊情况(聚餐、旅行等),饮食参照 21 Day Fix Meal Planning 体检 : 全身体检,更好的了解目前的身体状态,以便做出后续安排 2 事业: 目前作为一名语音工程师,就职于 Think-A-Move,ltd。 工作已经接近两年,技术提升基本呈正弦波式上升,时而迅速,时而缓慢。目前列出三年内有可能做出的调整,以及对应的优势劣势,排序不分先后,没有绝对倾向。第一次决定,依赖于19年工作签证的抽签结果。 人在美国,就职于Think-A-Move。优:生活工作节奏轻松,工作内容较自由,目前未发现被辞职的风险,有更多的机会跳槽美国其他语音公司或部门; 劣:职业技能缺乏指导,主要靠摸索。薪资仅能保证舒适的日常生活,盈余不足。 人在中国,远程于Think-A-Move。优:生活工作节奏自由掌控,工作内容较自由,日常生活盈余显著提高,有机会在国内开创公司接私活。劣:工作状态受中美政策影响,基本失去肉身跳槽美国其他公司机会,同事交流大幅度减少。职业技能缺乏指导,主要靠摸索。 人在美国,跳槽其他语音公司或部门。 优:薪水或有提高, 技术提升或有显著提高,或有更多指导与讨论。劣:生活工作节奏或变得紧凑, 有更大的职业上升空间, 更多的了解适合自身的工作环境。 人在中国,远程与国内或国外的语音公司或部门。 优:技术指导与讨论应有一定增加,薪水应有提高,生活工作节奏应自由。 劣:或将大幅度减少通过工作与外界接触的机会, 有限的职业上升空间,失业风险或将提高 人在中国,合伙,甚至独自开发项目。优:职业发展空间无限大, 技术发展方向相对自由,生活工作节奏可控。劣:两眼一抹黑,各个方面风险大。 已确定事业发展相关计划: 建立公司,倾向合伙,也可独立,为后续的可能性做好准备。 每月github应保持一定数量commit,项目题材不限。 每一季设定一个理论学习的学习目标,第一季度第一个目标为GAN 工作总结至少半年一次。 3 家人/朋友 若人在国外,与家人朋友之间,联系保持在每周到每月之间。 若人在国内,与家人朋友之间,见面、活动保持在每季到每年之间。 尽可能参加一些社会活动,开阔一些自己的社交圈子,目前确实过于狭窄。 4 爱情 两眼一抹黑,无从下手,随便列出几点 人若在国内,或接受相亲,多认识多了解 或通过社会活动,兴趣爱好,自行发现兴趣相投的另一半 无论何种精神状态,也告诉自己不要过于抗拒另一半,随缘也要积极一些 […]

克村猎鬼 Ghost Hunt

(⊙o⊙)… 偶然间在一家书店找到了下面这个地图, hidden OHIO map and guide 地图里有很多有趣的记录(虽然我还没细看呢)   ,比如闹鬼的,外星人的, 独特风景的,阿米希人…. 以上我基本都挺感兴趣的,不过目前我只是通过google搜索, 对GOHST HUNTER有关的内容,做了些了解。 捉鬼或者说寻找灵异现象,在美国虽然很小众,但还是有着自己的产业,和一定的人群的。 我发现了一些小队,就在OHIO或者说克村附近 ,常年从事着灵异事件的调查研究,比如 TRI-C GHOST HUNTERS(OHIO) , COPRG, ORBS 也发现了一些与捉鬼(ghost hunt)有关的活动,比如墓地行走,监狱探索, 火车站探索… 发这个帖子主要是看看,有没有人同样对相关的东西感兴趣,愿意去尝试看看。可以找时间去参加类似的活动。从我目前观察来看,所有活动都谈不上有任何危险性,大多都是傍晚或者半夜,在墓地、旧监狱等地方给你讲“真实故事”, 带你探索。也有高级一些的,可能允许你自己带设备 或者提供你一些设备,去捕捉灵异现象的。 下面列出一些我目前搜索到的活动。 以后如果再找到了,也会再更新这个帖子。 场景一 The ohio state reformatory, 肖申克的救赎拍摄地点。100 Reformatory Rd, Mansfield, OH 44905 【1.5小时车程】: 活动1 Ghost Hunt Challenge 18禁,6pm-7pm到达指定地点登记,7:30带领参观4个最热门的灵异地点, 10pm 提供披萨, 10:30允许进入大楼,最晚可以带到凌晨3点。 提供设备租借购买服务,设备包括(Spirit Box, EVP Wristbands, Rook […]

ARPA and Grammar FST in Kaldi

1 What is ARPA? ARPA origins from MIT, is a text format to represent n-gram back-off language model. Although, it is not as efficient as most efficient binary formats, it is well accepted by popular speech toolkit, like HTK, SPHINX, Kaldi, etc.  Thus, it is commonly used as a way to save LM model and […]

[Modern Poem]语音识别(一)

语音识别 我用轻柔的声音说 我爱你 没有回应   我用更加激烈的语调说 我爱你 依然没有回应   或许你未曾经历过相同的境遇 或许我的表达远去于你的预期 又或许是尘世中的喧嚣淹没了其原本的轨迹   我不想利用权限去修改你的程序 只好不断尝试,调整自己   也许有一天 你终于听到 我爱你   也许有一天 那个声音 不再响起

20180329 工作报告

又是将近半年过去了,还有一个月入职就满一年了,再次对自己这一年来的成长做一个总结,以及对未来的发展做一个期望。 目前掌握的技能:(the number in the round bracket means the level of my skill in the related area judged by myself) 1 Customize grammar fst for command and control application in a very short time using thrax.  Fix grammar fst in a low level need using openfst. (95%) Usually the work flow is : ① getting […]

【伪】DIY一台用来娱乐和个人研究的PC

我没有学习过相关电脑的专业知识,也并非是组装电脑的爱好者。这里记录的是我所看到的经验贴,以及由此我所做出的决定 和最终结果。 网上大多DIY经验贴,要么是针对于游戏的[4],要么就是针对于研究的[1][2][3],好像没有人喜欢把两者相提并论。 就好像现在大多的技术博客一样。但我却总是一个拎不清的人,就喜欢把政治不正确的东西混在一起说。在组装电脑所需的硬件里: 对于深度学习来说,最重要的就是GPU;对于游戏来说,最重要的也是GPU。 两相比较之下,深度学习对于GPU的要求还要远甚于游戏。但无论如何,两者之间在硬件方面并没有什么冲突。 两者的冲突仅在于系统。游戏往往都在windows,而研究都在linux。所以一个想要兼容娱乐和研究的PC,无非就是安装双系统罢了。 双系统共用电脑的一切硬件,除了电脑中的硬盘。因此为了更好的体验,顶多就是考虑买一个更大的硬盘或者额外的移动硬盘。 个人预算:1500刀 要求: 1 支持大部分主流游戏 2 支持研究级别的深度学习运算 3 相较于台式机而言的便携 4 硬件方面不次于同价格的品牌机 一、硬件的选购与组装 【1】 Build a Deep Learning Rig for $800 【2】 Which GPU(s) to Get for Deep Learning: My Experience and Advice for Using GPUs in Deep Learning(2017) 【3】 A Full Hardware Guide to Deep Learning(2015) 【4】 Portable LAN Build […]