发音合成
目录
什么是发音合成
发音合成是指基于人类声道模型和在那里发生的发音过程合成语音的计算技术。可以通过多种方式控制声道的形状,这些方式通常涉及修改语音发音器的位置,例如舌头、下巴和嘴唇。语音是通过数字模拟通过声道表示的空气流动来创建的。
电子声道类似物
xxx个电子声道类似物是静态的,如Dunn(1950)、KenStevens及其同事(1953)、GunnarFant(1960)的那些。Rosen(1958)建立了一个动态声道(DAVO),Dennis(1963)后来试图通过计算机对其进行控制。丹尼斯等人。(1964年),Hiki等人。(1968)和Baxter和Strong(1969)也描述了硬件声道类似物。Kelly和Lochbaum(1962)进行了xxx次计算机模拟;后来进行了数字计算机模拟,例如Nakata和Mitsuoka(1965)、Matsui(1968)和PaulMermelstein(1971)。本田等人。(1968)做了一个模拟计算机模拟。
哈斯金斯和前田模型
xxx个经常用于实验室实验的软件发音合成器是在1970年代中期由PhilipRubin、TomBaer和PaulMermelstein在Haskins实验室开发的。这种合成器被称为ASY,是一种语音生成计算模型,它基于贝尔实验室在1960年代和1970年代由PaulMermelstein、CecilCoker及其同事开发的声道模型。另一个经常使用的流行模型是前田真司的模型,它使用基于因素的方法来控制舌头的形状。
现代模型
语音生成成像、发音控制建模和舌头生物力学建模的最新进展导致发音合成的方式发生了变化。示例包括由PhilipRubin、MarkTiede和LouisGoldstein设计的HaskinsCASY模型(可配置关节合成),它将中矢状声道与实际磁共振成像相匹配(MRI)数据,并使用MRI数据构建声道的3D模型。OlovEngwall描述了一个完整的3D关节合成模型。PeterBirkholz(VocalTractLab)开发了一种基于几何的3D发音语音合成器。
![发音合成](http://map.s-jl.com/wp-content/uploads/sites/14/2024/09/20240927232813-66f73f8d4e626.jpg)
咬合器速度方向(DIVA)模型是一种前馈控制方法,它考虑了语音生成背后的神经计算,由波士顿大学的FrankH.Guenther开发。ArtiSynth项目,由不列颠哥伦比亚大学的SidneyFels领导,是用于人类声道和上呼吸道的3D生物力学建模工具包。舌头等咬合架的生物力学建模由许多科学家开创,包括ReinerWilhelms-Tricarico、YohanPayan和Jean-MichelGerard、JianwuDang和KiyoshiHonda。
发音合成的商业模型
为数不多的商用发音语音合成系统之一是基于NeXT的系统,最初由卡尔加里大学的衍生公司TrilliumSoundResearch开发和销售,大部分原始研究都是在那里进行的。随着NeXT的各种版本的消亡(由史蒂夫·乔布斯在1980年代后期开始,并于1997年与AppleComputer合并),Trillium软件在GNU通用公共许可证下发布,工作继续作为gnuspeech.该系统于1994年首次上市,使用由ReneCarré的“独特区域模型”控制的人类口腔和鼻道的波导或传输线模拟,提供基于发音的完整文本到语音转换。