CHARACTERISATION OF PLOSIVE, FRICATIVE AND ASPIRATION COMPONENTS IN SPEECH PRODUCTION by Philip JB Jackson Abstract . . . . . . . . . . . . . . . . . . . . i Acknowledgements . . . . . . . . . . . . . . . . . . . . ii Contents . . . . . . . . . . . . . . . . . . . . iii List of Figures . . . . . . . . . . . . . . . . . . . . vi List of Tables . . . . . . . . . . . . . . . . . . . . ix 1 INTRODUCTION 2 1.1 Motivation . . . . . . . . . . . . . . . . . . . . 2 1.1.1 Purpose . . . . . . . . . . . . . . . . . . . . 3 1.1.2 Problem statement . . . . . . . . . . . . . . . 4 1.1.3 Applications . . . . . . . . . . . . . . . . . . 5 1.2 Speech production . . . . . . . . . . . . . . . . . . 6 1.2.1 Fricatives . . . . . . . . . . . . . . . . . . . 7 1.2.2 Plosives . . . . . . . . . . . . . . . . . . . . 8 1.2.3 Aspiration noise . . . . . . . . . . . . . . . . 9 1.3 Speech modelling . . . . . . . . . . . . . . . . . . . 10 1.3.1 Filter models . . . . . . . . . . . . . . . . . 11 1.3.2 Source models . . . . . . . . . . . . . . . . . 12 1.4 Speech analysis . . . . . . . . . . . . . . . . . . . . 15 1.4.1 Features of the speech signal . . . . . . . . . 15 1.4.2 Decomposition techniques . . . . . . . . . . . . 17 1.5 Organisation of the thesis . . . . . . . . . . . . . . 21 1.6 Contributions . . . . . . . . . . . . . . . . . . . . 22 1.6.1 Journal articles . . . . . . . . . . . . . . . . 22 1.6.2 Refereed conference papers . . . . . . . . . . . 22 2 ACOUSTIC FLOW-DUCT MODELLING OF THE VOCAL TRACT 24 2.1 Overview . . . . . . . . . . . . . . . . . . . . 24 2.2 Vocal-tract acoustics program (VOAC) . . . . . . . . . 26 2.2.1 Background . . . . . . . . . . . . . . . . . . . 26 2.2.2 Translation into Matlab . . . . . . . . . . . . 27 2.2.3 Input . . . . . . . . . . . . . . . . . . . . 28 2.2.4 Output . . . . . . . . . . . . . . . . . . . . 28 2.2.5 Intermediate source . . . . . . . . . . . . . . 29 2.3 Acoustic formulation . . . . . . . . . . . . . . . . . 30 2.3.1 Assumptions . . . . . . . . . . . . . . . . . . 30 2.3.2 Plane-wave basis . . . . . . . . . . . . . . . . 31 2.3.3 Transfer at an abrupt area change . . . . . . . 33 2.3.4 Radiation impedance . . . . . . . . . . . . . . 33 2.3.5 Cross modes . . . . . . . . . . . . . . . . . . 34 2.3.6 End corrections . . . . . . . . . . . . . . . . 35 2.3.7 Side branches . . . . . . . . . . . . . . . . . 35 2.3.8 Flow . . . . . . . . . . . . . . . . . . . . 36 2.4 Implementation . . . . . . . . . . . . . . . . . . . . 37 2.4.1 Element types . . . . . . . . . . . . . . . . . 37 2.4.2 Supraglottal sources . . . . . . . . . . . . . . 38 2.4.3 Losses . . . . . . . . . . . . . . . . . . . . 41 2.4.4 Vocal-tract transfer functions . . . . . . . . . 42 2.5 Comparison with experiment . . . . . . . . . . . . . . 42 2.5.1 Physical models . . . . . . . . . . . . . . . . 43 2.5.2 Frequency response functions (FRFs) . . . . . . 46 2.5.3 Discussion . . . . . . . . . . . . . . . . . . . 47 2.6 Summary . . . . . . . . . . . . . . . . . . . . 49 3 FROM IMAGES TO SOUNDS 50 3.1 Introduction . . . . . . . . . . . . . . . . . . . . 50 3.2 The dMRI data . . . . . . . . . . . . . . . . . . . . 50 3.2.1 Acquisition . . . . . . . . . . . . . . . . . . 51 3.2.2 Segmentation . . . . . . . . . . . . . . . . . . 51 3.3 Distance functions . . . . . . . . . . . . . . . . . . 52 3.3.1 Overlaying a grid . . . . . . . . . . . . . . . 53 3.3.2 Finding the intercepts . . . . . . . . . . . . . 53 3.4 Conversion into geometry functions . . . . . . . . . . 55 3.4.1 Multiple slices . . . . . . . . . . . . . . . . 56 3.4.2 Side branches . . . . . . . . . . . . . . . . . 58 3.4.3 Area functions . . . . . . . . . . . . . . . . . 59 3.5 Computing VTTFs from real speech data . . . . . . . . . 59 3.5.1 Generating input files for VOAC . . . . . . . . 61 3.5.2 Vocal-tract transfer functions . . . . . . . . . 61 3.6 Speech synthesis . . . . . . . . . . . . . . . . . . . 62 3.6.1 Overview . . . . . . . . . . . . . . . . . . . . 62 3.6.2 Impulse response filter . . . . . . . . . . . . 63 3.6.3 Acoustic sources . . . . . . . . . . . . . . . . 64 3.6.4 Results . . . . . . . . . . . . . . . . . . . . 65 3.7 Summary . . . . . . . . . . . . . . . . . . . . 66 4 ANALYSIS OF SINGLE-SOURCE SPEECH 68 4.1 Speech acquisition . . . . . . . . . . . . . . . . . . 68 4.1.1 Subjects . . . . . . . . . . . . . . . . . . . . 68 4.1.2 Corpora . . . . . . . . . . . . . . . . . . . . 68 4.2 Analysis in the frequency domain . . . . . . . . . . . 71 4.2.1 Windowing . . . . . . . . . . . . . . . . . . . 72 4.2.2 Power spectra and spectrograms . . . . . . . . . 73 4.2.3 Time-averaging . . . . . . . . . . . . . . . . . 74 4.2.4 Ensemble averaging . . . . . . . . . . . . . . . 76 4.3 Fundamental frequency . . . . . . . . . . . . . . . . . 76 4.3.1 Perturbation measures . . . . . . . . . . . . . 77 4.3.2 Fundamental frequency extraction . . . . . . . . 78 4.4 Inverse filters . . . . . . . . . . . . . . . . . . . . 81 4.4.1 Auto-regressive (AR) models . . . . . . . . . . 82 4.4.2 Auto-regressive moving-average (ARMA) models . . 83 4.4.3 Electroglottography (EGG) . . . . . . . . . . . 83 4.5 Features of plosives . . . . . . . . . . . . . . . . . 84 4.5.1 Burst spectra . . . . . . . . . . . . . . . . . 84 4.5.2 Development . . . . . . . . . . . . . . . . . . 86 4.6 Summary . . . . . . . . . . . . . . . . . . . . 88 5 DECOMPOSITION OF MIXED-SOURCE SPEECH: METHOD 89 5.1 Introduction . . . . . . . . . . . . . . . . . . . . 89 5.2 Review of decomposition methods . . . . . . . . . . . . 90 5.2.1 Time domain (TD) . . . . . . . . . . . . . . . . 90 5.2.2 Frequency domain (FD) . . . . . . . . . . . . . 91 5.2.3 Correlation methods . . . . . . . . . . . . . . 92 5.2.4 Cepstral methods . . . . . . . . . . . . . . . . 93 5.2.5 A pitch-scaled approach . . . . . . . . . . . . 93 5.3 Pitch-scaled harmonic filter (PSHF) . . . . . . . . . . 94 5.3.1 Origins . . . . . . . . . . . . . . . . . . . . 95 5.3.2 Pitch estimation . . . . . . . . . . . . . . . . 96 5.3.3 Windowing and re-splicing . . . . . . . . . . . 97 5.3.4 Algorithm . . . . . . . . . . . . . . . . . . . 99 5.3.5 Note on robustness . . . . . . . . . . . . . . . 103 5.4 Selected methods . . . . . . . . . . . . . . . . . . . 103 5.4.1 Comb filter . . . . . . . . . . . . . . . . . . 104 5.4.2 Wiener filter . . . . . . . . . . . . . . . . . 105 5.4.3 Thresholded wavelet filter . . . . . . . . . . . 106 5.4.4 Discussion . . . . . . . . . . . . . . . . . . . 107 5.5 Comparative study . . . . . . . . . . . . . . . . . . . 107 5.5.1 Basic model . . . . . . . . . . . . . . . . . . 108 5.5.2 Performance calculation . . . . . . . . . . . . 108 5.5.3 Comb filter . . . . . . . . . . . . . . . . . . 111 5.5.4 Wiener filter . . . . . . . . . . . . . . . . . 111 5.5.5 Wavelet filter . . . . . . . . . . . . . . . . . 113 5.5.6 Pitch-scaled harmonic filter . . . . . . . . . . 113 5.5.7 Pilot summary . . . . . . . . . . . . . . . . . 114 5.6 Validation using synthetic speech . . . . . . . . . . . 115 5.6.1 Signal generation . . . . . . . . . . . . . . . 116 5.6.2 Results . . . . . . . . . . . . . . . . . . . . 116 5.6.3 Evaluation . . . . . . . . . . . . . . . . . . . 118 5.6.4 Measured HNR . . . . . . . . . . . . . . . . . . 121 5.7 Effect of voicing perturbations . . . . . . . . . . . . 122 5.7.1 Signal generation . . . . . . . . . . . . . . . 122 5.7.2 Results . . . . . . . . . . . . . . . . . . . . 123 5.8 Conclusion . . . . . . . . . . . . . . . . . . . . 125 6 MIXED-SOURCE DECOMPOSITION: RESULTS 126 6.1 Introduction . . . . . . . . . . . . . . . . . . . . 126 6.2 Recorded speech . . . . . . . . . . . . . . . . . . . . 126 6.2.1 Nonsense word . . . . . . . . . . . . . . . . . 127 6.2.2 Summary . . . . . . . . . . . . . . . . . . . . 133 6.3 Fricatives . . . . . . . . . . . . . . . . . . . . 133 6.4 Vowels . . . . . . . . . . . . . . . . . . . . 133 6.4.1 Preliminary recordings . . . . . . . . . . . . . 135 6.4.2 Sustained vowel . . . . . . . . . . . . . . . . 136 6.5 Mode of phonation . . . . . . . . . . . . . . . . . . . 138 6.5.1 Modal . . . . . . . . . . . . . . . . . . . . 138 6.5.2 Pressed . . . . . . . . . . . . . . . . . . . . 140 6.6 Voice quality in vowels . . . . . . . . . . . . . . . . 142 6.7 Vowel context . . . . . . . . . . . . . . . . . . . . 144 6.8 Conclusion . . . . . . . . . . . . . . . . . . . . 145 7 MIXED-SOURCE ANALYSIS OF FRICATIVES 147 7.1 Characterising the components . . . . . . . . . . . . . 148 7.1.1 Decomposition . . . . . . . . . . . . . . . . . 148 7.1.2 Spectral envelope . . . . . . . . . . . . . . . 149 7.1.3 Short-term power (STP) . . . . . . . . . . . . . 151 7.2 Modulation analysis . . . . . . . . . . . . . . . . . . 153 7.2.1 Pitch-scaled demodulation . . . . . . . . . . . 153 7.2.2 Using EGG as a reference signal . . . . . . . . 155 7.2.3 Validation of phase estimate . . . . . . . . . . 157 7.3 Results . . . . . . . . . . . . . . . . . . . . 157 7.3.1 Sustained fricatives . . . . . . . . . . . . . . 158 7.3.2 Pitch glides . . . . . . . . . . . . . . . . . . 160 7.4 Discussion . . . . . . . . . . . . . . . . . . . . 162 7.4.1 From phase to delay . . . . . . . . . . . . . . 162 7.4.2 Theory . . . . . . . . . . . . . . . . . . . . 166 7.4.3 Travel times . . . . . . . . . . . . . . . . . . 167 7.4.4 Source modulation mechanisms . . . . . . . . . . 170 7.4.5 Interpretation . . . . . . . . . . . . . . . . . 171 7.4.6 Remarks . . . . . . . . . . . . . . . . . . . . 171 7.5 Synthesis . . . . . . . . . . . . . . . . . . . . 173 7.5.1 Source models . . . . . . . . . . . . . . . . . . . . 173 7.5.2 Results . . . . . . . . . . . . . . . . . . . . 174 7.6 Conclusion . . . . . . . . . . . . . . . . . . . . 175 8 CONCLUSION 178 8.1 Summary . . . . . . . . . . . . . . . . . . . . 178 8.1.1 Acoustic modelling . . . . . . . . . . . . . . . 179 8.1.2 Speech analysis . . . . . . . . . . . . . . . . 179 8.2 Findings . . . . . . . . . . . . . . . . . . . . 181 8.2.1 Fricatives . . . . . . . . . . . . . . . . . . . 181 8.2.2 Plosives . . . . . . . . . . . . . . . . . . . . 182 8.2.3 Aspiration noise . . . . . . . . . . . . . . . . 182 8.3 Future work . . . . . . . . . . . . . . . . . . . . 183 8.3.1 The VOAC program . . . . . . . . . . . . . . . . 183 8.3.2 Speech analysis . . . . . . . . . . . . . . . . 184 8.3.3 Mixed-source decomposition . . . . . . . . . . . 185 8.3.4 Extension of speech corpus . . . . . . . . . . . 186 8.3.5 Interpretation of images . . . . . . . . . . . . 186 8.3.6 Physical flow models . . . . . . . . . . . . . . 187 8.4 Coda . . . . . . . . . . . . . . . . . . . . 187 APPENDICES 188 A ACOUSTIC TRANSFER EQUATIONS 189 A.1 Fundamental relations . . . . . . . . . . . . . . . . . 189 A.1.1 Acoustic equations (no flow) . . . . . . . . . . 189 A.1.2 Isentropic and adiabatic processes . . . . . . . 190 A.1.3 The control volume . . . . . . . . . . . . . . . 191 A.2 Continuity of mass . . . . . . . . . . . . . . . . . . 192 A.2.1 Contraction . . . . . . . . . . . . . . . . . . 193 A.2.2 Expansion . . . . . . . . . . . . . . . . . . . 193 A.2.3 No flow . . . . . . . . . . . . . . . . . . . . 194 A.3 Conservation of momentum . . . . . . . . . . . . . . . 194 A.3.1 Contraction . . . . . . . . . . . . . . . . . . 194 A.3.2 Expansion . . . . . . . . . . . . . . . . . . . 195 A.3.3 No flow . . . . . . . . . . . . . . . . . . . . 196 A.4 Conservation of energy . . . . . . . . . . . . . . . . 196 A.4.1 Compressible, adiabatic, steady-flow processes . 197 A.4.2 Contraction . . . . . . . . . . . . . . . . . . 198 A.4.3 Expansion . . . . . . . . . . . . . . . . . . . 198 A.4.4 No flow . . . . . . . . . . . . . . . . . . . . 199 A.4.5 Linearisation of pressure upon density . . . . . 199 A.5 Side branch . . . . . . . . . . . . . . . . . . . . 200 A.5.1 No flow . . . . . . . . . . . . . . . . . . . . 200 A.5.2 Steady flow . . . . . . . . . . . . . . . . . . 202 A.6 Note on radiation impedance . . . . . . . . . . . . . . 203 A.7 Intermediate source in a simple tube . . . . . . . . . 203 B VOAC PSEUDO-CODE TRANSCRIPTION 206 B.1 Testing . . . . . . . . . . . . . . . . . . . . 206 B.1.1 Preliminary and system tests . . . . . . . . . . 207 B.1.2 Formant frequencies . . . . . . . . . . . . . . 207 B.1.3 Secondary tests . . . . . . . . . . . . . . . . 208 B.1.4 Summary of test results . . . . . . . . . . . . 209 B.1.5 Modifications . . . . . . . . . . . . . . . . . 209 B.1.6 Summary: function and dysfunction . . . . . . . 210 B.2 Data format . . . . . . . . . . . . . . . . . . . . 210 B.2.1 File contents . . . . . . . . . . . . . . . . . 210 B.2.2 Example file: Fant /i/ . . . . . . . . . . . . . 211 B.3 Pseudocode . . . . . . . . . . . . . . . . . . . . 213 B.4 End corrections . . . . . . . . . . . . . . . . . . . . 214 B.5 Radiation . . . . . . . . . . . . . . . . . . . . 216 B.6 Element transfers . . . . . . . . . . . . . . . . . . . 219 B.6.1 ORIFICE . . . . . . . . . . . . . . . . . . . . 219 B.6.2 RAMP . . . . . . . . . . . . . . . . . . . . 223 B.6.3 CONE . . . . . . . . . . . . . . . . . . . . 224 B.6.4 OUTLET . . . . . . . . . . . . . . . . . . . . 226 B.7 Outputs . . . . . . . . . . . . . . . . . . . . 230 B.7.1 Glottal quantities . . . . . . . . . . . . . . . 230 B.7.2 Losses . . . . . . . . . . . . . . . . . . . . 230 B.7.3 Transfer functions . . . . . . . . . . . . . . . 230 C VOCAL-TRACT DIMENSIONS 231 C.1 Basic physiology . . . . . . . . . . . . . . . . . . . 231 C.2 Vocal-tract outlines . . . . . . . . . . . . . . . . . 232 D PERIODIC-APERIODIC DECOMPOSITION 234 D.1 Introduction . . . . . . . . . . . . . . . . . . . . 234 D.2 Precis . . . . . . . . . . . . . . . . . . . . 237 D.2.1 Theoretical argument . . . . . . . . . . . . . . 238 D.3 Simulations . . . . . . . . . . . . . . . . . . . . 240 D.4 Discussion . . . . . . . . . . . . . . . . . . . . 242 D.5 Original statement of proof . . . . . . . . . . . . . . 243 REFERENCES 246 Glossary . . . . . . . . . . . . . . . . . . . . 247 Bibliography . . . . . . . . . . . . . . . . . . . . 249 (c) Philip Jackson, last updated 9 November 2000.