Abstract




 
   

IJE TRANSACTIONS C: Aspects Vol. 31, No. 9 (September 2018) 1529-1535    Article in Press

PDF URL: http://www.ije.ir/Vol31/No9/C/8-2887.pdf  
downloaded Downloaded: 71   viewed Viewed: 402

  VOICE-BASED AGE AND GENDER RECOGNITION BASED ON LEARNING GENERATIVE SPARSE MODELS
 
S. Mavaddati
 
( Received: March 10, 2018 – Accepted in Revised Form: May 30, 2018 )
 
 

Abstract    Voiced-based age detection and gender recognition are important problems in the telephone speech processing to investigate the identity of an individual. In this paper, a new gender and age recognition system is introduced based on the generative incoherent models learned using sparse non-negative matrix factorization and the atom correction step as a post-processing method. The proposed classification algorithm includes training step to provide the appropriate trained atoms for each data class and also the test phase to assess the classification performance. Since the classification accuracy depends highly on the selected features, the Mel-frequency cepstral coefficients are employed to train basis for the better representation of the voice structure. These bases are learned over the data of male and female speakers using non-negative matrix factorization with the sparsity constraint. Then, atom correction is carried out using an energy-based algorithm to decrease the coherence between different categories of the trained dictionaries. In the sparse representation of each data class, the atoms related to other sets with the highest energy are replaced with the lowest energy bases if the reconstruction error does not exceed from a specified limit. The experimental results showed that the proposed algorithm performs better than the earlier methods in this context especially in the presence of background noise.

 

Keywords    Gender Recognition, Sparse Non-negative Matrix Factorization Incoherence, Mel-frequency Cepstral Coefficient, Voice Processing

 

چکیده   

تشخیص جنسیت و سن گوینده به کمک مشخصات سیگنال گفتار، یکی از مسائل مهم در پردازش گفتار تلفنی به منظور تعیین هویت یک فرد می‌باشد. در این مقاله یک سیستم جدید تشخیص سن و جنسیت گوینده براساس مدل‌های ناهمدوس و جامع آموزش‌دیده به کمک الگوریتم تجزیه مقادیر غیرمنفی تنک و گام پس‌پرداش اصلاح اتم‌ها، ارائه شده است. مشابه سایر الگوریتم‌های طبقه‌بندی، روش پیشنهادی نیز شامل گام یادگیری و تست می‌باشد که در گام یادگیری، اتم‌های مربوط به هر کلاس داده آموزش داده شده و در گام تست، عملکرد طبقه‌بند مورد ارزیابی قرار می‌گیرد. از آنجاییکه دقت دسته‌بندی به میزان زیادی به ویژگی انتخابی از سیگنال داده وابسته است، در این مقاله از ضرایب کپسترال فرکانس مل به منظور یادگیری اتم‌های بازنمایی‌کننده پایه‌های فضایی و ساختار سیگنال گفتار استفاده شده است. این پایه‌ها بر روی مجموعه داده‌های گفتاری هر یک از گوینده‌ها با جنسیت‌های مختلف به کمک الگوریتم تجزیه مقادیر غیرمنفی تنک مدل می‌شوند. سپس اصلاح اتم‌ها مبتنی بر انرژی ضرایب فعال این تجزیه به منظور کاهش همدوسی میان گروه‌های داده‌ای مختلف بر روی واژه‌نامه معادل هر یک انجام می‌گیرد. در بازنمایی تنک هر کلاس داده، اتم‌های مربوط به دیگر کلاس‌ها که انرژی ضرایب فعال بیشتری بدست می‌دهند با اتم‌هایی که در بازنمایی این کلاس‌ها انرژی ضرایب فعال کمتری بدست می‌دهند، جایگزین می‌شوند و این جایگزینی به شرطی صورت می‌گیرد که خطای تقریب در بازنمایی داده اصلی از حد مشخصی بیشتر نشود. ارزیابی‌های مختلف در آزمایشات انجام شده نشان می‌دهد که دقت طبقه‌بندی الگوریتم‌ پیشنهادی بیشتر از سایر الگوریتم‌های ارائه شده در این زمینه می‌باشد. این آزمایشات در حضور نویز سفید گوسی نیز انجام شده و نتایج مشابهی را بدست داده است.

References   

1. Tanner, D. C., Tanner, M. E., “Forensic aspects of speech patterns: voice prints, speaker profiling, lie and intoxication detection”, Lawyers & Judges Publishing Company, (2004).
2. Reddy, T. R., Vardhanb. B. V., Reddy P. V., “ A document weighted approach for gender and age prediction based on term weight measure”, International Journal of Engineering-Transactions B: Applications, Vol. 30, No. 5, (2017), 643-651.  
3. Jain, A. K., Flynn, P., Ross, A. A., Handbook of biometrics, Springer, (2008).
4. Bocklet, T., Maier, A., Bauer, J. G., Burkhardt, F., Noth, E., “Age and gender recognition for telephone applications based on GMM supervectors and support vector machines” , In proc. IEEE Int. Conf. Acoustics, Speech and Signal Processing (ICASSP), USA, (2008), 1605-1608.
5. Metze, F., “Comparison of four approaches to age and gender recognition for telephone applications”, In proc. IEEE Int. Conf. Acoustics, Speech and Signal Processing (ICASSP), USA, (2007), 1089-1092.
6. Porat, R., Lange, D., Zigel, Y., “Age recognition based on speech signals using weights supervector”, In proc. Interspeech, Japan, (2010), 2814-2817.
7. Bahari, M. H., Van hamme, H., “Speaker age estimation and gender detection based on supervised non-negative matrix factorization”, In proc. of the IEEE Workshop on Biometric Measurements and Systems for Security and Medical Applications (BIOMS), (2008), 1-6.
8. Li, M., Han, K.J., Narayanan, S., “Automatic speaker age and gender recognition using acoustic and prosodic level information fusion”, Comput. Speech Lang., Vol. 27, (2013), 151-167.
9. Ajmera, J., Burkhardt, F., “Age and gender classification using modulation cepstrum”, The Speaker and Language Recognition Workshop Stellenbosch, South Africa, Speaker Odyssey, (2008).
10. Kumar, V. M., Thipesh, D.S.H, “Robot arm performing writing through speech recognition using dynamic time warping algorithm”, International Journal of Engineering, Transactions B: Applications, Vol. 30, No. 8, (2017), 1238-1245. 
11. Loizou, P. C., Speech Enhancement: Theory and Practice, Taylor and Francis., 2007.
12. Kim, H., Park, H., “Non-negative matrix factorization based on alternating non-negativity constrained least squares and active set method”, Technical report, Technical Report GT-CSE-07-01, College of Computing, Georgia Institute of Technology, (2007). 
13. Kim, H., Park, H., “Sparse non-negative matrix factorizations via alternating non-negativity constrained least squares for microarray data analysis”, Bioinformatics, Vol. 23, No. 12, (2007), 1495-1502.
14. Mavaddaty, S., Ahadi, S.M., Seyedin, S., “Modified coherence-based dictionary learning method for speech enhancement”, Signal Processing, IET, Vol. 9, No. 7, (2015), 1-9.
15. Barchiesi, D., Plumbley, M.D., “Learning incoherent dictionaries for sparse approximation using iterative projections and rotations”, IEEE Transactions on Signal Processing, Vol. 61, (2013), 2055-2065.
16. Sustik,  M., Tropp,  J., Dhillon, I., Heath, R., “On the existence of equiangular tight frames”,Linear Algebra and Its Applications, Vol. 26, (2007), 619-635.
17. Mavaddaty, S., Ahadi, S.M., Seyedin, S., “A novel speech enhancement method by learnable sparse and low-rank decomposition and domain adaptation”, Speech Communication, Vol. 76, (2016), 42-60.
18. Mavaddati, S., Ahadi, S.M., Seyedin, S., “Speech enhancement based on voice activity detection using dictionary learning in wavelet packet transform domain,” Computer Speech & Language, (2017), Vol. 44, 22-47.
19. Shrawankar, U., Thakare, V. M., “Feature Extraction for a speech recognition system in a noisy environment:a study”,International Journal of Engineering Science and Technology (IJEST), Indonesia , (2010), Vol. 3, No. 2, 1764-1769.
20. https://www.phonetik.uni-muenchen.de/forschung/BITS/TP1 /Cookbook/node187.html.
21. Varga, A., Steeneken, H. J. M., Tomlinson, M., Jones, D., “The Noisex-92 study on the effect of additive noise on automatic speech recognition”,Technical Report. Malvern, U.K.: DRA Speech Res. Unit, (1992). 


Download PDF 



International Journal of Engineering
E-mail: office@ije.ir
Web Site: http://www.ije.ir