INFLUENCIA DEL ORDEN DEL MODELO DE PRONY EN LA MATRIZ DE COVARIANZA DEL FILTRO DE KALMAN PARA LA REDUCCIÓN DE RUIDO EN SEÑALES DE VOZ: EVALUACIÓN MEDIANTE LA RELACIÓN SEÑAL-RUIDO SEGMENTADA Y LA DIVERGENCIA DE ITAKURA–SAITO

Autores/as

DOI:

https://doi.org/10.66104/hegxr115

Palabras clave:

Filtro de Kalman, Supresión de ruido, Mejora de la voz, Prony

Resumen

Este trabajo investiga la influencia del orden del modelo de predicción basado en Prony en la construcción/parametrización de las matrices involucradas en el filtro de Kalman aplicado a la reducción de ruido en señales de voz. A diferencia de los enfoques tradicionales que adoptan LPC (modelo all-pole), se emplea un modelo IIR basado en Prony (numerador + denominador) estimado directamente a partir de la señal ruidosa en ventanas de corto tiempo, lo que permite capturar estructuras espectrales con polos y ceros y, en consecuencia, modificar la estadística de la innovación utilizada en la covarianza de proceso. Para aislar el efecto del orden del modelo, se mantiene fija la misma señal ruidosa con una relación señal-ruido segmentada de entrada (segSNR in ≈ 3 dB), variando únicamente el orden del predictor M ∈ {6, 8,…,20}. El desempeño se cuantifica mediante la segSNR de salida y la divergencia de Itakura–Saito (IS) entre densidades espectrales de potencia estimadas mediante el método de Welch. Los resultados con palabras aisladas muestran una tendencia consistente: órdenes bajos (típicamente M=6 or M=8) presentaron un mejor compromiso entre la ganancia de segSNR y una menor distorsión espectral (IS), mientras que órdenes mayores degradaron progresivamente la fidelidad espectral.

Descargas

Los datos de descarga aún no están disponibles.

Biografía del autor/a

  • Leandro Aureliano da Silva, Universidade de Uberaba - Uniube

    Possui Doutorado em Engenharia Elétrica pela Universidade Federal de Uberlândia (2018), Mestrado em Engenharia Elétrica pela Escola de Engenharia de São Carlos da Universidade de São Paulo USP (2007), Especialização em Automação de Processos Industriais (2007) e Graduação em Engenharia Elétrica (2001), ambas pela Universidade de Uberaba. Atua em projetos de Pesquisa, Ensino e Extensão, com foco em IoT aplicada, automação, instrumentação eletrônica, inteligência artificial, processamento de sinais de voz e visão computacional. Foi professor e coordenador dos cursos de Engenharia Ambiental, Engenharia Elétrica, Engenharia Mecânica e Sistemas de Informação na Faculdade de Talentos Humanos - FACTHUS (Ecossistema Brasília Educacional), tanto na modalidade presencial quanto a distância. Atuou como Editor-Chefe do Jornal de Engenharia, Tecnologia e Meio Ambiente (JETMA), Coordenador da Comissão Própria de Avaliação (CPA) da FACTHUS e membro do Núcleo Docente Estruturante (NDE) nacional do Ecossistema Brasília Educacional. Atualmente, é Professor e Gestor de Curso na Universidade de Uberaba - UNIUBE e Professor do Programa de Mestrado Profissional em Engenharia Química da mesma instituição. É Editor-Chefe e Membro fundador do corpo editorial da Revista de Engenharia, TI e Inovação RETII, ISSN 2966-2508, Revisor de artigos científicos, e integra o Banco de Avaliadores do Sistema Nacional de Avaliação da Educação Superior (BASIS).

  • Eduardo Silva Vasconcelos, Instituto Federal Goiano

    Doutor em Ciências pela Faculdade de Engenharia Elétrica da Universidade Federal de Uberlândia (UFU), Mestre em Matemática pela Universidade Federal de Goiás (UFG) e Mestre em Educação Superior pelo Centro Universitário do Triângulo (UNITRI). Graduado em Matemática pela Universidade de Marília (UNIMAR), em Administração (Bacharelado) e em Gestão do Agronegócio (Tecnólogo) pela Universidade de Uberaba (UNIUBE). Possui diversas especializações Lato Sensu, com ênfase em Matemática, Estatística Aplicada, Inteligência Artificial, Engenharia e Gestão do Conhecimento, Business Intelligence, Big Data, Administração Pública e Gestão Estratégica, Governança Pública e Tecnologias Educacionais, além de um MBA em Gestão Pública e Práticas de Administração. Atualmente, é aluno do curso de Engenharia Elétrica pela UniBTA. Com ampla experiência na área de Educação, atua no ensino médio desde 1990 e no ensino superior desde 2003, com foco em disciplinas como Cálculo, Matemática, Estatística, Gestão e Empreendedorismo. Desde 2014, exerce o cargo de Diretor-Geral no Instituto Federal Goiano - Campus Cristalina, com atuação em gestão pública voltada ao desenvolvimento educacional e institucional.

  • Luiz Fernando Ribeiro de Paiva, Universidade de Uberaba - Uniube

    Doutor em Educação pela Universidade de Uberaba (UNIUBE). Mestre em Ciência da Informação pela Pontifícia Universidade Católica de Campinas (PUC-CAMPINAS). Especialista em Avaliação na Educação Superior (UnB). Especialista em Análise de Sistemas (UNAERP). Possui aperfeiçoamento em Educação a Distância (UNIUBE). Tecnólogo em Processamento de Dados pela Universidade de Uberaba (UNIUBE). Gestor dos cursos Sistemas de Informação; Análise e Desenvolvimento de Sistemas; Inteligência Artificial de Ciência de Dados; Ciência da Computação - presenciais -, da UNIUBE. Analista de sistemas na Companhia de Desenvolvimento de Informática de Uberaba. Possui experiência nas áreas de Sistemas de Informação, Ensino Superior e Educação a Distância.

  • Adriano Dawison de Lima, Universidade de Uberaba - Uniube

    Possui graduação em Licenciatura Plena em Matemática pela Universidade de Uberaba (2004), mestrado em Energia na Agricultura pela Universidade Estadual Paulista - Júlio de Mesquita Filho (2006) e doutorado em Agronomia (Energia na Agricultura) pela Universidade Estadual Paulista Júlio de Mesquita Filho (2009). Atualmente é tempo contínuo da Universidade de Uberaba. Tem experiência na área de Matemática, com ênfase em Matemática Aplicada, atuando principalmente nos seguintes temas: matemática - Álgebra Linear, Geometria Analítica. Cálculo I, II, III e IV. Cálculo Numérico. Matemática Aplicada para Ciências Agrárias. Estatística Inferencial. Otimização de Sistemas.

  • Welington Mrad Joaquim, Universidade de Uberaba - Uniube

    Sou Doutorando em Educação pela Universidade de Uberaba (UNIUBE), com uma sólida trajetória acadêmica e profissional nas áreas de Educação e Ciências. Possuo mestrado em Ensino de Ciências e Matemática, com ênfase em Ensino de Física, pela Pontifícia Universidade Católica de Minas Gerais (PUC Minas, 2013).Além disso, adquiri especializações em Educação Digital (Centro Universitário SENAI/SC, 2023) e Inovação na Educação Mediada por Tecnologias (Universidade Federal do ABC - UFABC, 2022), assim como em Ensino de Ciências para os Anos Finais do Ensino Fundamental (Universidade Federal do Triângulo Mineiro - UFTM, 2022).Minha formação também inclui experiência em áreas multidisciplinares, como Gastronomia e Cozinha Autoral (Pontifícia Universidade Católica do Rio Grande do Sul - PUCRS, 2019), Ciência e Tecnologia (Universidade Federal do ABC Paulista - UFABC, 2014), e Planejamento e Gestão da Educação a Distância (Universidade Federal Fluminense - UFF, 2012).Possuo licenciatura em Física pela Fundação Educacional de Barretos (FEB, 2004), Matemática pelo Instituto Federal do Triângulo Mineiro (IFTM, 2016), e Pedagogia pela Universidade Cruzeiro do Sul (2019). Também obtive conhecimentos em Engenharia Ambiental (Universidade Cruzeiro do Sul, 2020), além de recentemente concluir a licenciatura em Computação (Universidade Federal de Juiz de Fora - UFJF, 2023) e Tecnologia em Gastronomia (Faculdade Católica Paulista, 2023).Ao longo da minha carreira, contribuí como professor em diversos contextos, incluindo nos cursos de Gastronomia, Engenharias e Licenciatura em Física na Universidade de Uberaba (UNIUBE), onde desempenho a função de coordenador do curso de Gastronomia (2020-Atual) , coordenador no curso de Licenciatura em Física ( 2017-2023) e professor nos cursos mencionados. Também acumulo experiência como docente no ensino médio em escolas privadas desde 2002, além de ser professor efetivo na rede estadual de Minas Gerais.

  • Edilberto Pereira Teixeira, Universidade de Uberaba - Uniube

    Possui graduação em Engenharia Elétrica pela Universidade Federal de Itajubá (1972), mestrado em Engenharia Elétrica pela Universidade Federal de Itajubá (1974) e doutorado em Engenharia Elétrica pela Universidade Estadual de Campinas (1991). Tem experiência na área de Engenharia Elétrica, com ênfase em controle de processos eletrônicos e sistemas elétricos de potência, atuando principalmente nos seguintes temas: sistemas elétricos de potência, eletricidade industrial, controle de processos multivariáveis, controle de sistemas não-lineares, lógica nebulosa e redes neurais artificiais. Atualmente é professor do Curso de Graduação em Engenharia de Elétrica da Universidade de Uberaba - MG (Uniube).

Referencias

BAI, Yuting et al. State of art on state estimation: Kalman filter driven by machine learning. Annual Reviews in Control, v. 56, p. 100909, 2023. Disponível em: https://researchr.org/publication/BaiYZSJ23. Acesso em: 21 fev. 2026.

BENDORY, Tamir; DE CASTRO, Yoann; ELDAR, Yonina C. On the accuracy of Prony’s method for recovery of sparse measures from noisy frequency samples. arXiv, 2024. Disponível em: https://arxiv.org/abs/2302.05883. Acesso em: 21 fev. 2026.

BROWN, Robert Grover; HWANG, Patrick Y. C. Introduction to random signals and applied Kalman filtering. New York: John Wiley & Sons, 1997.

DELLER, John R.; PROAKIS, John G.; HANSEN, John H. L. Discrete-time processing of speech signals. New Jersey: Prentice Hall, 1993.

DIONELIS, Nikolaos; BROOKES, Mike. Phase-Aware Single-Channel Speech Enhancement with Modulation-Domain Kalman Filtering. arXiv, 2017. Disponível em: https://arxiv.org/abs/1708.02171. Acesso em: 20 fev. 2026.

FÉVOTTE, Cédric; BERTIN, Nancy; DUFOUR, Jean-Louis. Nonnegative matrix factorization with the Itakura–Saito divergence: with application to music analysis. Neural Computation, 2009. Disponível em: https://perso.ens-lyon.fr/patrice.abry/ENSEIGNEMENTS/14M2SCExam/Bertin.pdf. Acesso em: 20 fev. 2026.

GABREA, Marcel. An adaptive Kalman filter for the enhancement of speech signals. In: INTERSPEECH 2004. p. 2709–2712. DOI: 10.21437/Interspeech.2004-719. Disponível em: https://www.isca-archive.org/interspeech_2004/gabrea04_interspeech.html. Acesso em: 20 fev. 2026.

GIRALDO, Juan et al. Evaluating Speech Enhancement Performance Across Demographics: Revisiting VoiceBank-DEMAND. In: INTERSPEECH 2025. Disponível em: https://www.isca-archive.org/interspeech_2025/giraldo25_interspeech.pdf. Acesso em: 20 fev. 2026.

KANTAMANENI, S. et al. Speech enhancement with noise estimation and filtration using Extended Kalman Filter approach. Theoretical Computer Science, 2023. (Discussão de EKF e sensibilidade do Kalman a modelagem/ruído). Disponível em: https://www.sciencedirect.com/science/article/abs/pii/S0304397522004935. Acesso em: 20 fev. 2026.

KIM, K. et al. Neural Network Regression for Sound Source Localization Using Classical Spectral Estimation Techniques (Yule–Walker, Prony, Steiglitz–McBride). Applied Sciences, v. 15, n. 17, 2025. Disponível em: https://www.mdpi.com/2076-3417/15/17/9272. Acesso em: 21 fev. 2026.

KUMARESAN, R.; TUFTS, D. W.; SCHARF, L. L. A Prony method for noisy data: Choosing the signal components and selecting the order in exponential signal models. Proceedings of the IEEE, 1984. Disponível em: https://www.researchgate.net/publication/2996886_A_Prony_method_for_noisy_data_Choosing_the_signal_components_and_selecting_the_order_in_exponential_signal_models. Acesso em: 20 fev. 2026.

O’SHAUGHNESSY, Douglas. Review of methods for coding of speech signals. EURASIP Journal on Audio, Speech, and Music Processing, 2023. DOI: 10.1186/s13636-023-00274-x. Disponível em: https://link.springer.com/article/10.1186/s13636-023-00274-x. Acesso em: 21 fev. 2026.

R.E. Kalman, “A new approach to linear filtering and prediction problems”, Basic Eng, Trans ASME, Series D, Vol 82, March 1960, pp 35–45.

ROY, Sujan Kumar; NICOLSON, Aaron; PALIWAL, Kuldip K. A Deep Learning-Based Kalman Filter for Speech Enhancement. In: INTERSPEECH 2020. p. 2692–2696. DOI: 10.21437/Interspeech.2020-1551. Disponível em: https://www.isca-archive.org/interspeech_2020/roy20_interspeech.html. Acesso em: 20 fev. 2026.

SELICATO, L. et al. Sparse hyperparametric Itakura–Saito nonnegative matrix factorization via bi-level optimization. arXiv, 2025. Disponível em: https://eprints.soton.ac.uk/499610/1/2502.17123v2.pdf. Acesso em: 21 fev. 2026.

TAKABATAKE, Tetsuya; YANO, Keisuke. Towards a robust frequency-domain analysis: Spectral Rényi divergence revisited. arXiv, 2023. Disponível em: https://arxiv.org/abs/2310.06902. Acesso em: 21 fev. 2026.

VASEGHI, Saeed V. Advanced digital signal processing and noise reduction. New York: John Wiley & Sons, 2000.

WANG, J. et al. Independent low-rank matrix analysis for determined blind source separation of audio and speech signals using Itakura–Saito divergence. arXiv, 2024. Disponível em: https://arxiv.org/pdf/2401.01762. Acesso em: 21 fev. 2026.

ZHENG, C. et al. Sixty Years of Frequency-Domain Monaural Speech Enhancement: From Traditional to Deep Learning Methods. IEEE/Journal survey (versão em PMC), 2023. Disponível em: https://pmc.ncbi.nlm.nih.gov/articles/PMC10658184/. Acesso em: 20 fev. 2026.

Publicado

2026-03-10

Cómo citar

INFLUENCIA DEL ORDEN DEL MODELO DE PRONY EN LA MATRIZ DE COVARIANZA DEL FILTRO DE KALMAN PARA LA REDUCCIÓN DE RUIDO EN SEÑALES DE VOZ: EVALUACIÓN MEDIANTE LA RELACIÓN SEÑAL-RUIDO SEGMENTADA Y LA DIVERGENCIA DE ITAKURA–SAITO. (2026). REMUNOM, 13(02), 1-28. https://doi.org/10.66104/hegxr115