参考文献¶
Yesno. 网址:http://www.openslr.org/1/。
Jont B Allen 和 David A Berkley。用于高效模拟小房间声学的镜像方法。The Journal of the Acoustical Society of America,65(4):943–950, 1979。
Rosana Ardila、Megan Branson、Kelly Davis、Michael Henretty、Michael Kohler、Josh Meyer、Reuben Morais、Lindsay Saunders、Francis M. Tyers 和 Gregor Weber。Common voice:一个大规模多语言语音语料库。2020。 arXiv:1912.06670。
Arun Babu、Changhan Wang、Andros Tjandra、Kushal Lakhotia、Qiantong Xu、Naman Goyal、Kritika Singh、Patrick von Platen、Yatharth Saraf、Juan Pino 等人。Xls-r:大规模自监督跨语言语音表示学习。arXiv preprint arXiv:2111.09296, 2021。
Alexei Baevski、Henry Zhou、Abdelrahman Mohamed 和 Michael Auli。Wav2vec 2.0:用于语音表示自监督学习的框架。2020。 arXiv:2006.11477。
Carlos Busso、Murtaza Bulut、Chi-Chun Lee、Abe Kazemzadeh、Emily Mower Provost、Samuel Kim、Jeannette Chang、Sungbok Lee 和 Shrikanth Narayanan。Iemocap:交互式情感二元运动捕捉数据库。Language Resources and Evaluation, 42:335–359, 12 2008。 doi:10.1007/s10579-008-9076-6。
Jack Capon。高分辨率频率-波数谱分析。Proceedings of the IEEE, 57(8):1408–1418, 1969。
Roldano Cattoni、Mattia Antonino Di Gangi、Luisa Bentivogli、Matteo Negri 和 Marco Turchi。Must-c:用于端到端语音翻译的多语言语料库。Computer Speech & Language, 66:101155, 2021。网址: https://www.sciencedirect.com/science/article/pii/S0885230820300887, doi:https://doi.org/10.1016/j.csl.2020.101155。
Guoguo Chen、Shuzhou Chai、Guanbo Wang、Jiayu Du、Wei-Qiang Zhang、Chao Weng、Dan Su、Daniel Povey、Jan Trmal、Junbo Zhang、Mingjie Jin、Sanjeev Khudanpur、Shinji Watanabe、Shuaijiang Zhao、Wei Zou、Xiangang Li、Xuchen Yao、Yongqing Wang、Yujun Wang、Zhao You 和 Zhiyong Yan。Gigaspeech:一个不断发展的多领域 ASR 语料库,包含 10,000 小时的转录音频。在 Proc. Interspeech 2021 中。2021。
Sanyuan Chen、Chengyi Wang、Zhengyang Chen、Yu Wu、Shujie Liu、Zhuo Chen、Jinyu Li、Naoyuki Kanda、Takuya Yoshioka、Xiong Xiao 等人。Wavlm:用于全栈语音处理的大规模自监督预训练。IEEE Journal of Selected Topics in Signal Processing, 16(6):1505–1518, 2022。
Ronan Collobert、Christian Puhrsch 和 Gabriel Synnaeve。Wav2letter:一个基于端到端卷积神经网络的语音识别系统。2016。 arXiv:1609.03193。
Alexis Conneau、Alexei Baevski、Ronan Collobert、Abdelrahman Mohamed 和 Michael Auli。用于语音识别的无监督跨语言表示学习。2020。 arXiv:2006.13979。
Erica Cooper 和 Junichi Yamagishi。过去语音合成挑战赛的声音与今天相比如何?arXiv preprint arXiv:2105.02373, 2021。
Joris Cosentino、Manuel Pariente、Samuele Cornell、Antoine Deleforge 和 Emmanuel Vincent。Librimix:一个用于可泛化语音分离的开源数据集。2020。 arXiv:2005.11262。
Alice Coucke、Alaa Saade、Adrien Ball、Théodore Bluche、Alexandre Caulier、David Leroy、Clément Doumouro、Thibault Gisselbrecht、Francesco Caltagirone、Thibaut Lavril 等人。Snips 语音平台:一个用于私有设计语音界面的嵌入式口语理解系统。arXiv preprint arXiv:1805.10190, 2018。
DC Dowson 和 BV666017 Landau。多元正态分布之间的 Fréchet 距离。Journal of multivariate analysis, 12(3):450–455, 1982。
Alexandre Défossez。混合频谱图和波形源分离。在 Proceedings of the ISMIR 2021 Workshop on Music Source Separation 中。2021。
Marco Forgione 和 Dario Piga。Dynonet:用于学习动力系统的神经网络架构。International Journal of Adaptive Control and Signal Processing, 35(4):612–626, 2021。
Mark John Francis Gales、Kate Knill、Anton Ragni 和 Shakti Prasad Rath。用于低资源语言的语音识别和关键词检测:CUED 的 Babel 项目研究。在 SLTU 中。2014。
Alex Graves。使用循环神经网络的序列转导。2012。 arXiv:1211.3711。
D. Griffin 和 Jae Lim。从修改后的短时傅里叶变换中进行信号估计。在 ICASSP '83. IEEE International Conference on Acoustics, Speech, and Signal Processing,第 8 卷,804–807。1983。 doi:10.1109/ICASSP.1983.1172092。
Anmol Gulati、James Qin、Chung-Cheng Chiu、Niki Parmar、Yu Zhang、Jiahui Yu、Wei Han、Shibo Wang、Zhengdong Zhang、Yonghui Wu 和 Ruoming Pang。Conformer:用于语音识别的卷积增强型 Transformer。2020。 arXiv:2005.08100。
Awni Hannun、Carl Case、Jared Casper、Bryan Catanzaro、Greg Diamos、Erich Elsen、Ryan Prenger、Sanjeev Satheesh、Shubho Sengupta、Adam Coates 和 Andrew Y. Ng。Deep speech:扩展端到端语音识别。2014。 arXiv:1412.5567。
Shawn Hershey、Sourish Chaudhuri、Daniel P. W. Ellis、Jort F. Gemmeke、Aren Jansen、Channing Moore、Manoj Plakal、Devin Platt、Rif A. Saurous、Bryan Seybold、Malcolm Slaney、Ron Weiss 和 Kevin Wilson。用于大规模音频分类的 CNN 架构。在 International Conference on Acoustics, Speech and Signal Processing (ICASSP) 中。2017。网址: https://arxiv.org/abs/1609.09430。
Takuya Higuchi、Nobutaka Ito、Shoko Araki、Takuya Yoshioka、Marc Delcroix 和 Tomohiro Nakatani。基于具有空间先验的复高斯混合模型的在线 MVDR 波束形成器,用于噪声鲁棒的 ASR。IEEE/ACM Transactions on Audio, Speech, and Language Processing, 25(4):780–793, 2017。
Takuya Higuchi、Nobutaka Ito、Takuya Yoshioka 和 Tomohiro Nakatani。使用时频掩码进行鲁棒的 MVDR 波束形成,用于噪声环境中的在线/离线 ASR。在 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),5210–5214 中。IEEE,2016。
Wei-Ning Hsu、Benjamin Bolte、Yao-Hung Hubert Tsai、Kushal Lakhotia、Ruslan Salakhutdinov 和 Abdelrahman Mohamed。Hubert:通过隐藏单元的掩码预测进行自监督语音表示学习。2021。 arXiv:2106.07447。
Keith Ito 和 Linda Johnson。LJ 语音数据集。 https://keithito.com/LJ-Speech-Dataset/, 2017。
Jacob Kahn、Vineel Pratap、Tatiana Likhomanenko、Qiantong Xu、Awni Hannun、Jeff Cai、Paden Tomasello、Ann Lee、Edouard Grave、Gilad Avidov 等人。Flashlight:在机器学习工具中实现创新。arXiv preprint arXiv:2201.12465, 2022。
Nal Kalchbrenner、Erich Elsen、Karen Simonyan、Seb Noury、Norman Casagrande、Edward Lockhart、Florian Stimberg、Aaron van den Oord、Sander Dieleman 和 Koray Kavukcuoglu。高效的神经音频合成。2018。 arXiv:1802.08435。
Nal Kalchbrenner、Erich Elsen、Karen Simonyan、Seb Noury、Norman Casagrande、Edward Lockhart、Florian Stimberg、Aäron van den Oord、Sander Dieleman 和 Koray Kavukcuoglu。高效的神经音频合成。CoRR, 2018。网址: http://arxiv.org/abs/1802.08435, arXiv:1802.08435。
Tom Ko、Vijayaditya Peddinti、Daniel Povey 和 Sanjeev Khudanpur。用于语音识别的音频增强。在 Proc. Interspeech 2015,3586–3589 中。2015。 doi:10.21437/Interspeech.2015-711。
John Kominek、Alan W Black 和 Ver Ver。用于语音合成的 CMU Arctic 数据库。技术报告,2003。
Jungil Kong、Jaehyeon Kim 和 Jaekyoung Bae。Hifi-gan:用于高效和高保真语音合成的生成对抗网络。在 H. Larochelle、M. Ranzato、R. Hadsell、M.F. Balcan 和 H. Lin 编辑的 Advances in Neural Information Processing Systems,第 33 卷,17022–17033 中。Curran Associates, Inc.,2020。网址: https://proceedings.neurips.cc/paper/2020/file/c5d736809766d46260d816d8dbc9eb44-Paper.pdf。
Anurag Kumar、Ke Tan、Zhaoheng Ni、Pranay Manocha、Xiaohui Zhang、Ethan Henderson 和 Buye Xu。Torchaudio-squim:Torchaudio 中无参考的语音质量和可懂度测量。arXiv preprint arXiv:2304.01448, 2023。
Loren Lugosch、Mirco Ravanelli、Patrick Ignoto、Vikrant Singh Tomar 和 Yoshua Bengio。用于端到端口语理解的语音模型预训练。在 Gernot Kubin 和 Zdravko Kacic 编辑的 Proc. of Interspeech,814–818 中。2019。
Yi Luo 和 Nima Mesgarani。Conv-tasnet:超越用于语音分离的理想时频幅度掩码。IEEE/ACM Transactions on Audio, Speech, and Language Processing, 27(8):1256–1266, 2019 年 8 月。网址: http://dx.doi.org/10.1109/TASLP.2019.2915167, doi:10.1109/taslp.2019.2915167。
Pranay Manocha 和 Anurag Kumar。通过使用非匹配参考的 MOS 进行语音质量评估。arXiv preprint arXiv:2206.12285, 2022。
Xavier Anguera Miro、Luis Javier Rodriguez-Fuentes、Andi Buzo、Florian Metze、Igor Szoke 和 Mikel Peñagarikano。Quesst2014:使用真实查询在零资源设置中评估基于示例的语音搜索。2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 5833–5837, 2015。
RV Mises 和 Hilda Pollaczek-Geiringer。Praktische verfahren der gleichungsauflösung。ZAMM-Journal of Applied Mathematics and Mechanics/Zeitschrift für Angewandte Mathematik und Mechanik, 9(1):58–77, 1929。
Gautham J Mysore。我们能否自动将普通消费设备在真实世界环境中录制的语音转换为专业制作质量的语音?—数据集、见解和挑战。IEEE Signal Processing Letters, 22(8):1006–1010, 2014。
Arsha Nagrani、Joon Son Chung 和 Andrew Zisserman。Voxceleb:一个大规模说话人识别数据集。arXiv preprint arXiv:1706.08612, 2017。
Vassil Panayotov、Guoguo Chen、Daniel Povey 和 Sanjeev Khudanpur。Librispeech:一个基于公共领域有声读物的 ASR 语料库。在 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),卷,5206–5210 中。2015。 doi:10.1109/ICASSP.2015.7178964。
Daniel S. Park、William Chan、Yu Zhang、Chung-Cheng Chiu、Barret Zoph、Ekin D. Cubuk 和 Quoc V. Le。Specaugment:一种用于自动语音识别的简单数据增强方法。Interspeech 2019, 2019 年 9 月。网址: http://dx.doi.org/10.21437/Interspeech.2019-2680, doi:10.21437/interspeech.2019-2680。
Nathanaël Perraudin、Peter Balazs 和 Peter L. Søndergaard。快速 Griffin-Lim 算法。在 2013 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics,卷,1–4 中。2013。 doi:10.1109/WASPAA.2013.6701851。
Vineel Pratap、Andros Tjandra、Bowen Shi、Paden Tomasello、Arun Babu、Sayani Kundu、Ali Elkahky、Zhaoheng Ni、Apoorv Vyas、Maryam Fazel-Zarandi、Alexei Baevski、Yossi Adi、Xiaohui Zhang、Wei-Ning Hsu、Alexis Conneau 和 Michael Auli。将语音技术扩展到 1,000 多种语言。2023。 arXiv:2305.13516。
Vineel Pratap、Qiantong Xu、Anuroop Sriram、Gabriel Synnaeve 和 Ronan Collobert。MLS:用于语音研究的大规模多语言数据集。Interspeech 2020, 2020 年 10 月。网址: http://dx.doi.org/10.21437/Interspeech.2020-2826, doi:10.21437/interspeech.2020-2826。
Zafar Rafii、Antoine Liutkus、Fabian-Robert Stöter、Stylianos Ioannis Mimilakis 和 Rachel Bittner。MUSDB18-HQ - musdb18 的未压缩版本。2019 年 12 月。网址: https://doi.org/10.5281/zenodo.3338373, doi:10.5281/zenodo.3338373。
Chandan KA Reddy、Vishak Gopal、Ross Cutler、Ebrahim Beyrami、Roger Cheng、Harishchandra Dubey、Sergiy Matusevych、Robert Aichner、Ashkan Aazami、Sebastian Braun 等人。Interspeech 2020 深度噪声抑制挑战赛:数据集、主观测试框架和挑战赛结果。arXiv preprint arXiv:2005.13981, 2020。
Anthony Rousseau、Paul Deléglise 和 Yannick Estève。Ted-lium:一个专用的自动语音识别语料库。在 Conference on Language Resources and Evaluation (LREC), 125–129 中。2012。
Seyyed Saeed Sarfjoo 和 Junichi Yamagishi。设备记录的 VCTK(小子集版本)。2018。
Robin Scheibler、Eric Bezzam 和 Ivan Dokmanić。Pyroomacoustics:用于音频房间模拟和阵列处理算法的 Python 包。在 2018 IEEE international conference on acoustics, speech and signal processing (ICASSP), 351–355 中。IEEE,2018。
Jonathan Shen、Ruoming Pang、Ron J Weiss、Mike Schuster、Navdeep Jaitly、Zongheng Yang、Zhifeng Chen、Yu Zhang、Yuxuan Wang、Rj Skerrv-Ryan 等人。通过在 Mel 频谱图预测上调节 WaveNet 进行自然 TTS 合成。在 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 4779–4783 中。IEEE,2018。
Yangyang Shi、Yongqiang Wang、Chunyang Wu、Ching-Feng Yeh、Julian Chan、Frank Zhang、Duc Le 和 Mike Seltzer。Emformer:用于低延迟流式语音识别的高效内存 Transformer 声学模型。在 ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 6783–6787 中。2021。
Yangyang Shi、Chunyang Wu、Dilin Wang、Alex Xiao、Jay Mahadeokar、Xiaohui Zhang、Chunxi Liu、Ke Li、Yuan Shangguan、Varun Nagaraja、Ozlem Kalinli 和 Mike Seltzer。使用非因果卷积的流式 Transformer Transducer 语音识别。在 ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),卷,8277–8281 中。2022。 doi:10.1109/ICASSP43922.2022.9747706。
Julius O. Smith。数字音频重采样主页“理想带限插值理论”部分。2020 年 9 月。网址: https://ccrma.stanford.edu/~jos/resample/Theory_Ideal_Bandlimited_Interpolation.html。
David Snyder、Guoguo Chen 和 Daniel Povey。MUSAN:音乐、语音和噪声语料库。2015。arXiv:1510.08484v1。 arXiv:1510.08484。
Mehrez Souden、Jacob Benesty 和 Sofiene Affes。关于用于降噪的最佳频域多通道线性滤波。在 IEEE Transactions on audio, speech, and language processing,第 18 卷,260–276 中。IEEE,2009。
Sangeeta Srivastava、Yun Wang、Andros Tjandra、Anurag Kumar、Chunxi Liu、Kritika Singh 和 Yatharth Saraf。用于非语音音频任务的基于 Conformer 的自监督学习。在 ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),卷,8862–8866 中。2022。 doi:10.1109/ICASSP43922.2022.9746490。
George Tzanetakis、Georg Essl 和 Perry Cook。音频信号的自动音乐流派分类。2001。网址: http://ismir2001.ismir.net/pdf/tzanetakis.pdf。
Jörgen Valk 和 Tanel Alumäe。Voxlingua107:用于口语识别的数据集。在 2021 IEEE Spoken Language Technology Workshop (SLT), 652–658 中。IEEE,2021。
Changhan Wang、Morgane Rivière、Ann Lee、Anne Wu、Chaitanya Talnikar、Daniel Haziza、Mary Williamson、Juan Miguel Pino 和 Emmanuel Dupoux。Voxpopuli:用于表示学习、半监督学习和解释的大规模多语言语音语料库。CoRR, 2021。网址: https://arxiv.org/abs/2101.00390, arXiv:2101.00390。
R.L. Weide。卡内基梅隆发音词典。1998。网址: http://www.speech.cs.cmu.edu/cgi-bin/cmudict。
Junichi Yamagishi、Christophe Veaux 和 Kirsten MacDonald。CSTR VCTK 语料库:用于 CSTR 语音克隆工具包的英语多说话人语料库(0.92 版本)。2019。 doi:10.7488/ds/2645。
Chin-Yun Yu 和 György Fazekas。使用可微分 LPC 和声门流启发式波表的歌声合成。在 Augusto Sarti、Fabio Antonacci、Mark Sandler、Paolo Bestagini、Simon Dixon、Beici Liang、Gaël Richard 和 Johan Pauwels 编辑的 Proceedings of the 24th International Society for Music Information Retrieval Conference, ISMIR 2023, Milan, Italy, November 5-9, 2023,667–675 中。2023。网址: https://doi.org/10.5281/zenodo.10265377, doi:10.5281/ZENODO.10265377。
Heiga Zen、Viet-Trung Dang、Robert A. J. Clark、Yu Zhang、Ron J. Weiss、Ye Jia、Z. Chen 和 Yonghui Wu。Libritts:从 Librispeech 派生的用于文本到语音的语料库。ArXiv, 2019。
Albert Zeyer、Ralf Schlüter 和 Hermann Ney。为什么 CTC 会导致峰值行为?2021。 arXiv:2105.14849。
Brian McFee、Colin Raffel、Dawen Liang、Daniel P.W. Ellis、Matt McVicar、Eric Battenberg 和 Oriol Nieto。Librosa:Python 中的音频和音乐信号分析。在 Kathryn Huff 和 James Bergstra 编辑的 Proceedings of the 14th Python in Science Conference,18 – 24 中。2015。 doi:10.25080/Majora-7b98e3ed-003。
J. Kahn、M. Rivière、W. Zheng、E. Kharitonov、Q. Xu、P. E. Mazaré、J. Karadayi、V. Liptchinsky、R. Collobert、C. Fuegen、T. Likhomanenko、G. Synnaeve、A. Joulin、A. Mohamed 和 E. Dupoux。Libri-light:用于有限或无监督 ASR 的基准。在 ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 7669–7673 中。2020。 https://github.com/facebookresearch/libri-light。
P. Warden。语音命令:用于有限词汇语音识别的数据集。ArXiv e-prints, 2018 年 4 月。网址: https://arxiv.org/abs/1804.03209, arXiv:1804.03209。
Wikipedia 贡献者。吸收 (声学) — 维基百科,自由的百科全书。[在线]。网址: https://en.wikipedia.org/wiki/Absorption_(acoustics)。