参考文献¶
Yesno。网址:http://www.openslr.org/1/。
Jont B Allen 和 David A Berkley。高效模拟小房间声学图像法。《美国声学学会杂志》,65(4):943-950,1979。
Rosana Ardila、Megan Branson、Kelly Davis、Michael Henretty、Michael Kohler、Josh Meyer、Reuben Morais、Lindsay Saunders、Francis M. Tyers 和 Gregor Weber。Common Voice:一个多语言的大规模语音语料库。2020。arXiv:1912.06670。
Arun Babu、Changhan Wang、Andros Tjandra、Kushal Lakhotia、Qiantong Xu、Naman Goyal、Kritika Singh、Patrick von Platen、Yatharth Saraf、Juan Pino 等。XLS-R:大规模自监督跨语言语音表示学习。《arXiv 预印本 arXiv:2111.09296》,2021。
Alexei Baevski、Henry Zhou、Abdelrahman Mohamed 和 Michael Auli。Wav2Vec 2.0:一个用于语音表示自监督学习的框架。2020。arXiv:2006.11477。
Carlos Busso、Murtaza Bulut、Chi-Chun Lee、Abe Kazemzadeh、Emily Mower Provost、Samuel Kim、Jeannette Chang、Sungbok Lee 和 Shrikanth Narayanan。IEMOCAP:交互式情绪双人运动捕捉数据库。《语言资源与评估》,42:335-359,2008 年 12 月。doi:10.1007/s10579-008-9076-6。
Jack Capon。高分辨率频谱-波数谱分析。《IEEE 会刊》,57(8):1408-1418,1969。
Roldano Cattoni、Mattia Antonino Di Gangi、Luisa Bentivogli、Matteo Negri 和 Marco Turchi。MUST-C:一个用于端到端语音翻译的多语言语料库。《计算机语音与语言》,66:101155,2021。网址:https://www.sciencedirect.com/science/article/pii/S0885230820300887,doi:https://doi.org/10.1016/j.csl.2020.101155。
Guoguo Chen、Shuzhou Chai、Guanbo Wang、Jiayu Du、Wei-Qiang Zhang、Chao Weng、Dan Su、Daniel Povey、Jan Trmal、Junbo Zhang、Mingjie Jin、Sanjeev Khudanpur、Shinji Watanabe、Shuaijiang Zhao、Wei Zou、Xiangang Li、Xuchen Yao、Yongqing Wang、Yujun Wang、Zhao You 和 Zhiyong Yan。GigaSpeech:一个不断发展、多领域的 ASR 语料库,包含 10000 小时的转录音频。2021 年国际语音通信会议论文集。2021。
Sanyuan Chen、Chengyi Wang、Zhengyang Chen、Yu Wu、Shujie Liu、Zhuo Chen、Jinyu Li、Naoyuki Kanda、Takuya Yoshioka、Xiong Xiao 等。WavLM:用于全栈语音处理的大规模自监督预训练。《IEEE 信号处理精选主题杂志》,16(6):1505-1518,2022。
Ronan Collobert、Christian Puhrsch 和 Gabriel Synnaeve。Wav2Letter:一个基于端到端卷积神经网络的语音识别系统。2016。arXiv:1609.03193。
Alexis Conneau、Alexei Baevski、Ronan Collobert、Abdelrahman Mohamed 和 Michael Auli。语音识别中无监督跨语言表示学习。2020。arXiv:2006.13979。
Erica Cooper 和 Junichi Yamagishi。过去语音合成挑战中的语音今天如何比较?《arXiv 预印本 arXiv:2105.02373》,2021。
Joris Cosentino、Manuel Pariente、Samuele Cornell、Antoine Deleforge 和 Emmanuel Vincent。Librimix:一个用于泛化语音分离的开源数据集。2020。arXiv:2005.11262。
Alice Coucke、Alaa Saade、Adrien Ball、Théodore Bluche、Alexandre Caulier、David Leroy、Clément Doumouro、Thibault Gisselbrecht、Francesco Caltagirone、Thibaut Lavril 等。Snips 语音平台:一个用于私密设计语音界面的嵌入式语音理解系统。《arXiv 预印本 arXiv:1805.10190》,2018。
DC Dowson 和 BV666017 Landau。多元正态分布之间的弗雷歇距离。《多元分析杂志》,12(3):450-455,1982。
Alexandre Défossez。混合频谱图和波形源分离。2021 年音乐源分离国际会议论文集。2021。
Marco Forgione 和 Dario Piga。Dynonet:一个用于学习动力系统的网络架构。《自适应控制与信号处理国际杂志》,35(4):612-626,2021。
Mark John Francis Gales、Kate Knill、Anton Ragni 和 Shakti Prasad Rath。低资源语言的语音识别和关键词识别:剑桥大学工程系 Babel 项目研究。2014 年低资源语言技术研讨会论文集。2014。
Alex Graves。使用循环神经网络进行序列转导。2012。arXiv:1211.3711。
D. Griffin 和 Jae Lim。从修改后的短时傅里叶变换中进行信号估计。1983 年国际声学、语音和信号处理会议论文集,第 8 卷,804-807。1983。doi:10.1109/ICASSP.1983.1172092。
Anmol Gulati、James Qin、Chung-Cheng Chiu、Niki Parmar、Yu Zhang、Jiahui Yu、Wei Han、Shibo Wang、Zhengdong Zhang、Yonghui Wu 和 Ruoming Pang。Conformer:用于语音识别的卷积增强Transformer。2020。arXiv:2005.08100。
Awni Hannun、Carl Case、Jared Casper、Bryan Catanzaro、Greg Diamos、Erich Elsen、Ryan Prenger、Sanjeev Satheesh、Shubho Sengupta、Adam Coates 和 Andrew Y. Ng。Deep Speech:扩展端到端语音识别。2014。arXiv:1412.5567。
Shawn Hershey、Sourish Chaudhuri、Daniel P. W. Ellis、Jort F. Gemmeke、Aren Jansen、Channing Moore、Manoj Plakal、Devin Platt、Rif A. Saurous、Bryan Seybold、Malcolm Slaney、Ron Weiss 和 Kevin Wilson。用于大规模音频分类的 CNN 架构。2017 年国际声学、语音和信号处理会议论文集。2017。网址:https://arxiv.org/abs/1609.09430。
Takuya Higuchi、Nobutaka Ito、Shoko Araki、Takuya Yoshioka、Marc Delcroix 和 Tomohiro Nakatani。基于具有空间先验的复高斯混合模型的在线 MVDR 波束形成器,用于噪声鲁棒 ASR。《IEEE/ACM 音频、语音和语言处理汇刊》,25(4):780-793,2017。
樋口拓也,伊藤信孝,吉岡拓也,以及中谷智洋. 基于时频掩码的鲁棒MVDR波束形成用于噪声中的在线/离线ASR. 在2016年IEEE国际声学、语音和信号处理会议(ICASSP)中,5210–5214. IEEE,2016.
徐伟宁,Benjamin Bolte,蔡曜宏,Kushal Lakhotia,Ruslan Salakhutdinov,以及Abdelrahman Mohamed. Hubert:通过隐藏单元的掩码预测进行自监督语音表示学习. 2021. arXiv:2106.07447.
Keith Ito和Linda Johnson. LJ语音数据集. https://keithito.com/LJ-Speech-Dataset/,2017.
Jacob Kahn,Vineel Pratap,Tatiana Likhomanenko,徐倩彤,Awni Hannun,Jeff Cai,Paden Tomasello,Ann Lee,Edouard Grave,Gilad Avidov,等. Flashlight:助力机器学习工具创新. arXiv预印本arXiv:2201.12465,2022.
Nal Kalchbrenner,Erich Elsen,Karen Simonyan,Seb Noury,Norman Casagrande,Edward Lockhart,Florian Stimberg,Aaron van den Oord,Sander Dieleman,以及Koray Kavukcuoglu. 高效的神经网络音频合成. 2018. arXiv:1802.08435.
Nal Kalchbrenner,Erich Elsen,Karen Simonyan,Seb Noury,Norman Casagrande,Edward Lockhart,Florian Stimberg,Aäron van den Oord,Sander Dieleman,以及Koray Kavukcuoglu. 高效的神经网络音频合成. CoRR,2018. URL: http://arxiv.org/abs/1802.08435,arXiv:1802.08435.
Tom Ko,Vijayaditya Peddinti,Daniel Povey,以及Sanjeev Khudanpur. 语音识别的音频增强. 在2015年国际语音通信会议(Interspeech)论文集中,3586–3589. 2015. doi:10.21437/Interspeech.2015-711.
John Kominek,Alan W Black,以及Ver Ver. CMU Arctic语音合成数据库. 技术报告,2003.
孔正日,金在显,以及裴在京. HiFi-GAN:用于高效高保真语音合成的生成对抗网络. 在H. Larochelle,M. Ranzato,R. Hadsell,M.F. Balcan,以及H. Lin编辑的神经信息处理系统进展中,第33卷,17022–17033. Curran Associates, Inc.,2020. URL: https://proceedings.neurips.cc/paper/2020/file/c5d736809766d46260d816d8dbc9eb44-Paper.pdf.
Anurag Kumar,谭科,倪兆恒,Pranay Manocha,张晓辉,Ethan Henderson,以及徐步野. Torchaudio-SQUIM:Torchaudio中的无参考语音质量和清晰度度量. arXiv预印本arXiv:2304.01448,2023.
Loren Lugosch,Mirco Ravanelli,Patrick Ignoto,Vikrant Singh Tomar,以及Yoshua Bengio. 用于端到端口语理解的语音模型预训练. 在Gernot Kubin和Zdravko Kacic编辑的Interspeech论文集中,814–818. 2019.
罗毅以及Nima Mesgarani. Conv-TasNet:超越理想时频幅度掩码的语音分离. IEEE/ACM音频、语音和语言处理汇刊,27(8):1256–1266,2019年8月. URL: http://dx.doi.org/10.1109/TASLP.2019.2915167,doi:10.1109/taslp.2019.2915167.
Pranay Manocha以及Anurag Kumar. 使用非匹配参考的语音质量评估通过MOS. arXiv预印本arXiv:2206.12285,2022.
Xavier Anguera Miro,Luis Javier Rodriguez-Fuentes,Andi Buzo,Florian Metze,Igor Szoke,以及Mikel Peñagarikano. QUESST2014:在零资源环境下使用真实查询评估基于示例的语音搜索. 2015年IEEE国际声学、语音和信号处理会议(ICASSP),第5833–5837页,2015.
RV Mises以及Hilda Pollaczek-Geiringer. 方程求解的实用方法. 应用数学与力学杂志/应用数学与力学杂志,9(1):58–77,1929.
Gautham J Mysore. 我们能否自动将日常消费设备在真实环境中录制的语音转换为专业的生产级语音?——数据集、见解和挑战. IEEE信号处理快报,22(8):1006–1010,2014.
Arsha Nagrani,Chung Joon Son,以及Andrew Zisserman. VoxCeleb:一个大规模说话人识别数据集. arXiv预印本arXiv:1706.08612,2017.
Vassil Panayotov,陈国国,Daniel Povey,以及Sanjeev Khudanpur. LibriSpeech:一个基于公共领域有声读物的ASR语料库. 在2015年IEEE国际声学、语音和信号处理会议(ICASSP)中,第5206–5210卷. 2015. doi:10.1109/ICASSP.2015.7178964.
Daniel S. Park,William Chan,张宇,Chung-Cheng Chiu,Barret Zoph,Ekin D. Cubuk,以及Quoc V. Le. SpecAugment:一种用于自动语音识别的简单数据增强方法. 2019年国际语音通信会议(Interspeech),2019年9月. URL: http://dx.doi.org/10.21437/Interspeech.2019-2680,doi:10.21437/interspeech.2019-2680.
Nathanaël Perraudin,Peter Balazs,以及Peter L. Søndergaard. 一种快速格里芬-林算法. 在2013年IEEE音频和声学信号处理应用研讨会中,第1–4卷. 2013. doi:10.1109/WASPAA.2013.6701851.
Vineel Pratap,Andros Tjandra,Shi Bowen,Paden Tomasello,Arun Babu,Sayani Kundu,Ali Elkahky,倪兆恒,Apoorv Vyas,Maryam Fazel-Zarandi,Alexei Baevski,Yossi Adi,张晓辉,徐伟宁,Alexis Conneau,以及Michael Auli. 将语音技术扩展到1000多种语言. 2023. arXiv:2305.13516.
Vineel Pratap,徐倩彤,Anuroop Sriram,Gabriel Synnaeve,以及Ronan Collobert. MLS:一个用于语音研究的大规模多语言数据集. 2020年国际语音通信会议(Interspeech),2020年10月. URL: http://dx.doi.org/10.21437/Interspeech.2020-2826,doi:10.21437/interspeech.2020-2826.
Zafar Rafii,Antoine Liutkus,Fabian-Robert Stöter,Stylianos Ioannis Mimilakis,以及Rachel Bittner. MUSDB18-HQ - MUSDB18的未压缩版本. 2019年12月. URL: https://doi.org/10.5281/zenodo.3338373,doi:10.5281/zenodo.3338373.
Chandan KA Reddy,Vishak Gopal,Ross Cutler,Ebrahim Beyrami,Roger Cheng,Harishchandra Dubey,Sergiy Matusevych,Robert Aichner,Ashkan Aazami,Sebastian Braun,等. 2020年国际语音通信会议深度降噪挑战:数据集、主观测试框架和挑战结果. arXiv预印本arXiv:2005.13981,2020.
Anthony Rousseau,Paul Deléglise,以及Yannick Estève. TED-LIUM:一个专门用于自动语音识别的语料库. 在语言资源与评估会议(LREC)中,125–129. 2012.
Seyyed Saeed Sarfjoo以及山岸纯一. 设备录制VCTK(小型子集版本). 2018.
Robin Scheibler,Eric Bezzam,以及Ivan Dokmanić. Pyroomacoustics:一个用于音频房间模拟和阵列处理算法的Python包. 在2018年IEEE国际声学、语音和信号处理会议(ICASSP)中,351–355. IEEE,2018.
Jonathan Shen,Pang Ruoming,Ron J Weiss,Mike Schuster,Navdeep Jaitly,杨宗恒,陈志峰,张宇,王玉轩,RJ Skerrv-Ryan,等. 通过根据梅尔谱图预测调节WaveNet进行自然TTS合成. 在2018年IEEE国际声学、语音和信号处理会议(ICASSP)中,4779–4783. IEEE,2018.
石洋洋,王永强,吴春阳,叶经峰,Julian Chan,张方,黎德,以及Mike Seltzer. Emformer:用于低延迟流式语音识别的基于高效内存Transformer的声学模型. 在2021年IEEE国际声学、语音和信号处理会议(ICASSP)中,6783–6787. 2021.
石洋洋,吴春阳,王迪林,Alex Xiao,Jay Mahadeokar,张晓辉,刘春喜,李科,尚官元,Varun Nagaraja,Ozlem Kalinli,以及Mike Seltzer. 使用非因果卷积的基于流式Transformer转录器的语音识别. 在2022年IEEE国际声学、语音和信号处理会议(ICASSP)中,第8277–8281卷. 2022. doi:10.1109/ICASSP43922.2022.9747706.
Julius O. Smith. 数字音频重采样主页“理想带限插值理论”部分. 2020年9月. URL: https://ccrma.stanford.edu/~jos/resample/Theory_Ideal_Bandlimited_Interpolation.html.
David Snyder,陈国国,以及Daniel Povey. MUSAN:一个音乐、语音和噪声语料库. 2015. arXiv:1510.08484v1. arXiv:1510.08484.
Mehrez Souden,Jacob Benesty,以及Sofiene Affes. 关于用于降噪的最佳频域多通道线性滤波. 在IEEE音频、语音和语言处理汇刊中,第18卷,260–276. IEEE,2009.
Sangeeta Srivastava,王芸,Andros Tjandra,Anurag Kumar,刘春喜,Kritika Singh,以及Yatharth Saraf. 基于Conformer的自监督学习用于非语音音频任务. 在2022年IEEE国际声学、语音和信号处理会议(ICASSP)中,第8862–8866卷. 2022. doi:10.1109/ICASSP43922.2022.9746490.
George Tzanetakis,Georg Essl,以及Perry Cook. 音频信号的自动音乐流派分类. 2001. URL: http://ismir2001.ismir.net/pdf/tzanetakis.pdf.
Jörgen Valk以及Tanel Alumäe. VoxLingua107:一个用于口语识别的数据集. 在2021年IEEE口语技术研讨会(SLT)中,652–658. IEEE,2021.
王昌翰,Morgane Rivière,李安,吴安,Chaitanya Talnikar,Daniel Haziza,Mary Williamson,Juan Miguel Pino,以及Emmanuel Dupoux. VoxPopuli:一个用于表示学习、半监督学习和解释的大规模多语言语音语料库. CoRR,2021. URL: https://arxiv.org/abs/2101.00390,arXiv:2101.00390.
R.L. Weide. 卡内基梅隆发音词典。1998。网址:http://www.speech.cs.cmu.edu/cgi-bin/cmudict。
Junichi Yamagishi,Christophe Veaux 和 Kirsten MacDonald。CSTR VCTK 语料库:用于 CSTR 语音克隆工具包的英语多说话人语料库(版本 0.92)。2019。doi:10.7488/ds/2645。
Chin-Yun Yu 和 György Fazekas。使用可微 LPC 和声门流启发的波表进行歌唱语音合成。在 Augusto Sarti、Fabio Antonacci、Mark Sandler、Paolo Bestagini、Simon Dixon、Beici Liang、Gaël Richard 和 Johan Pauwels 主编,2023 年第 24 届国际音乐信息检索会议论文集,ISMIR 2023,意大利米兰,2023 年 11 月 5-9 日,667–675。2023。网址:https://doi.org/10.5281/zenodo.10265377,doi:10.5281/ZENODO.10265377。
Heiga Zen、Viet-Trung Dang、Robert A. J. Clark、Yu Zhang、Ron J. Weiss、Ye Jia、Z. Chen 和 Yonghui Wu。Libritts:一个源自 Librispeech 的用于文本到语音的语料库。ArXiv,2019。
Albert Zeyer、Ralf Schlüter 和 Hermann Ney。为什么 CTC 会导致峰值行为?2021。arXiv:2105.14849。
Brian McFee、Colin Raffel、Dawen Liang、Daniel P.W. Ellis、Matt McVicar、Eric Battenberg 和 Oriol Nieto。Librosa:Python 中的音频和音乐信号分析。在 Kathryn Huff 和 James Bergstra 主编,第 14 届 Python 科学会议论文集,18 – 24。2015。doi:10.25080/Majora-7b98e3ed-003。
J. Kahn、M. Rivière、W. Zheng、E. Kharitonov、Q. Xu、P. E. Mazaré、J. Karadayi、V. Liptchinsky、R. Collobert、C. Fuegen、T. Likhomanenko、G. Synnaeve、A. Joulin、A. Mohamed 和 E. Dupoux。Libri-light:一个用于有限或无监督的 ASR 基准。在2020 年 IEEE 国际声学、语音和信号处理会议 (ICASSP),7669–7673。2020。https://github.com/facebookresearch/libri-light。
P. Warden。语音命令:一个用于有限词汇语音识别的数据集。ArXiv 电子预印本,2018 年 4 月。网址:https://arxiv.org/abs/1804.03209,arXiv:1804.03209。
维基百科贡献者。吸收(声学)——维基百科,自由的百科全书。[在线]。网址:https://en.wikipedia.org/wiki/Absorption_(acoustics)。