参考资料¶
Yesno。网址:http://www.openslr.org/1/.
Jont B Allen 和 David A Berkley。用于有效模拟小房间声学的镜像法。美国声学学会杂志, 65(4):943–950, 1979.
Rosana Ardila、Megan Branson、Kelly Davis、Michael Henretty、Michael Kohler、Josh Meyer、Reuben Morais、Lindsay Saunders、Francis M. Tyers 和 Gregor Weber。通用语音:一个多语言的大规模语音语料库。2020 年。 arXiv:1912.06670.
Arun Babu、Changhan Wang、Andros Tjandra、Kushal Lakhotia、Qiantong Xu、Naman Goyal、Kritika Singh、Patrick von Platen、Yatharth Saraf、Juan Pino 等。Xls-r:大规模自监督跨语言语音表示学习。arXiv 预印本 arXiv:2111.09296, 2021.
Alexei Baevski、Henry Zhou、Abdelrahman Mohamed 和 Michael Auli。Wav2vec 2.0:一个用于语音表示的自监督学习框架。2020 年。 arXiv:2006.11477.
Carlos Busso、Murtaza Bulut、Chi-Chun Lee、Abe Kazemzadeh、Emily Mower Provost、Samuel Kim、Jeannette Chang、Sungbok Lee 和 Shrikanth Narayanan。IEMOCAP:交互式情感双人运动捕捉数据库。语言资源与评估, 42:335–359, 12 2008. doi:10.1007/s10579-008-9076-6.
Jack Capon。高分辨率频谱-波数谱分析。IEEE 会刊, 57(8):1408–1418, 1969.
Roldano Cattoni、Mattia Antonino Di Gangi、Luisa Bentivogli、Matteo Negri 和 Marco Turchi。MUST-C:一个用于端到端语音翻译的多语言语料库。计算机语音与语言, 66:101155, 2021. 网址:https://www.sciencedirect.com/science/article/pii/S0885230820300887, doi:https://doi.org/10.1016/j.csl.2020.101155.
Guoguo Chen、Shuzhou Chai、Guanbo Wang、Jiayu Du、Wei-Qiang Zhang、Chao Weng、Dan Su、Daniel Povey、Jan Trmal、Junbo Zhang、Mingjie Jin、Sanjeev Khudanpur、Shinji Watanabe、Shuaijiang Zhao、Wei Zou、Xiangang Li、Xuchen Yao、Yongqing Wang、Yujun Wang、Zhao You 和 Zhiyong Yan。GigaSpeech:一个不断发展的多领域 ASR 语料库,包含 10,000 小时的转录音频。在Proc. Interspeech 2021 中。2021 年。
Sanyuan Chen、Chengyi Wang、Zhengyang Chen、Yu Wu、Shujie Liu、Zhuo Chen、Jinyu Li、Naoyuki Kanda、Takuya Yoshioka、Xiong Xiao 等。WavLM:用于全栈语音处理的大规模自监督预训练。IEEE 选定信号处理主题杂志, 16(6):1505–1518, 2022.
Ronan Collobert、Christian Puhrsch 和 Gabriel Synnaeve。Wav2letter:一个基于端到端卷积神经网络的语音识别系统。2016 年。 arXiv:1609.03193.
Alexis Conneau、Alexei Baevski、Ronan Collobert、Abdelrahman Mohamed 和 Michael Auli。用于语音识别的无监督跨语言表示学习。2020 年。 arXiv:2006.13979.
Erica Cooper 和 Junichi Yamagishi。过去语音合成挑战中的声音在今天如何比较?arXiv 预印本 arXiv:2105.02373, 2021.
Joris Cosentino、Manuel Pariente、Samuele Cornell、Antoine Deleforge 和 Emmanuel Vincent。LibriMix:一个用于可泛化语音分离的开源数据集。2020 年。 arXiv:2005.11262.
Alice Coucke、Alaa Saade、Adrien Ball、Théodore Bluche、Alexandre Caulier、David Leroy、Clément Doumouro、Thibault Gisselbrecht、Francesco Caltagirone、Thibaut Lavril 等。Snips 语音平台:一个用于私密设计的语音界面的嵌入式语音理解系统。arXiv 预印本 arXiv:1805.10190, 2018.
DC Dowson 和 BV666017 Landau。多元正态分布之间的 Fréchet 距离。多元分析杂志, 12(3):450–455, 1982.
Alexandre Défossez。混合频谱图和波形源分离。在Proceedings of the ISMIR 2021 Workshop on Music Source Separation 中。2021 年。
Marco Forgione 和 Dario Piga。Dynonet:一种用于学习动力系统的 神经网络架构。自适应控制与信号处理国际杂志, 35(4):612–626, 2021.
Mark John Francis Gales、Kate Knill、Anton Ragni 和 Shakti Prasad Rath。低资源语言的语音识别和关键词识别:CUED 的巴别塔项目研究。在SLTU 中。2014 年。
Alex Graves。使用循环神经网络进行序列转导。2012 年。 arXiv:1211.3711.
D. Griffin 和 Jae Lim。从修改后的短时傅立叶变换中估计信号。在ICASSP '83. IEEE 国际声学、语音和信号处理会议,第 8 卷,804–807。1983 年。 doi:10.1109/ICASSP.1983.1172092.
Anmol Gulati、James Qin、Chung-Cheng Chiu、Niki Parmar、Yu Zhang、Jiahui Yu、Wei Han、Shibo Wang、Zhengdong Zhang、Yonghui Wu 和 Ruoming Pang。Conformer:用于语音识别的卷积增强 Transformer。2020 年。 arXiv:2005.08100.
Awni Hannun、Carl Case、Jared Casper、Bryan Catanzaro、Greg Diamos、Erich Elsen、Ryan Prenger、Sanjeev Satheesh、Shubho Sengupta、Adam Coates 和 Andrew Y. Ng。Deep Speech:扩展端到端语音识别。2014 年。 arXiv:1412.5567.
Shawn Hershey,Sourish Chaudhuri,Daniel P. W. Ellis,Jort F. Gemmeke,Aren Jansen,Channing Moore,Manoj Plakal,Devin Platt,Rif A. Saurous,Bryan Seybold,Malcolm Slaney,Ron Weiss 和 Kevin Wilson。用于大规模音频分类的 CNN 架构。在声学、语音和信号处理国际会议 (ICASSP)。2017。网址:https://arxiv.org/abs/1609.09430.
Takuya Higuchi,Nobutaka Ito,Shoko Araki,Takuya Yoshioka,Marc Delcroix 和 Tomohiro Nakatani。基于具有空间先验的复高斯混合模型的在线 MVDR 波束形成器,用于抗噪声 ASR。IEEE/ACM 音频、语音和语言处理汇刊,25(4):780–793,2017。
Takuya Higuchi,Nobutaka Ito,Takuya Yoshioka 和 Tomohiro Nakatani。使用时频掩码的鲁棒 MVDR 波束形成,用于噪声中的在线/离线 ASR。在2016 年 IEEE 声学、语音和信号处理国际会议 (ICASSP),5210–5214。IEEE,2016。
Wei-Ning Hsu,Benjamin Bolte,Yao-Hung Hubert Tsai,Kushal Lakhotia,Ruslan Salakhutdinov 和 Abdelrahman Mohamed。Hubert:通过掩盖隐藏单元的预测进行的自监督语音表示学习。2021。 arXiv:2106.07447.
Keith Ito 和 Linda Johnson。LJ 语音数据集。 https://keithito.com/LJ-Speech-Dataset/,2017。
Jacob Kahn,Vineel Pratap,Tatiana Likhomanenko,Qiantong Xu,Awni Hannun,Jeff Cai,Paden Tomasello,Ann Lee,Edouard Grave,Gilad Avidov 等。Flashlight:助力机器学习工具创新。arXiv 预印本 arXiv:2201.12465,2022。
Nal Kalchbrenner,Erich Elsen,Karen Simonyan,Seb Noury,Norman Casagrande,Edward Lockhart,Florian Stimberg,Aaron van den Oord,Sander Dieleman 和 Koray Kavukcuoglu。高效神经音频合成。2018。 arXiv:1802.08435.
Nal Kalchbrenner,Erich Elsen,Karen Simonyan,Seb Noury,Norman Casagrande,Edward Lockhart,Florian Stimberg,Aäron van den Oord,Sander Dieleman 和 Koray Kavukcuoglu。高效神经音频合成。CoRR,2018。网址:http://arxiv.org/abs/1802.08435,arXiv:1802.08435.
Tom Ko,Vijayaditya Peddinti,Daniel Povey 和 Sanjeev Khudanpur。用于语音识别的音频增强。在Proc. Interspeech 2015,3586–3589。2015。 doi:10.21437/Interspeech.2015-711.
John Kominek,Alan W Black 和 Ver Ver。CMU 北极语音合成数据库。技术报告,2003。
Jungil Kong,Jaehyeon Kim 和 Jaekyoung Bae。HiFi-GAN:用于高效高保真语音合成的生成对抗网络。在 H. Larochelle,M. Ranzato,R. Hadsell,M.F. Balcan 和 H. Lin 主编,神经信息处理系统进展,第 33 卷,17022–17033。Curran Associates, Inc.,2020。网址:https://proceedings.neurips.cc/paper/2020/file/c5d736809766d46260d816d8dbc9eb44-Paper.pdf.
Anurag Kumar,Ke Tan,Zhaoheng Ni,Pranay Manocha,Xiaohui Zhang,Ethan Henderson 和 Buye Xu。Torchaudio-SQUIM:Torchaudio 中的无参考语音质量和清晰度度量。arXiv 预印本 arXiv:2304.01448,2023。
Loren Lugosch,Mirco Ravanelli,Patrick Ignoto,Vikrant Singh Tomar 和 Yoshua Bengio。用于端到端口语语言理解的语音模型预训练。在 Gernot Kubin 和 Zdravko Kacic 主编,Proc. of Interspeech,814–818。2019。
Yi Luo 和 Nima Mesgarani。Conv-TasNet:超越理想时频幅度掩蔽的语音分离。IEEE/ACM 音频、语音和语言处理汇刊,27(8):1256–1266,2019 年 8 月。网址:http://dx.doi.org/10.1109/TASLP.2019.2915167,doi:10.1109/taslp.2019.2915167.
Pranay Manocha 和 Anurag Kumar。使用非匹配参考的 MOS 语音质量评估。arXiv 预印本 arXiv:2206.12285,2022。
Xavier Anguera Miro,Luis Javier Rodriguez-Fuentes,Andi Buzo,Florian Metze,Igor Szoke 和 Mikel Peñagarikano。QUESST2014:在具有真实世界查询的零资源设置中评估基于示例的语音搜索。2015 年 IEEE 声学、语音和信号处理国际会议 (ICASSP),第 5833–5837 页,2015。
RV Mises 和 Hilda Pollaczek-Geiringer。方程求解的实用方法。ZAMM - 应用数学与力学杂志/Zeitschrift für Angewandte Mathematik und Mechanik,9(1):58–77,1929。
Gautham J Mysore。我们能否自动将普通消费级设备在现实世界环境中录制的语音转换为专业制作质量的语音?——数据集、见解和挑战。IEEE 信号处理快报,22(8):1006–1010,2014。
Arsha Nagrani,Joon Son Chung 和 Andrew Zisserman。VoxCeleb:一个大规模的说话人识别数据集。arXiv 预印本 arXiv:1706.08612,2017。
Vassil Panayotov,Guoguo Chen,Daniel Povey 和 Sanjeev Khudanpur。LibriSpeech:基于公共领域有声读物的 ASR 语料库。在2015 年 IEEE 声学、语音和信号处理国际会议 (ICASSP),卷,5206–5210。2015。 doi:10.1109/ICASSP.2015.7178964.
Daniel S. Park,William Chan,Yu Zhang,Chung-Cheng Chiu,Barret Zoph,Ekin D. Cubuk 和 Quoc V. Le。SpecAugment:一种用于自动语音识别的简单数据增强方法。Interspeech 2019,2019 年 9 月。网址:http://dx.doi.org/10.21437/Interspeech.2019-2680,doi:10.21437/interspeech.2019-2680.
Nathanaël Perraudin,Peter Balazs 和 Peter L. Søndergaard。一种快速格里芬-林算法。在2013 年 IEEE 音频和声学信号处理应用研讨会,卷,1–4。2013。 doi:10.1109/WASPAA.2013.6701851.
Vineel Pratap,Andros Tjandra,Bowen Shi,Paden Tomasello,Arun Babu,Sayani Kundu,Ali Elkahky,Zhaoheng Ni,Apoorv Vyas,Maryam Fazel-Zarandi,Alexei Baevski,Yossi Adi,Xiaohui Zhang,Wei-Ning Hsu,Alexis Conneau 和 Michael Auli。将语音技术扩展到 1,000 多种语言。2023。 arXiv:2305.13516.
Vineel Pratap,Qiantong Xu,Anuroop Sriram,Gabriel Synnaeve 和 Ronan Collobert。MLS:用于语音研究的大规模多语言数据集。Interspeech 2020,2020 年 10 月。网址:http://dx.doi.org/10.21437/Interspeech.2020-2826,doi:10.21437/interspeech.2020-2826.
Zafar Rafii,Antoine Liutkus,Fabian-Robert Stöter,Stylianos Ioannis Mimilakis 和 Rachel Bittner。MUSDB18-HQ - MUSDB18 的无压缩版本。2019 年 12 月。网址:https://doi.org/10.5281/zenodo.3338373,doi:10.5281/zenodo.3338373.
Chandan KA Reddy,Vishak Gopal,Ross Cutler,Ebrahim Beyrami,Roger Cheng,Harishchandra Dubey,Sergiy Matusevych,Robert Aichner,Ashkan Aazami,Sebastian Braun 等。Interspeech 2020 深度噪声抑制挑战:数据集、主观测试框架和挑战结果。arXiv 预印本 arXiv:2005.13981,2020。
Anthony Rousseau,Paul Deléglise 和 Yannick Estève。TED-LIUM:一个专用的自动语音识别语料库。在语言资源与评估会议 (LREC),125–129。2012。
Seyyed Saeed Sarfjoo 和 Junichi Yamagishi。设备录制 VCTK(小子集版本)。2018。
Robin Scheibler,Eric Bezzam 和 Ivan Dokmanić。Pyroomacoustics:用于音频房间模拟和阵列处理算法的 Python 包。在2018 年 IEEE 声学、语音和信号处理国际会议 (ICASSP),351–355。IEEE,2018。
Jonathan Shen,Ruoming Pang,Ron J Weiss,Mike Schuster,Navdeep Jaitly,Zongheng Yang,Zhifeng Chen,Yu Zhang,Yuxuan Wang,Rj Skerrv-Ryan 等。通过将 WaveNet 条件化为梅尔谱图预测来实现自然 TTS 合成。在2018 年 IEEE 声学、语音和信号处理国际会议 (ICASSP),4779–4783。IEEE,2018。
Yangyang Shi,Yongqiang Wang,Chunyang Wu,Ching-Feng Yeh,Julian Chan,Frank Zhang,Duc Le 和 Mike Seltzer。Emformer:用于低延迟流式语音识别的基于高效记忆变换器的声学模型。在ICASSP 2021 - 2021 年 IEEE 声学、语音和信号处理国际会议 (ICASSP),6783–6787。2021。
Yangyang Shi,Chunyang Wu,Dilin Wang,Alex Xiao,Jay Mahadeokar,Xiaohui Zhang,Chunxi Liu,Ke Li,Yuan Shangguan,Varun Nagaraja,Ozlem Kalinli 和 Mike Seltzer。使用非因果卷积的基于流式变换器转导器的语音识别。在ICASSP 2022 - 2022 年 IEEE 声学、语音和信号处理国际会议 (ICASSP),卷,8277–8281。2022。 doi:10.1109/ICASSP43922.2022.9747706.
Julius O. Smith。数字音频重采样主页“理想带限插值理论”部分。2020 年 9 月。网址:https://ccrma.stanford.edu/~jos/resample/Theory_Ideal_Bandlimited_Interpolation.html.
David Snyder,Guoguo Chen 和 Daniel Povey。MUSAN:音乐、语音和噪声语料库。2015。arXiv:1510.08484v1。 arXiv:1510.08484.
Mehrez Souden,Jacob Benesty 和 Sofiene Affes。关于用于降噪的最佳频域多通道线性滤波。在IEEE 音频、语音和语言处理汇刊,第 18 卷,260–276。IEEE,2009。
Sangeeta Srivastava,Yun Wang,Andros Tjandra,Anurag Kumar,Chunxi Liu,Kritika Singh 和 Yatharth Saraf。基于 Conformer 的非语音音频任务自监督学习。在ICASSP 2022 - 2022 年 IEEE 声学、语音和信号处理国际会议 (ICASSP),卷,8862–8866。2022。 doi:10.1109/ICASSP43922.2022.9746490.
George Tzanetakis,Georg Essl 和 Perry Cook。音频信号的自动音乐类型分类。2001。网址:http://ismir2001.ismir.net/pdf/tzanetakis.pdf.
Jörgen Valk 和 Tanel Alumäe。VoxLingua107:一个用于口语语言识别的数据集。在2021 年 IEEE 口语语言技术研讨会 (SLT),652–658。IEEE,2021。
王长汉,Morgane Rivière,李安,吴安,Chaitanya Talnikar,Daniel Haziza,Mary Williamson,Juan Miguel Pino 和 Emmanuel Dupoux。Voxpopuli:一个用于表示学习、半监督学习和解释的大规模多语言语音语料库。CoRR,2021。URL:https://arxiv.org/abs/2101.00390,arXiv:2101.00390.
R.L. Weide。卡内基梅隆发音词典。1998。URL:http://www.speech.cs.cmu.edu/cgi-bin/cmudict.
Junichi Yamagishi,Christophe Veaux 和 Kirsten MacDonald。CSTR VCTK 语料库:用于 CSTR 语音克隆工具包的英语多说话人语料库(版本 0.92)。2019。 doi:10.7488/ds/2645.
Chin-Yun Yu 和 György Fazekas。使用可微 LPC 和类声门流量波表进行歌唱语音合成。在 Augusto Sarti,Fabio Antonacci,Mark Sandler,Paolo Bestagini,Simon Dixon,Beici Liang,Gaël Richard 和 Johan Pauwels 主编,第 24 届国际音乐信息检索会议 (ISMIR 2023) 论文集,意大利米兰,2023 年 11 月 5-9 日,667-675。2023。URL:https://doi.org/10.5281/zenodo.10265377,doi:10.5281/ZENODO.10265377.
Heiga Zen,Viet-Trung Dang,Robert A. J. Clark,Yu Zhang,Ron J. Weiss,Ye Jia,Z. Chen 和 Yonghui Wu。Libritts:从 Librispeech 派生的用于文本到语音的语料库。ArXiv,2019。
Albert Zeyer,Ralf Schlüter 和 Hermann Ney。为什么 CTC 会导致尖峰行为?2021。 arXiv:2105.14849.
Brian McFee,Colin Raffel,Dawen Liang,Daniel P.W. Ellis,Matt McVicar,Eric Battenberg 和 Oriol Nieto。Librosa:Python 中的音频和音乐信号分析。在 Kathryn Huff 和 James Bergstra 主编,第 14 届 Python 科学会议论文集,18-24。2015。 doi:10.25080/Majora-7b98e3ed-003.
J. Kahn,M. Rivière,W. Zheng,E. Kharitonov,Q. Xu,P. E. Mazaré,J. Karadayi,V. Liptchinsky,R. Collobert,C. Fuegen,T. Likhomanenko,G. Sýnnæve,A. Joulin,A. Mohamed 和 E. Dupoux。Libri-light:一个用于 ASR 的基准,具有有限的或无监督的。在 ICASSP 2020 - 2020 年 IEEE 国际声学、语音和信号处理会议 (ICASSP),7669-7673。2020。 https://github.com/facebookresearch/libri-light.
P. Warden。语音命令:一个用于有限词汇语音识别的数据集。ArXiv 电子预印本,2018 年 4 月。URL:https://arxiv.org/abs/1804.03209,arXiv:1804.03209.
维基百科贡献者。吸收(声学)— 维基百科,自由的百科全书。[在线]。URL:https://en.wikipedia.org/wiki/Absorption_(acoustics).