参考文献¶

[Yes]

Yesno。网址：http://www.openslr.org/1/。

[AB79]

Jont B Allen 和 David A Berkley。用于高效模拟小房间声学的图像法。美国声学学会杂志，65(4):943–950，1979 年。

[ABD+20]

Rosana Ardila、Megan Branson、Kelly Davis、Michael Henretty、Michael Kohler、Josh Meyer、Reuben Morais、Lindsay Saunders、Francis M. Tyers 和 Gregor Weber。Common Voice：一个大规模多语言语音语料库。2020 年。arXiv:1912.06670。

[BWT+21]

Arun Babu、Changhan Wang、Andros Tjandra、Kushal Lakhotia、Qiantong Xu、Naman Goyal、Kritika Singh、Patrick von Platen、Yatharth Saraf、Juan Pino 等。Xls-r：大规模自监督跨语言语音表征学习。arXiv 预印本 arXiv:2111.09296，2021 年。

[BZMA20]

Alexei Baevski、Henry Zhou、Abdelrahman Mohamed 和 Michael Auli。Wav2vec 2.0：一个用于语音表征自监督学习的框架。2020 年。arXiv:2006.11477。

[BBL+08]

Carlos Busso、Murtaza Bulut、Chi-Chun Lee、Abe Kazemzadeh、Emily Mower Provost、Samuel Kim、Jeannette Chang、Sungbok Lee 和 Shrikanth Narayanan。Iemocap：交互式情感双人动作捕捉数据库。语言资源与评估，42:335–359，2008 年 12 月。doi:10.1007/s10579-008-9076-6。

[Cap69]

Jack Capon。高分辨率频率波数谱分析。IEEE 学报，57(8):1408–1418，1969 年。

[CDiGangiB+21]

Roldano Cattoni、Mattia Antonino Di Gangi、Luisa Bentivogli、Matteo Negri 和 Marco Turchi。Must-c：一个用于端到端语音翻译的多语言语料库。计算机语音与语言，66:101155，2021 年。网址：https://www.sciencedirect.com/science/article/pii/S0885230820300887，doi:https://doi.org/10.1016/j.csl.2020.101155。

[CCW+21]

郭国臣、柴树洲、王冠博、杜家喻、张维强、翁超、苏丹、丹尼尔·波维、扬·特马尔、张军波、金明杰、桑吉夫·库丹普尔、渡边信治、赵帅江、邹伟、李翔钢、姚旭晨、王永清、王玉军、赵宇、颜志勇。Gigaspeech：一个不断演进的多领域 ASR 语料库，包含 10,000 小时的转录音频。载于《Interspeech 2021 年会议论文集》。2021 年。

[CWC+22]

陈三元、王成毅、陈政阳、吴雨、刘树杰、陈卓、李金玉、神田直行、吉冈拓哉、肖雄等。WavLM：用于全栈语音处理的大规模自监督预训练。《IEEE 信号处理精选主题杂志》，16(6)：1505–1518，2022 年。

[CPS16]

罗南·科洛贝尔、克里斯蒂安·普赫施和加布里埃尔·辛纳夫。Wav2letter：一个基于卷积神经网络的端到端语音识别系统。2016 年。 arXiv:1609.03193。

[CBC+20]

阿莱克西斯·科诺、阿列克谢·巴耶夫斯基、罗南·科洛贝尔、阿卜杜勒拉赫曼·穆罕默德和迈克尔·奥利。用于语音识别的无监督跨语言表示学习。2020 年。 arXiv:2006.13979。

[CY21]

埃里卡·库珀和山岸淳一。过去的语音合成挑战中的声音与今天相比如何？arXiv 预印本 arXiv:2105.02373，2021 年。

[CPC+20]

乔里斯·科森蒂诺、曼努埃尔·帕里恩特、萨穆埃尔·康奈尔、安托万·德勒福奇和埃马纽埃尔·文森特。Librimix：一个用于通用语音分离的开源数据集。2020 年。 arXiv:2005.11262。

[CSB+18]

爱丽丝·库克、阿拉·萨德、阿德里安·鲍尔、西奥多·布吕什、亚历山大·科利埃、大卫·勒鲁瓦、克莱门特·杜穆罗、蒂博·吉塞尔布雷希特、弗朗西斯科·卡尔塔吉罗内、蒂博·拉夫里尔等。Snips 语音平台：一个用于私密设计语音界面的嵌入式口语理解系统。arXiv 预印本 arXiv:1805.10190，2018 年。

[DL82]

DC 道森和 BV666017 兰道。多变量正态分布之间的 Fréchet 距离。多变量分析杂志，12(3)：450–455，1982 年。

[Defossez21]

亚历山大·德福塞。混合声谱图和波形源分离。载于《2021 年 ISMIR 音乐源分离研讨会论文集》。2021 年。

[FP21]

Marco Forgione 和 Dario Piga。Dynonet：用于学习动态系统的卷积神经网络架构。自适应控制和信号处理国际期刊，35(4)：612–626，2021 年。

[GKRR14]

Mark John Francis Gales、Kate Knill、Anton Ragni 和 Shakti Prasad Rath。低资源语言的语音识别和关键词识别：cued 的巴别塔项目研究。载于SLTU。2014 年。

[Gra12]

Alex Graves。使用循环神经网络进行序列转导。2012 年。 arXiv:1211.3711。

[GL83]

D. Griffin 和 Jae Lim。从修改后的短时傅里叶变换中估计信号。载于ICASSP '83。IEEE 国际声学、语音和信号处理会议，第 8 卷，804–807。1983 年。 doi:10.1109/ICASSP.1983.1172092。

[GQC+20]

Anmol Gulati、James Qin、Chung-Cheng Chiu、Niki Parmar、Yu Zhang、Jiahui Yu、Wei Han、Shibo Wang、Zhengdong Zhang、Yonghui Wu 和 Ruoming Pang。Conformer：用于语音识别的卷积增强 Transformer。2020 年。 arXiv:2005.08100。

[HCC+14]

Awni Hannun、Carl Case、Jared Casper、Bryan Catanzaro、Greg Diamos、Erich Elsen、Ryan Prenger、Sanjeev Satheesh、Shubho Sengupta、Adam Coates 和 Andrew Y. Ng。深度语音：扩大端到端语音识别。2014 年。 arXiv:1412.5567。

[HCE+17]

Shawn Hershey、Sourish Chaudhuri、Daniel P. W. Ellis、Jort F. Gemmeke、Aren Jansen、Channing Moore、Manoj Plakal、Devin Platt、Rif A. Saurous、Bryan Seybold、Malcolm Slaney、Ron Weiss 和 Kevin Wilson。用于大规模音频分类的 CNN 架构。载于声学、语音和信号处理国际会议 (ICASSP)。2017 年。网址： https://arxiv.org/abs/1609.09430。

[HIA+17]

Takuya Higuchi、Nobutaka Ito、Shoko Araki、Takuya Yoshioka、Marc Delcroix 和 Tomohiro Nakatani。基于复杂高斯混合模型的在线 MVDR 波束形成器，具有用于噪声鲁棒 ASR 的空间先验。IEEE/ACM 音频、语音和语言处理汇刊，25(4)：780–793，2017 年。

[HIYN16]

Takuya Higuchi、Nobutaka Ito、Takuya Yoshioka、Tomohiro Nakatani。ノイズにおけるオンライン/オフライン ASR 用の周波数マスクを使用した堅牢な MVDR ビームフォーミング。2016 IEEE 国際音響、音声、信号処理会議 (ICASSP)、5210–5214。IEEE、2016 年。

[HBT+21]

Wei-Ning Hsu、Benjamin Bolte、Yao-Hung Hubert Tsai、Kushal Lakhotia、Ruslan Salakhutdinov、Abdelrahman Mohamed。Hubert: 隠れユニットのマスク予測による自己教師付き音声表現学習。2021 年。 arXiv:2106.07447。

[IJ17]

Keith Ito と Linda Johnson。LJ 音声データセット。 https://keithito.com/LJ-Speech-Dataset/、2017 年。

[KPL+22]

Jacob Kahn、Vineel Pratap、Tatiana Likhomanenko、Qiantong Xu、Awni Hannun、Jeff Cai、Paden Tomasello、Ann Lee、Edouard Grave、Gilad Avidov、他。Flashlight: 機械学習ツールのイノベーションを実現。arXiv preprint arXiv:2201.12465、2022 年。

[KES+18a]

Nal Kalchbrenner、Erich Elsen、Karen Simonyan、Seb Noury、Norman Casagrande、Edward Lockhart、Florian Stimberg、Aaron van den Oord、Sander Dieleman、Koray Kavukcuoglu。効率的なニューラルオーディオ合成。2018 年。 arXiv:1802.08435。

[KES+18b]

Nal Kalchbrenner、Erich Elsen、Karen Simonyan、Seb Noury、Norman Casagrande、Edward Lockhart、Florian Stimberg、Aäron van den Oord、Sander Dieleman、Koray Kavukcuoglu。効率的なニューラルオーディオ合成。CoRR、2018 年。URL: http://arxiv.org/abs/1802.08435、 arXiv:1802.08435。

[KPPK15]

Tom Ko、Vijayaditya Peddinti、Daniel Povey、Sanjeev Khudanpur。音声認識のためのオーディオ拡張。Proc. Interspeech 2015、3586–3589。2015 年。 doi:10.21437/Interspeech.2015-711。

[KBV03]

John Kominek、Alan W Black、Ver Ver。音声合成用 CMU Arctic データベース。技術報告書、2003 年。

[KKB20]

Jungil Kong、Jaehyeon Kim、Jaekyoung Bae。HiFi-GAN: 効率的で高忠実度の音声合成のための敵対的生成ネットワーク。H. Larochelle、M. Ranzato、R. Hadsell、M.F. Balcan、H. Lin (編者)、Advances in Neural Information Processing Systems、第 33 巻、17022–17033。Curran Associates, Inc.、2020 年。URL: https://proceedings.neurips.cc/paper/2020/file/c5d736809766d46260d816d8dbc9eb44-Paper.pdf。

[KTN+23]

Anurag Kumar、Ke Tan、Zhaoheng Ni、Pranay Manocha、Xiaohui Zhang、Ethan Henderson 和 Buye Xu。Torchaudio-squim：Torchaudio 中的无参考语音质量和可懂度测量。arXiv 预印本 arXiv:2304.01448，2023 年。

[LRI+19]

Loren Lugosch、Mirco Ravanelli、Patrick Ignoto、Vikrant Singh Tomar 和 Yoshua Bengio。端到端口语理解的语音模型预训练。在 Gernot Kubin 和 Zdravko Kacic 编辑的Interspeech 会议录中，第 814-818 页。2019 年。

[LM19]

Yi Luo 和 Nima Mesgarani。Conv-tasnet：超越理想时频幅度掩蔽，用于语音分离。IEEE/ACM 音频、语音和语言处理汇刊，27(8):1256–1266，2019 年 8 月。网址：http://dx.doi.org/10.1109/TASLP.2019.2915167，doi:10.1109/taslp.2019.2915167。

[MK22]

Pranay Manocha 和 Anurag Kumar。使用不匹配参考通过 MOS 评估语音质量。arXiv 预印本 arXiv:2206.12285，2022 年。

[MRFB+15]

Xavier Anguera Miro、Luis Javier Rodriguez-Fuentes、Andi Buzo、Florian Metze、Igor Szoke 和 Mikel Peñagarikano。Quesst2014：使用真实查询在零资源设置中评估基于示例查询的语音搜索。2015 年 IEEE 国际声学、语音和信号处理会议 (ICASSP)，第 5833-5837 页，2015 年。

[MPG29]

RV Mises 和 Hilda Pollaczek-Geiringer。方程求解的实用方法。ZAMM-应用数学和力学杂志/应用数学和力学杂志，9(1):58–77，1929 年。

[Mys14]

Gautham J Mysore。我们能否自动将现实环境中普通消费设备上录制的语音转换成专业制作质量的语音？——数据集、见解和挑战。IEEE 信号处理快报，22(8):1006–1010，2014 年。

[NCZ17]

Arsha Nagrani、Joon Son Chung 和 Andrew Zisserman。Voxceleb：一个大规模说话人识别数据集。arXiv 预印本 arXiv:1706.08612，2017 年。

[PCPK15]

Vassil Panayotov、Guoguo Chen、Daniel Povey 和 Sanjeev Khudanpur。Librispeech：一个基于公共领域有声读物的 ASR 语料库。在2015 年 IEEE 国际声学、语音和信号处理会议 (ICASSP)中，第 5206-5210 页。2015 年。 doi:10.1109/ICASSP.2015.7178964。

[PCZ+19]

Daniel S. Park、William Chan、Yu Zhang、Chung-Cheng Chiu、Barret Zoph、Ekin D. Cubuk 和 Quoc V. Le。Specaugment：一种用于自动语音识别的简单数据增强方法。Interspeech 2019，2019 年 9 月。网址：http://dx.doi.org/10.21437/Interspeech.2019-2680，doi:10.21437/interspeech.2019-2680。

[PBS13]

Nathanaël Perraudin、Peter Balazs 和 Peter L. Søndergaard。一种快速的 Griffin-Lim 算法。载于2013 年 IEEE 音频和声学信号处理应用研讨会，第 1-4 卷。2013 年。 doi:10.1109/WASPAA.2013.6701851。

[PTS+23]

Vineel Pratap、Andros Tjandra、Bowen Shi、Paden Tomasello、Arun Babu、Sayani Kundu、Ali Elkahky、Zhaoheng Ni、Apoorv Vyas、Maryam Fazel-Zarandi、Alexei Baevski、Yossi Adi、Xiaohui Zhang、Wei-Ning Hsu、Alexis Conneau 和 Michael Auli。将语音技术扩展到 1,000 多种语言。2023 年。 arXiv:2305.13516。

[PXS+20]

Vineel Pratap、Qiantong Xu、Anuroop Sriram、Gabriel Synnaeve 和 Ronan Collobert。MLS：用于语音研究的大规模多语言数据集。Interspeech 2020，2020 年 10 月。网址：http://dx.doi.org/10.21437/Interspeech.2020-2826，doi:10.21437/interspeech.2020-2826。

[RLStoter+19]

Zafar Rafii、Antoine Liutkus、Fabian-Robert Stöter、Stylianos Ioannis Mimilakis 和 Rachel Bittner。MUSDB18-HQ - MUSDB18 的未压缩版本。2019 年 12 月。网址：https://doi.org/10.5281/zenodo.3338373，doi:10.5281/zenodo.3338373。

[RGC+20]

Chandan KA Reddy、Vishak Gopal、Ross Cutler、Ebrahim Beyrami、Roger Cheng、Harishchandra Dubey、Sergiy Matusevych、Robert Aichner、Ashkan Aazami、Sebastian Braun 等。Interspeech 2020 深度噪声抑制挑战：数据集、主观测试框架和挑战结果。arXiv 预印本 arXiv:2005.13981，2020 年。

[RDelegliseEsteve12]

Anthony Rousseau、Paul Deléglise 和 Yannick Estève。TED-LIUM：一个专门用于自动语音识别的语料库。载于语言资源和评估会议 (LREC)，125-129。2012 年。

[SY18]

Seyyed Saeed Sarfjoo 和 Junichi Yamagishi。设备记录的 VCTK（小样本版本）。2018 年。

[SBDokmanic18]

Robin Scheibler、Eric Bezzam 和 Ivan Dokmanić。Pyroomacoustics：用于音频房间模拟和阵列处理算法的 Python 包。载于2018 年 IEEE 国际声学、语音和信号处理会议 (ICASSP)，351-355。IEEE，2018 年。

[SPW+18]

Jonathan Shen、Ruoming Pang、Ron J Weiss、Mike Schuster、Navdeep Jaitly、Zongheng Yang、Zhifeng Chen、Yu Zhang、Yuxuan Wang、Rj Skerrv-Ryan 等人。通过对梅尔频谱预测进行条件化 Wavenet 来进行自然 TTS 合成。在2018 年 IEEE 国际声学、语音和信号处理会议 (ICASSP)中，4779–4783。IEEE，2018 年。

[SWW+21]

Yangyang Shi、Yongqiang Wang、Chunyang Wu、Ching-Feng Yeh、Julian Chan、Frank Zhang、Duc Le 和 Mike Seltzer。Emformer：基于高效内存 Transformer 的声学模型，用于低延迟流式语音识别。在ICASSP 2021 - 2021 年 IEEE 国际声学、语音和信号处理会议 (ICASSP)中，6783–6787。2021 年。

[SWW+22]

Yangyang Shi、Chunyang Wu、Dilin Wang、Alex Xiao、Jay Mahadeokar、Xiaohui Zhang、Chunxi Liu、Ke Li、Yuan Shangguan、Varun Nagaraja、Ozlem Kalinli 和 Mike Seltzer。基于流式 Transformer 换能器的语音识别，使用非因果卷积。在ICASSP 2022 - 2022 年 IEEE 国际声学、语音和信号处理会议 (ICASSP)中，第 8277–8281 卷。2022 年。 doi:10.1109/ICASSP43922.2022.9747706。

[Smi20]

Julius O. Smith。数字音频重采样主页“理想带限插值理论”部分。2020 年 9 月。网址：https://ccrma.stanford.edu/~jos/resample/Theory_Ideal_Bandlimited_Interpolation.html。

[SCP15]

David Snyder、Guoguo Chen 和 Daniel Povey。MUSAN：音乐、语音和噪声语料库。2015 年。arXiv:1510.08484v1。 arXiv:1510.08484。

[SBA09]

Mehrez Souden、Jacob Benesty 和 Sofiene Affes。关于用于降噪的最佳频域多通道线性滤波。在IEEE 音频、语音和语言处理汇刊中，第 18 卷，260–276。IEEE，2009 年。

[SWT+22]

Sangeeta Srivastava、Yun Wang、Andros Tjandra、Anurag Kumar、Chunxi Liu、Kritika Singh 和 Yatharth Saraf。基于 Conformer 的非语音音频任务的自监督学习。在ICASSP 2022 - 2022 年 IEEE 国际声学、语音和信号处理会议 (ICASSP)中，第 8862–8866 卷。2022 年。 doi:10.1109/ICASSP43922.2022.9746490。

[TEC01]

乔治·查内塔基斯、乔治·埃斯尔和佩里·库克。音频信号的自动音乐流派分类。2001 年。网址：http://ismir2001.ismir.net/pdf/tzanetakis.pdf。

[VAlumae21]

约根·瓦尔克和塔内尔·阿鲁梅。Voxlingua107：一种用于语音识别的数据集。载于2021 年 IEEE 语音语言技术研讨会 (SLT)，652–658。IEEE，2021 年。

[WRiviereL+21]

常汉·王、摩根·里维埃、安妮·李、安妮·吴、柴塔尼亚·塔尔尼卡、丹尼尔·哈齐扎、玛丽·威廉姆森、胡安·米格尔·皮诺和埃马纽埃尔·杜普克斯。Voxpopuli：一种用于表示学习、半监督学习和解释的大规模多语言语音语料库。CoRR，2021 年。网址：https://arxiv.org/abs/2101.00390，arXiv:2101.00390。

[Wei98]

R.L. 韦德。卡内基梅隆发音词典。1998 年。网址：http://www.speech.cs.cmu.edu/cgi-bin/cmudict。

[YVM19]

山岸纯一、克里斯托弗·沃克斯和克里斯滕·麦克唐纳。CSTR VCTK 语料库：用于 CSTR 语音克隆工具包的英语多说话者语料库（版本 0.92）。2019 年。 doi:10.7488/ds/2645。

[YF23]

余钦云和乔治·法泽卡斯。使用可微分 LPC 和声门流启发的波表进行歌唱语音合成。奥古斯托·萨尔蒂、法比奥·安东纳奇、马克·桑德勒、保罗·贝斯塔吉尼、西蒙·迪克森、贝奇·梁、盖尔·理查德和约翰·保韦尔斯（编辑），第 24 届国际音乐信息检索协会会议论文集，ISMIR 2023，意大利米兰，2023 年 11 月 5-9 日，667–675。2023 年。网址：https://doi.org/10.5281/zenodo.10265377，doi:10.5281/ZENODO.10265377。

[ZDC+19]

海嘉·曾、维特-忠·当、罗伯特·A. J. 克拉克、余张、罗恩 J. 魏斯、叶嘉、Z. 陈和雍慧·吴。Libritts：一种从 Librispeech 衍生的用于文本到语音的语料库。ArXiv，2019 年。

[ZSN21]

阿尔伯特·泽耶、拉尔夫·施吕特和赫尔曼·内伊。为什么 CTC 会导致峰值行为？2021 年。 arXiv:2105.14849。

[BrianMcFeeColinRaffelDawenLiang+15]

布莱恩·麦克菲、科林·拉菲尔、达文·梁、丹尼尔·P.W. 埃利斯、马特·麦克维卡、埃里克·巴滕伯格和奥里奥尔·涅托。Librosa：Python 中的音频和音乐信号分析。凯瑟琳·赫夫和詹姆斯·伯格斯特拉（编辑），第 14 届 Python 科学会议论文集，18 – 24。2015 年。 doi:10.25080/Majora-7b98e3ed-003。

[KahnRiviereZheng+20]

J. 卡恩、M. 里维埃、W. 郑、E. 哈里托诺夫、Q. 徐、P. E. 马扎雷、J. 卡拉达伊、V. 利普钦斯基、R. 科洛贝尔、C. 菲根、T. 利霍曼年科、G. 西纳维、A. 朱兰、A. 穆罕默德和 E. 杜普克斯。Libri-light：一种用于监督有限或无监督的 ASR 的基准。载于ICASSP 2020 - 2020 年 IEEE 国际声学、语音和信号处理会议 (ICASSP)，7669–7673。2020 年。 https://github.com/facebookresearch/libri-light。

[Warden18]

P. Warden。语音命令：用于有限词汇语音识别的数据集。ArXiv 电子印刷品，2018 年 4 月。网址：https://arxiv.org/abs/1804.03209，arXiv:1804.03209。

[Wikipediacontributors]

维基百科贡献者。吸收（声学）——维基百科，免费百科全书。[在线]。网址：https://en.wikipedia.org/wiki/Absorption_(acoustics)。

参考文献¶

文档

教程

资源