伤员转运后送
01-从角色2向角色3医疗设施航空医疗后送期间的战斗伤亡管理
03-Collective aeromedical evacuations of SARS-CoV-2-related ARDS patients in a military tactical plane- a retrospective descriptive study
04-乌克兰火车医疗后送的特点,2022
02-Decision Support System Proposal for Medical Evacuations in Military Operations
02-军事行动中医疗后送的决策支持系统建议
05-无人驾驶飞机系统的伤员疏散需要做什么
04-Characteristics of Medical Evacuation by Train in Ukraine, 2022.
05-Unmanned Aircraft Systems for Casualty Evacuation What Needs to be Done
07-一个德语语料库,用于搜索和救援领域的语音识别
08-雷达人类呼吸数据集的应用环境辅助生活和搜索和救援行动
08-Radar human breathing dataset for applications of ambient assisted living and search and rescue operations
06-基于信息融合的海上搜索救援目标定位
07-RESCUESPEECH- A GERMAN CORPUS FOR SPEECH RECOGNITION IN SEARCH AND RESCUE DOMAIN
12-欧盟和世卫组织联手进一步加强乌克兰的医疗后送行动
09-战场伏击场景下无人潜航器最优搜索路径规划
11-麦斯卡尔医疗后送-康涅狄格州陆军警卫医务人员在大规模伤亡训练中证明了他们的能力
06-Target localization using information fusion in WSNs-based Marine search and rescue
13- 年乌克兰火车医疗后送的特点
09-Optimal search path planning of UUV in battlefeld ambush scene
10-志愿医护人员从乌克兰前线疏散受伤士兵
14-海上搜救资源配置的多目标优化方法——在南海的应用
14-A Multi-Objective Optimization Method for Maritime Search and Rescue Resource Allocation An Application to the South China Sea
15-基于YOLOv5和分层人权优先的高效无人机搜索路径规划方法
17-乌克兰医疗保健专业人员在火药行动期间的经验对增加和加强培训伙伴关系的影响
17-Ukrainian Healthcare Professionals Experiences During Operation Gunpowder Implications for Increasing and Enhancing Training Partnerships
15-An Integrated YOLOv5 and Hierarchical Human Weight-First Path Planning Approach for Efficient UAV Searching Systems
16-基于旋转变压器的YOLOv5s海上遇险目标检测方法
16-YOLOv5s maritime distress target detection method based on swin transformer
19-人工智能的使用在伤员撤离、诊断和治疗阶段在乌克兰战争中
19-THE USE OF ARTIFICIAL INTELLIGENCE AT THE STAGES OF EVACUATION, DIAGNOSIS AND TREATMENT OF WOUNDED SOLDIERS IN THE WAR IN UKRAINE
18-军事行动中医疗后送的决策支持系统建议
20-乌克兰医疗保健专业人员在火药行动中的经验对增加和加强培训伙伴关系的影响
20-Ukrainian Healthcare Professionals Experiences During Operation Gunpowder Implications for Increasing and Enhancing Training Partnerships
21-大国冲突中医疗后送的人工智能
18-Decision Support System Proposal for Medical Evacuations in Military Operations
23-伤亡运输和 疏散
24-某军用伤员疏散系统仿真分析
23-CASUALTY TRANSPORT AND EVACUATION
24-Simulation Analysis of a Military Casualty Evacuation System
25-无人驾驶飞机系统的伤员疏散需要做什么
26-Aeromedical Evacuation, the Expeditionary Medicine Learning Curve, and the Peacetime Effect.
26-航空医疗后送,远征医学学习曲线,和平时期的影响
25-Unmanned Aircraft Systems for Casualty Evacuation What Needs to be Done
28-军用战术飞机上sars - cov -2相关ARDS患者的集体航空医疗后送——一项回顾性描述性研究
27-乌克兰火车医疗后送的特点,2022
27-Characteristics of Medical Evacuation by Train in Ukraine, 2022.
28-Collective aeromedical evacuations of SARS-CoV-2-related ARDS patients in a military tactical plane- a retrospective descriptive study
03-军用战术飞机上sars - cov -2相关ARDS患者的集体航空医疗后送——一项回顾性描述性研究
30-评估局部现成疗法以减少撤离战场受伤战士的需要
31-紧急情况下重伤人员的医疗后送——俄罗斯EMERCOM的经验和发展方向
31-Medical Evacuation of Seriously Injured in Emergency Situations- Experience of EMERCOM of Russia and Directions of Development
30-Evaluation of Topical Off-the-Shelf Therapies to Reduce the Need to Evacuate Battlefield-Injured Warfighters
29-军事行动中医疗后送的决策支持系统建议
29-Decision Support System Proposal for Medical Evacuations in Military Operations
32-决策支持在搜救中的应用——系统文献综述
32-The Syrian civil war- Timeline and statistics
35-印尼国民军准备派飞机接运 1
33-eAppendix 1. Information leaflet basic medical evacuation train MSF – Version April 2022
36-战场上的医疗兵
34-Characteristics of Medical Evacuation by Train in Ukraine
22-空军加速变革以挽救生命:20年来航空医疗后送任务如何取得进展
34-2022年乌克兰火车医疗疏散的特点
33-信息传单基本医疗后送车
40-航空医疗后送
43-美军的黄金一小时能持续多久
42-陆军联手直升机、船只和人工智能进行伤员后送
47-受伤的士兵撤离
46-伤员后送的历史从马车到直升机
37-从死亡到生命之路
41-后送医院
52-印度军队伤员航空医疗后送经验
53-“地狱之旅”:受伤的乌克兰士兵撤离
45-伤病士兵的撤离链
54-热情的和资源匮乏的士兵只能靠自己
57-2022 年乌克兰火车医疗后送
51-医务人员在激烈的战斗中撤离受伤的乌克兰士兵
59-乌克兰展示医疗后送列车
61-俄罗斯士兵在乌克兰部署自制UGV进行医疗后送
60-“流动重症监护室”:与乌克兰顿巴斯战斗医务人员共24小时
50-医疗后送——保证伤员生命安全
阿拉斯加空军国民警卫队医疗后送受伤陆军伞兵
航空撤离,印度经验 抽象的
通过随机森林模拟规划方法解决军事医疗后送问题
2022 年乌克兰火车医疗后送的特点
战术战地救护教员指南 3E 伤员后送准备和要点 INSTRUCTOR GUIDE FOR TACTICAL FIELD CARE 3E PREAPRING FOR CASUALTY EVACUTION AND KEY POINTS
军事医疗疏散
北极和极端寒冷环境中的伤亡疏散:战术战斗伤亡护理中创伤性低温管理的范式转变
-外地伤员后送现场伤亡疏散
伤员后送图片
从角色2到角色3医疗设施期间战斗人员伤亡管理
关于军事行动中医疗疏散的决策支持系统建议书
在军事战术平面上对sars-cov-2相关 ARDS患者进行的集体空中医疗后送: 回顾性描述性研究
2022年乌克兰火车医疗疏散的特点
透过战争形势演变看外军营救后送阶梯 及医疗救护保障措施
东部伤兵营 英文 _Wounded_Warrior_Battalion_East
组织紧急医疗咨询和医疗后送 2015 俄文
-
+
首页
07-一个德语语料库,用于搜索和救援领域的语音识别
<p>ar Xi v: 23 06 .0 40 54 v3 [e es s. 20 23</p><p>救援方法:一种面向搜救领域语音识别的德语语料库</p><p><em>桑吉特萨加尔</em>1,4<em>,米尔科·拉瓦内利</em>2<em>,贝恩德基弗</em>1,4<em>伊万娜·克鲁伊夫-科尔巴约娃</em>4<em>约瑟夫·</em> <em>范·根纳比斯</em>1,4</p><p>1德国萨尔兰大学</p><p>2加拿大康科迪亚大学,米拉-魁北克人工智能研究所</p><p>4德国人工智能研究中心(DFKI),德国,2020@gmail。com, ravanellim@mila.魁北克,</p><p>{bernd .吉弗,约瑟夫。先锋 genabith}@dfki .德,伊万娜。kruijff@rettungsrobotik .德</p><table><tr><td><p>摘要</p><p>尽管最近语音识别取得了进展,但在嘈杂和混响的声音环 境中准确转录会话和情绪语音仍然存在困难。这在搜索和 救援(SAR)领域提出了一个特别的挑战,在该领域中,转 录救援团队成员之间的对话对于支持实时决策至关重要。</p><p>在SAR场景中,语音数据的缺乏和相关的背景噪声使得部署 鲁棒的语音识别系统变得困难。</p><p>为了解决这个问题,我们已经创建并公开了它</p><p><em>可用的德语语音数据集称为拯救语音。</em>这个数据集包括来 自模拟救援演习的真实语音记录。此外,我们还发布了竞 争性的培训食谱和预训练模型。我们的研究强调,在这种 具有挑战性的场景下,通过最先进的方法所取得的性能仍 远未达到可接受的水平。</p><p>索引术语-语音识别、搜索和救援、噪声鲁棒性。</p><p>1.介绍</p><p>自动语音识别(ASR)在situa-中是至关重要的</p><p>比如搜索和救援(SAR)任务。这些情况往往涉及在极端敌 对的条件下做出关键的决定,如地下救援行动、核事故、</p><p>火灾疏散或地震后倒塌的建筑物。在这种情况下,救援人 员必须迅速、准确地采取行动,防止人员伤亡和人身伤害 。转录和自动分析救援队内的对话可以提供有用的支持, 帮助团队在有限的时间内做出正确的决定。搜索和救援任 务的背景对当前的语音识别技术提出了重大的挑战。语音 识别器必须能够处理快速、情绪化和压力条件下的会话。 Ad-</p></td><td><p>实际上,救援人员操作的声学环境通常是非常嘈杂的,录 音可能会被各种非平稳的噪音破坏,如发动机噪音、车辆 警报器、无线电聊天、直升机噪音和其他不可预测的干扰 。近年来,有大量的研究集中于解决这些挑战, [1 –3]。</p><p>先进的深度学习技术,如自监督学习结合大数据集[4],已 经有助于实现令人印象深刻的性能改进。SAR领域最有趣的 一个方面是,上述所有的挑战都同时发生,创造了一个极 其困难和复杂的任务。这不仅使它成为一个具有重大科学 兴趣的领域,而且还强调了在这一领域继续研究和发展的 迫切需要。</p><p>由于在这一关键领域的数据可用性有限,在这一背景下 开发语音识别系统变得更加具有挑战性。收集专门与SAR领 域相关的语音数据可能是困难的,而且隐私限制往往会限 制科学界对此类数据的访问。为了鼓励在这一领域的研究 , 我们已经发布了救援演讲1,一个用于搜索和救援域语音 的德国数据集。这个数据集包含了在几次救援演习中,救 援队成员之间的真实语音记录。据我们所知,我们是第一 个在SAR领域公开发布音频数据集的人。救援语音包含大约 2小时的注释语音材料。虽然这个数量看起来有限,但它实 际上是相当有价值的,可以有效</p><p>用于微调大型预训练模型,如wav2vec2.0 [5],WavLM [6] , 和耳语[7]。事实上,我们证明了,当结合适当的数据增 强技术和多条件训练时,这种材料也适用于从头开始的训 练模型。</p><p>本文提出了一个全面的实验证据的任务在手噪声鲁棒德 语语音识别。它采用了最先进的方法</p><p>1可在: https://zenodo.org/record/8077622上获得</p></td></tr></table><p><img src="/media/202408//1724838575.707137.jpeg" /></p><p>语音识别和语音增强, 以及两者的结合。尽管在更简单的</p><p>场景中表现出色,但我们的研究结果显示,即使是像</p><p>Whisper [7]这样的现代ASR系统,也难以在苛刻的救援和 搜索领域表现良好。我们已经在演讲大脑工具包中向社区 提供了我们的训练食谱和预训练模型2.随着救援语音数据 集的发布,我们希望促进这一领域的研究,并建立一个共 同的基准。我们相信,我们的努力可以帮助提高人们对在 特别救援任务中使用语音技术的重要性的认识,以及在这 一领域继续进行研究的必要性。</p><p>2 . 救援人员数据集</p><p>救援演讲包含了麦克风和无线电录制的演讲,其中包括机 器人辅助的应急救援小组成员在几次模拟特别救援演习中 的交流片段,其中包括真正的消防员在高压力情况下讲话 , 如火灾救援、爆炸等。这会引起更强烈的情绪。参加演 习的发言者的母语是德语,在团队成员、无线电操作员和 组长之间进行对话。这些对话松散地采用了一种典型的无 线电式通信,其中对话的开始/结束通过某些单词的使用来 表示,连接质量被传递,以及对请求的接受或拒绝被传达 。我们的数据集的实际用例不仅局限于机器人控制,也局 限于语音识别,其主要应用是在灾难情况下的决策者和过 程监视器的支持。ASR输出通过自然语言理解(NLU)组件 进行分析,并与传感器数据进行融合,包括来自机器人或 无人机的GPS坐标。通过这种方式,我们从对话中提取与任 务相关的信息,并使用它来提供帮助</p><p>部署整个系统</p><p>这些录音最初以44.1 kHz的采样率被捕获,然后被降采 样到16 kHz,然后进一步分割得到一组单扬声器的单声道 音频录音。所有的话语也都是手动转录的。该数据集的总 长度为1.6h,共计2412个sen-</p><p>在火车/有效/测试集中有1591/245/576个句子。我们</p><p>你可以称之为救援语音清理数据集。图1为分段话语的平均 长度的直方图,平均长度为2.39秒。我们还创建了一个噪 声版本的救援语音,通过使用来自音频集数据集[8]的噪声 剪辑污染我们的数据集,其中包括五种噪声类型——紧急 车辆警报器、呼吸、引擎、直升机和静态无线电噪声。我 们还利用了真实的和合成的房间脉冲响应(RIR)(SLR26 , SLR27 [9])来增加混响。然后我们添加了有噪声的序列</p><p><img src="/media/202408//1724838575.804461.png" />2个可在: https://github上获得。com/speechbrain/ speechbrain/tree/develop/recipes/RescueSpeech</p><p><img src="/media/202408//1724838575.8822458.png" /></p><p>图1 : 直方图显示了救援言语中的平均话语长度。</p><p>产生具有不同信噪比(SNR)的噪声话语(从-5 dB到15 dB , 步长为1 dB)。每一个干净的话语都被随机破坏其中一 种噪声类型,以产生4500/1350/1350训练/有效/测试话语</p><p>。</p><p>我们还确保在火车集中使用的噪声话语是</p><p>只有在这个集合中。这种随机性和排他性确保了每个分割 对每种噪声类型的比例相等,并且每个分割中的噪声都是 不同的。该数据集提供了一组不同的噪声和混响条件,使 我们的语音增强模型能够进行微调, 以提高有噪声的救援 语音的精度。我们称之为救援语音噪声数据集。表1简要显 示了干净和有噪声版本的数据集的话语和持续时间的分布</p><p>。</p><p>2.1.相关公司</p><p>为了提高语音识别系统在噪声和混响环境下的准确性,已 经开发了一些语料库,如chime[10-13]、DIRHA[14-17]、</p><p>AMI [18]、VOiCES [19]和余弦[20]。其中,CHIME5 [12] 和CHIME6 [13]尤其具有挑战性,因为它包含了在家庭晚宴 上录制的会话,在那里,噪音和回响很常见。救援语音也 包含了在具有挑战性的声学环境中记录的会话语音,但在 这个语料库中处理的场景是独特的,不同于一个晚宴。在 救援语音中使用的声学条件、情绪和词汇是不同的,因此 为语音识别系统提供了一组额外的挑战。</p><p>有噪声版本的救援语音可以用来训练语音增强系统,在 搜索和救援(SAR)领域的声学条件下具有鲁棒性。有许多 数据集已经被发布用于语音增强的目的,包括深度噪声抑 制(DNS)数据集[21],语音库-需求cor-</p><p>表1:在救援语音清洁和噪声数据集中的话语和时间的分布</p><p>。</p><p>清洁 嘈杂的</p><p>分钟#Utts。<img src="/media/202408//1724838576.154608.png" />HRS #Utts.</p><table><tr><td rowspan="2"><p>列车 有效 的</p></td><td><p>61.86</p></td><td><p>1591</p></td><td><p>7.20</p></td><td><p>4500</p></td></tr><tr><td><p>9.61</p></td><td><p>245</p></td><td><p>2.16</p></td><td><p>1350</p></td></tr><tr><td><p>试验</p></td><td><p>24.68</p></td><td><p>576</p></td><td><p>2.16</p></td><td><p>1350</p></td></tr></table><p>pus [22],还有!和WHAMR!语料库[23],所有这些都有助 于训练语音增强模型。然而,与救援语音的关键区别在于 , 它是专门为SAR领域设计的,在那里,有特征的声音,如 警报器、无线电信号、直升机、卡车等会影响录音。救援 语音的这种独特特性使它成为训练一个特别有价值的语音 增强系统的资源,可以在SAR环境中发挥良好的表现。</p><p>3 . 实验装置</p><p>我们探索了多种训练策略来进行噪声鲁棒语音识别。语音 识别器和增强模型在大型语料库上进行训练,然后在救援 语音数据上进行微调和评估。</p><p>3.1.ASR培训</p><p>我们采用两种ASR训练方法:一种基于序列到序列建模( se q2seq),另一种基于连接主义时间分类(CTC)方法。对 于seq2seq模型,我们采用了CRDNN(卷积、递归和密集神 经网络)体系结构[24,25]。CRDNN编码器在德国整整1200 小时的通用语料库[26]上进行训练。解码使用一个注意gru 解码器和一个波束搜索,并结合一个基于RNN的语言模型 ( LM)。LM接受图达德的训练2 [27](800万分)、莱比锡新 闻语料库[28](900万分), 以及通用语音语料库的训练文 本。对于基于CTC的模型,我们使用wav2vec2。0,和WavLM 架构作为ASR管道的编码器。这些编码器使用自监督的方法 来学习高级上下文化的语音表示。它不需要语言模型,采 用贪婪搜索的方法进行解码。对于wav2vec2.0和WavLM,我 们使用预先训练好的编码器脸书/wav2vec2-大-xlsr-53-德 语3 和微软/wavlm-大4各自地此外,我们还采用了预先训 练的耳语[7]模型开放/耳语</p><p>2https://www.inf.uni-</p><p>hamburg.de/en/inst/ab/lt/resources/data/acousticmodels.html</p><p>3<a href="https://huggingface.co/facebook/wav2vec2-large-xlsr-53-german">https://huggingface.co/facebook/wav2vec2-large-xlsr-53-german</a> 4<a href="https://huggingface.co/microsoft/wavlm-large">https://huggingface.co/microsoft/wavlm-large</a></p><p>-大v25将我们的系统与最先进模型进行基准。</p><p>CRDNN结合了两个CNN块(每个块有2个CNN层,通道大小 (128,256)),一个RNN块(4个双向LSTM层,每层1024个 神经元)和一个密集神经网络层。输入是40维的模型组特 征,网络由一个AdaDelta [29]优化器训练,学习速率(LR ) 为1(在微调期间,我们使用LR 0.1)。该模型被训练了 25个时代,批大小为8。在测试过程中,光束搜索的尺寸为 80。在一个具有48GB内存的RTXA6000 GPU上,每个历元大 约需要8小时。对于wav2vec2.0和WavLM CTC,使用Adam</p><p>[30]优化器在批大小8上使用LR 1e-4分别进行45和20次训 练。在一个具有48GB内存的RTXA6000 GPU上,每个历元大 约需要5.5小时。LR被退火,两种方法的采样频率均设置为 16 kHz。关于训练和模型参数的更多细节可以在存储库中 找到。</p><p>3.2.语音增强训练</p><p>在这项工作中,我们使用Sep前[31]-一个基于多头注意变 压器的源分离架构进行语音增强。它使用了一个完全可学 习的基于掩码的架构, 由编码器、掩蔽网络和解码器组成 。编码器块和解码器块本质上是卷积层,我们学习了一个 基于自注意的深度掩蔽网络来估计元素级掩码。这些掩码 被解码器用来在时域重建增强的信号。我们使用DNS4</p><p>7用数据集来综合训练集和评价集。使用提供的干净话语、 噪声片段(150种噪声类型)和RIRs,我们在不同信噪比 ( 从-5 dB到15 dB,步长为1 dB)下生成1300小时的列车和 6.7小时的有效集,并使用DNS-2022基线开发集作为测试集 。采样率设置为16 kHz,只有30%的干净语音与RIR进行卷 积。</p><p>SepFrorter采用一个编码器和解码器,具有256个卷积 滤波器, 内核大小为16,每个步幅为8。掩蔽网络有两层双 组合块,块长度为250。当每个干净噪声对的长度固定在4 秒时,模型使用尺度不变的信噪比(SI-SNR)损失和LR为1 的Adam优化器以有监督的方式进行训练。5e-4.我们利用多 gpu分布式数据并行(DDP)训练方案对网络进行了50个周 期的训练</p><p>批量大小为4。在8×RTXA6000GPA上,每个时代大约需要9 小时。</p><p>5<a href="https://huggingface.co/openai/whisper-large-v2">https://huggingface.co/openai/whisper-large-v2</a> 7<a href="https://github.com/">https://github.com/</a>微软/DNS-挑战</p><p><img src="/media/202408//1724838576.311003.png" /></p><p>3.3.培训策略</p><p>我们使用各种训练方法来创建一个健壮的语音识别系统,</p><p>它在SAR(搜索和救援)领域运行。对这些方法的描述如下 :</p><p>1.干净训练:在对ASR和语言模型(LM)模型进行预训 练后,我们在救援语音干净数据集上对它们进行了微 调。这个过程有助于使模型适应于我们的目标域。我 们保持模型和训练参数与第3.1节中描述的相同。</p><p>2.多条件训练:使用与上述相同的预训练模型,我们进 行多条件训练,其中包括在来自救援语音噪声数据集 的相同混合的干净和噪声音频上训练ASR模型。通过 这样做,该模型可以学会适应话语中存在的不同噪声 , 这有助于它进行语音识别。这种方法构成了我们所 有结果的基线。我们将学习速率(LR)设置为0.1,</p><p>并保持其他参数与上述参数相同。</p><p>3.模型组合I:独立训练:我们对一个语音增强模型进 行预训练,然后在复苏语音噪声数据集上对其进行微 调。然后将该模型与在干净训练阶段训练的ASR模型 集成,进行噪声鲁棒语音识别。在这个阶段,我们冻 结了增强模型。</p><p>4.模型组合II:联合训练:这是前一个阶段的延续,我 们遵循联合训练的方法。我们解冻了增强模型,并允 许从ASR的梯度传播回语音增强模型。以这种方式更 新模型的权重,使它能够根据ASR模型的要求生成尽 可能干净的输出。</p><p>4. 结果</p><p>4.1.ASR性能</p><p>作为第一次尝试,我们创建了一个仅由ASR模型组成的简单 管道,在前端没有使用语音增强。表2提供了不同ASR模型 在干净和嘈杂的音频记录上使用的不同ASR模型的比较。比 较中包含的模型有CRDNN、wav2vec2.0、WavLM和Whisper。 在训练前阶段,所有的模型(除了耳语)只使用了通用语 音数据集。然而,在清洁训练和多条件微调阶段,使用了 救援语音数据集。</p><p>不出所料,当在干净的录音上进行测试时,干净的训练 方法是最有效的。在这个场景中表现最好的模型是Whisper , 它已经实现了</p><p>表2:CRDNN、wav2vec2.0-large、wavlm大和耳语大v2模型 的干净和噪声语音输入的测试结果比较。</p><table><tr><td></td><td><p>ASR模型</p></td><td><p>干净的</p></td><td><p>嘈杂的</p></td></tr><tr><td><p>预训练</p></td><td><p>CRDNN</p><p>Wav2vec2 WavLM</p><p>低语</p></td><td><p>52.0 3</p><p>47.9 2</p><p>46.2 8</p><p>27.0 1</p></td><td><p>81.1 4</p><p>76.9 8</p><p>73.8 4</p><p>50.8 5</p></td></tr><tr><td><p>清洁培训</p></td><td><p>CRDNN</p><p>Wav2vec2 WavLM</p><p>低语</p></td><td><p>31.1 8</p><p>27.6 9</p><p>23.9 3</p><p>23.14</p></td><td><p>60.1 0</p><p>62.6 0</p><p>58.2 8</p><p>46.7 0</p></td></tr><tr><td><p>多康德。训练</p></td><td><p>CRDNN</p><p>Wav2vec2 WavLM</p><p>低语</p></td><td><p>33.2 2</p><p>29.8 9</p><p>25.2 2</p><p>24.1 1</p></td><td><p>58.9 5</p><p>57.9 8</p><p>52.7 5</p><p>45.84</p></td></tr></table><p>表3:当结合语音增强和语音识别时,复苏语音噪声测试输 入的语音增强性能(模型组合。我和模型梳子。微光</p><table><tr><td rowspan="2"></td><td rowspan="2"><p>模型梳 子。I</p></td><td colspan="4"><p>模型梳子。微光</p></td></tr><tr><td colspan="4"><p>CRDNN波2波低声</p></td></tr><tr><td><p>SI-SNRi</p></td><td><p>6.516</p></td><td><p>6.618</p></td><td><p>7.205</p></td><td><p>7.140</p></td><td><p>7.482</p></td></tr><tr><td><p>SDRi</p></td><td><p>7.439</p></td><td><p>7.490</p></td><td><p>7.765</p></td><td><p>7.694</p></td><td><p>8.011</p></td></tr><tr><td><p>PESQ</p></td><td><p>2.008</p></td><td><p>2.010</p></td><td><p>2.060</p></td><td><p>2.064</p></td><td><p>2.083</p></td></tr><tr><td><p>STOI</p></td><td><p>0.842</p></td><td><p>0.844</p></td><td><p>0.854</p></td><td><p>0.854</p></td><td><p>0.859</p></td></tr></table><p>表4:通过独立训练获得的单词错误率(WER%)。I)和联合 训练(模型梳子。二)语音增强和ASR模块。</p><table><tr><td><p>ASR模型</p></td><td><p>模型梳子。I</p></td><td><p>模型梳子。微光</p></td></tr></table><table><tr><td><p>CRDNN</p><p>Wav2vec2 WavLM</p><p>低语</p></td><td><p>54.98 50.68 48.24</p><p>48.04</p></td><td><p>54.5 5</p><p>49.2 4</p><p>46.0 4</p><p>45.2</p></td></tr><tr><td></td><td></td><td><p>9</p></td></tr></table><p>WER为23.14%。另一方面,多条件训练被证明是处理噪声记 录的一种优越的策略。在这种情况下,最好的模型同样是 Whisper,WER为45.84%。与干净信号的性能差距,再次突 出了在处理具有挑战性的声学条件时识别性能的显著下降 , 即使是对于使用最先进的自我监督技术如wav2vec、</p><p>WavLM和Whisper(后者甚至是半监督的)进行预训练的模 型。</p><img src="/media/202408//1724838576.5723782.jpeg" /><table><tr><td></td></tr></table><p>图2 : 在-5 dB信噪比下,紧急车辆警报器和斩波器噪声类 型的清洁、噪声和传感器增强话语的对数功率谱图。</p><p>4.2.结合ASR和语音增强</p><p>为了提高ASR的性能,我们开发了一个语音增强系统来清理 录音。为此,我们使用了sepfrer模型,该模型在语音分离 和增强任务[32]中表现出了竞争性能。具体来说,我们在 DNS4数据集上对模型进行了训练,获得的SIG、BAK和OVRL 得分分别为2.999、3.076和2.437。图2显示了两种类型的 噪声音频记录的对数功率谱图,紧急车辆警报器和斩波噪 声,信噪比均为-5 dB,使用在救援语音噪声数据集上的</p><p>sepfrer模型进行微调。从定性的角度来看,seprorr对影 响SAR域的噪声表现良好。图3显示了相同噪声类型下的</p><p>PESQ vs信噪比和SI-SNRi、SDRi vs信噪比。我们观察到, 在信噪比为-5 dB的话语中,SI-信噪比和SDR的改善更大, 表明与高信噪比的话语相比,语音清晰度和失真降低更显 著。这个模式在所有的噪声类型中都是一致的。</p><p>表3显示了通过将语音识别器合并到管道中而获得的语 音增强结果。在第3.3节中,我们探讨了两种方法:独立训 练(模型组合。I)和联合训练(模型梳子。微光</p><p>应急车辆和警报器噪声</p><p><img src="/media/202408//1724838576.670645.png" /></p><p>斩波噪声</p><p><img src="/media/202408//1724838576.732429.png" /></p><p>图3 : PESQ,SDRi,SI-SNRi vs信噪比的PESQ增强了两种噪 声类型的话语——紧急车辆警报器和直升机噪声。</p><p>联合训练方法在所有考虑的语音增强指标(SI-SNRi、SDRi 、PESQ、STOI)和所有ASR模块(CRDNN、Wav2vec2、WavLM 、Whisper)上都得到了改进。表4给出了管道末端的最终 语音识别输出。</p><p>正如预期的那样,联合训练方法优于独立训练的语音增 强和语音识别模块的简单组合。值得注意的是,语音增强 和语音识别模型都使用来自未冻结的化粪池的增强信号进 行微调。我们假设将ASR梯度反向传播到语音增强模型,使 Sepfrorr根据ASR模型的特定要求去噪话语,促进更好的收</p><p>敛。联合训练这两种模型可以使增强模型调整其清洗能力 , 以更好地符合ASR系统的需求。总的来说,表现最好</p><p>模型为SepFrorer与Whisper ASR组合,WER为45.29%。</p><p>5.结论</p><p>我们的工作解决了一些主要的挑战,出现在</p><p>SAR领域:缺乏语音数据,需要对SAR噪声的鲁棒性,以及 会话语音。为了克服这些挑战,我们引入了救援语音,一 个新的德语语音数据数据集,我们用于在充满敌对噪声的 en-中执行鲁棒的语音识别</p><p>沙桂园。为了实现这一点,我们提出了多种训练策略,其 中包括对域内数据上的预训练模型进行微调。我们测试了 不同的自我监督模型(e。g,Wav2Vec2,WavLM,和耳语), 用于语音识别。尽管利用了这些尖端的系统,我们最好的 模型在我们的测试集上只达到了45.29%的WER。这一结果突 出了在这一关键领域的重大困难和迫切需要。</p><p>总的来说,我们的工作代表了在解决SAR领域语音识别 的挑战方面向前迈进了一步。通过引入一个新的数据集, 我们希望建立一个有用的基准,并促进这一领域更多的研 究。</p><p>6 . 致谢</p><p>我们的工作得到了“A-DRZ:建立德国救援机器人中心 ”项 目的支持,并由德国教育和研究部(BMBF)资助,拨款</p><p>No.I3N14856.我们要感谢来自A-DRZ项目的同事转录了数据 集。</p><p>7 . 参考文献</p><p>卡 雷斯,彼得 费特克,和伊万娜 克鲁伊杰夫-科 尔巴耶夫,“ 团队沟通处理和处理安娜-<img src="/media/202408//1724838576.817524.png" /> 支持机器 人辅助紧急重建 <em>2019年IEEE安全、安全和救</em> <em>援机器人国际研讨会(SSRR),2019年。</em></p><p>[1]克里斯蒂安 ·威尔姆斯,康斯坦丁 ·霍伊,雅娜-丽贝</p><p><img src="/media/202408//1724838576.865237.png" />[2] Aylin Gzalan,约翰,托马斯 ·安德烈亚斯</p><p>他,“协助海上搜索和识别(SAR)人员进行基于人 工智能的语音识别 ”</p><p><em>《智能测向》,《海洋科学与工程杂志》,第1卷。</em>8 、没有。10, 2020.</p><p>[3] Saeid Mokaram和罗杰 ·K。摩尔,谢菲尔德</p><p><em>,</em> <em>IEEE声学、语音和信号处理国际会议(ICASSP),</em> <em>2017,页。</em>5840 –5844.</p><p>[4]阿 卜德勒默罕默德,李鸿毅,拉斯 ·博尔戈尔特,</p><p>雅各布D。哈夫顿、艾丁、克里斯蒂安 伊格尔、基</p><p>拉 N。“ 自我监督语音表现学习:评论 ”,IEEE《 信号处理精选专题期刊》,第1卷。16日,没有。6, pp.1179 – 1210, oct 2022.</p><p>尔霍夫、李尚文、凯伦 利维斯库、拉斯 马洛、塔</p><p>[5],阿列克谢 · 贝耶夫斯基,周亨利,阿 卜杜勒拉赫曼 · 穆罕默德,</p><p>和迈克尔 ·奥利,“wav2vec2.0: 自我语音表征监督 学习框架 ”,2020。</p><p>[6]三元、王成义、陈专利,</p><p>吴宇、刘树杰、陈卓、李宇、直树</p><p>神田、吉冈高谷、熊晓、吴吉安、周龙、人说、钱、 钱彦民、吴谦吉安、 曾迈克尔、余相赞、魏羽:</p><p>《全堆栈语音处理的大规模自监督预训练》,《IEEE 》《信号处理精选专题杂志》,第1卷。16日,没有</p><p>。6, pp.1505 – 1518, oct 2022.</p><p>[7]亚历克 ·雷德福,金正旭,徐陶,格雷格 ·布洛克- 克里斯汀 ·麦克利维和伊利亚 ·萨斯克弗,“通过大 规模弱监督的稳健语音识别 ”,2022年。</p><p>[8] Jort F.杰梅克,丹尼尔P。W.埃利斯,迪伦 ·弗里德 曼,</p><p>詹森,韦德劳伦斯,R。 <em>“音频集:音频事件的本体和</em> <em>人类标记的数据集”,在2017年IEEE声学国际会议上</em></p><p><em>,</em></p><p><em>语音与信号处理(ICASSP),2017,pp。</em>776 – 780.</p><p>[9]汤姆科,佩丁蒂,丹尼尔波维,迈克尔L。</p><p><em>“混响语音数据增强研究”,2017年IEEE声学、语音</em> <em>和信号处理国际会议(ICASSP),2017年,页。</em>5220 –5224.</p><p>[10],乔恩 · 巴克,里卡尔 ·马克思,伊曼纽尔 ·文森特, 和</p><p>渡边真司,“第三个语音分离和识别挑战 ”,汇编。 <em>语言语言。</em>,卷。46岁,没有。C, pp.605 –626, nov 2017.</p><p>[11] E.文森特,S。渡边。NugrahaJ。巴克和</p><p>R.“鲁棒语音识别中的环境、麦克风和数据模拟不匹</p><p>配分析 ”,“计算机语音与语言,第1卷。46, pp.535 –557, 2017.</p><p>[12] Jon Barker,渡边真司,伊曼纽尔 ·文森特,和</p><p>Jan Trmal,“第五个“音乐学院 ”语音分离和识别 挑战:数据集、任务和基线 ”。<em>访谈,2018年。</em></p><p>渡边的[13]真嗣等人。挑战: Tack-</p><p>非分段录音的林多扬声器语音识别。<em>第六届日常环境</em> <em>中的语音处理国际研讨会(CHiME</em> <em>2020),2020年。</em></p><p>[14]米尔科 ·拉瓦内利,卢卡 ·克里斯托弗雷蒂,罗伯托 · 格雷特,</p><p>“在国内环境中进行远距离语音识别的DIRHA-英语语</p><p>料库和相关任务, ” <em>在程序中。</em>ASRU,2015年。</p><p>[15],马可 ·马塔索尼,拉姆恩 · 费尔南德斯 · 阿斯图迪洛 ,阿塔纳-6</p><p>“肮脏的语料库:使用分布式麦克风进行多房间远程 语音识别的基线和工具 ”,国立硕士论文。<em>访谈,</em></p><p><em>2014年。</em></p><p>[16] Mirco拉瓦内利和毛里齐奥学,“关于基于受污染语 音训练的远程语音识别的脉冲响应的选择 ”。<em>李海州</em> <em>,</em> <em>海伦M。</em>孟,马英成,谢雷,等,2014。</p><p>[17] Mirco拉瓦内利和毛里齐奥博物馆,“污染-</p><p>鲁棒DNN-HMM远距离语音识别的交替语音训练方法。</p><p><em>的话音,</em></p><p>2015.</p><p>[18]史蒂夫 ·雷纳尔斯,托马斯 ·海恩和赫尔夫 ·布拉德, “会议的认可和解释:AMI和AMIDA项目 ”,在项目。</p><p>ASRU,2007年。</p><p>[19]科琳 ·里奇,玛丽亚A。巴里奥斯,泽布 · 阿姆斯特朗,</p><p>克里斯 · 巴特尔斯、霍拉西奥 弗朗科、· 马丁 ·格雷</p><p>西亚纳、亚伦 劳森、马赫什 库马尔 南德瓦纳、</p><p>艾伦 ·斯道夫、朱利安 范 霍特、保罗 甘布尔、</p><p>杰夫 希瑟利、科里 斯蒂芬森和卡尔 尼,《复杂</p><p>环境中的声音)》,2018年。</p><p>[20],亚历克斯 ·斯图帕科夫,埃文 · 哈努萨,迪帕克 ·维</p><p>埃特尔 福克斯和杰夫 ·A。Bilmes,“余弦的设计 和收集,一个多麦克风原位语音语料库记录在嘈杂的 环境中, ”Comput。<em>语言语言。</em>,卷。26日,没有。 1, pp.52 –66, 2012.</p><p>贾瓦尔吉,迪-</p><p>[21],哈里什钱德拉 ·杜贝,维沙克 ·戈帕尔,罗斯 ·卡特 勒,</p><p>阿扎米,阿扎米,马图塞蒂安 ·布劳恩,埃姆雷 ·埃</p><p>斯基斯、吉冈塔谷,甘珀和罗伯特 艾奇纳, “ICASSP 2022深度噪音抑制挑战 ”,2022。</p><p>[22]克里斯朵夫 ·沃克斯,山岸俊一,和西蒙</p><p><em>King,</em> <em>“语音库语料库:大型区域口音语音数据库的</em> <em>设计、收集和数据分析”,2013年国际会议与2013年</em> <em>亚洲口语研究与评估会议(词汇/CASLRE)联合举办</em> <em>,</em> <em>2013年,页。</em>1 –4.</p><p>[23],戈登 ·威克赫恩,乔 ·安托尼尼,迈克尔 ·弗林,</p><p>朱立,埃美特麦克奎因,德怀特克劳,伊桑曼尼洛和 乔纳森勒鲁,“哇!:将语音分离扩展到嘈杂的环境 中。 ”<em>对话,9月。</em>2019.</p><p>[24]塔拉N。圣人,圣人,老安德鲁,和</p><p>有¸imSak,“卷积,长短期记忆,全连接的深度神经 网络 ”,在2015年IEEE</p><p><em>声学、语音和信号处理国际会议(ICASSP),2015年</em> <em>,</em> <em>第3页。</em>4580 –4584.</p><p>[25]羽生翔,唐,苏天晴,克里斯汀</p><p>刘立赫,刘立波,塞缪尔S。毛和马库斯 ·盖默,“ 快速CRDNN:走向移动建筑机器的现场培训 ”,IEEE访 问,卷。9, pp.124253 – 124267, 2021.</p><p>[26] Rosana阿迪拉,梅根 ·布兰森,凯利 ·戴维斯,迈克 尔</p><p>桑德斯,弗朗西斯M。泰尔斯和格雷戈尔 韦伯,《 共同的声音:一个大量多语言的演讲语料库》,2019 年。</p><p>亨利蒂,迈克尔科勒,乔什迈耶,鲁本莫莱斯,林赛</p><p>[27]本杰明 ·米尔德和Arne Koehn,“开源汽车-</p><p>德语语音识别,语音交流中;第13届ITG研讨会, 2018,页。1 –5.</p><p>[28]德克 ·戈德哈恩,托马斯 ·埃卡特和乌维 ·夸瑟夫,</p><p><em>“在莱比锡语料库集合中建立大型单语词典:100-200</em> <em>种语言”,第八届国际语言资源和评估会议(LREC‘</em> <em>12),土耳其伊斯坦布尔,2012年5月,页。</em>759-765 ,欧洲语言资源协会(ELRA)。</p><p>[29]马修D。《阿达德尔塔:一种适应性的学习》 收费方法,2012年。</p><p>[30]DiedriekP。《亚当:一种方法》 对于随机优化, ”2014。</p><p>[31] Cem苏巴坎,米尔科 ·拉瓦内利,康奈尔大学,</p><p>米尔子 ·布朗子,钟建元,“注意力就是言语分离中 你所需要的一切 ”,2020年。</p><p>[32] Cem苏巴坎,米尔科拉瓦内利,康奈尔,弗兰-</p><p>科伊斯 ·格隆丁和米尔科 ·布隆齐,《关于使用变形</p><p>金刚进行演讲分离》,2022年。</p>
刘世财
2024年8月28日 17:49
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
HTML文件
PDF文档(打印)
分享
链接
类型
密码
更新密码