​Distil-Whisper:比Whisper快6倍,体积小50%的语音识别模型

内容来源:@xiaohuggg

Distil-Whisper:比Whisper快6倍,体积小50%的语音识别模型

​该模型是由Hugging Face团队开发,它在Whisper核心功能的基础上进行了优化和简化,体积缩小了50%。速度提高了6倍。并且在分布外评估集上的字错误率 (WER) 不超过 1%。
它还可以作为 Whisper 的助手模型用于推测性解码,速度提高了2倍。
主要优点:
速度 - Distil-Whisper 的推理速度是 Whisper 的 6 倍。
尺寸 - 模型大小减少了 49%,更适合资源有限的设备。
准确性 - 词错误率(WER)与 Whisper 相比只有 1% 的差距。
抗噪声 - 在嘈杂环境下仍能保持较高的识别准确性。
减少幻听 - 减少了重复词组的出现,并降低了插入错误率。
推测性解码 - 作为 Whisper 的辅助模型,推理速度提高了 2 倍。

主要方法:

Whisper模型是一个基于大规模弱监督数据训练的语音识别模型,具有1.5亿参数,并在680,000小时的语音识别数据上进行预训练,展现出在多个数据集和领域的强大泛化能力。然而,随着预训练语音识别模型大小的增加,将这些大型模型部署到低延迟或资源受限的环境中变得越来越困难。
为了解决这个问题,研究者们采用了伪标签方法来构建一个大规模的开源数据集(在 9 个不同的开源数据集上接受了 22,000 个小时的训练,涵盖 10 个域、超过 18,000 个说话者),并使用这个数据集来进行知识蒸馏,从而创建了Distil-Whisper模型。
研究者们使用了一个基于词错误率(WER)的启发式方法来筛选高质量的伪标签,以用于训练Distil-Whisper模型。
实验结果:

Distil-Whisper模型在保持原有 Whisper 模型核心功能的基础上,显著提高了处理速度。速度提高了5.8倍,参数减少了51%,并且在零样本迁移设置中对分布外测试数据的WER性能仅下降了1%。
这一速度的提升不仅意味着在相同的时间内可以处理更多的语音数据,而且对于那些需要快速响应的应用场景,如实时语音翻译、实时会议记录等,具有重要的实际意义。
在长音频评估中,Distil-Whisper的表现甚至超过了原始的Whisper模型,这主要是因为它在处理长形音频时产生幻听错误的倾向较低。
此外,Distil-Whisper与Whisper模型共享相同的编码器权重,这意味着它可以作为Whisper的辅助模型,用于推测性解码,从而实现了2倍的推理速度提升,同时确保预测结果与原始模型相同。这使得Distil-Whisper可以作为现有使用Whisper的语音识别管道的即插即用替代品。
由于模型更小,对计算资源的需求也相对较低,这使得它更适合在资源受限的设备上运行,例如在移动设备或边缘计算设备上。这种轻量级的设计也使得 Distil-Whisper 在网络带宽有限或计算能力受限的环境中更为实用。
模型下载:

https:https://huggingface.co/collections/distil-whisper/distil-whisper-models-65411987e6727569748d2eb6

论文:

https://arxiv.org/abs/2311.00430
GitHub:https://github.com/huggingface/distil-whisper

Colab:httphttps://colab.research.google.com/github/sanchit-gandhi/notebooks/blob/main/Distil_Whisper_Benchmark.ipynbain/Distil_Whisper_Benchmark.ipynb

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/143665.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

条码管理在WMS仓储管理系统中的应用

在当今快节奏的商业环境中,仓储管理对于企业的运营和成本控制具有重要意义。为了提高管理效率和准确性,越来越多的企业开始采用条码管理WMS系统。本文将介绍这一系统的应用场景、条码引入WMS仓储管理系统的步骤以及其在仓储管理中的应用价值,…

如何使用功率放大器

功率放大器是一种用于放大电流或电压的重要设备,广泛应用于音频、通信、无线电和电力等领域。正确地使用功率放大器可以确保其正常工作并获得满意的性能。下面西安安泰将介绍使用功率放大器的一般步骤和注意事项。 首先,了解功率放大器的规格和特性非常重…

uniapp运行到安卓模拟器一直在“同步手机端程序文件完成“界面解决办法

如果你是用的模拟器是android studio创建的模拟器,那么你需要新创建一个android11 x86架构的模拟器: 创建完成后,启动模拟器: 然后在hbuilder中重新运行到这个模拟器就可以了: 运行结果: 如果你是用安…

如何在 macOS 中删除 Time Machine 本地快照

看到这个可用82GB(458.3MB可清除) 顿时感觉清爽,之前的还是可用82GB(65GB可清除),安装个xcode都安装不上,费解半天,怎么都解决不了这个问题,就是买磁盘情理软件也解决不了…

leetcode:LCR 133. 位 1 的个数(python3解法)

难度:简单 编写一个函数,输入是一个无符号整数(以二进制串的形式),返回其二进制表达式中数字位数为 1 的个数(也被称为 汉明重量).)。 提示: 请注意,在某些语言&#xff…

STM32 I2C详解

STM32 I2C详解 I2C简介 I2C(Inter IC Bus)是由Philips公司开发的一种通用数据总线 两根通信线: SCL(Serial Clock)串行时钟线,使用同步的时序,降低对硬件的依赖,同时同步的时序稳定…

网网络安全基础之php开发 文件读取、写入功能的实现

前言 续之前的系列,这里php开发的文件操作的内容读取以及文本写入的部分 文件读取代码的实现 css代码 本系列的php博客都是这个css,名字都是index.css /* css样式初始化 */ * {font-family: Poppins, sans-serif;margin: 0;padding: 0;box-sizing: …

新版软考高项试题分析精选(二)

请点击↑关注、收藏,本博客免费为你获取精彩知识分享!有惊喜哟!! 1、除了测试程序之外,黑盒测试还适用于测试( )阶段的软件文档。 A.编码 B.总体设计 D.数据库设计 C.软件需求分析 答案&a…

基于vue 2.0的H5页面中使用高德地图定位,搜索周边商户,覆盖物标记

基于vue的H5页面中使用高德地图定位&#xff0c;搜索周边商户&#xff0c;覆盖物标记 首先安装高德地图插件 npm i amap/amap-jsapi-loader --save地图承载容器 <template><div id"container"></div> </template>地图容器样式 <style…

C语言精选练习题:(7)计算最大值和最小值的差

每日一言 欲把西湖比西子&#xff0c;淡妆浓抹总相宜。 --饮湖上初晴后雨二首其二 题目 输入10个整数&#xff0c;找出其中的最大和最小值&#xff0c;计算两者的差&#xff0c;并打印出来 解题思路 创建一个数组用循环将10个整数存到数组中用打擂台的方式求出最大和最小值打…

ModuleNotFoundError_ No module named ‘Crypto‘

当要使用 python 进行加密数据的时候报错了 from Crypto.Util.Padding import pad, unpad from Crypto.Cipher import AES报错 File "F:\huisu.py", line 1, in <module>from Crypto.Util.Padding import pad, unpad ModuleNotFoundError: No module named Cr…

2024河南光伏展|郑州光伏储能展2024|4月8-10日华中地区首展

2024第四届中国(郑州)太阳能光伏及储能产业展览会   时间&#xff1a;2024年4月8-10日   地点&#xff1a;郑州.中原国际博览中心 在全球清洁能源领域&#xff0c;一年一度的中国&#xff08;郑州&#xff09;太阳能光伏及储能产业展览会已成为业界的标杆盛会。2024年的第…

C++ 二叉树进阶

二叉搜索树 二叉搜索树概念 二叉搜索树又称二叉排序树/二叉查找树&#xff0c;它可以是空树/具有以下性质的二叉树: 若它的左子树不为空&#xff0c;则左子树上所有节点的值都小于根节点的值 若它的右子树不为空&#xff0c;则右子树上所有节点的值都大于根节点的值它的…

代驾预约小程序系统源码 :提起预约,避免排队 带完整搭建教程

大家好啊&#xff0c;又到罗峰来给大家分享好用的源码系统的时间了。今天要给大家分享的第一款代驾预约小程序源码系统。传统的代驾服务中&#xff0c;用户往往需要在酒后代驾、长途驾驶等场景下&#xff0c;面对排队等待代驾司机空闲时间的繁琐过程。这不仅浪费了用户的时间和…

数字化产品经理的金字塔能力模型

在企业数字化转型的浪潮下&#xff0c;要求IT团队更加主动的服务业务、赋能业务&#xff0c;而数字化产品经理正是IT、业务融合的桥梁&#xff0c;该岗位需要具备业务、技术、商业的复合知识结构&#xff0c;并且拥有很强的自驱力。那么数字化产品经理在企业如何产生价值、赋能…

ThreadLocal原理及使用场景

ThreadLocal意为线程本地变量&#xff0c;用于解决多线程并发时访问共享变量的问题 明显&#xff0c;在多线程的场景下&#xff0c;当有多个线程对共享变量进行修改的时候&#xff0c;就会出现线程安全问题&#xff0c;即数据不一致问题。常用的解决方法是对访问共享变量的代码…

【C++】——继承和派生

&#x1f383;个人专栏&#xff1a; &#x1f42c; 算法设计与分析&#xff1a;算法设计与分析_IT闫的博客-CSDN博客 &#x1f433;Java基础&#xff1a;Java基础_IT闫的博客-CSDN博客 &#x1f40b;c语言&#xff1a;c语言_IT闫的博客-CSDN博客 &#x1f41f;MySQL&#xff1a…

皮具加工厂ERP有哪些牌子?企业使用皮具加工厂ERP有什么好处

日常生活当中有很多类型和款式的箱包皮具&#xff0c;这些商品有差异化的用料、配方、品质、颜色、款式等&#xff0c;琳琅满目的皮具也给我们的生活带来诸多的便利。 皮具加工厂发展阶段的不同&#xff0c;遇到的管理难点各异&#xff0c;其中&#xff0c;生产现场数据采集、…

DISSECT

XAE 学习架构 OGB means ‘Orthogonal Gate Block’&#xff0c;shared (A ∗ ^∗ ∗, B ∗ ^∗ ∗) and unshared (A ⊥ ^⊥ ⊥, B ⊥ ^⊥ ⊥) information&#xff0c;Φ是编码器&#xff0c;Ψ是解码器 辅助信息 作者未提供代码

【技术干货】开源库 Com.Gitusme.Net.Extensiones.Core 的使用(二)

Com.Gitusme.Net.Extensiones.Core 扩展库 1.0.6 版本已发布。 1、版本变更说明 新增Sokcet套接字扩展。简化Socket操作&#xff0c;支持自定义命令封装&#xff0c;使用方便快捷&#xff0c;让您聚焦业务实现&#xff0c;而不必关心底层逻辑&#xff0c;提高开发效率。日志功…
最新文章