IT之家 5 月 1 日消息,本周早些时候,Mozilla 宣布其 Common Voice 数据集现在包含超过 20000 小时的内容,世界各地的任何人都可以使用这些内容来改进他们的语音识别软件,几乎是一年前的两倍。IT之家了解到,最新的英语数据集有 71 GB,支持的语言也比以往任何时候都多,增加了蒂格雷语、闽南语、Meadow Mari、孟加拉语、道本语和粤语。根据 Mozilla 的说法,Common Voice 项目允许任何人为项目贡献自己的声音,从而让虚拟助手能够理解更多的口音。此外,Common Voice 项目是开源的,可确保大型科技公司无法独占,为小型开发商和公司提供了构建竞争产品和服务的机会。Mozilla 在最新数据集版本中指出的亮点如下:6 种新语言:蒂格雷语、闽南语、Meadow Mari、孟加拉语、道本语和粤语。27 种语言至少有 100 小时的语音数据,包括孟加拉语、泰语、巴斯克语和弗里斯兰语。9
Mozilla 开源语音数据集已拥有超两万小时内容,新增支持粤语、闽南语
2022-05-01 14:47:34来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 阿里通义千问开源 Qwen2.5 大模型,号称性能超越 Llama2024-09-19 14:21:51
- Snap 发布第 5 代 Spectacles AR 眼镜:集成 OpenAI 多模态 AI 模型,支持语音控制2024-09-18 08:58:57
- “最强开源模型”Reflection 被打假,英伟达科学家称现有测试基准已不靠谱2024-09-13 18:38:35
- 元象发布中国最大 MoE 开源大模型:总参数 255B,激活参数 36B2024-09-13 20:49:18
- 开源鸿蒙 OpenHarmony 社区累计已超 8000 名贡献者,9 月 26 日举办生态主题演讲2024-09-10 04:05:08
- 打击网络谣言:上海警方将反谣语音植入共享单车,日均播放约 240 万次2024-09-08 18:53:45
- “国内首个端到端通用语音 AI 大模型”心辰 Lingo 发布,号称中文效果比 GPT-4o 更出色2024-09-06 18:59:42
- 国内航天领域首款智慧物联操作系统“天鸿”发布,基于开源鸿蒙打造2024-09-01 17:23:23
- 最强端侧开源 AI 模型 Zamba2-mini 登场:12 亿参数,4bit 量化下内存占用小于 700MB2024-08-29 15:29:44
- 微软向 Wine 团队捐赠 Mono 开源项目2024-08-28 08:54:30
- 1动力锂电池高新技术企业“星恒电源”完成数亿元融资
- 2任天堂 Switch 游戏《马力欧&路易吉 RPG 兄弟齐航!》今晚发售,429 港币
- 3阿里巴巴开源工具 EasyExcel 宣布逐步进入维护模式:不再主动新增功能
- 4Exynos 2500 芯片遇挑战,消息称三星 3nm 工艺良率低于 20%
- 5中国网络视听协会:今年微短剧市场规模有望首超内地电影票房
- 6亚马逊将向意大利数据中心业务投资13亿美元
- 7人民币兑美元中间价报7.1433,调升226个基点
- 8创业板指涨超2%,沪指涨近1%
- 9小鹏汽车明年将扩大到 60 个国家和地区市场,目标成为面向全球的 AI 汽车公司
- 10多口插拔不断连:酷态科 10 号 CP 超级闪充块单体版 105 元新低