HKUST Mandarin Telephone Speech, Part 1数据集介绍,官网编号LDC2005S15
2026/6/6 4:41:12 网站建设 项目流程

HKUST Mandarin Telephone Speech, Part 1(LDC2005S15)是由香港科技大学(HKUST)在 DARPA EARS 框架下构建的大规模普通话电话会话语音数据集,核心为约 149 小时训练与开发集语音数据,适配语音识别、说话人识别等研究场景,其配套文本转录数据对应 LDC2005T32。以下从核心信息、数据采集、标注与特性、应用与获取等方面展开介绍:


一、核心基础信息

属性详情
数据集名称HKUST Mandarin Telephone Speech, Part 1
LDC 编号LDC2005S15
开发机构香港科技大学(HKUST)
发布时间2005 年
数据规模约 149 小时普通话电话会话语音,含 873 个训练集通话、24 个开发集通话
配套数据转录文本数据对应 LDC2005T32(HKUST Mandarin Telephone Transcript Data, Part 1)
来源背景2004 年 HKUST 受 DARPA EARS 项目委托采集 200 小时普通话电话会话语音,首批 50 小时用于 RT - 04 NIST 评估,本数据集包含剩余 150 小时中的训练与开发集

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询