当前位置：首页 > news >正文

Core Speech Kit简介

news 2025/10/3 9:02:37

Core Speech Kit简介

概述

Core Speech Kit（基础语音服务）是鸿蒙系统集成的语音类基础AI能力，提供文本转语音（TextToSpeech）及语音识别（SpeechRecognizer）两大核心功能。该服务便于用户与设备进行自然语言交互，实现实时语音与文本之间的双向转换。

核心功能

文本转语音（TTS）

将不超过10000字数的文本合成为语音并进行播报，支持多种音色和播报策略配置。

主要特性：

支持中文、英文（简体中文、繁体中文、中文语境下的英文）
提供三种音色：聆小珊女声音色、英语（美国）劳拉女声音色、凌飞哲男声音色
支持单词播报、数字播报、静音停顿、汉字发音策略等播报策略
适用于无障碍服务、屏幕朗读、新闻播报等场景

语音识别（ASR）

将音频信息转换为文本，支持短语音模式（不超过60s）和长语音模式（不超过8h）。

主要特性：

支持中文普通话识别
采用离线模型，无需网络连接
支持PCM音频文件和实时语音输入
适用于听障人士辅助、会议记录、语音输入等场景

应用场景

无障碍服务

视障人士辅助：系统应用无障碍（屏幕朗读）接入文本转语音能力，为视障人士提供播报服务
听障人士辅助：为听障人士或不方便收听音频的场景提供音频转文本能力

智能交互

语音输入：将用户语音实时转换为文本，提升输入效率
语音播报：将文本内容以语音形式播报，增强用户体验
会议记录：长语音模式支持会议录音转文字

系统集成

系统通知：重要通知以语音形式播报
导航播报：导航信息语音播报
新闻阅读：新闻内容自动播报

技术架构

开发环境要求

设备限制：仅适用于中国境内（不包含中国香港、中国澳门、中国台湾）的Phone、Tablet、PC/2in1
系统要求：HarmonyOS 5.0+
开发工具：DevEco Studio 5.0.7.210+

核心API结构

// 文本转语音
import { textToSpeech } from '@kit.CoreSpeechKit';// 语音识别
import { speechRecognizer } from '@kit.CoreSpeechKit';

开发指南

文本转语音开发流程

创建引擎

let ttsEngine: textToSpeech.TextToSpeechEngine;
let initParamsInfo: textToSpeech.CreateEngineParams = {language: 'zh-CN',person: 0,online: 1,extraParams: {"style": 'interaction-broadcast', "locate": 'CN'}
};textToSpeech.createEngine(initParamsInfo, (err, engine) => {if (!err) {ttsEngine = engine;}
});

设置播报参数

let speakParams: textToSpeech.SpeakParams = {requestId: '123456',extraParams: {"queueMode": 0,"speed": 1,"volume": 2,"pitch": 1}
};

执行播报

ttsEngine.speak("Hello HarmonyOS", speakParams);

语音识别开发流程

创建识别引擎

let asrEngine: speechRecognizer.SpeechRecognitionEngine;
let initParamsInfo: speechRecognizer.CreateEngineParams = {language: 'zh-CN',online: 1,extraParams: {"locate": "CN", "recognizerMode": "short"}
};speechRecognizer.createEngine(initParamsInfo, (err, engine) => {if (!err) {asrEngine = engine;}
});

设置识别参数

let recognizerParams: speechRecognizer.StartParams = {sessionId: '123456',audioInfo: {audioType: 'pcm',sampleRate: 16000,soundChannel: 1,sampleBit: 16}
};

开始识别

asrEngine.startListening(recognizerParams);

播报策略配置

单词播报方式

[h0]：智能判断单词播放方式（默认）
[h1]：逐个字母进行播报
[h2]：以单词方式进行播报

数字播报策略

[n0]：智能判断数字处理策略（默认）
[n1]：作为号码逐个数字播报
[n2]：作为数值播报

静音停顿

[pN]：插入N毫秒的静音停顿

汉字发音指定

[=MN]：M表示拼音，N表示声调（1-5）

权限配置

麦克风权限

{"requestPermissions": [{"name": "ohos.permission.MICROPHONE","reason": "$string:reason","usedScene": {"abilities": ["EntryAbility"],"when": "inuse"}}]
}