当前位置：首页 > news >正文

关于亚马逊TTS的笔记

news 2025/10/23 17:42:44

文章目录

一、前言
二、本地环境配置操作
三、基础内容
- 1、查看支持的语言及语音（不要盲目相信官方文档描述）
- 2、引入依赖
- 3、統一註冊事件
- - 1、利用本地环境模式
  - 2、引入本地文件的模式
  - 3、直接赋值的模式
四、TTS 方式
- 1、标准模式(standard)
- 2、神经语言模式（neural）
- - 2.1、注意事项
  - 2.2、组合示例
  - - 2.2.1、添加停顿（break)
    - 2.2.1、强调词语（emphasis）
    - 2.2.2、指定另一种语言（lang)
    - 2.2.3、在文字中放置自訂標籤（mark)
    - 2.2.4、段落暂停（p）
    - 2.2.5、语速、音调、音量（prosody）
五、内容补充
- 注意点：

一、前言

本文根据AWS的TTS 功能构建试验文档，包含java实践

引入文档 - Amazon Polly

基于官方提供文档和合作伙伴提供的讯息，主要有两种模式搭建

1、利用环境安装

2、利用环境的文件

二、本地环境配置操作

列出配置

aws configure list

设置配置

然后填入已经准备好的讯息

AWS Access Key ID: 您的访问密钥 ID。
AWS Secret Access Key: 您的密钥。
默认区域（如：us-west-1）。
输出格式（如：json）。

aws configure

三、基础内容

1、查看支持的语言及语音（不要盲目相信官方文档描述）

言语列表参考地址： https://docs.aws.amazon.com/polly/latest/dg/available-voices.html

# 这里是获取标准的语言
DescribeVoicesRequest describeVoiceRequest = DescribeVoicesRequest.builder()
        .engine("standard")
        .build();

DescribeVoicesResponse describeVoicesResult = polly.describeVoices(describeVoiceRequest);

2、引入依赖

<dependencyManagement>
        <dependencies>
            <dependency>
                <groupId>software.amazon.awssdk</groupId>
                <artifactId>bom</artifactId>
                <version>2.29.45</version>
                <type>pom</type>
                <scope>import</scope>
            </dependency>
        </dependencies>
    </dependencyManagement>
    <dependencies>
        <dependency>
            <groupId>org.junit.jupiter</groupId>
            <artifactId>junit-jupiter</artifactId>
            <version>5.11.4</version>
            <scope>test</scope>
        </dependency>
        <dependency>
            <groupId>org.slf4j</groupId>
            <artifactId>slf4j-log4j12</artifactId>
            <version>2.0.5</version>
        </dependency>
        <dependency>
            <groupId>software.amazon.awssdk</groupId>
            <artifactId>polly</artifactId>
        </dependency>
        <dependency>
            <groupId>com.googlecode.soundlibs</groupId>
            <artifactId>jlayer</artifactId>
            <version>1.0.1.4</version>
        </dependency>
        <dependency>
            <groupId>software.amazon.awssdk</groupId>
            <artifactId>sso</artifactId>
        </dependency>
        <dependency>
            <groupId>software.amazon.awssdk</groupId>
            <artifactId>ssooidc</artifactId>
        </dependency>
    </dependencies>

3、統一註冊事件

大陆及港澳台 REGION = "ap-southeast-1"

构建 PollyClient

1、利用本地环境模式

正如【二】中所示，在运行环境中配置 aws configure 即可。

执行sdk过程中不设置 profileFile 和 credentialsProvider 即可

PollyClient polly = PollyClient.builder()
        .region(Region.of(REGION))
        .build();

2、引入本地文件的模式

由 资源目录 中设置配置文件,示例配置文件 credentials

[default]
aws_access_key_id = EXAMPLEACCESSKEY1234
aws_secret_access_key = EXAMPLESECRETKEY1234567890abcdefg

[my-profile]
aws_access_key_id = EXAMPLEACCESSKEY12345
aws_secret_access_key = EXAMPLESECRETKEY1234567890abcdefgh

// 从 resources 中获取凭证文件的输入流，假设文件路径为 "/aws/credentials"
InputStream credentialsStream = PollyDemo.class
        .getResourceAsStream("/aws/credentials");
if (credentialsStream == null) {
    throw new RuntimeException("未能在 resources 中找到 '/aws/credentials' 文件");
}

// 将资源文件复制到临时文件中
Path tempCredentialsFile = Files.createTempFile("aws-credentials", ".tmp");
Files.copy(credentialsStream, tempCredentialsFile, StandardCopyOption.REPLACE_EXISTING);
credentialsStream.close();
// 使用临时文件构造 ProfileFile 对象
ProfileFile profileFile = ProfileFile.builder()
        .content(tempCredentialsFile)
        .type(ProfileFile.Type.CREDENTIALS)
        .build();

DefaultCredentialsProvider build = DefaultCredentialsProvider.builder().profileFile(profileFile)
        .profileName("my-profile").build();

PollyClient polly = PollyClient.builder()
        .credentialsProvider(build)
        .region(Region.AP_SOUTHEAST_1)
        .build();

3、直接赋值的模式

直接明文配置内容

// 创建 PollyClient
PollyClient polly = PollyClient.builder()
        .credentialsProvider(StaticCredentialsProvider.create(
                AwsBasicCredentials.create(ACCESS_KEY, SECRET_KEY)
        ))
        .region(Region.of(REGION))
        .build();

四、TTS 方式

这里采用 mode 作为参数值，可参考 software.amazon.awssdk.services.polly.model.Engine

其实靠谱实际用的就是 standard 和 neural

standard (标准)
neural （神经）
long-form （长格式语音）
generative（生成式语音）

DescribeVoicesRequest describeVoiceRequest = DescribeVoicesRequest.builder()
        .engine(mode)
        .build();

获取语音实体,这里示例获取Joanna

  DescribeVoicesResponse describeVoicesResult = polly.describeVoices(describeVoiceRequest);
        Voice voice = describeVoicesResult.voices().stream()
                .filter(
                        v -> {
                            System.out.println(v.name());
                            return v.name().equals("Joanna");
                        }
                )
                .findFirst()
                .orElseThrow(() -> new RuntimeException("Voice not found"));

利用存在的语音实体来获取所需转录的文本语音文件流

这里 text 为所需转录的文本

format 通常为 OutputFormat.MP3

SynthesizeSpeechRequest synthReq = SynthesizeSpeechRequest.builder()
        .text(text)
        .voiceId(voice.id())
        .outputFormat(format)
        .build();

ResponseInputStream<SynthesizeSpeechResponse> synthRes = polly.synthesizeSpeech(synthReq);

1、标准模式(standard)

可以权当为类似微软的【纯文本模式】，主要用于文本转录

2、神经语言模式（neural）

这里主要不同的是可以对 text 内容设置

可以参阅网站： https://docs.aws.amazon.com/zh_cn/polly/latest/dg/ssml.html

主要围绕着官网摘抄

2.1、注意事项

针对内容中含有的【标点符号】，应该尽量替换

名称	字符	转义代码
引号（双引号）	"	"
表示和的符号	&	&
撇号或单引号	’	'
小于号	<	<
大于号	>	>

2.2、组合示例

所有标签都需要存在根节点 speak

根节点内可以任意组合标签，这里举例是通用举例
<speak>{{content}}</speak>

2.2.1、添加停顿（break)

两种属性来进行设置停顿

strength

如果 break 标签旁边没有其他标点，则将创建 <break strength="medium"/>（逗号时长停顿）。
如果标签位于逗号旁边，则将标签升级到 <break strength="strong"/>（句子时长停顿）。
如果标签位于句号旁边，则将标签升级到 <break strength="x-strong"/>（段落时长停顿）。

time

[number]s：停顿的持续时长，以秒为单位。持续时长上限为 10s。

[number]ms：停顿的持续时长，以毫秒为单位。持续时长上限为 10000ms。

<speak>
     Mary had a little lamb <break time="3s"/>Whose fleece was white as snow.
</speak>
<speak>
     Mary had a little lamb <break strength="medium"/>Whose fleece was white as snow.
</speak>

2.2.1、强调词语（emphasis）

level
Strong：提高音量並減慢說話的速度，讓語音更大聲、更緩慢。
Moderate：提高音量並減慢說話的速度，但幅度比 strong 還小。Moderate 是預設值。
Reduced：降低音量並加快說話的速度。語音更輕柔、更快速。

<speak>I already told you I <emphasis level="strong">really like</emphasis> that person.</speak>

2.2.2、指定另一种语言（lang)

支持的语言可参考： https://docs.aws.amazon.com/zh_cn/polly/latest/dg/supported-languages.html

参考内容，若是本段内容使用 en-US ，则加入的内容为额外使用粤语来阅读

<speak>
     Hi <lang xml:lang="yue-CN">请问你吃饭了没</lang>.
</speak>

2.2.3、在文字中放置自訂標籤（mark)

高频调用时，可用于 特殊标记

<speak>
     Mary had a little <mark name="animal"/>lamb.
</speak>

调用接口后，返回标记的偏移值和标记值

{"time":767,"type":"ssml","start":25,"end":46,"value":"animal"}

2.2.4、段落暂停（p）

其实说白了，兼容 p 标签，可以短暂暂停。

2.2.5、语速、音调、音量（prosody）

基于神经语言模式，volume和 rate 屬性即可

volume
default：重設音量為目前語音的預設音量。
silent、x-soft、soft、medium、loud、x-loud：將音量設定為目前語音的預先定義值。
+ndB、-ndB：根據目前音量來變更音量。+0dB 的值代表無變動，+6dB 表示大約目前音量的兩倍，-6dB 則是指大約目前音量的一半。

rate
x-slow、slow、medium、fast、x-fast。將音調設定為所選語音的預先定義值。
n%：說話速度的非負值百分比變更。例如，100% 表示說話速度無變化，200% 表示說話速度是預設速度的兩倍，以及 50% 表示說話速度率是預設速度的一半。這個值的範圍為 20 到 200%。

<speak>
     Sometimes it can be useful to <prosody volume="loud" rate="105%">increase the volume 
     for a specific speech.</prosody>                     
</speak>

五、内容补充

注意点：

这里需要增加languageCode 和 engine ，否则会莫名400错误，找不到engine

   SynthesizeSpeechRequest synthReq = SynthesizeSpeechRequest.builder()
                 .text(voiceReq.getContent())
                 .voiceId(voice.id())
                 .outputFormat(OutputFormat.MP3)
                 .languageCode(voice.languageCode())
                 .engine(Engine.NEURAL)
                 .build();

@PostMapping("/tts")
public String tts(VoiceReq voiceReq) {
    if (hasWork && StringUtil.isNotEmpty(voiceReq.getContent())) {
        String basePath = TtsUtils.buildFilePath("tc");
        String fileName = DigestUtil.sha256Hex(voiceReq.getContent());
        StringBuffer absolvePath = new StringBuffer(basePath).append("/").append(fileName).append(".mp3");
        try {
            boolean fileExist = TtsUtils.checkFile(absolvePath.toString());
            if (fileExist) {
                return fileName;
            }
            AwsTrans.synthesize(aws_access_key_id, aws_secret_access_key, voiceReq, absolvePath.toString());
            return fileName;
        } catch (IOException e) {
            e.printStackTrace();
        } catch (JavaLayerException e) {
            e.printStackTrace();
        }
        return null;
    }
    return null;
}

public class AwsTrans {

    /**
     * @param ACCESS_KEY
     * @param SECRET_KEY
     * @param voiceReq
     * @param pathName
     * @return
     * @throws IOException
     * @throws JavaLayerException
     * @desc build the new voice file from aws tts function
     */
    public static String synthesize(String ACCESS_KEY, String SECRET_KEY, VoiceReq voiceReq, String pathName) throws IOException, JavaLayerException {
        PollyClient polly = PollyClient.builder()
                .credentialsProvider(StaticCredentialsProvider.create(
                        AwsBasicCredentials.create(ACCESS_KEY, SECRET_KEY)
                ))
                .region(Region.AP_SOUTHEAST_1)
                .build();

        String fileName = talkPolly(polly, voiceReq, pathName);
        polly.close();
        return fileName;
    }

    private static String talkPolly(PollyClient polly, VoiceReq voiceReq, String pathName) {
        try {
            DescribeVoicesRequest describeVoiceRequest = DescribeVoicesRequest.builder()
                    .engine(Engine.NEURAL)
                    .build();
            LanguageCode languageCode = LanguageCode.YUE_CN;
            String voiceName = "Hiujin";
            if (voiceReq.getLanguage().equalsIgnoreCase("en")) {
                languageCode = LanguageCode.EN_US;
                voiceName = "Joanna";
            } else if (voiceReq.getLanguage().equalsIgnoreCase("sc")) {
                languageCode = LanguageCode.CMN_CN;
                voiceName = "Zhiyu";
            }
            DescribeVoicesResponse describeVoicesResult = polly.describeVoices(describeVoiceRequest);
            LanguageCode finalLanguageCode = languageCode;
            String finalVoiceName = voiceName;
            Voice voice = describeVoicesResult.voices().stream()
                    .filter(v -> v.name().equals(finalVoiceName))
                    .findFirst()
                    .orElseThrow(() -> new RuntimeException("Voice not found"));

            SynthesizeSpeechRequest synthReq = SynthesizeSpeechRequest.builder()
                    .text(voiceReq.getContent())
                    .voiceId(voice.id())
                    .outputFormat(OutputFormat.MP3)
                    .languageCode(voice.languageCode())
                    .engine(Engine.NEURAL)
                    .build();

            ResponseInputStream<SynthesizeSpeechResponse> synthRes = polly.synthesizeSpeech(synthReq);

            saveToFile(synthRes, pathName);
            System.out.println("Synthesis complete.");
            return pathName;
        } catch (PollyException | IOException e) {
            System.err.println("Polly Exception: " + e.getMessage());
            return null;
        }
    }

    private static void saveToFile(InputStream stream, String pathName) throws IOException {
        StringBuffer pathString = new StringBuffer(pathName);
        try (FileOutputStream fos = new FileOutputStream(pathString.toString())) {
            byte[] buffer = new byte[1024];
            int bytesRead;
            while ((bytesRead = stream.read(buffer)) != -1) {
                fos.write(buffer, 0, bytesRead);
            }
            System.out.println("Audio saved to " + pathString.toString());
        }
    }
}