当前位置: 首页 > news >正文

Java 字符编码问题,怎么优雅地解决?

网罗开发(小红书、快手、视频号同名)

  大家好,我是 展菲,目前在上市企业从事人工智能项目研发管理工作,平时热衷于分享各种编程领域的软硬技能知识以及前沿技术,包括iOS、前端、Harmony OS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。

图书作者:《ESP32-C3 物联网工程开发实战》
图书作者:《SwiftUI 入门,进阶与实战》
超级个体:COC上海社区主理人
特约讲师:大学讲师,谷歌亚马逊分享嘉宾
科技博主:华为HDE/HDG

我的博客内容涵盖广泛,主要分享技术教程、Bug解决方案、开发工具使用、前沿科技资讯、产品评测与使用体验。我特别关注云服务产品评测、AI 产品对比、开发板性能测试以及技术报告,同时也会提供产品优缺点分析、横向对比,并分享技术沙龙与行业大会的参会体验。我的目标是为读者提供有深度、有实用价值的技术洞察与分析。

展菲:您的前沿技术领航员
👋 大家好,我是展菲!
📱 全网搜索“展菲”,即可纵览我在各大平台的知识足迹。
📣 公众号“Swift社区”,每周定时推送干货满满的技术长文,从新兴框架的剖析到运维实战的复盘,助您技术进阶之路畅通无阻。
💬 微信端添加好友“fzhanfei”,与我直接交流,不管是项目瓶颈的求助,还是行业趋势的探讨,随时畅所欲言。
📅 最新动态:2025 年 3 月 17 日
快来加入技术社区,一起挖掘技术的无限潜能,携手迈向数字化新征程!


文章目录

    • 前言
    • 背景:为什么会出现编码问题?
    • 常见场景分析
      • 控制台输出乱码
      • 文件读写乱码
      • 数据库存取乱码
    • 解决方案
      • 统一使用 UTF-8
      • 设置 JVM 参数
      • 数据库设置字符集
    • 实际案例:乱码排查经验
    • 总结

前言

在日常 Java 开发中,字符编码问题是一个非常常见却又特别容易踩坑的地方。尤其是在不同操作系统之间切换,或者从前端传到后端、再到数据库,编码没统一好,中文就会出现“乱码”。很多同学第一次遇到的时候,会被一大堆奇怪的方块符号或者问号整崩溃。

这篇文章就带你一步一步看清楚字符编码的来龙去脉,并结合可运行的代码,看看如何在 Java 项目里彻底解决编码不一致的问题。

背景:为什么会出现编码问题?

其实原因很简单:不同系统、不同软件的默认字符编码不一样

  • Windows 上默认编码是 GBK 或 CP936。
  • Linux、Mac 大部分是 UTF-8。
  • 数据库可能是 Latin1、GBK 或 UTF-8。
  • Tomcat、IDEA 默认也可能不是 UTF-8。

举个例子,如果你的 Java 程序里写了一行中文字符串 "你好",在 UTF-8 下存储没问题,但如果有人用 GBK 来读取,就会直接炸掉,变成“乱码”。

常见场景分析

控制台输出乱码

在 Windows 的 CMD 下运行 Java 程序时,经常会看到控制台打印中文是乱码。这是因为 Windows 控制台默认用 GBK 编码,但你的 Java 程序里可能用的是 UTF-8。

public class EncodingDemo {public static void main(String[] args) {String msg = "你好,世界";System.out.println(msg);}
}

在 Linux/Mac 控制台上运行,大概率没问题。但在 Windows CMD 里,就会看到一堆奇怪符号。

文件读写乱码

当你从文件里读中文内容时,如果读的时候用的编码和写的时候不一样,也会直接出错。

import java.io.*;public class FileEncodingDemo {public static void main(String[] args) throws Exception {String text = "中文内容测试";// 写入文件,强制使用 UTF-8try (Writer writer = new OutputStreamWriter(new FileOutputStream("test.txt"), "UTF-8")) {writer.write(text);}// 读取文件(错误示范:不指定编码)try (BufferedReader reader = new BufferedReader(new FileReader("test.txt"))) {System.out.println("读到的内容:" + reader.readLine());}// 正确方式:指定 UTF-8try (BufferedReader reader = new BufferedReader(new InputStreamReader(new FileInputStream("test.txt"), "UTF-8"))) {System.out.println("正确读到的内容:" + reader.readLine());}}
}

运行后你会发现,没指定编码时中文是乱码,指定了 UTF-8 之后就正常了。

数据库存取乱码

数据库也是高频出错点,比如 MySQL 默认的 latin1 编码就很坑。假设表结构是这样的:

CREATE TABLE user (id INT PRIMARY KEY AUTO_INCREMENT,name VARCHAR(50)
) DEFAULT CHARSET=latin1;

如果你在 Java 里用 UTF-8 往里面写入 "张三",再读出来时就会发现已经是乱码。

解决办法是:

  • 建库建表时就指定 utf8mb4
CREATE DATABASE demo DEFAULT CHARSET=utf8mb4;
  • JDBC 连接时也要加上编码参数:
spring.datasource.url=jdbc:mysql://localhost:3306/demo?useUnicode=true&characterEncoding=utf-8&serverTimezone=UTC

解决方案

那我们该怎么统一解决这个问题呢?其实有几个常见思路:

统一使用 UTF-8

UTF-8 是现在最通用的编码方式,跨系统兼容性最好。所以最稳妥的做法就是:整个链路都统一成 UTF-8
包括:源代码文件、编译参数、运行参数、数据库配置、Tomcat 配置。

比如在 Maven 项目里,你可以在 pom.xml 里强制指定源码编码:

<project><properties><project.build.sourceEncoding>UTF-8</project.build.sourceEncoding></properties>
</project>

这样即便在 Windows 上编译,结果也不会变。

设置 JVM 参数

如果你发现运行环境默认编码不是 UTF-8,可以在 JVM 启动时加上参数:

java -Dfile.encoding=UTF-8 -jar app.jar

这会让整个 Java 虚拟机的默认编码改成 UTF-8,很多情况下能一劳永逸。

数据库设置字符集

在 MySQL 里,推荐直接用 utf8mb4,这样连 emoji 表情都能存:

ALTER DATABASE demo CHARACTER SET utf8mb4;
ALTER TABLE user CONVERT TO CHARACTER SET utf8mb4;

同时,Java 里的 JDBC 连接也要显式指定编码,否则还是会出问题。

实际案例:乱码排查经验

我自己就踩过一个坑:在 Windows 下本地开发,数据库是 utf8mb4,项目里也设了 -Dfile.encoding=UTF-8,一切正常。但是代码上线到 Linux 服务器后,日志里的中文全是乱码。排查了半天,最后发现是 日志框架的配置文件没声明 UTF-8,导致写日志文件时被当成系统默认编码。

后来改了一行配置就好了:

<encoder class="ch.qos.logback.classic.encoder.PatternLayoutEncoder"><charset>UTF-8</charset><pattern>%d{yyyy-MM-dd HH:mm:ss} [%thread] %-5level %logger{36} - %msg%n</pattern>
</encoder>

所以要点就是:不要依赖默认值,凡是涉及到字符集的地方都要显式声明 UTF-8

总结

Java 的字符编码问题,说白了就是“读和写不一致”。解决它的核心就是统一,特别是统一用 UTF-8。

  • 源代码、编译、运行 JVM 都统一 UTF-8。
  • 文件读写时显式指定编码。
  • 数据库用 utf8mb4 并在 JDBC 连接里加上参数。

只要做到这几点,基本就不会再遇到莫名其妙的乱码问题。


文章转载自:

http://4aNOZTke.gcthj.cn
http://KtnHth1y.gcthj.cn
http://1ehZQ47i.gcthj.cn
http://WABg84lW.gcthj.cn
http://O3TEfgHQ.gcthj.cn
http://OXhnnjp7.gcthj.cn
http://LinQpxgz.gcthj.cn
http://tSGgIL0p.gcthj.cn
http://baf5UZSb.gcthj.cn
http://SQHUhHW9.gcthj.cn
http://HlbhY7PU.gcthj.cn
http://WMDZISlT.gcthj.cn
http://iHvOVbjV.gcthj.cn
http://Il6YIuey.gcthj.cn
http://zA2TMkG5.gcthj.cn
http://6cNvBahy.gcthj.cn
http://ySCcEPii.gcthj.cn
http://RX6RpMAY.gcthj.cn
http://GRhqrYCr.gcthj.cn
http://GA5itTbm.gcthj.cn
http://B0TDlKi2.gcthj.cn
http://kLJU7aMx.gcthj.cn
http://cp8yxZ35.gcthj.cn
http://2nZXJ1nl.gcthj.cn
http://HwhQA6iL.gcthj.cn
http://PFKvnubk.gcthj.cn
http://k6WJ3ZR6.gcthj.cn
http://p0aqTqoX.gcthj.cn
http://D5UPWrez.gcthj.cn
http://7PlVxdo3.gcthj.cn
http://www.dtcms.com/a/382963.html

相关文章:

  • CopyOnWrite
  • 【Ambari监控】监控数据接口查询方法
  • shell 脚本:正则表达式
  • 可调精密稳压器的原理
  • Altium Designer(AD)PCB打孔
  • React 状态管理
  • [Spring Cloud][5] 注册中心详解,CAP 理论,什么是 Eureka
  • 返利app的跨域问题解决方案:CORS与反向代理在前后端分离架构中的应用
  • C++算法题—图的邻接矩阵输入形式(I\O)
  • 主动性算法-如何让机器拥有嗅觉?
  • Knockout.js Google Closure Compiler 工具模块详解
  • 从关键词匹配到语义理解:6大Embedding技术如何重塑企业搜索
  • 【面试实录01】
  • Docker 容器化部署核心实战——镜像仓库管理与容器多参数运行详解
  • Jenkins的安装与简单使用
  • Step-by-Step:用C语言构建一个带精准错误提示的括号匹配器
  • 【LeetCode - 每日1题】元音拼写检查器
  • KingbaseES读写分离集群架构解析
  • 教育领域大模型生成题目安全研究报告
  • .Net程序员就业现状以及学习路线图(七)
  • uniapp如何使用本身的字体图标
  • Uniapp崩溃监控体系构建:内存泄漏三维定位法(堆栈/资源/线程)
  • window显示驱动开发—显示适配器的子设备
  • 单变量单步时序预测 | TCN-BiGRU时间卷积神经网络结合双向门控循环单元
  • 项目实战——“微商城”前后台【005】之前台项目首页编写
  • 如何利用redis使用一个滑动窗口限流
  • Go与Python/PHP的比较
  • JVM 运行时数据区详解:程序计数器、虚拟机栈、堆内存、方法区与直接内存
  • MongoDB $type 操作符
  • 【靶场练习】--DVWA第一关Brute Force(暴力破解)全难度分析