当前位置: 首页 > news >正文

Java按字节长度截取字符串指南

在Java中,由于字符串可能包含多字节字符(如中文),直接按字节长度截取可能会导致乱码或截取不准确的问题。以下是几种按字节长度截取字符串的方法:

方法一:使用String的getBytes方法
java
public static String substringByBytes(String str, int byteLength) {
    if (str == null || str.isEmpty() || byteLength <= 0) {
        return "";
    }
    
    byte[] bytes = str.getBytes();
    if (byteLength >= bytes.length) {
        return str;
    }
    
    // 处理截取位置可能是多字节字符的情况
    int len = 0;
    for (int i = 0; i < str.length(); i++) {
        char c = str.charAt(i);
        len += (c <= 255) ? 1 : 2; // 假设非ASCII字符占2字节
        
        if (len > byteLength) {
            return str.substring(0, i);
        } else if (len == byteLength) {
            return str.substring(0, i + 1);
        }
    }
    return str;
}
方法二:指定字符编码处理
java
public static String substringByBytes(String str, int byteLength, String charsetName) 
        throws UnsupportedEncodingException {
    if (str == null || str.isEmpty() || byteLength <= 0) {
        return "";
    }
    
    byte[] bytes = str.getBytes(charsetName);
    if (byteLength >= bytes.length) {
        return str;
    }
    
    // 根据编码创建新的字符串
    return new String(bytes, 0, byteLength, charsetName);
}
方法三:更精确的字符编码处理
java
public static String substringByBytes(String str, int maxBytes, String charsetName) 
        throws UnsupportedEncodingException {
    if (str == null || charsetName == null || charsetName.isEmpty()) {
        return str;
    }
    
    byte[] bytes = str.getBytes(charsetName);
    if (bytes.length <= maxBytes) {
        return str;
    }
    
    // 处理截断可能导致的半个字符问题
    int nBytes = 0;
    int i = 0;
    for (; i < str.length(); i++) {
        char c = str.charAt(i);
        int charBytes = String.valueOf(c).getBytes(charsetName).length;
        if (nBytes + charBytes > maxBytes) {
            break;
        }
        nBytes += charBytes;
    }
    
    return str.substring(0, i);
}
使用示例
java
public static void main(String[] args) {
    String testStr = "你好,Java世界!Hello World!";
    
    try {
        System.out.println(substringByBytes(testStr, 10)); // 输出:你好,J
        System.out.println(substringByBytes(testStr, 15, "UTF-8")); // 输出:你好,Java
        System.out.println(substringByBytes(testStr, 20, "GBK")); // 输出:你好,Java世界!
    } catch (UnsupportedEncodingException e) {
        e.printStackTrace();
    }
}
注意事项
不同编码下字符占用的字节数不同:

UTF-8编码中,中文通常占3字节

GBK编码中,中文占2字节

ISO-8859-1编码中,所有字符占1字节

截取时需要考虑编码的字节边界,避免截断多字节字符导致乱码

性能考虑:对于大字符串频繁截取,建议缓存字节数组或使用更高效的算法

对于表情符号等特殊字符,可能需要额外处理

相关文章:

  • 信息系统项目管理师-软考高级(软考高项)​​​​​​​​​​​2025最新(九)
  • 09-24计算机考研408真题及答案
  • HTTP/HTTPS协议(请求响应模型、状态码)
  • 详讲viewer查看器
  • debuginfo详解
  • 农经权二轮延包软件—摸底申请表生成
  • 高速接口:PCIe 3.0 Link Training的详细过程
  • SEO长尾词与核心关键词协同增效
  • Python项目源码60:电影院选票系统1.0(tkinter)
  • Redis 数据类型详解(二):Hash 类型全解析
  • 阿里云服务器深度科普:技术架构与未来图景
  • P4168 [Violet] 蒲公英 Solution
  • Cordova开发自定义插件的方法
  • 我国“东数西算”工程对数据中心布局的长期影响
  • 双目测量中的将视差图重投影成三维坐标图
  • 2025.5.5总结
  • 42. 接雨水(相向双指针/前后缀分解),一篇文章讲透彻
  • 【中间件】brpc_基础_单例
  • Scrapy分布式爬虫实战:高效抓取的进阶之旅
  • 直方图反向投影
  • 抗战回望19︱《中国工程师学会四川考察团报告》:“将来重工业所在,以四川为最适宜之地点”
  • 医生李某某饮酒上班?重庆长寿区人民医院:正在调查,将严肃处理
  • 香港金紫荆广场举行五四升旗礼
  • 抗战回望15︱《五月国耻纪念专号》:“不堪回首”
  • 多地景区发公告称售票达接待峰值,有景区暂停网络和线下售票
  • 贵州锦屏县委原书记舒健已任黔东南州政府办主任