当前位置: 首页 > wzjs >正文

惠州网站建设(推荐乐云践新)成都哪家做网站

惠州网站建设(推荐乐云践新),成都哪家做网站,网站源码怎么看,网站开发周期安排Ceph OSD.419 故障分析 1. 问题描述 在 Ceph 存储集群中,OSD.419 无法正常启动,系统日志显示服务反复重启失败。 2. 初始状态分析 观察到 OSD.419 服务启动失败的系统状态: systemctl status ceph-osd419 ● ceph-osd419.service - Ceph obje…

Ceph OSD.419 故障分析

1. 问题描述

在 Ceph 存储集群中,OSD.419 无法正常启动,系统日志显示服务反复重启失败。

2. 初始状态分析

观察到 OSD.419 服务启动失败的系统状态:

systemctl status ceph-osd@419
● ceph-osd@419.service - Ceph object storage daemon osd.419Loaded: loaded (/usr/lib/systemd/system/ceph-osd@.service; enabled-runtime; vendor preset: disabled)Active: failed (Result: start-limit) since Thu 2025-07-17 10:55:23 CST; 2s agoProcess: 1459996 ExecStart=/usr/bin/ceph-osd -f --cluster ${CLUSTER} --id %i --setuser ceph --setgroup ceph (code=exited, status=1/FAILURE)

这表明 OSD 进程启动后立即失败,退出状态码为 1。

3. 日志分析

查看 OSD.419 的详细日志:

journalctl -u ceph-osd@419 -n 50

日志中发现关键错误信息:

2025-07-17 10:55:23.127 7f102fcbca80 -1 bluestore(/var/lib/ceph/osd/ceph-419/block) _read_bdev_label failed to read from /var/lib/ceph/osd/ceph-419
2025-07-17 10:55:23.127 7f102fcbca80 -1  ** ERROR: unable to open OSD superblock on /var/lib/ceph/osd/ceph-419: (2) No such file or directory

这表明 BlueStore 无法读取块设备上的标签信息,导致 OSD 无法启动。

4. 文件系统与设备链接检查

检查 OSD 数据目录及其块设备链接:

ls -la /var/lib/ceph/osd/ceph-419

输出显示目录存在且包含必要文件:

total 28
drwxrwxrwt  2 ceph ceph  200 Jun 28 22:17 .
drwxr-x--- 63 ceph ceph 4096 Apr 15 19:50 ..
lrwxrwxrwx  1 ceph ceph   93 Jun 28 22:17 block -> /dev/ceph-51f28752-dd94-4636-ad49-4f94adeec1fb/osd-block-4e392de5-7359-44a9-b5d3-2e4ad333bd87
lrwxrwxrwx  1 ceph ceph   23 Jun 28 22:17 block.db -> /dev/vg_nvme1n1/lv_sdbc
-rw-------  1 ceph ceph   37 Jun 28 22:17 ceph_fsid
-rw-------  1 ceph ceph   37 Jun 28 22:17 fsid
-rw-------  1 ceph ceph   57 Jun 28 22:17 keyring
-rw-------  1 ceph ceph    6 Jun 28 22:17 ready
-rw-------  1 ceph ceph   10 Jun 28 22:17 type
-rw-------  1 ceph ceph    4 Jun 28 22:17 whoami

进一步追踪块设备链接:

ls -la /dev/ceph-51f28752-dd94-4636-ad49-4f94adeec1fb/osd-block-4e392de5-7359-44a9-b5d3-2e4ad333bd87

输出显示其指向 /dev/dm-77

lrwxrwxrwx 1 root root 8 Jul 17 10:02 /dev/ceph-51f28752-dd94-4636-ad49-4f94adeec1fb/osd-block-4e392de5-7359-44a9-b5d3-2e4ad333bd87 -> ../dm-77

5. 设备映射与 LVM 分析

检查设备映射器信息:

dmsetup info /dev/dm-77

输出表明这是一个活跃的 LVM 设备:

Name:              ceph--51f28752--dd94--4636--ad49--4f94adeec1fb-osd--block--4e392de5--7359--44a9--b5d3--2e4ad333bd87
State:             ACTIVE
Read Ahead:        256
Tables present:    LIVE
Open count:        0
Event number:      0
Major, minor:      253, 77
Number of targets: 1
UUID: LVM-D48Kd1xr9eXJxf8QOiu6d1PMQH3v50ElpO9ex3rKqF3wo9n21vF32ecPkt1Fl3Xs

通过 ceph-volume 工具确认 OSD 使用的物理设备:

ceph-volume lvm list | grep osd.419 -A 50

输出确认 OSD.419 使用的是 /dev/sdbk 作为块设备,/dev/vg_nvme1n1/lv_sdbc 作为数据库设备:

===== osd.419 ======[block]       /dev/ceph-51f28752-dd94-4636-ad49-4f94adeec1fb/osd-block-4e392de5-7359-44a9-b5d3-2e4ad333bd87block device              /dev/ceph-51f28752-dd94-4636-ad49-4f94adeec1fb/osd-block-4e392de5-7359-44a9-b5d3-2e4ad333bd87block uuid                pO9ex3-rKqF-3wo9-n21v-F32e-cPkt-1Fl3Xscephx lockbox secret      cluster fsid              44599101-c099-4508-90de-5c748ea5b0f2cluster name              cephcrush device class        Nonedb device                 /dev/vg_nvme1n1/lv_sdbcdb uuid                   7Wengz-0w4M-DkOu-Uyff-FWE3-fW4f-5wiBAgencrypted                 0osd fsid                  4e392de5-7359-44a9-b5d3-2e4ad333bd87osd id                    419osdspec affinity          type                      blockvdo                       0devices                   /dev/sdbk[db]          /dev/vg_nvme1n1/lv_sdbc

6. 设备健康状态检查

系统日志中的 I/O 错误

检查系统日志中的 I/O 错误:

dmesg | grep -i error | tail -20

发现多个与 dm-77sdbc 相关的 I/O 错误:

[1593796.275701] Buffer I/O error on dev dm-77, logical block 3906468848, async page read
[1593796.738615] Buffer I/O error on dev dm-77, logical block 3906468848, async page read
[1593797.475909] Buffer I/O error on dev dm-77, logical block 0, async page read
[1593798.084174] Buffer I/O error on dev dm-77, logical block 0, async page read
[1593798.576004] Buffer I/O error on dev dm-77, logical block 0, async page read

物理设备健康状态

检查底层物理设备 /dev/sdbk 的 SMART 信息:

smartctl -a /dev/sdbk

虽然整体状态为 “PASSED”,但发现一些潜在问题指标:

  • Raw_Read_Error_Rate 值较高 (214634404)
  • Reallocated_Sector_Ct 显示有 8 个扇区被重新分配
  • Command_Timeout 值非常高 (4295032833)

直接读取测试

使用 dd 命令尝试从设备读取数据:

dd if=/dev/dm-77 of=/dev/null bs=4k count=1

结果确认存在 I/O 错误:

dd: error reading '/dev/dm-77': Input/output error
0+0 records in
0+0 records out
0 bytes (0 B) copied, 0.00196238 s, 0.0 kB/s

使用 BlueStore 工具检查块设备标签:

ceph-bluestore-tool show-label --dev /dev/dm-77

结果同样显示 I/O 错误:

unable to read label for /dev/dm-77: (5) Input/output error
2025-07-17 11:00:23.188 7f6fc31efec0 -1 bluestore(/dev/dm-77) _read_bdev_label failed to read from /dev/dm-77: (5) Input/output error

检查正常osd

# ls -lh /dev/ceph-1902944b-03e6-40f6-9e60-155c8eb0867a/osd-block-3a3bc0db-3cf6-40ef-948f-563e971bb455
lrwxrwxrwx 1 root root 8 Jun 29 12:35 /dev/ceph-1902944b-03e6-40f6-9e60-155c8eb0867a/osd-block-3a3bc0db-3cf6-40ef-948f-563e971bb455 -> ../dm-78
# dd if=/dev/dm-78 of=/dev/null bs=4k count=1
1+0 records in
1+0 records out
4096 bytes (4.1 kB) copied, 0.0122036 s, 336 kB/s
# ceph-bluestore-tool show-label --dev /dev/dm-78
{"/dev/dm-78": {"osd_uuid": "3a3bc0db-3cf6-40ef-948f-563e971bb455","size": 16000896466944,"btime": "2025-04-15 19:48:22.746107","description": "main","bluefs": "1","ceph_fsid": "44599101-c099-4508-90de-5c748ea5b0f2","kv_backend": "rocksdb","magic": "ceph osd volume v026","mkfs_done": "yes","osd_key": "AQB+R/5n9/t/HxAAmxcGbkW30GeHo+gMyYGLtA==","ready": "ready","require_osd_release": "14","whoami": "420"}
}

7. 故障结论

通过以上分析,可以得出以下结论:

  1. OSD.419 无法启动是因为其块设备 /dev/dm-77(对应物理设备 /dev/sdbk)存在严重的 I/O 错误
  2. 错误主要发生在逻辑块 0 处,这是关键的超级块位置,导致 BlueStore 无法读取 OSD 的元数据
  3. 物理设备 /dev/sdbk 虽然 SMART 状态为 “PASSED”,但有多个指标显示潜在问题
  4. 多次直接读取测试确认设备确实存在物理 I/O 错误

8. 解决方案

基于故障分析,建议采取以下解决措施:

短期解决方案

  1. 将 OSD 标记为 out,确保集群不会尝试向它写入数据:

    ceph osd out 419
    
  2. 尝试修复 BlueStore(成功率较低):

    ceph-bluestore-tool repair --path /var/lib/ceph/osd/ceph-419
    
  3. 如果修复失败,完全移除这个 OSD:

    ceph osd purge 419 --yes-i-really-mean-it
    

长期解决方案

  1. 更换物理硬盘 /dev/sdbk,该硬盘显示有潜在问题

  2. 使用新硬盘创建新的 OSD:

    ceph-volume lvm create --data /dev/NEW_DISK --db /dev/vg_nvme1n1/lv_sdbc
    
  3. 定期检查所有 OSD 的物理设备健康状态,设置监控预警

9. 经验总结

  1. 在 Ceph 集群中,OSD 故障通常可以追溯到底层物理设备问题
  2. 完整的故障分析应包括:服务状态、日志分析、设备链接追踪、物理设备健康检查和直接 I/O 测试
  3. 即使 SMART 状态显示为 “PASSED”,也应关注各项指标的异常值
  4. 在处理 I/O 错误时,通常更换设备是最可靠的长期解决方案
  5. 维护良好的监控系统可以帮助提前发现潜在的硬件问题,避免服务中断

文章转载自:

http://CzqOuSkL.nfbdc.cn
http://OEkrPapM.nfbdc.cn
http://wjZS29Oz.nfbdc.cn
http://n1nDuHKm.nfbdc.cn
http://XcFXfKpO.nfbdc.cn
http://6X5KDupp.nfbdc.cn
http://dLRCsPmc.nfbdc.cn
http://vDOZG8Cm.nfbdc.cn
http://roI6tpdr.nfbdc.cn
http://TAnqzn3e.nfbdc.cn
http://3bSxaiZF.nfbdc.cn
http://NJZBmx6D.nfbdc.cn
http://CBvFWZZv.nfbdc.cn
http://iIDGfZUG.nfbdc.cn
http://Gwl9lAuy.nfbdc.cn
http://JAhSHTWn.nfbdc.cn
http://3qLOpeLh.nfbdc.cn
http://MinuwWRw.nfbdc.cn
http://oIJBcyzo.nfbdc.cn
http://Rr4x8Pfh.nfbdc.cn
http://xPM1HWYY.nfbdc.cn
http://U1ntsnIZ.nfbdc.cn
http://4KErSwT5.nfbdc.cn
http://i3WUmWBJ.nfbdc.cn
http://gW1QVImi.nfbdc.cn
http://fofHvH7i.nfbdc.cn
http://Idd720nZ.nfbdc.cn
http://rWAEzQzY.nfbdc.cn
http://ecDFoIAo.nfbdc.cn
http://TkxLyII2.nfbdc.cn
http://www.dtcms.com/wzjs/746786.html

相关文章:

  • 郑州做网站的联系方式上海网站制作计划
  • 找公司做网站的好处东营区住房和城乡建设局网站
  • 做海报设计的网站建设小说网站小说源
  • 百度site app网站添加到网站首页源文件中的代码是哪些?北京市网站开发公司
  • 重庆顶呱呱网站建设wordpress 连接丢失.保存已被禁用_直到您重新连接.
  • 佛山网站优化平台简单的网页代码
  • 网站空间可以换吗永州网站制作
  • 网站地图调用网站没备案能访问吗
  • 网站建设公司网站模板下载装修设计培训机构
  • 网站数据库分离怎么做班级网站建设html制作
  • 网站标题在线制作成都住房和城乡建设部网站查询
  • 江苏推广网站建设业务什么做网站站群
  • 江苏省建设执业网站网页传奇开服表
  • 平台和网站有什么区别北京网站优化招聘
  • 眉山建设局网站在线简历模板
  • 网站开发对cpu要求高吗上海500强企业排名
  • 做网站带来好处一键生成logo免费在线网页
  • 商丘网站建设制作网站首页布局自适应
  • 招聘网站做招聘顾问用dedecms做的网站 脚本是什么
  • 装修公司的网站怎么做大兴区企业网站建设
  • 个人网站开发要多久怎么样自己做企业网站
  • 网站开发用php好吗哈尔滨干肠制作
  • ps做网站原形哪个平台做推广效果好
  • 利为汇wordpress谷歌seo技巧
  • 万网网站备案管理swiper手机网站案例
  • wordpress和站点什么是企业形象设计
  • 深圳龙岗建网站服装网站页面设计
  • 虚拟主机建设网站绑定域名dw做网站学习解析
  • 网站建设开题报告中的问题销售平台的重要性
  • 游戏网站 模板编程培训心得