rust实战
缘由
今天用某ai桌面应用做了一套鸿蒙os的题目,百分只得了七十分。
流程
- 截图发给大模型
- 使用OCR识别题目(识别确认,没有问题,正确率100%)
- 大模型给出答案(正确率70%)
原因
因为是专业考试,我分析原因可能是以下两点:
- 1、知识库知识陈旧,没有及时更新
- 2、语义理解问题(题目没有将全部的信息放到题目当中,但因为是特定考试,是有前提限制的)
解决方案
- 1、为大模型加上知识库
- 2、在和大模型交互时,保证OCR的正确率的同时,在prompt中进行限定,比如特定知识,特定角色
产品设计
一、产品目标
一句话描述
用户在桌面上按下快捷键或点击启动图标,即可框选屏幕区域,AI 自动识别图像内容、结合文字理解后回答用户的问题。用户可像在豆包中一样连续追问,获得视觉+文字结合的智能回复。
核心功能
快捷键触发屏幕截图或活动窗口捕获
多模态识图(图像 + 文字问题)
对话流式回复(豆包式气泡 UI)
截图区域高亮与引用框展示</
