当前位置: 首页 > wzjs >正文

中山网页建站模板开封府景点网站及移动端建设情况

中山网页建站模板,开封府景点网站及移动端建设情况,wordpress推荐主题,庐山网站建设1 复读幻觉成因与治理路线 层级关键点常见症状解码层采样温度太低、repeat_penalty 为 1“打人、打人、打人” 连环输出数据层训练集本身出现多次同句暴力 / 色情词条反复RL 策略层奖励模型只关心“相关”忽略“冗余”越回答越长、越跑越偏上下文层KV‑cache 误对齐或窗口截断…

1 复读幻觉成因与治理路线

层级关键点常见症状
解码层采样温度太低、repeat_penalty 为 1“打人、打人、打人” 连环输出
数据层训练集本身出现多次同句暴力 / 色情词条反复
RL 策略层奖励模型只关心“相关”忽略“冗余”越回答越长、越跑越偏
上下文层KV‑cache 误对齐或窗口截断末尾整段复制粘贴

治理路线:

采样参数止血 ─► 数据去重 ─► RLHF/DPO 反复读奖励 ─►
长上下文微调(位置 & Flash‑Attention) ─► 监控报警

2 采样参数全景图 & 代码示例

目标参数默认建议区间
抑制复读repeat_penalty1.01.1 – 1.5
repeat_last_n6464 – 256
控制创造性temperature0.80.4 – 0.9
多样性top_p0.90.7 – 0.95
top_k4030 – 100
软停符stop"\n\n", "</end>"
长度惩罚length_penalty1.00.8 – 1.2
# transformers 示例
from transformers import AutoModelForCausalLM, AutoTokenizer
tok = AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3-8B-Instruct")
model = AutoModelForCausalLM.from_pretrained("meta-llama/…", device_map="auto")out = model.generate(**tok("解释量子纠缠:", return_tensors="pt").to(model.device),temperature=0.7,top_p=0.9,repetition_penalty=1.2,repeat_last_n=128,no_repeat_ngram_size=3,max_new_tokens=256,
)
print(tok.decode(out[0], skip_special_tokens=True))

3 Ollama 调参 4 大入口

场景操作适用版本
交互会话/set parameter repeat_penalty 1.2≥ v0.4.6
CLIollama run llama3 --temperature 0.7 …≥ v0.5.0 citeturn0search1
REST API"options": { "temperature": 0.7, "repeat_penalty": 1.2 }全版本
ModelfilePARAMETER repeat_penalty 1.2 + ollama create永久固化

技巧:在 systemctl edit ollama 里写 Environment="OLLAMA_…",一次性给所有模型注入默认值,升级也不会丢。

4 性能提速全链路

4.1 硬件层

  • GPU > CPUollama psProcessor=GPU 说明整模进显存;否则是 CPU/GPU 混合。
  • 多 GPU 切片:单卡放不下时自动分层;显存够时集中单卡反而更快。

4.2 模型层

手段提速质量
‑q4_0 / ‑q5_1 量化× 1.8 – 2.2‑2 ∼ ‑3 BLEU
KV Cache q8_0显存 ‑50 %无感
LoRA 增量参数量 ‑90 %取决于 LoRA

4.3 运行时层

# /etc/systemd/system/ollama.service.d/override.conf
[Service]
Environment="OLLAMA_FLASH_ATTENTION=1"
Environment="OLLAMA_KV_CACHE_TYPE=q8_0"
Environment="OLLAMA_NUM_PARALLEL=4"
Environment="OLLAMA_KEEP_ALIVE=-1"
  • Flash Attention≈ +20 – 40 %
  • num_thread 控制单请求 CPU 线程:最佳≈物理核数

4.4 并发层

变量说明典型值
OLLAMA_NUM_PARALLEL同模型并行请求4 – 8
num_thread每流 CPU 线程核心数
OLLAMA_KEEP_ALIVE‑1 = 模型常驻显存生产建议开启

5 线上运维

5.1 Ubuntu (systemd)

sudo systemctl daemon-reload   # 变更后重读
sudo systemctl restart ollama  # 热重启
journalctl -u ollama -f        # 流日志

5.2 Docker NVIDIA GPU

docker run --gpus all -e OLLAMA_FLASH_ATTENTION=1 \-e OLLAMA_NUM_PARALLEL=4 -e OLLAMA_KEEP_ALIVE=-1 \-p 11434:11434 ollama/ollama

5.3 Windows 服务化

  • 安装 nssm / winsw 把 ollama serve 注册为服务
  • 环境变量写在服务的 Environment 字段,可与 Modelfile 叠加

6 端到端示例 & Benchmark

步骤工具关键代码
① 语料清洗Python + regex过滤连续重复 > 2 次 token;Moses 去重
② LoRA 微调PEFT / LoRAmerge_weights=False 节省显存
③ 反复读 DPOtrl‑xreward = ‑λ · 重复率
④ Ollama 部署Modelfile量化 + 参数固化
⑤ 负载测试wrk + WebSocket每秒 > 1000 token

效果(Llama‑3‑8B‑Instruct,4090 × 1,128 token prompt):

  1. 原始 FP16 → 13 tok/s
  2. ‑q5_1 + Flash Attention → 26 tok/s
  3. 再调 num_thread 24 + OLLAMA_NUM_PARALLEL 439 tok/s

7 常见坑 FAQ

问题排查 & 解决
只用半数 CPU默认一核一线程,改 num_thread 或 Modelfile
OLLAMA_NUM_PARALLEL 不生效需在 服务器启动前 设置;Python 里 os.environ 改完要重新 serve
GPU 占用低于 40 %并发流不够 / CPU 瓶颈;调高 num_threadNUM_PARALLEL
Flash Attention 报 LoRA 不兼容关闭 FA 或先 merge LoRA 权重再量化
模型升级后参数丢失systemctl edit 生成 override.conf;升级不覆写
交互 /set 参数退出后失效/set 只对当前进程;持久化请改 Modelfile

8 结语

  • 复读治理:采样止血 → 数据去重 → RLHF 负奖励
  • 性能提速:GPU + Flash Attention + 低比特量化 = 黄金三件套
  • 并发稳态num_thread × OLLAMA_NUM_PARALLEL ≈ 吞吐上限
  • 运维:全部配置写进 systemd override;daemon‑reload + restart 万事大吉

按本文 Checklist 逐层落地,你的 Ollama 实例将 不复复读、跑得飞快、线上稳如老狗。Have fun hacking!


文章转载自:

http://gDmoeSP3.sfLnx.cn
http://fycgmLfC.sfLnx.cn
http://sbJKXa8b.sfLnx.cn
http://nm5vw1wV.sfLnx.cn
http://pHN64jqE.sfLnx.cn
http://iAvUSbP1.sfLnx.cn
http://To3DvNKD.sfLnx.cn
http://rTMMEllN.sfLnx.cn
http://wuE8CzYV.sfLnx.cn
http://EAFmACYr.sfLnx.cn
http://sR93Vuj2.sfLnx.cn
http://JDC5wfnt.sfLnx.cn
http://kUsOeT3U.sfLnx.cn
http://8xP2BLRN.sfLnx.cn
http://blv4cc30.sfLnx.cn
http://3DY1thuZ.sfLnx.cn
http://9uqDPiaf.sfLnx.cn
http://LNEuyXM4.sfLnx.cn
http://MQjDxAEU.sfLnx.cn
http://FZDi0uam.sfLnx.cn
http://TeFZIWWL.sfLnx.cn
http://ng1dlgXb.sfLnx.cn
http://QsCUVTMt.sfLnx.cn
http://rwQLlInw.sfLnx.cn
http://G5nryuEU.sfLnx.cn
http://uwTA4bjH.sfLnx.cn
http://fbAs1f37.sfLnx.cn
http://0ObFCWDp.sfLnx.cn
http://RtNpRFdO.sfLnx.cn
http://kZ1fkvpJ.sfLnx.cn
http://www.dtcms.com/wzjs/765247.html

相关文章:

  • 国外企业招聘网站开发软件需要多少成本
  • 河南郑州网站建设哪家公司好网站维护主要从哪几个方面做
  • 网站建设找a金手指下载全网搜
  • 广州科技公司有哪些网络营销策略优化
  • 网站开发 chrome gimp北京搜索优化推广公司
  • 常州网站制作优化个人工商注册查询网站
  • 信阳网站建设信阳八里河网站建设项目建设可行性
  • 做彩票网站抓到判几年网站开发的费用是怎么计算的
  • 阳江今天刚刚发生的重大新闻手机优化助手
  • 专业建设家电维修网站公司关键词代发排名推广
  • html5手机网站返回顶部宝塔wordpress教程
  • 企业所得税最新优惠政策诸城网站优化
  • 松江信息科技有限公司网站小程序开发公司十大排名
  • 房地产微网站建设栏目设计请输入搜索关键词
  • 金山专业网站建设wordpress兑换卡密
  • 网站推广方案总结wordpress 页面 列表
  • 买域名的钱最后给了谁怎样才可以知道网站是否优化
  • 如何做彩票网站推广图有没有做网站源代码修改的
  • 网站查询工具wordpress左右滑动
  • 建站园wordpress多站点怎么安装主题
  • 网站建设数据库是什么意思施工企业报验资质清单
  • 中国移动网站建设怎么做做教程网站如何查用户搜索
  • 哈尔版网站建设建零售网站还是
  • 教育类网站开发wordpress看板猫
  • 手机网站方案公众号的维护与运营
  • 天津省网站制作厂家茶山做网站
  • asp.net 网站计数器做财经比较好的网站有哪些
  • 给网站做rss济南网上房地产
  • 怎么做仿制网站成版年蝴蝶视频app免费
  • 旅游景区网站模板电商网站支付接口