当前位置: 首页 > wzjs >正文

深圳网站制作哪家好网站seo资讯

深圳网站制作哪家好,网站seo资讯,wordpress 外链统计,做房产必知的发布房源网站完整的项目地址: https://github.com/buxuele/wiki_art 1. 其他地方 todo 此时最大的问题, 即,爬虫,为什么一直在搜集网页内容,但是就是下载图片??令人蛋疼!其实我觉得&#xff0…

完整的项目地址: https://github.com/buxuele/wiki_art

1. 其他地方

todo

  • 此时最大的问题, 即,爬虫,为什么一直在搜集网页内容,但是就是下载图片??令人蛋疼!
  • 其实我觉得,前面爬虫有问题, 应该使用 uuid 来命名!!!
  • 文件名太长了,导致匹配出错。

做的过程

聊天记录:https://aistudio.google.com/prompts/1F2vFWo3KMz5ZQ-TTxJ5dPWlf2mJa7qbI

我决定,先不加 元信息。

直接使用 图片本身来训练。
先试试看效果。

整体思路和计划

  1. 爬虫,爬取 大概 1000 张图片,并保存到本地。
  2. 标注,即删掉不喜欢的图片
  3. 训练模型。

人人都在追着 AI 跑。
如果赶不上火车,那么蹬着我的摩托车,走小路,走斜坡, 照样能跑。

scrapy 文件夹的名称,

外层文件夹:可以改名,但改了要同步更新 scrapy.cfg 的 project 字段。
内层文件夹:不建议改名,因为 Scrapy 默认按模块路径加载,容易出错。

对比: 小模型 vs 大模型

  • 你让高中生(小模型)做100套题(多训练几轮),他能把高中的知识点掌握得滚瓜烂熟,考到很高的分数,比如95分。
  • 你让大学教授(大模型)也来做这套题,他可能只看了几眼(少训练几轮),就已经理解了背后的所有原理,轻松考到99分。

2. 过程记录

在完成了数据标注,并准备好goodbad两个分类明确的图片文件夹后,我们进入了项目最核心的阶段:选择、训练并评估一个能理解我个人审美的AI模型。

一、 初步尝试与遇到的挑战

我们最初的计划是采用一个经典且强大的预训练模型,如eva02_base,来进行微调(Fine-tuning)。在训练过程中,我们遇到了几个典型的机器学习问题:

  1. 数据不平衡:我“喜欢”的图片数量(正样本)远少于“不喜欢”的图片(负样本)。为了解决这个问题,我们在损失函数中引入了“类别权重(Class Weights)”,在算法层面给予了少数类(good)更高的“话语权”,从而迫使模型更努力地去学习如何识别我喜欢的图片。

  2. 过拟合(Overfitting):在训练的早期阶段,模型的验证集准确率一度达到一个高峰,但随着训练的继续,准确率反而开始下降。这表明模型已经学完了普适的规律,开始去记忆训练集里那些偶然的、不具推广性的细节。我们通过引入“早停(Early Stopping)”机制——即在验证集性能不再提升时自动停止训练——来确保我们能保存下模型性能最好的那个状态。

  3. 硬件瓶颈:在探索更强大的模型时,我们发现,像vit_large_patch14_..._dinov2这样的“巨兽级”模型,即使只是很小的批量大小(Batch Size),它所需要的显存也超出了我12G显卡的承受极限。这让我们意识到,选择模型不能只看理论性能,还必须考虑硬件资源的现实约束。

二、 核心任务:模型选型与对比

为了找到最适合我们任务的“引擎”,我决定进行一次“模型擂台赛”,系统性地对比几个备选模型的实际表现。我从Hugging Face的timm模型库中,挑选了几个备受推崇的、基于Vision Transformer(ViT)架构的模型。

  • timm模型库地址:https://huggingface.co/collections/timm/timm-backbones-6568c5b32f335c33707407f8

我的对比主要围绕两个核心模型展开:

  1. facebook/dino-vitb16 (DINO Base):作为自监督学习的开创性工作,它对图像的结构和语义有深刻的理解。
  2. timm/vit_base_patch14_dinov2.lvd142m (DINOv2 Base):作为DINO的“究极进化版”,它在更庞大、更多样化的数据集上进行了预训练,理论上拥有更强的泛化能力。

我为这两个模型分别编写了独立的、公平的训练脚本,在完全相同的硬件、数据和训练参数下,对它们进行了微调。

三、 最终选择:vit_base_patch14_dinov2.lvd142m

经过多轮的训练和评估,实验结果清晰地表明:

timm/vit_base_patch14_dinov2.lvd142m 是本次选型中表现最好的模型。

  • 性能表现:在最终的测试中,DINOv2 Base模型的验证集准确率最高达到了近80%,显著优于DINO Base模型(约74%)。这证明了它更强大的预训练权重和更先进的架构,确实转化为了在我的个人审美分类任务上更强的实际性能。
  • 资源平衡:虽然它对显存的占用不小(在BATCH_SIZE=8时,占用了我12G显存中的9G),但它依然在我的硬件能力范围之内,实现了性能与资源消耗的最佳平衡。
  • 社区认可度:它在Hugging Face上每月超过百万的下载量,也从侧面印证了其作为顶级视觉特征提取器的行业地位。

因此,我最终决定,将timm/vit_base_patch14_dinov2.lvd142m作为我们整个项目的基石模型,后续所有的预测和应用,都将基于这个经过我个人数据微调过的、强大的AI大脑来展开。

http://www.dtcms.com/wzjs/387804.html

相关文章:

  • 网站上banner怎么做百度提升优化
  • 网站建设需准备什么郑州seo网络营销
  • 广西柳州网站制作公司网站快速排名互点软件
  • 做简单手机网站多少钱呀百度有专做优化的没
  • 西南交通建设集团有限公司网站长沙网站优化
  • 大型门户网站建设哪专业商丘网站建设公司
  • 网站空间怎么买销售人员培训课程有哪些
  • 网站代码 字体新媒体运营主要做什么
  • 六安有哪些做网站的公司搜索引擎营销的特点是什么
  • 黄石有哪些做视觉网站的公司全网引流推广 价格
  • 天津做网站公司论坛seo设置
  • 建站宝盒 源码今日国内新闻
  • 手机要访问国外网站如何做上海何鹏seo
  • 网站服务器使用福州seo博客
  • 哪家公司做网站比较好网站推广一般多少钱
  • 专门做孩子早教的网站兰州seo推广
  • 做违法网站判刑吗怎么做网站推广
  • 企业进行网站建设的方式网络推广运营主要做什么
  • 重庆网站排名优化公司刷赞网站推广ks
  • 中石化两学一做网站it培训课程
  • 网页游戏开服表怎么取消佛山seo整站优化
  • 做公司英文网站推广计划方案模板
  • 网站项目建设方案百度seo排名优
  • 英特尔nuc做网站服务器查网站关键词工具
  • 比较好的微网站开发平台谷歌搜索引擎免费入口
  • 做测试日本网站seo专业优化方法
  • 武汉品牌网站建设公司哪家好网站关键词优化系统
  • 采集微信公众号 做网站站长之家综合查询工具
  • 哪个网站做任务赚钱多搜索引擎推广案例
  • 做网站图片需要什么格式国内新闻最新消息今天简短