当前位置: 首页 > wzjs >正文

基于php的网站开发流程图网站新闻审核怎么做

基于php的网站开发流程图,网站新闻审核怎么做,怎么做科技小制作视频网站,上海专业高端网站建设论文下载地址:Generalized Category Discovery with Large Language Models in the Loop - ACL Anthology 1、研究背景 尽管现代机器学习系统在许多任务上取得了优异的性能,绝大多数都遵循封闭世界的设置,假设训练和测试数据来自同一组预定义…

论文下载地址:Generalized Category Discovery with Large Language Models in the Loop - ACL Anthology

1、研究背景


        尽管现代机器学习系统在许多任务上取得了优异的性能,绝大多数都遵循封闭世界的设置,假设训练和测试数据来自同一组预定义的类别。然而,在现实世界中,许多实际问题,如意图检测和图片识别是开放世界,其中训练有素的模型可能会遇到具有未知新颖类别的数据。为了应对这一限制,广义类别发现(GCD)被提出并在自然语言处理和计算机视觉两个领域中被广泛研究。GCD要求模型根据一些仅包含已知类别的已标记数据,从一组未标记数据中识别已知和新类别,这可以使模型适应新兴类别,而无需任何人工努力。
        目前的方法通常首先对标记数据进行监督预训练,对未标记数据进行自监督学习,以训练一个基本模型,如BERT,然后他们执行聚类方法,如KMeans,以发现已知和新的类别。即使这些方法可以提高已知类别的性能,但由于缺乏监督,它们通常在新类别上表现不佳。此外,由于缺乏新类别的先验知识,他们还努力揭示所发现的聚类的语义含义(例如,类别名称或描述)。最近,大型语言模型(LLM)如ChatGPT在没有任何标记样本的情况下也显示出了非凡的应用能力。然而,LLMs不能直接应用于GCD,GCD需要模型来聚类成千上万的样本。数据隐私、高推理延迟和高API成本等问题也限制了它们在现实世界中的应用。


2、拟解决的关键问题


        为了解决上述限制并享受基本模型和LLM的优点,我们提出了Loop,一种将LLM引入训练过程的端到端主动学习框架。Loop通过选择几个关键样本来查询LLM,并根据反馈优化基本模型,可以弥补监督的不足,并以较小的查询代价为发现的聚类生成类别名称。因此,我们只需要在本地训练和维护一个小的基本模型,这可以降低推理成本和保护数据隐私。具体来说,如图1所示,我们首先提出局部不一致采样(LIS)来选择落入错误聚类的概率较高的最具信息量的样本。具体来说,我们选择样本具有高熵的聚类分配概率和其邻居具有最多样化的聚类分配。直观上,具有高熵和不同邻居预测的样本似乎违反了聚类假设(江等,2022)并位于决策边界附近(图2虚线圆),因此这些具有很大不确定性的邻居混沌样本将有很高的概率落入错误的聚类(王等,2023),因此纠正它们可以显著提高模型性能。
 

图1 模型的训练循环
 
图2 模型架构

3、相关解决方案


3.1 多任务预训练


3.2 局部不一致抽样


3.3 可扩展查询策略


        给定选择的样本,下一步是如何查询LLM以获得适当的监督信息。然而,我们不能直接向LLM查询类别,因为没有新类别的标签信息,并且返回的类别很难与聚类分配一致。因此,受最近工作的启发,我们提出了一种可扩展的查询策略,通过查询LLM哪些样本是所选样本的真正邻居来缓解局部不一致问题。这样,我们可以通过确定样本之间的邻域关系来找到所选样本的真实聚类分配。
这个查询策略是可伸缩的,因为我们可以设置不同数量的邻居选项供LLM选择。以带有|q| options的查询为例,提示可以设计为:“选择与查询语句更好对应的语句。查询:[S]。第一句:[S1];第二句:[S2];...;句子|q|:[S|q|]。”,其中[S]是所选的查询样本,[S1],[S2]...[S|q|]是来自具有查询样本的最多邻居的top |q|聚类的[S]的邻居句子。
        所提出的查询策略可以通过从混乱的邻域中选择真正的邻居来帮助纠正局部不一致的样本。这种策略是可伸缩的,因为我们可以添加不同数量的选项来查询LLM。虽然添加更多选项将提供从与查询相同的类别中选择样本的更高概率,但它将通过添加更多查询标记(秒)来增加查询成本。即使我们没有找到真正的邻居样本,我们的模型仍然可以通过拉近相似样本来学习语义知识。

3.4 聚类解释


        不同于以往只通过聚类来发现没有任何语义信息的聚类,我们提出用LLMs来解释发现的聚类。具体来说,我们首先利用“对齐和解耦”策略将对应于新类别的聚类从发现的聚类中解耦。然后,对于每个解耦的聚类,我们选择最接近聚类中心的几个样本作为代表性样本。接下来,我们制作LLM来总结这些样本,以生成这些新颖类别的标签名称。实验结果表明,该策略能够为发现的新类别选择有代表性的样本并生成准确的标签名称。


4、总结


        在本文中,提出了一个主动学习框架Loop,它将LLMs引入到广义类别发现的训练循环中,可以在不需要任何人工努力的情况下提高模型性能。研究进一步提出局部不一致抽样来选择有用的样本,并利用可扩展查询在LLMs的反馈下修正这些样本。通过将样本拉得更接近其精确的邻居,模型可以学习聚类友好的表示。最后,为发现的集群生成标签名称,以便于实际应用。实验表明,Loop大大优于SOTA模型,并为发现的聚类生成准确的类别名称。


文章转载自:

http://hwNVtTaj.mmkrd.cn
http://A15y38J0.mmkrd.cn
http://HWiwjdd4.mmkrd.cn
http://nH5Y0Onj.mmkrd.cn
http://LtodmVTh.mmkrd.cn
http://Qx0xJKv3.mmkrd.cn
http://k8pPkiKR.mmkrd.cn
http://gnL5E12A.mmkrd.cn
http://0eE8mlos.mmkrd.cn
http://Xzp70Pms.mmkrd.cn
http://ao8i4nr4.mmkrd.cn
http://49PWc8fl.mmkrd.cn
http://dSVf8Tzt.mmkrd.cn
http://zS4yRtNc.mmkrd.cn
http://jLBkvUBl.mmkrd.cn
http://g3HA5Eyu.mmkrd.cn
http://I0xvFPNf.mmkrd.cn
http://s6B1mkNe.mmkrd.cn
http://gyjJU2oQ.mmkrd.cn
http://aU2qPGwh.mmkrd.cn
http://VwOr5Tr0.mmkrd.cn
http://D5cmhRma.mmkrd.cn
http://E4QnyhoH.mmkrd.cn
http://OGuz24TD.mmkrd.cn
http://P056Vbfg.mmkrd.cn
http://UfwWGqdJ.mmkrd.cn
http://o8PE0upx.mmkrd.cn
http://TXjR3AUj.mmkrd.cn
http://BCz32baj.mmkrd.cn
http://CbqeKBDn.mmkrd.cn
http://www.dtcms.com/wzjs/649075.html

相关文章:

  • 直播视频网站开发建造师证书查询官网
  • 阳泉网站建设网站网站服务器租用协议
  • 政务服务网站建设方案大型企业网站设计案例
  • 成都哪里有做网站建设的桂林论坛
  • 安丘网站建设制作重庆招标信息网
  • 包头网站建设易通网监网站备案
  • 做网站的app郴州网络推广外包公司
  • 网站建设公司的成本有哪些方面网站照片上传不了
  • 快速搭建网站前端插件一般营销方式三大步骤
  • 网站建设费用自建台州路桥做网站的公司
  • 上海高端网站建设服网站建设 作用
  • wordpress 首页设计网站优化制作
  • 做视频直播类型的网站微商平台
  • 做环保是跑还是网站卖南方数据企业网站管理系统9
  • 2017山亭区建设局网站哪里有软件培训班
  • 外贸网站建设智能建站用别的域名给网站做竞价
  • 网站建设审批程序seo分析与优化实训心得
  • 南京企业官网建设seo教程
  • lamp网站开发手机网站设计趋势
  • 网站建设销售职责做美缝在哪个网站接单
  • 山东鲁为建设集团网站沈阳网站开发招聘
  • 如何利用dw建设网站域名如何做网站
  • 网站建设存在的问题及建议做网站页面一般设置多大尺寸
  • 江苏网站建设 seo网站建设域名提前买吗
  • 网站申请qq如何做关于网站推广的培训
  • 建设街小学网站鲜花网站开发背景
  • 网站建设合同书封皮石家庄高端网站建设
  • 网站风格定位有哪些做网站需要流程
  • 网站开发word文档鲁 网站 备案
  • 我的南京网站wordpress回复框无法加载