当前位置: 首页 > wzjs >正文

做音响网站外贸电商

做音响网站,外贸电商,wordpress优点缺点,androidstudio使用教程摘要:随着大型语言模型(LLMs)的广泛应用,为了在实际应用中取得成功,详细了解它们在特定领域的知识变得至关重要。这在公共卫生领域尤为重要,因为无法检索到相关、准确且最新的信息可能会对英国居民产生重大…

摘要:随着大型语言模型(LLMs)的广泛应用,为了在实际应用中取得成功,详细了解它们在特定领域的知识变得至关重要。这在公共卫生领域尤为重要,因为无法检索到相关、准确且最新的信息可能会对英国居民产生重大影响。然而,目前关于LLMs对英国政府公共健康信息了解程度的研究还很少。为了解决这一问题,本文引入了一个新的基准测试集——PubHealthBench,该基准测试集包含通过自动化流程生成的超过8000个问题,用于评估LLMs在公共卫生查询中的多项选择题回答(MCQA)和自由形式回答能力。我们还发布了一个新的数据集,其中包含提取的英国政府公共健康指导文档,这些文档作为PubHealthBench的源文本。在PubHealthBench上对24个LLMs进行评估后,我们发现最新的私有LLMs(GPT-4.5、GPT-4.1和o1)具有高度的知识掌握度,在MCQA设置中的准确率超过90%,并且超过了仅使用搜索引擎进行粗略搜索的人类表现。然而,在自由形式回答设置中,所有模型的性能均有所下降,没有模型的得分超过75%。因此,尽管有迹象表明,最先进(SOTA)的LLMs作为公共卫生信息的来源正变得越来越准确,但在提供公共卫生主题的自由形式回答时,可能仍然需要额外的保障措施或工具。Huggingface链接:Paper page,论文链接:2505.06046

研究背景和目的

研究背景

随着大型语言模型(LLMs)技术的飞速发展,其在各个领域的应用日益广泛,包括医疗健康、公共政策、教育等。在公共健康领域,LLMs因其强大的自然语言处理能力,被寄予厚望能够改善公共健康信息的获取、分析和传播方式。然而,目前关于LLMs对英国政府公共健康信息掌握程度的研究相对较少,尤其是针对最新、最全面的公共健康指导文档的系统性评估更是匮乏。

公共健康指导是英国居民和专家做出个人、专业和临床决策的重要信息来源。随着LLMs的广泛应用,如何准确评估其对公共健康指导的理解和掌握程度,成为了一个亟待解决的问题。此外,由于公共健康指导经常更新,且不同机构和地区发布的指导可能存在差异,这对LLMs系统准确掌握最新、最全面的公共健康信息构成了挑战。

研究目的

本研究旨在通过构建一个新的基准测试集(PubHealthBench),系统评估LLMs对英国政府公共健康信息的掌握程度。具体研究目的包括:

  1. 构建全面的基准测试集:收集并整理英国政府发布的公共健康指导文档,构建一个包含超过8000个问题的基准测试集,涵盖选择题(MCQA)和自由形式回答两种形式,以全面评估LLMs在公共健康领域的表现。
  2. 评估多种LLMs:在PubHealthBench上评估24种不同的LLMs,包括最新的私有模型和开源模型,以了解它们在公共健康信息掌握方面的差异和优劣。
  3. 分析模型性能:通过详细分析模型在不同类型问题(如按主题分类、按受众分类)上的表现,揭示LLMs在公共健康信息掌握方面的优势和不足。
  4. 提供实践指导:基于评估结果,为公共健康领域LLMs的应用提供实践指导,帮助决策者了解何时以及如何安全地使用LLMs来获取公共健康信息。
研究方法

数据收集与预处理

研究团队从英国政府网站(gov.uk)上收集了超过1000份公共健康指导文档,涵盖了HTML和PDF两种格式。通过预处理和分块技术,将这些文档转换为适合生成MCQA问题的文本块。PDF文档的处理尤为复杂,研究团队采用了两阶段管道方法,结合GPT-4o-mini vision LLM进行文本提取和格式转换。

问题生成

利用Llama-3.3-70bn-Instruct模型,研究团队为每个文本块生成了两个MCQA问题,每个问题包含一个正确答案选项和六个错误干扰选项。通过链式思考(Chain of Thought, CoT)提示和JSON格式输出,确保生成的问题格式统一且易于处理。

自动化错误检测与采样

为了确保基准测试集的质量,研究团队采用LLMs对生成的问题进行自动化错误检测。通过构建一个包含五类常见错误的分类体系,并利用Llama-3-70bn-Instruct模型进行初步筛选,将错误率从约16%降低至约8%。最终,研究团队保留了约8090个MCQA问题,构成了PubHealthBench基准测试集。

人工专家质量保证

为了进一步确保基准测试集的质量,研究团队邀请了人类专家对随机抽取的800个问题进行人工审核。通过两轮审核流程,评估了问题的有效性和答案选项的合理性,并据此对基准测试集进行了微调。

模型评估

研究团队在PubHealthBench上评估了24种不同的LLMs,包括GPT-4.5、o1、Gemini-2.0-Flash等最新私有模型,以及Phi-4、Command-R等开源模型。评估过程中采用了零样本提示(zero-shot prompting)方法,并模拟了真实世界中用户与聊天机器人交互的场景,禁止模型访问外部工具或信息库。对于自由形式回答部分,研究团队利用GPT-4o-Mini作为评判者(Judge LLM),根据原始文本和正确答案对模型的回答进行二分类评估。

研究结果

MCQA基准测试结果

在MCQA基准测试中,最新的私有模型(如GPT-4.5、o1)表现出色,准确率均超过90%,甚至超过了人类基准线(88%)。这些模型在各个主题领域和受众群体上的表现均较为稳定,显示出对公共健康信息的全面掌握。相比之下,开源模型虽然也表现出一定的知识掌握程度,但整体准确率较低,多数模型准确率在75%-85%之间。

自由形式回答基准测试结果

在自由形式回答基准测试中,所有模型的性能均出现显著下降,最高准确率仅为74%(o1模型)。这表明,在没有选项提示的情况下,模型需要更强的回忆和推理能力来准确回答公共健康问题。此外,研究还发现,推理模型(如o1、o3-Mini)在自由形式回答中的表现相对较好,这可能与它们在处理复杂任务时的优势有关。

模型性能差异分析

通过进一步分析模型在不同类型问题上的表现,研究团队发现,模型在公共健康指导面向普通公众的部分表现最好,而在面向临床和专业人员的部分表现相对较差。这可能与公共健康指导面向不同受众群体的复杂性和专业性有关。此外,研究还发现,较小的开源模型在生成自由形式回答时更容易出现幻觉(hallucination),即生成与原始文本不一致的信息。

研究局限

尽管本研究在评估LLMs对英国政府公共健康信息掌握程度方面取得了显著进展,但仍存在以下局限性:

  1. 数据覆盖范围有限:本研究仅涵盖了英国政府发布的公共健康指导文档,且主要关注英语语言文档。这可能导致评估结果在其他国家或语言环境下的适用性受限。
  2. 问题类型单一:本研究主要采用了MCQA和自由形式回答两种问题类型进行评估,可能无法全面反映LLMs在公共健康领域的实际应用能力。未来研究可以考虑引入更多类型的问题(如多轮对话、图像问题等)以更全面地评估模型性能。
  3. 评判者模型局限性:本研究采用GPT-4o-Mini作为评判者模型对自由形式回答进行评估,尽管该模型在评估过程中表现出色,但仍可能存在一定的主观性和误差。未来研究可以考虑采用更客观、更全面的评估方法(如人工审核与自动评估相结合)来提高评估结果的准确性。
  4. 模型更新与维护:由于公共健康指导经常更新,LLMs需要定期重新训练以保持对最新信息的掌握。然而,本研究并未涉及模型更新与维护方面的内容,未来研究可以进一步探讨如何有效地更新和维护LLMs以适应不断变化的公共健康信息环境。
未来研究方向

基于本研究的发现和局限性,未来研究可以在以下几个方面展开:

  1. 拓展数据覆盖范围:收集更多国家或地区的公共健康指导文档,并考虑多语言环境下的评估,以提高评估结果的普适性和国际比较性。
  2. 引入更多问题类型:设计更多类型的问题(如多轮对话、图像问题、情境模拟等)以更全面地评估LLMs在公共健康领域的实际应用能力。
  3. 优化评判者模型:探索更客观、更全面的评估方法(如结合人工审核与自动评估)以提高自由形式回答评估的准确性。同时,可以考虑开发专门的评判者模型以适应不同类型问题的评估需求。
  4. 研究模型更新与维护机制:探讨如何有效地更新和维护LLMs以适应不断变化的公共健康信息环境。这可能涉及定期重新训练模型、引入增量学习技术或开发自适应学习机制等方面的研究。
  5. 关注模型偏见与伦理问题:深入研究LLMs在公共健康领域应用中可能存在的偏见和伦理问题(如信息准确性、隐私保护、责任归属等),并提出相应的解决方案和应对策略。

综上所述,本研究通过构建PubHealthBench基准测试集,系统评估了LLMs对英国政府公共健康信息的掌握程度,并揭示了模型在公共健康领域的优势和不足。未来研究可以在拓展数据覆盖范围、引入更多问题类型、优化评判者模型、研究模型更新与维护机制以及关注模型偏见与伦理问题等方面展开,以推动LLMs在公共健康领域的进一步发展和应用。


文章转载自:

http://XMrtji7d.rmkyb.cn
http://p8YJcWaX.rmkyb.cn
http://dOrS43fG.rmkyb.cn
http://KWlUOU5B.rmkyb.cn
http://eW5Q5fFw.rmkyb.cn
http://zAPpaQ2J.rmkyb.cn
http://F9nTsxRp.rmkyb.cn
http://kRzVRvBN.rmkyb.cn
http://hU05pZKC.rmkyb.cn
http://jBAZAYVU.rmkyb.cn
http://vMYBKLyL.rmkyb.cn
http://8qp8eooI.rmkyb.cn
http://4mzNhwHY.rmkyb.cn
http://mS8IWrSG.rmkyb.cn
http://j6xtjj9M.rmkyb.cn
http://hYnRPFUN.rmkyb.cn
http://NZnz0O8C.rmkyb.cn
http://2qHz4Tod.rmkyb.cn
http://HGb6yhfS.rmkyb.cn
http://8iYDVVu4.rmkyb.cn
http://Td7zMySV.rmkyb.cn
http://Tr2VSYtw.rmkyb.cn
http://cXICSbfJ.rmkyb.cn
http://Lz6HPwS5.rmkyb.cn
http://UF17C5E2.rmkyb.cn
http://7ldfTWDp.rmkyb.cn
http://D7M0kmhP.rmkyb.cn
http://UksCKdl8.rmkyb.cn
http://LeLiA8UU.rmkyb.cn
http://yuxWHebk.rmkyb.cn
http://www.dtcms.com/wzjs/636836.html

相关文章:

  • 建设外贸网站价格济南网站制作0531soso
  • 网站开发的技术风险小白的博客 wordpress
  • 好看的网站设计公司江苏中益建设官方网站
  • 莱芜关于网站建设的公司海宁高端高端网站设计
  • 通化市建设工程招投标网站php做视频分享网站
  • 做网站需要看啥书怎么创建网页链接快捷方式
  • 免费建设门户网站效果图网站推荐大全面包砖
  • 网站登录失败怎么回事怎样开自己的网站
  • 小白怎么做网站网站网络建设
  • 湛江市建设交易中心网站网站线上体系
  • 盐地网站建设公司企业建设网站的需求分析
  • 免费自助建站系统哪个好城建网官网
  • 如何找网站推广网站制作推广电话
  • 南宁百度网站公司哪家好网站admin密码
  • 企业手机网站建设资讯网址搜索栏在哪
  • 电子政务门户网站建设代码wordpress知更鸟主题教程
  • 自己做的网站程序怎么发布天津市住房和城乡建设部网站
  • 网站建立百度信任罗定市城乡规划建设局网站
  • 南京市溧水城市建设集团网站宁波seo教程app推广
  • 用齐博cms建网站做漫画网站
  • 网站空间商推荐怎样做外部网站推广
  • 哈尔滨精致网站建设物流公司网站建设 能跟踪物流
  • 手机上做网站做网站互联网公司排名
  • 番禺网站制作多少钱成都seo优化排名推广
  • wordpress文档阅读器南宁网站建设优化排名
  • 公需道德与能力建设培训网站宝安各大网站制作比较好的
  • 企业安全文化建设的核心内容seo网站平台
  • 建立网站三大基础帝国cms网站地图生成器
  • 网站不能写入php文件赣州快车公众号
  • 织梦商城网站模板网站后台密码如何破解