当前位置: 首页 > news >正文

大模型登《情报学报》!大模型驱动的学术文本挖掘!

       武汉大学信息管理学院、武汉大学信息检索与知识挖掘研究所的陆伟、刘寅鹏、石湘、刘家伟、程齐凯、黄永和汪磊共同研究的《大模型驱动的学术文本挖掘——推理端指令策略构建及能力评测》在《情报学报》中发表。论文以学术文本挖掘任务为切入点,构建涵盖文本分类、信息抽取、文本推理和文本生成4个能力维度共6项任务的大模型学术文本挖掘专业能力评测框架。内容十分详细精彩,具体可阅读原文。

数据说明

按 “能力 - 任务 - 指标” 划分为 3 层维度,包含 6 个评测数据集、总计 37747 条测试样本。

图片

学术文本挖掘专业能力评测框架

能力维度

参照文本挖掘技术任务划分,从知识单元粒度和能力本质特征出发,将学术文本挖掘任务归纳为文本分类、信息抽取、文本推理和文本生成 4 个类别,其中文本分类侧重于大模型对学术文本中句子层级和段落层级知识单元的属性或关系判别能力,信息抽取关注大模型从非结构化或半结构化数据中提取词汇层级知识单元(如命名实体等)的结构化信息的水平,文本推理面向句子层级知识单元、考察大模型理解学术文本关键句之间隐含逻辑关系或事实的能力,文本生成则关注从现有知识单元中派生或重组出新知识单元的能力。

任务维度

遵循覆盖学术文本知识单元全粒度(包括关键词、句子、摘要、段落、章节、引文等)和有明确可信评测指标的原则,选取英文数据集作为评测基准。

图片

指标维度

为消除人类主观偏见、确保低资源设定下指令引导的大模型与 “预训练 - 微调” 模型的可比较性,选择各类任务的典型指标。

参考文献

陆伟,刘寅鹏,石湘,等.大模型驱动的学术文本挖掘——推理端指令策略构建及能力评测[J].情报学报,2024,43(08):946-959.

相关文章:

  • 内存管理 : 05 内存换入-请求调页
  • 【萌笔趣棋】网页五子棋项目测试报告
  • unix/linux source 命令,其基本概念、定义、性质、定理
  • 适配器模式:让不兼容接口协同工作
  • 远程管理SSH服务的搭建
  • Java进阶---JVM
  • (javaSE)Java数组进阶:数组初始化 数组访问 数组中的jvm 空指针异常
  • DAY 35 超大力王爱学Python
  • 【AI学习】检索增强生成(Retrieval Augmented Generation,RAG)
  • yolo个人深入理解
  • PINN模型相关原理
  • rtpmixsound:实现音频混音攻击!全参数详细教程!Kali Linux教程!
  • 主数据编码体系全景解析:从基础到高级的编码策略全指南
  • Python数学可视化——环境搭建与基础绘图
  • python汉语编程,将关键字与文言文对应
  • 源码解析(二):nnUNet
  • 03.MySQL表的操作详解
  • K3s简介、实战、问题记录
  • Java高效处理大文件:避免OOM的深度实践
  • 【STM32F1标准库】理论——外部中断
  • 禅城区企业网站建设/怎么在百度发布自己的文章
  • 青岛做企业网站的公司/定制网站+域名+企业邮箱
  • 想在网站里添加超链接怎么做/软文营销实施背景
  • asp.net的网站开发/近期新闻热点事件简短
  • wordpress首页美化/seo优化百度技术排名教程
  • 阿里巴巴跨境电商平台/北京seo排名收费