AI推介-大语言模型LLMs论文速览(arXiv方向):2024.11.25-2024.11.30
文章目录~
- 1.Leveraging LLM for Automated Ontology Extraction and Knowledge Graph Generation
- 2.Accelerating Multimodal Large Language Models by Searching Optimal Vision Token Reduction
- 3.Rank It, Then Ask It: Input Reranking for Maximizing the Performance of LLMs on Symmetric Tasks
- 4.LMSeg: Unleashing the Power of Large-Scale Models for Open-Vocabulary Semantic Segmentation
- 5.Empowering the Deaf and Hard of Hearing Community: Enhancing Video Captions Using Large Language Models
- 6.LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos
- 7.Auto-RAG: Autonomous Retrieval-Augmented Generation for Large Language Models
- 8.CLIP meets DINO for Tuning Zero-Shot Classifier using Unlabeled Image Collections
- 9.Beyond Logit Lens: Contextual Embeddings for Robust Hallucination Detection & Grounding in VLMs
- 10.Zero-shot Slot Filling in the Age of LLMs for Dialogue Systems
- 11.ICLERB: In-Context Learning Embedding and Reranker Benchmark
- 12.ElectroVizQA: How well do Multi-modal LLMs perform in Electronics Visual Question Answering?
- 13.Fine-Tuning Large Language Models for Scientific Text Classification: A Comparative Study
- 14.Automated Literature Review Using NLP Techniques and LLM-Based Retrieval-Augmented Generation
- 15.Can LLMs assist with Ambiguity? A Quantitative Evaluation of various Large Language Models on Word Sense Disambiguation
- 16.A survey on cutting-edge relation extraction techniques based on language models
- 17.Data-driven development of cycle prediction models for lithium metal batteries using multi modal mining
- 18.Scaling Speech-Text Pre-training with Synthetic Interleaved Data
1.Leveraging LLM for Automated Ontology Extraction and Knowledge Graph Generation
标题:利用 LLM 自动提取本体和生成知识图谱
author:Mohammad Sadeq Abolhasani, Rong Pan
date Time:2024-11-30
paper pdf:http://arxiv.org/pdf/2412.00608v3
摘要:
从可靠性和可维护性(RAM)领域的大型复杂技术文档中提取相关的结构化知识是一项劳动密集型工作,而且容易出错。为了应对这一挑战,我们提出了本体提取和知识图谱(KG)生成的真正管道 OntoKGen。OntoKGen 利用大型语言模型(LLM),通过交互式用户界面,在我们的自适应迭代思维链(CoT)算法的指导下,确保本体提取过程以及知识图谱生成符合用户的特定需求。尽管 KG 生成遵循基于已确认本体的清晰、结构化路径,但并不存在普遍正确的本体,因为它本质上是基于用户的偏好。OntoKGen 推荐的本体以最佳实践为基础,最大程度地减少了用户的工作量,并提供了可能被忽略的有价值的见解,同时让用户完全控制最终的本体。根据确认的本体生成 KG 后,OntoKGen 可以将其无缝集成到 Neo4j 等无模式、非关系型数据库中。通过这种集成,可以灵活地存储和检索来自各种非结构化来源的知识,促进高级查询、分析和决策。此外,生成的知识库可作为未来集成到检索增强生成(RAG)系统的强大基础,为开发特定领域的智能应用提供更强的能力。
2.Accelerating Multimodal Large Language Models by Searching Optimal Vision Token Reduction
标题:通过搜索最佳视觉标记还原加速多模态大型语言模型
author:Shiyu Zhao, Zhenting Wang, Felix Juefei-Xu, Xide Xia, Miao Liu, Xiaofang Wang, Mingfu Liang, Ning Zhang, Dimitris N. Metaxas, Licheng Yu
publish:Technical report, 18 pages
date Time:2024-11-30
paper pdf:http://arxiv.org/pdf/2412.00556v2
摘要:
流行的多模态大语言模型(MLLM)将输入图像编码为视觉标记,并将其输入语言骨干,这与大语言模型(LLM)处理文本标记的方式类似。然而,视觉标记的数量会随着图像分辨率的增加而呈二次曲线增加,从而导致巨大的计算成本。在本文中,我们考虑从以下两个方面提高 MLLM 的效率:(I)降低计算成本而不降低性能。(II) 在给定预算的情况下提高性能。我们的主要发现是,除第一层外,各层中按注意力分数排序的视觉标记排名相似。在此基础上,我们假设最重要的视觉标记的数量不会随着层数的增加而增加。因此,对于情景 I,我们提出了一种贪婪搜索算法(G-Search),以找到从浅层到深层各层保留的视觉标记数量最少的算法。有趣的是,基于我们的假设,G-Search 能够达到最优的缩减策略。对于场景 II,基于 G-Search 的缩减策略,我们设计了一个参数化的 sigmoid 函数(P-Sigmoid)来指导 MLLM 各层的缩减,并通过贝叶斯优化法对其参数进行优化。广泛的实验证明,我们的方法可以显著加速那些流行的 MLLM,如 LLaVA 和 InternVL2 模型,在不降低性能的情况下加速超过 2 美元(times$)。在预算有限的情况下,我们的方法还远远优于其他减少标记的方法,在效率和效果之间实现了更好的权衡。
3.Rank It, Then Ask It: Input Reranking for Maximizing the Performance of LLMs on Symmetric Tasks
标题:先排序,再提问:输入重新排序,最大限度提高 LLM 在对称任务中的性能
author:Mohsen Dehghankar, Abolfazl Asudeh
date Time:2024-11-30
paper pdf:http://arxiv.org/pdf/2412.00546v1
摘要:
大语言模型(LLMs)作为实用的多功能工具迅速崛起,为众多领域提供了新的解决方案。在本文中,我们将考虑在对称任务中应用 LLM,在这种任务中,需要对(无序的)元素袋进行查询。这类任务的例子包括回答数据库表格的汇总查询。一般来说,当袋中包含大量元素时,LLMs 往往会忽略某些元素,从而在生成对查询的准确响应方面遇到挑战。LLM 接收的输入是有序序列。然而,在这个问题中,我们利用了对称输入不是有序的这一事实,重新排序应该不会影响 LLM 的响应。 由于 LLM 不太可能遗漏输入某些位置上的元素,因此我们引入了 LLM 输入重排问题:在不对查询做出明确假设的情况下,找到一个能最大化 LLM 对给定查询的准确性的输入排序。要找到最佳排序,需要确定 (i) 每个输入元素与回答查询的相关性,以及 (ii) 每个排序位置对 LLM 注意力的重要性。我们开发了利用辅助 LLM 高效估算这些值的算法。我们在不同的合成数据集和真实数据集上进行了综合实验,以验证我们的建议并评估所提算法的有效性。我们的实验证实,我们的重新排序方法提高了 LLM 在对称任务上的准确性,与最佳上限的接近度高达 99%。
4.LMSeg: Unleashing the Power of Large-Scale Models for Open-Vocabulary Semantic Segmentation
标题:LMSeg:为开放词汇语义分割释放大规模模型的力量
author:Huadong Tang, Youpeng Zhao, Yan Huang, Min Xu, Jun Wang, Qiang Wu
date Time:2024-11-30
paper pdf:http://arxiv.org/pdf/2412.00364v1
摘要:
在识别图像中未见物体以进行语义分割方面,基于开放词汇的方法优于传统的封闭集训练解决方案,这一点已得到广泛认同。现有的开放式词汇方法利用视觉语言模型(如 CLIP),将视觉特征与通过在大规模视觉语言数据集上进行预训练而获得的丰富语义特征相结合。然而,这些方法中使用的文本提示都是基于固定模板的短句,无法捕捉到全面的对象属性。此外,虽然 CLIP 模型擅长利用图像级特征,但在像素级表示方面却不太有效,而像素级表示对于语义分割任务至关重要。在这项工作中,我们建议利用多个大规模模型来增强细粒度视觉特征与丰富语言特征之间的一致性,从而缓解上述问题。具体来说,我们的方法采用大型语言模型(LLM)来生成丰富的语言提示,每个类别都有不同的视觉属性,包括颜色、形状/大小和纹理/材质。此外,为了增强视觉特征提取,我们还采用了可学习的加权融合策略,将 SAM 模型作为 CLIP 视觉编码器的补充。在这些技术的基础上,我们的方法(称为 LMSeg)在所有主要的开放词汇分割基准测试中都取得了一流的性能。代码即将发布。
5.Empowering the Deaf and Hard of Hearing Community: Enhancing Video Captions Using Large Language Models
标题:增强聋人和重听者群体的能力:利用大型语言模型增强视频字幕功能
author:Nadeen Fathallah, Monika Bhole, Steffen Staab
date Time:2024-11-30
paper pdf:http://arxiv.org/pdf/2412.00342v1
摘要:
在当今的数字时代,视频内容盛行,成为信息、教育和娱乐的主要来源。然而,由于自动语音识别(ASR)系统无法提供准确可靠的字幕,聋人和重听人(DHH)群体在访问视频内容时往往面临巨大挑战。本文探讨了利用大型语言模型 (LLM) 提高视频字幕质量的迫切需求。我们提出了一项综合研究,探讨如何整合 LLM,以提高自动语音识别(ASR)系统生成的字幕的准确性和语境感知能力。我们的方法涉及一个新颖的管道,该管道利用先进的 LLM 纠正 ASR 生成的字幕。由于 GPT-3.5 和 Llama2-13B 等模型在语言理解和生成任务中表现出色,因此我们明确将重点放在这些模型上。我们引入了一个数据集,该数据集代表了 DHH 社区面临的真实世界挑战,用于评估我们提出的管道。我们的结果表明,LLM 增强字幕显著提高了准确性,与原始 ASR 字幕(WER:23.07%)相比,ChatGPT-3.5 的词错误率(WER:9.75%)明显降低,与原始 ASR 字幕相比,ChatGPT-3.5 的词错误率提高了约 57.72%。
6.LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos
标题:LongVALE:视觉-音频-语言-事件基准,实现对长视频的时间感知全模式感知
author:Tiantian Geng, Jinrui Zhang, Qingni Wang, Teng Wang, Jinming Duan, Feng Zheng
publish:18 pages, 15 figures
date Time:2024-11-29
paper pdf:http://arxiv.org/pdf/2411.19772v2
摘要:
尽管在视频理解方面取得了令人瞩目的进步,但大多数工作仍局限于粗粒度或仅视觉的视频任务。然而,真实世界的视频包含全方位信息(视觉、音频和语音),一系列事件构成了一个连贯的故事情节。缺乏具有细粒度事件注释的多模态视频数据以及人工标注的高成本是实现全面全模态视频感知的主要障碍。为了弥补这一不足,我们提出了一种自动管道,其中包括高质量多模态视频过滤、语义连贯的全模态事件边界检测和跨模态关联感知事件字幕。因此,我们推出了有史以来第一个视觉-音频-语言事件理解基准 LongVALE,其中包括 8.4K 高质量长视频中 105K 个具有精确时间边界和详细关系感知字幕的全模态事件。此外,我们还建立了一个基线,利用 LongVALE 首次实现了视频大型语言模型(LLM)对全模态细粒度时态视频的理解。广泛的实验证明了 LongVALE 在推进全面多模态视频理解方面的有效性和巨大潜力。
7.Auto-RAG: Autonomous Retrieval-Augmented Generation for Large Language Models
标题:Auto-RAG:大型语言模型的自主检索-增强生成
author:Tian Yu, Shaolei Zhang, Yang Feng
publish:Code is available at https://github.com/ictnlp/Auto-RAG
date Time:2024-11-29
paper pdf:http://arxiv.org/pdf/2411.19443v1
摘要:
迭代检索是指模型在生成过程中不断查询检索器,以增强检索知识的相关性,从而提高检索增强生成(RAG)的性能。现有的工作通常采用少量提示或人工构建规则来实现迭代检索。这将带来额外的推理开销,并忽略大型语言模型(LLM)的卓越推理能力。在本文中,我们介绍了 Auto-RAG,这是一种以 LLM 强大的决策能力为核心的自主迭代检索模型。Auto-RAG 与检索器进行多轮对话,系统地规划检索和完善查询,以获取有价值的知识。这一过程一直持续到收集到足够的外部信息,然后将结果呈现给用户。为此,我们开发了一种在迭代检索中自主合成基于推理的决策指令的方法,并对最新的开源 LLM 进行了微调。实验结果表明,Auto-RAG 能够与检索器进行自主迭代交互,有效地利用了 LLMs 卓越的推理和决策能力,从而在六个基准测试中取得了优异的性能。进一步的分析表明,Auto-RAG 可以根据问题的难度和检索知识的实用性自主调整迭代次数,而无需任何人工干预。此外,Auto-RAG用自然语言表达了迭代检索过程,增强了可解释性,同时为用户提供了更直观的体验。
8.CLIP meets DINO for Tuning Zero-Shot Classifier using Unlabeled Image Collections
标题:CLIP 与 DINO 相结合,利用无标记图像集调整零镜头分类器
author:Mohamed Fazli Imam, Rufael Fedaku Marew, Jameel Hassan, Mustansar Fiaz, Alham Fikri Aji, Hisham Cholakkal
date Time:2024-11-28
paper pdf:http://arxiv.org/pdf/2411.19346v1
摘要:
在基础模型时代,CLIP 已成为将文本和视觉模式对齐到共同嵌入空间的强大工具。然而,用于训练 CLIP 的对齐目标往往会导致细粒度任务中的视觉特征不够理想。相比之下,DINO 等经过 SSL 训练的模型由于采用了专门的训练范式,在提取丰富的视觉特征方面表现出色。然而,这些 SSL 模型需要额外的监督线性探测步骤,这依赖于完全标记的数据,而这些数据通常成本高昂且难以大规模获取。在本文中,我们提出了一种无标签提示调整方法,该方法利用自我监督学习模型(DINO)的丰富视觉特征和大型语言模型(LLM)的广泛文本知识,在很大程度上提高了使用无标签图像的基于 CLIP 的图像分类性能。我们的方法分为三个关键步骤:(1) 我们生成了稳健的文本特征嵌入,通过利用 LLM 的特定类别描述更准确地表示对象类别,与 CLIP 的默认特定名称提示相比,实现了更有效的零拍摄分类。(2) 然后使用这些文本嵌入生成伪标签,以训练一个对齐模块,该模块整合了基于 LLM 描述的文本嵌入和 DINO 视觉特征的互补优势。(3) 最后,我们利用训练好的对齐模块,通过 DINO 辅助监督,对 CLIP 的视觉编码器进行提示调整。通过这三个步骤,我们可以利用视觉和文本基础模型的最佳优势,形成一种强大而高效的方法,超越最先进的无标签分类方法。值得注意的是,在 11 个不同的图像分类数据集上,我们的 NoLA(No Labels Attached)框架比最先进的 LaFter 取得了 3.6% 的平均绝对增益。
9.Beyond Logit Lens: Contextual Embeddings for Robust Hallucination Detection & Grounding in VLMs
标题:超越对数透镜:用于 VLM 中鲁棒性幻觉检测和接地的上下文嵌入
author:Anirudh Phukan, Divyansh, Harshit Kumar Morj, Vaishnavi, Apoorv Saxena, Koustava Goswami
date Time:2024-11-28
paper pdf:http://arxiv.org/pdf/2411.19187v1
摘要:
通过利用大型语言模型(LLM)的语言能力并整合特定模态编码器,大型多模态模型(LMM)的快速发展极大地推动了多模态理解。然而,LMM 受到幻觉的困扰,限制了其可靠性和应用。检测和减少这些幻觉的传统方法往往涉及昂贵的训练或严重依赖外部模型,而最近利用内部模型特征的方法则是一种很有前途的替代方法。在本文中,我们严格评估了最先进的免训练技术–Logit 透镜–在处理广义视幻觉方面的局限性。我们介绍了一种利用 LMM 中间层的上下文标记嵌入的改进方法。这种方法大大提高了包括动作和 OCR 在内的各种类别的幻觉检测和接地能力,同时在空间关系和属性比较等需要上下文理解的任务中也表现出色。我们新颖的接地技术产生了高度精确的边界框,促进了从 "零镜头物体分割 "到 "接地视觉问题解答 "的过渡。我们的贡献为建立更可靠、更可解释的多模态模型铺平了道路。
10.Zero-shot Slot Filling in the Age of LLMs for Dialogue Systems
标题:对话系统 LLM 时代的 "零镜头 "插槽填充技术
author:Mansi Rana, Kadri Hacioglu, Sindhuja Gopalan, Maragathamani Boothalingam
publish:To appear in Proceedings of COLING 2025
date Time:2024-11-28
paper pdf:http://arxiv.org/pdf/2411.18980v1
摘要:
零镜头插槽填充是自然语言理解(NLU)中一个成熟的子任务。然而,大多数现有方法主要关注单轮文本数据,忽略了对话的独特复杂性。对话数据是高度动态的,经常涉及突然的话题转移、打断和隐式引用,即使大型语言模型(LLM)具有非凡的能力,也很难直接应用零镜头槽填充技术。本文针对这些挑战,提出了利用槽归纳和黑盒知识提炼(KD)从教师 LLM 到较小模型的自动数据注释策略,在内部数据集上的表现优于 vanilla LLM,F1 分数绝对值提高了 26%。此外,我们还为呼叫中心的产品设置引入了一种高效的系统架构,其相对 F1 分数比现成的提取模型高出 34%,从而能够以更高的准确率对对话流进行近乎实时的推理,同时保持较低的延迟。
11.ICLERB: In-Context Learning Embedding and Reranker Benchmark
标题:ICLERB: 上下文学习嵌入和重排基准
author:Marie Al Ghossein, Emile Contal, Alexandre Robicquet
date Time:2024-11-28
paper pdf:http://arxiv.org/pdf/2411.18947v1
摘要:
上下文学习(ICL)使大型语言模型(LLM)能够通过相关信息的提示执行新任务。检索增强生成(RAG)通过在查询时将检索到的文档纳入 LLM 的上下文来增强 ICL。然而,传统的检索方法侧重于语义相关性,将检索视为搜索问题。在本文中,我们建议将 ICL 的检索重构为一个推荐问题,目的是在 ICL 任务中选择效用最大化的文档。我们引入了 “上下文学习嵌入和重排名基准”(ICLERB),这是一个新颖的评估框架,可根据检索器在 ICL 设置中提高 LLM 准确性的能力对其进行比较。此外,我们还提出了一种新颖的人工智能反馈强化学习重排算法(RLRAIF),旨在利用 LLM 的最小反馈对检索模型进行微调。我们的实验结果揭示了 ICLERB 与现有基准之间的显著差异,并证明使用我们的 RLRAIF 算法微调的小型模型优于最先进的大型检索模型。这些发现凸显了现有评估方法的局限性,以及对适应 ICL 的专门基准和训练策略的需求。
12.ElectroVizQA: How well do Multi-modal LLMs perform in Electronics Visual Question Answering?
标题:ElectroVizQA:多模态 LLM 在电子视觉问题解答中的表现如何?
author:Pragati Shuddhodhan Meshram, Swetha Karthikeyan, Bhavya, Suma Bhat
date Time:2024-11-27
paper pdf:http://arxiv.org/pdf/2412.00102v1
摘要:
多模态大型语言模型(MLLMs)因其处理多模态数据的能力而备受关注,它们能够增强对复杂问题的上下文理解。多模态大语言模型在视觉问题解答(VQA)等任务中表现出了非凡的能力;然而,它们在处理基本工程问题时往往力不从心,而且在数字电子学等主题方面,用于训练的专业数据集非常稀缺。为了填补这一空白,我们提出了一个名为 ElectroVizQA 的基准数据集,专门用于评估 MLLM 在本科生课程中常见的数字电子电路问题上的表现。该数据集是首个专为数字电子学 VQA 任务定制的数据集,包含约 626 个可视化问题,全面概述了数字电子学主题。本文对 MLLMs 理解和解决数字电子电路问题的能力进行了严格评估,深入探讨了 MLLMs 在这一专业领域的能力和局限性。通过介绍这个基准数据集,我们旨在激励在工程教育中应用 MLLM 的进一步研究和开发,最终缩小性能差距,提高这些模型在技术领域的功效。
13.Fine-Tuning Large Language Models for Scientific Text Classification: A Comparative Study
标题:微调用于科学文本分类的大型语言模型:比较研究
author:Zhyar Rzgar K Rostam, Gábor Kertész
publish:6 pages, 3 figures, 7 tables
date Time:2024-11-27
paper pdf:http://arxiv.org/pdf/2412.00098v1
摘要:
不同领域的在线文本内容呈指数级增长,因此需要先进的自动文本分类方法。基于转换器架构的大型语言模型(LLM)在这一领域取得了巨大成功,尤其是在自然语言处理(NLP)任务中。然而,由于专业词汇和不平衡数据等独特挑战,通用 LLM 在处理特定领域的内容(如科学文本)时往往会陷入困境。在本研究中,我们在源自 WoS-46985 数据集的三个数据集上对 BERT、SciBERT、BioBERT 和 BlueBERT 这四种最先进的 LLM 进行了微调,以评估它们在科学文本分类中的性能。实验结果表明,在基于摘要和关键词的分类任务中,特定领域模型(尤其是 SciBERT)的表现始终优于通用模型。此外,我们还将取得的结果与文献中报道的深度学习模型进行了比较,进一步凸显了 LLM 的优势,尤其是在特定领域中使用时。研究结果强调了针对特定领域对 LLM 进行调整以提高其在专业文本分类任务中的有效性的重要性。
14.Automated Literature Review Using NLP Techniques and LLM-Based Retrieval-Augmented Generation
标题:使用 NLP 技术和基于 LLM 的检索增强生成技术自动进行文献综述
author:Nurshat Fateh Ali, Md. Mahdi Mohtasim, Shakil Mosharrof, T. Gopi Krishna
publish:Key Words : T5, SpaCy, Large Language Model, GPT, ROUGE, Literature
Review, Natural Language Processing, Retrieval-augmented generation
date Time:2024-11-27
paper pdf:http://arxiv.org/pdf/2411.18583v1
摘要:
本研究介绍并比较了利用几种自然语言处理(NLP)技术和大语言模型(LLM)检索增强生成(RAG)自动生成文献综述的多种方法。研究文章数量的不断增加给人工文献综述带来了巨大的挑战。这导致对自动化的需求不断增加。开发一个能够仅以 PDF 文件为输入自动生成文献综述的系统是这项研究工作的主要目标。为了实现这一主要目标,我们评估了几种自然语言处理(NLP)策略的有效性,如基于频率的方法(spaCy)、转换器模型(Simple T5)和带有大型语言模型(GPT-3.5-turbo)的检索增强生成(RAG)。本研究实验选择了 SciTLDR 数据集,并利用三种不同的技术实现了三种不同的文献综述自动生成系统。对所有三个系统的评估都使用了 ROUGE 分数。根据评估结果,大语言模型 GPT-3.5-turbo 的 ROUGE-1 得分最高,为 0.364。转换器模型位居第二,而 spaCy 则排在最后。最后,根据大型语言模型为最佳系统创建了图形用户界面。
15.Can LLMs assist with Ambiguity? A Quantitative Evaluation of various Large Language Models on Word Sense Disambiguation
标题:LLM 能否帮助消除歧义?各种大型语言模型在词义消歧方面的定量评估
author:T. G. D. K. Sumanathilaka, Nicholas Micallef, Julian Hough
publish:12 pages,6 tables, 1 figure, Proceedings of the 1st International
Conference on NLP & AI for Cyber Security
date Time:2024-11-27
paper pdf:http://arxiv.org/pdf/2411.18337v1
摘要:
现代数字通信中经常出现模棱两可的词语。由于数据有限,词义模糊性给传统的词义消歧(WSD)方法带来了挑战。因此,翻译、信息检索和问题解答系统的效率受到这些限制的阻碍。本研究采用一种新方法,将系统提示增强机制与由不同意义解释组成的知识库(KB)相结合,研究如何使用大型语言模型(LLM)来改进 WSD。所提出的方法结合了一种人在环路中的提示增强方法,在这种方法中,提示由语音部分(POS)标记、歧义词的同义词、基于方面的意义过滤和少量提示来支持,以引导 LLM。通过使用基于思维链(COT)的少量提示方法,这项工作显示出性能的大幅提升。评估使用了 FEWS 测试数据和意义标签。这项研究推动了社交媒体和数字通信中准确的词语解释。
16.A survey on cutting-edge relation extraction techniques based on language models
标题:基于语言模型的前沿关系提取技术概览
author:Jose A. Diaz-Garcia, Julio Amador Diaz Lopez
publish:50 pages, under review in Artificial Intelligence Review
date Time:2024-11-27
paper pdf:http://arxiv.org/pdf/2411.18157v1
摘要:
关系提取(RE)是自然语言处理中的一项关键任务,对生物医学、金融和法律领域的应用至关重要。本研究通过分析过去四年中在计算语言学协会(ACL)会议上发表的 137 篇论文,重点研究了利用语言模型的模型,从而突出了关系提取技术的发展和现状。我们的研究结果强调了基于 BERT 的方法在 RE 方面取得最先进成果的优势,同时也注意到 T5 等新兴大型语言模型 (LLM) 的强大功能,尤其是在少量关系提取场景中,它们在识别以前未见的关系方面表现出色。
17.Data-driven development of cycle prediction models for lithium metal batteries using multi modal mining
标题:利用多模态挖掘技术,以数据为驱动开发锂金属电池循环预测模型
author:Jaewoong Lee, Junhee Woo, Sejin Kim, Cinthya Paulina, Hyunmin Park, Hee-Tak Kim, Steve Park, Jihan Kim
publish:30 pages, 7 figures
date Time:2024-11-26
paper pdf:http://arxiv.org/pdf/2411.17625v1
摘要:
数据驱动研究的最新进展表明,在理解材料与其性能之间错综复杂的关系方面具有巨大潜力。在此,我们介绍一种新颖的多模式数据驱动方法,该方法采用自动电池数据收集器(ABC),将大型语言模型(LLM)与自动图形挖掘工具–材料图形数字化器(MatGD)集成在一起。该平台能够从各种文本和图形数据源中精确提取电池材料数据和可循环性能指标,达到最先进的水平。通过 ABC 平台获得的数据库,我们开发出了机器学习模型,可以准确预测锂金属电池的容量和稳定性,这是有史以来第一个实现此类预测的模型。我们的模型还经过了实验验证,证实了数据驱动方法的实际应用性和可靠性。
18.Scaling Speech-Text Pre-training with Synthetic Interleaved Data
标题:利用合成交错数据扩展语音文本预训练
author:Aohan Zeng, Zhengxiao Du, Mingdao Liu, Lei Zhang, Shengmin Jiang, Yuxiao Dong, Jie Tang
date Time:2024-11-26
paper pdf:http://arxiv.org/pdf/2411.17607v2
摘要:
语音语言模型(SpeechLMs)接受语音输入并产生语音输出,与基于文本的大型语言模型(LLMs)相比,可实现更自然的人机交互。开发 SpeechLM 的传统方法受制于无监督语音数据和并行语音-文本数据的有限可用性,这些数据的丰富程度远远低于文本预训练数据,从而限制了它们作为 LLM 的可扩展性。我们提出了一种新方法,利用从文本语料库中提取的大规模合成交错数据来扩展语音-文本预训练,从而消除了对并行语音-文本数据集的需求。我们的方法从现有文本库中抽取文本跨度,并使用文本到标记模型合成相应的语音跨度,从而高效地构建语音-文本交错数据,而无需生成实际语音。我们还通过将向量量化瓶颈纳入编码器,采用了源自自动语音识别(ASR)模型的监督语音标记器。这种有监督的训练方法即使在较低的帧频(如 12.5Hz)下也能生成语义保存较好的离散语音标记,同时还能保持语音重构的质量。从预先训练的语言模型开始,将我们的预先训练扩展到 1 万亿个词块(使用 600B 合成交错语音文本数据),我们在语音语言建模和口语问题解答方面取得了最先进的性能,将口语问题任务的性能从之前 SOTA 的 13%(Moshi)提高到 31%。我们进一步证明,通过使用语音对话数据对预先训练的模型进行微调,我们可以开发出一种端到端语音聊天机器人,它在对话能力和语音质量方面都能达到与现有基线相当的竞争性能,即使只在语音领域运行也是如此。