教你如何借助AI精读文献
目录
- 1. 原文
- 2. 对文献有一个快速的理解
- 3. 专业术语解读
- 4. 解答疑问
- 5. 借助AI翻译摘要和引言部分
- 5.1 **摘要 (Abstract)**
- 5.2 **引言 (Introduction)**
- 6. 介绍论文中的“Stack-Propagation”
- 7. 查阅论文里的参考文献,看看他是如何在Introduction中引述研究进展文献(“研究进展”:写作时该领域的研究历史和现状),并:通过网络找到一篇发表在2023 或2024 年的使用ATIS 数据集作为实验数据集的论文,以及找一篇发表在2023或2024 年的有对比SMOTE方法的论文
- 7.1 如何在Introduction中引述研究进展文献
- 7.2 找一篇发表在2023 或2024 年的使用ATIS 数据集作为实验数据集的论文
- 7.3 找一篇发表在2023或2024 年的有对比SMOTE方法的论文
1. 原文
还在为满是术语的英文文献头疼吗?面对一篇顶会论文,是不是常常感到无从下手,读了半天也抓不住重点?
别担心,这早已不是少数人的困境。幸运的是,我们处在一个AI工具唾手可得的时代。
本文将以NLP领域的知名论文 《A Stack-Propagation Framework with Token-Level Intent Detection for Spoken Language Understanding》 (Qin et al., EMNLP 2019) 为例,手把手教你如何借助AI,将精读文献的效率和深度提升一个量级。
AStack-Propagation Framework with Token-Level Intent Detection for
Spoken Language Understanding
原文是英文的,看起来就头疼,不要紧,我们通常是借助AI进行翻译,某人说过看一个上交教授讲cs论文精读公开课都说推荐直接ai翻译,只有遇到读不懂的不通顺地方再查找精翻,不过最好不要用WPS等翻译,因为大概率会翻译得词不达意!
2. 对文献有一个快速的理解
以下是提示词:
**角色设定:**你现在是一位专业的学术助手,精通多领域的知识,特别是计算机、数学、统计学以及各种工程技术领域,深度学习领域。你的任务是帮助用户阅读、翻译英文论文为中文,并对论文内容进行总结,提炼出关键要点。对于涉及数学计算的部分,你需要详细解释公式的推导过程、每一步的计算细节及其背后的逻辑和结论。同时,你还需要将复杂的概念以通俗易懂的语言进行解释,确保非专业背景的人也能理解。具体来说,你的工作流程如下:1. 首先,仔细阅读并理解用户提供给你的英文论文。
2. 然后,准确地将论文翻译成中文,注意保持原文的专业性和准确性,要有中英对照。
3. 接着,总结论文的主要观点、研究方法、实验结果及结论等核心要素,并用简洁明了的语言概括这些要点。
4. 对于文中的数学公式和计算部分,提供一步一步的详细解析,包括但不限于:公式的来源、每个变量的意义、推导过程中的关键步骤、最终得出的结论等。
5. 最后,用通俗易懂的语言解释上述要点和复杂概念,尽量减少使用技术术语,或在必要时给出清晰的定义和解释,以便让用户能够充分理解论文的内容。请始终保持客观、严谨的态度对待学术资料,并确保信息传递的准确性。
这时AI生成的文献解读是全面而粗糙的,因为上下文长度限制,很有可能只粗略翻译了三四段,概念通俗化部分也过于通俗而不能深入理解某个概念在实际场景下是如何工作的。
但是,这个初步的理解又是极为重要的,在阅读的过程中,一定会产生很多AI没有解答的疑问(如果你是小白的话),比如说:F1分数是什么?
、栈传播到底是如何工作的?
、解码器和编码器是什么?
…如果你对机器学习方面的只是并不了解,你也很有可能好奇CNN
、RNN
、自注意力机制
、损失函数
等都是些什么,不要紧!带着疑问继续阅读,并把疑问的地方标注起来。
3. 专业术语解读
带着问题清单,我们首先要解决最基础的障碍——专业术语。如果连论文的“语言”都看不懂,就谈不上理解其思想。
如果你是机器学习小白,那么你当然需要知道CNN、RNN、Softmax函数是什么,需要知道论文里所有相关专业术语的含义,他往往是默认你知道这些术语的。
以下是提示词:
总结出论文当中的所有相关专业术语,并告诉我具体含义。
例如:高级负荷曲线分析 (LPA) ,指的是......
光伏 (PV) 负荷识别,指的是......
视觉 Transformer (ViT) 技术,指的是......
......
不仅给出具体含义,还需要给出现实情况的例子。
注意,是所有相关名词!不止我提到的这些!
一个好的例子,胜过千言万语。要求AI提供通俗比喻,可以帮助我们快速建立对一个抽象概念的直观理解。
当然,对于这些只是一个粗略的了解,你并不需要知道他们背后是如何工作的,如何实现的,不然就太耗时间了!
4. 解答疑问
F1分数是什么?
、栈传播到底是如何工作的?
、解码器和编码器是什么?
…
让AI来帮你解答吧!
以下是提示词:
**主题:** `[在此处插入您想了解的任何概念、技术或主题]`**请你遵循以下两个阶段来为我解释这个主题,以确保我能从入门到深入地完全理解:****第一阶段:通俗化解释 (让我“知道它是什么”)**1. **核心比喻:** 首先,请用一个极其通俗易懂的生活化比喻,来解释 `[主题]` 的核心思想是什么。在这个比喻中,完全不要使用专业术语。
2. **基本定义:** 在比喻之后,再给出一个简洁、清晰的基本定义。**第二阶段:深入原理与实际应用 (让我“明白它是如何工作的”)**1. **选择典型场景:** 请选择一个最常见、最能体现 `[主题]` 价值的实际应用场景。
2. **拆解工作流程:**- **输入与输出:** 在这个场景下,它的“输入”是什么,“输出”又是什么?- **“黑箱”过程:** 请详细地、一步一步地拆解从“输入”到“输出”的中间过程。这里是关键,请解释其内部的核心原理和机制,不要跳过任何关键步骤。如果涉及算法,请解释其关键的决策逻辑。
3. **价值与原因:** 解释为什么在这个场景下需要使用 `[主题]`?它解决了什么具体问题?我们为什么选择用它,而不是用其他方法?**最终目标:**
在您解释完之后,我应该能够达到两个目标:- 能用自己的话,通过那个生活化的比喻,向一个完全不懂的人解释 `[主题]` 是什么。
- 能理解 `[主题]` 在一个真实世界场景中的具体实现过程和其背后的核心工作原理。
如果你已经看完,也知道了其中所有专业术语的含义,相信你一定对于这篇文献所研究的内容以及核心思想有了一个大概的了解,那么我准备了以下几个任务,带着这些任务一起继续探索吧。
- 翻译各自的摘要(Abstract)和引言(Introduction)部分
- 简要介绍论文中的“Stack-Propagation”
- 查阅论文里的参考文献,看看他们是如何在Introduction 中引述研 究进展文献(“研究进展”:写作时该领域的研究历史和现状),并:通过网络找到一篇发表在2023 或2024 年的使用ATIS 数据集作为实验数据集的论文,以及找一篇发表在2023或2024 年的有对比SMOTE方法的论文
5. 借助AI翻译摘要和引言部分
摘要是论文的灵魂,引言是论文的地图。吃透这两部分,就等于掌握了论文的80%。
翻译的诀窍:
- 告诉AI你需要中英对照
- 告诉AI你需要解读
以下是提示词:
请为我翻译论文当中的摘要和引言部分,具体工作流程:1. **中英对照翻译:** 然后,准确地将论文翻译成中文。请提供**中英对照**的版本,以便我随时查阅原文。翻译需保持学术专业性和准确性。
2. **核心精粹解读【解读】:**- 在翻译之后,你需要提供一个名为 **【解读】** 的核心摘要部分。- 这个部分需要像专家一样,一针见血地提炼出整篇论文的“骨架”,清晰地概括其精华。请**务必**使用以下结构化格式进行总结:- **1. 问题 (Problem):** 本文旨在解决什么核心问题?现有方法存在哪些不足?- **2. 方案 (Solution):** 作者提出了什么核心思想、模型或框架来解决上述问题?- **3. 优化/创新点 (Optimization/Innovation):** 相较于以往的方法,该方案有哪些具体的创新或优化之处?(如果有多点,请分点阐述)- **4. 结果 (Result):** 实验结果如何?是否达到了预期目标(例如,SOTA - State-of-the-art)?- **5. 增强 (Enhancement):** (可选)作者是否使用了像BERT这样的现有强大技术来进一步增强其模型或方案的表现?**最终要求:**
请始终保持客观、严谨的学术态度。你的回答应该结构清晰,先通过【解读】让我快速掌握论文全貌,再通过深入剖析让我理解具体实现细节。
以下是要求1的回答:
5.1 摘要 (Abstract)
【英文原文】
Intent detection and slot filling are two main tasks for building a spoken language understanding (SLU) system. The two tasks are closely tied and the slots often highly depend on the intent. In this paper, we propose a novel framework for SLU to better incorporate the intent information, which further guides the slot filling. In our framework, we adopt a joint model with Stack-Propagation which can directly use the intent information as input for slot filling, thus to capture the intent semantic knowledge. In addition, to further alleviate the error propagation, we perform the token-level intent detection for the Stack-Propagation framework. Experiments on two publicly datasets show that our model achieves the state-of-the-art performance and outperforms other previous methods by a large margin. Finally, we use the Bidirectional Encoder Representation from Transformer (BERT) model in our framework, which further boost our performance in SLU task.
【中文翻译】
意图检测和槽位填充是构建口语理解(SLU)系统的两大主要任务。这两个任务联系紧密,并且槽位经常高度依赖于意图。在这篇论文中,我们为SLU更好地融合意图信息构建了一个新颖的框架,进一步指导槽位填充。在我们的框架中,我们采用了一个带有栈传播机制的联合模型,这个模型可以直接让意图信息作为槽位填充的输入,以此来获取意图的语义知识。此外,为了进一步缓解错误传播问题,我们为栈传播框架执行了token级别的意图检测。在两个公开数据集上的实验表明,我们的模型取得了当前最先进的表现,并大幅超越了以往的其他方法。最后,我们在框架中使用了BERT模型,进一步提升了我们在SLU任务上的表现。
5.2 引言 (Introduction)
【英文原文】
Spoken language understanding (SLU) is a critical component in task-oriented dialogue systems. It usually consists of intent detection to identify users’ intents and slot filling task to extract semantic constituents from the natural language utterances (Tur and De Mori, 2011). As shown in Table 1, given a movie-related utterance “watch action movie”, there are different slot labels for each token and an intent for the whole utterance.
Usually, intent detection and slot filling are implemented separately. But intuitively, these two tasks are not independent and the slots often highly depend on the intent (Goo et al., 2018). For example, if the intent of a utterance is WatchMovie, it is more likely to contain the slot movie_name rather than the slot music_name. Hence, it is promising to incorporate the intent information to guide the slot filling.
Considering this strong correlation between the two tasks, some joint models are proposed based on the multi-task learning framework (Zhang and Wang, 2016; Hakkani-Tür et al., 2016; Liu and Lane, 2016) and all these models outperform the pipeline models via mutual enhancement between two tasks. However, their work just modeled the relationship between intent and slots by sharing parameters. Recently, some work begins to model the intent information for slot filling explicitly in joint model. Goo et al. (2018) and Li et al. (2018) proposed the gate mechanism to explore incorporating the intent information for slot filling. Though achieving the promising performance, their models still suffer from two issues including: (1) They all adopt the gate vector to incorporate the intent information. In the paper, we argue that it is risky to simply rely on the gate function to summarize or memorize the intent information. Besides, the interpretability of how the intent information guides slot filling procedure is still weak due to the interaction with hidden vector between the two tasks. (2) The utterance-level intent information they use for slot filling may mislead the prediction for all slots in an utterance if the predicted utterance-level intent is incorrect.
In this paper, we propose a novel framework to address both two issues above. For the first issue, inspired by the Stack-Propagation which was proposed by Zhang and Weiss (2016) to leverage the POS tagging features for parsing and achieved good performance, we propose a joint model with Stack-Propagation for SLU tasks. Our framework directly use the output of the intent detection as the input for slot filling to better guide the slot prediction process. In addition, the framework make it easy to design oracle intent experiment to intuitively show how intent information enhances slot filling task. For the second issue, we perform a token-level intent prediction in our framework, which can provide the token-level intent information for slot filling. If some token-level intents in the utterance are predicted incorrectly, other correct token-level intents will still be useful for the corresponding slot prediction. In practice, we use a self-attentive encoder for intent detection to capture the contextual information at each token and hence predict an intent label at each token. The intent of an utterance is computed by voting from predictions at each token of the utterance. This token-level prediction, like ensemble neural networks (Lee et al., 2016), reduces the predicted variance to improve the performance of intent detection. And it fits better in our Stack-Propagation framework, where intent detection can provide token-level intent features and retain more useful intent information for slot filling.
We conduct experiments on two benchmarks== SNIPS== (Coucke et al., 2018) and== ATIS== (Goo et al., 2018) datasets. The results of both experiments show the effectiveness of our framework by outperforming the current state-of-the-art methods by a large margin. Finally, Bidirectional Encoder Representation from Transformer (Devlin et al., 2018, BERT), as the pre-trained model, is used to further boost the performance of our model.
To summarize, the contributions of this work are as follows:
- We propose a Stack-Propagation framework in SLU task, which can better incorporate the intent semantic knowledge to guide the slot filling and make our joint model more interpretable.
- We perform the token-level intent detection for Stack-Propagation framework, which improves the intent detection performance and further alleviate the error propagation.
- We present extensive experiments demonstrating the benefit of our proposed framework. Our experiments on two publicly available datasets show substantial improvement and our framework achieve the state-of-the-art performance.
- We explore and analyze the effect of incorporating BERT in SLU tasks.
【中文翻译】
口语理解(Spoken Language Understanding, SLU)是面向任务的对话系统中的一个关键组成部分。它通常包括意图检测来识别用户意图和槽位填充来从自然语言语句中提取语义成分两个任务 (Tur and De Mori, 2011)。如表1所示,对于一个与电影相关的语句“watch action movie”,每个token都有不同的槽位标签,而整个语句则对应一个整体的意图。
通常情况下,意图检测和槽位填充是分开执行的。但直观上,这两个任务并非各自独立,槽位往往在很大程度上依赖于意图 (Goo et al., 2018)。例如,如果一个语句的意图是“WatchMovie”,那么它就更有可能包含movie_name这个槽位,而不是music_name。因此,引入意图信息来指导槽位填充是很有前景的。
考虑到这两个任务之间的强相关性,一些基于多任务学习框架的联合模型被提了出来 (Zhang and Wang, 2016; Hakkani-Tür et al., 2016; Liu and Lane, 2016),并且这些模型通过两个任务间的相互促进,表现均优于流水线模型。然而,他们的工作仅仅通过共享参数来对意图和槽位之间的关系进行建模。最近,一些工作开始在联合模型中显式地为槽位填充任务对意图信息进行建模。Goo等人 (2018) 和Li等人 (2018) 提出了门控机制来探索如何将意图信息融入槽位填充。尽管取得了不错的表现,但他们的模型仍然存在两个问题:(1) 他们都采用门控向量来融合意图信息。我们在论文中指出,仅仅依靠门控函数来总结或记忆意图信息是有风险的。此外,由于两个任务之间是通过隐藏向量进行交互的,意图信息如何指导槽位填充过程的可解释性仍然很弱。(2) 如果预测的语句级意图不正确,他们用于槽位填充的语句级意图信息可能会误导该语句中所有槽位的预测。
在本文中,我们提出了一个新的框架来解决上述两个问题。针对第一个问题,我们受到Stack-Propagation的启发——该方法由Zhang和Weiss (2016) 提出,利用词性标注的特征来进行句法分析并取得了良好表现——我们为口语理解任务提出了一个带有Stack-Propagation的联合模型。我们的框架直接将意图检测的输出作为槽位填充的输入,从而更好地指导槽位预测过程。此外,该框架也使得设计oracle意图实验变得容易,可以直观地展示意图信息如何增强槽位填充任务。针对第二个问题,我们在框架中执行了token级的意图检测,这可以为槽位填充提供token级的意图信息。如果语句中的某些token级意图预测错误,其他正确的token级意图对于相应的槽位预测仍然有用。在实践中,我们使用一个自注意力编码器进行意图检测,以捕捉每个token的上下文信息,从而预测每个token的意图标签。整个语句的意图是通过对每个token的预测结果进行投票来计算的。这种token级的预测,类似于集成神经网络 (Lee et al., 2016),通过降低预测方差来提高意图检测的表现。并且它更适合我们的Stack-Propagation框架,在该框架中,意图检测可以提供token级的意图特征,并为槽位填充保留更多有用的意图信息。
我们在两个基准数据集SNIPS (Coucke et al., 2018) 和 ATIS (Goo et al., 2018) 上进行了实验。两个实验的结果都显示了我们框架的有效性,其表现大幅超越了当前最先进的方法。最后,我们在模型中使用了预训练的BERT模型 (Devlin et al., 2018),进一步提升了我们在口语理解任务上的表现。
总而言之,本文的贡献如下:
- 我们提出了一个用于口语理解任务的Stack-Propagation框架,该框架可以更好地融合意图语义知识来指导槽位填充,并使我们的联合模型更具可解释性。
- 我们为Stack-Propagation框架执行了token级的意图检测,这提升了意图检测的表现,并进一步减轻了错误传播。
- 我们通过大量的实验证明了我们所提出框架的优势。我们在两个公开数据集上的实验显示出显著的改进,并且我们的框架达到了最先进的表现。
- 我们探索并分析了在口语理解任务中引入BERT模型的效果。
6. 介绍论文中的“Stack-Propagation”
要求2可以用第四部分“解答疑问”的提示词来写。
以下是要求2的回答部分:
stack-propagation是一个用于ai多任务学习的框架,这个框架将意图检测的输出结果与原始数据进行拼接,形成一个新的输入,传递给槽位填充进行处理,为槽位填充任务显式地融合意图信息。
比如用户说:
“帮我订一张明天去上海的机票”
input是这个字符串,output是json格式的输出:
{"intent": "BookFlight","slots": {"departure_date": "明天","destination_city": "上海"}
}
中间就是用了stack-propagation处理的过程,具体来说就是:
- 句子中的每个词(“帮我”、“订”、“一张”、“明天”、“去”、“上海”、“的”、“机票”)会被转换成词向量,这些向量包含了每个词的原始语义信息
- 通过BiLSTM和Transformer编码器来双向整理句子,理解每个词在当前语境的具体含义,经过这一步,词“上海”的向量,就已经不仅仅代表“上海”这个城市了,它还吸收了旁边“去”和“机票”的信息,它的向量特征强烈地指向“一个旅行的目的地”,通过这个模型的output就是为每个词生成一个整合了当前语境的新的向量**
e
** - 通过意图检测:input为向量**
e
,通过一个线性层和Softmax函数,output为向量e
**在当前语境下,指向各个可能意图的概率yIy^IyI - 通过stack-propagation:input为每个词的**
e
**和yIy^IyI,然后进行简单的向量拼接,也就是[富含上下文的词向量]
+[关于这个词的意图概率列表]
,output为(yiI⊕ei)(y_i^I ⊕ e_i)(yiI⊕ei) - 通过槽位填充:input为hi−1S,yi−1S,(yiI⊕ei)h_{i-1}^S, y_{i-1}^S, (y_i^I ⊕ e_i)hi−1S,yi−1S,(yiI⊕ei),通过LSTM在每个tit_iti结合三个部分,更新状态hiS=f(hi−1S,yi−1S,yiI⊕ei)h_i^S = f(h_{i-1}^S, y_{i-1}^S, y_i^I ⊕ e_i)hiS=f(hi−1S,yi−1S,yiI⊕ei),转换为概率分布yiS=softmax(WS∗hiS)y_i^S = softmax(W_S * h_i^S)yiS=softmax(WS∗hiS),返回概率向量中值最大的位置的标签oiS=argmax(yiS)o_i^S = argmax(y_i^S)oiS=argmax(yiS),output就是$o_i^S $是为第 i 个词确定的最终槽位标签
7. 查阅论文里的参考文献,看看他是如何在Introduction中引述研究进展文献(“研究进展”:写作时该领域的研究历史和现状),并:通过网络找到一篇发表在2023 或2024 年的使用ATIS 数据集作为实验数据集的论文,以及找一篇发表在2023或2024 年的有对比SMOTE方法的论文
7.1 如何在Introduction中引述研究进展文献
-
增加权威性:
- 引述:
It usually consists of intent detection to identify users' intents and slot filling task to extract semantic constituents from the natural language utterances (Tur and De Mori, 2011).
它通常包括意图检测来识别用户意图和槽位填充来从自然语言语句中提取语义成分两个任务 - 分析: 作者说了SLU的核心任务是意图检测盒槽位填充后,引用著作,增加权威性,表面这是学界公认的概念
- 引述:
-
指出任务间的关联性:
- 引述:
But intuitively, these two tasks are not independent and the slots often highly depend on the intent (Goo et al., 2018).
但直观上,这两个任务并非各自独立,槽位往往在很大程度上依赖于意图 - 分析:引用论文论证两个任务是相互关联的,后者依赖前者
- 引述:
-
回顾联合模型的早期发展:
-
引述:
Considering this strong correlation between the two tasks, some joint models are proposed based on the multi-task learning framework (Zhang and Wang, 2016; Hakkani-Tür et al., 2016; Liu and Lane, 2016) and all these models outperform the pipeline models via mutual enhancement between two tasks.
考虑到这两个任务之间的强相关性,一些基于多任务学习框架的联合模型被提了出来,并且这些模型通过两个任务间的相互促进,表现均优于流水线模型 -
分析: 在认识到任务相关性后,作者介绍了学术界提出的联合模型解决方案。引用了三篇具有里程碑意义的论文:
- Zhang and Wang (2016) : 提出了基于 RNN 的联合模型。
- Hakkani-Tür et al. (2016) : 提出了使用单个循环神经网络进行多领域联合语义分析的方法。
- Liu and Lane (2016) : 提出了基于注意力机制的联合模型。
-
引用这些关键文献,将论述的重心放在joint model上,为后来他提出的joint model做铺垫
-
-
指出当前主流方法的局限性:
- 引述:
Goo et al. (2018) and Li et al. (2018) proposed the gate mechanism to explore incorporating the intent information for slot filling.
提出了门控机制来探索如何将意图信息融入槽位填充 - 分析: 是正常论文会干的事,通过指出别的方法的局限性来为说明自己方法的优越性做铺垫
- 引述:
-
引出本文的创新思路:
- 引述:
For the first issue, inspired by the Stack-Propagation which was proposed by Zhang and Weiss (2016) to leverage the POS tagging features for parsing and achieved good performance...
我们受到Stack-Propagation的启发 - 分析: 说明自己方法的理论来源,增加合理性和说服力
- 引述:
This token-level prediction, like ensemble neural networks (Lee et al., 2016), reduces the predicted variance to improve the performance of intent detection.
- 分析: 类比,帮助读者更好地理解token level的意图检测是怎么实现的
- 引述:
-
点明实验所用的基准数据集:
- 引述:
We conduct experiments on two benchmarks SNIPS (Coucke et al., 2018) and ATIS (Goo et al., 2018) datasets.
- 分析: 用公开的数据集,就有对比,一般用公开数据集进行实验的项目比用私有数据集更好,因为可以与别的项目进行对比,能看出自己的方法到底好不好。
- 引述:
7.2 找一篇发表在2023 或2024 年的使用ATIS 数据集作为实验数据集的论文
查找论文一般用谷歌学术,当然我更喜欢用整合版。
- 论文标题: Joint intent detection and slot filling with syntactic and semantic features using multichannel CNN-BiLSTM
- 发表于: PeerJ Computer Science,8 October 2024
- 简介: 这篇论文提出了一种名为MCNN-BiLSTM的新型深度学习模型,其核心创新在于通过一个多通道架构,将上下文(BERT)、通用语义(word2vec)和句法(词性标注)三种不同的语言特征进行融合,从而能更全面、准确地同时完成对话系统中的意图检测和槽位填充任务,并在两个标准数据集上取得了超越以往先进方法的性能。
- 链接: Joint intent detection and slot filling with syntactic and semantic features using multichannel CNN-BiLSTM [PeerJ]
7.3 找一篇发表在2023或2024 年的有对比SMOTE方法的论文
- 论文标题: CLE-SMOTE: Addressing Extreme Imbalanced Data Classification with Contrastive Learning-Enhanced SMOTE
- 发表于: 04 Mar 2024, Last Modified: 02 May 2024
- 简介: 这篇论文主要研究了如何解决机器学习中极端类别不平衡的分类问题。针对广泛使用的SMOTE过采样技术有时会生成“有害”噪声样本从而损害模型性能的缺陷,作者提出了一种名为CLE-SMOTE的新方法。该方法通过一个两阶段过程来优化训练:首先,利用对比学习预训练一个网络,使其能够为每个类别学习到清晰且独特的特征空间;然后,在正式微调阶段,通过一个创新的带上限的损失函数来智能地评估每个SMOTE合成样本的质量,并限制那些质量差、偏离其类别核心特征的噪声样本对模型训练的负面影响,从而在有效扩充少数类数据的同时,显著提升了模型在不平衡数据上的鲁棒性和分类准确率。
- PDF: https://openreview.net/pdf?id=e641mv2xsf