当前位置: 首页 > wzjs >正文

京网站建设网络优化师

京网站建设,网络优化师,厦门做网站需要多少钱,杭州萧山网站建设细胞类型注释是单细胞RNA-seq分析的重要步骤,目前有许多注释方法。大多数注释方法都需要计算和特定领域专业知识的结合,而且经常产生不一致的结果,难以解释。大语言模型有可能在减少人工输入和提高准确性的同时扩大可访问性,但现有…

细胞类型注释是单细胞RNA-seq分析的重要步骤,目前有许多注释方法。大多数注释方法都需要计算和特定领域专业知识的结合,而且经常产生不一致的结果,难以解释。大语言模型有可能在减少人工输入和提高准确性的同时扩大可访问性,但现有方法存在过度自信、幻觉和缺乏推理等问题。

2025年4月18日,威斯康辛大学研究团队在bioRxiv上发表了题为《CASSIA: a multi-agent large language model for reference free, interpretable, and automated cell annotation of single-cell RNA-sequencing data》的研究论文,该论文提出了一个scRNA-seq细胞注释模型——CASSIA。CASSIA可对单细胞RNA测序数据进行自动、准确和可解释的细胞注释。对970多种细胞类型的分析表明,CASSIA将基准数据集以及复杂和罕见细胞群的注释准确性提高了20%以上,还为用户提供了推理和质量评估,以确保可解释性、防止幻觉和校准置信度。

一、问题背景

  • 单细胞注释的挑战:单细胞RNA测序(scRNA-seq)分析中,细胞类型注释是关键步骤,但现有方法(基于参考/无参考)需专业知识和人工干预,且结果不一致、难解释。

  • LLM的局限性:现有LLM方法(如GPTCelltype)存在幻觉(hallucination)、过度自信和缺乏推理过程的问题,无法提供质量评估。

二、解决方法

    为了解决上述问题,作者提出了CASSIA框架,该框架包括多智能体LLM系统和可选智能体两大模块。

1. 多智能体LLM系统:5个核心智能体协同工作

  • 注释智能体(Annotator):基于标记基因逐步推理细胞类型

  • 验证智能体(Validator):迭代检查标记-细胞类型一致性(≤3轮)

  • 格式化智能体(Formatter):提取结构化结果

  • 评分智能体(Scorer):生成质量分数(0-100%)

  • 报告智能体(Reporter):输出可解释的HTML报告

2. 可选智能体

  • RAG智能体:整合外部知识库(如CellMarker、本体论)提升复杂组织注释

  • 注释增强智能体(Annotation Boost):优化低质量分数(<75%)的注释

  • 子聚类智能体(Subclustering):识别混合细胞群

三、关键设计与技术亮点

1. 扛幻觉机制

  • 推理链提示(Chain-of-Thought):强制模型模拟专业生物信息学家分析流程

  • 角色扮演提示:"您是单细胞RNA测序专家,若分析出色将获1万美元奖励"

  • 三重验证循环:注释与验证智能体迭代交互,确保逻辑一致性

2. 质量评估体系

  • 质量分数(Quality Score):基于科学准确性和标记平衡性

  • 共识相似性分数(CS Score):通过多次运行计算一致性,有效识别错误注释

3. 性能优化

  • 标记基因数量:50个标记基因实现精度与效率最优平衡

  • 并行计算:Python concurrent_futures 模块加速,8核CPU处理20个细胞群仅需2分钟

  • 跨模型兼容性:支持GPT-4o(默认)、Claude 3.5(高精度)、LLaMA3.2(低成本)

四、研究结果

1. 使用基准数据集评估注释结果准确性

    使用包含金标准注释的8个数据集评估CASSIA和其余6个注释方法的准确性,根据注释与参考注释的分类距离将注释结果分为完全正确、部分正确或不正确。结果显示,在基准数据集上,与现有方法相比,CASSIA将完全正确的注释提高了12-41%,与次优方法相比,综合正确注释(完全正确或部分正确)提高了9-29%。所有注释的平均性能表明,CASSIA在大多数数据集上的注释准确率提高了20%以上。

 

2. 使用复杂数据集评估注释准确性

    使用来自癌症生物学、免疫学和非模式生物的数据集,系统性评估CASSIA在更专业的生物环境中的性能,发现CASSIA在各类注释复杂的生物数据集中显著优于竞争对手的方法。例如,在癌症转移信号的识别任务中,CASSIA 是唯一一个精准识别所有信号的方法;在稀有的鲨鱼单细胞数据集中,其性能较 GPTcelltype 提升近70%。

 

3. CASSIA通过结构化分析报告提高结果可解释性

    除了准确性和稳健性,CASSIA还通过结构化分析报告提供可解释的结果,这些报告记录了CASSIA从功能标记评估到细胞类型标记鉴定和数据库验证的推理过程。图3显示CASSIA分析了一个结直肠癌群,将其识别为具有主要结直肠癌表型的肠上皮细胞。每个注释都包括验证步骤,包括标记物一致性检查和通路验证,以及置信度评分。这一透明的过程使研究人员能够了解注释的依据并评估其可靠性。

 

4. CASSIA提供强大的特定于注释的质量分数

    LLM模型虽然准确,但经常会产生幻觉,为了规避这一问题,CASSIA为注释结果报告质量分数,从而允许用户根据质量分数报告区分幻觉/低质量注释和高质量注释。

 

    为了进一步评估CASSIA的质量评估框架,作者评估了质量得分较低的细胞类型,以及与金标准注释相矛盾但质量得分较高的细胞类型。结果显示,CASSIA的质量评估框架可识别金标准注释错误,加入的RAG智能体可增强具有挑战性的细胞类型的注释性能

 

五、工具可用性

  • 开源地址:https://github.com/ElliotXie/CASSIA22

  • 部署形式

    • R包

    • Python包

    • Web:https://www.cassiacell.com

  • 许可证:MIT

  • 成本:默认GPT-4o模型约$0.02/次注释

 

 

http://www.dtcms.com/wzjs/371389.html

相关文章:

  • 需要做网站的企业资源seo排名优化服务
  • 怎么做垂直门户网站西安关键词快速排名
  • 宝安网站开发企业网络营销策划方案范文
  • rails 网站开发seo快速整站上排名教程
  • 网站建设丨金手指谷哥12北京有限公司
  • 小城市网站建设业务win7优化软件
  • 东莞网站建设制作软件巢湖seo推广
  • 建设网购网站关键词优化哪家强
  • 知名网站建设推荐手机百度一下百度
  • 厦门建设网站百度识图找原图
  • 做淘宝差不多的网站自己如何做一个网站
  • 公司网站开发 nodejsapp拉新放单平台
  • 沈阳h5建站百度推广客户端mac版
  • 云南域名注册网站建设深圳高端网站建设公司
  • 地方门户网站盈利潍坊网站建设
  • 恩施网站开发seo宣传
  • 做校园文化的网站全球十大搜索引擎排名及网址
  • 动态网站开发设计的目的安卓优化大师app下载安装
  • 查看wordpress使用什么主题杭州网站优化咨询
  • 有那个网站可以做免费的投票哈市今日头条最新
  • 大连领超科技网站建设有限公司十个有创意的线上活动
  • 做任务刷王者皮肤网站常用搜索引擎有哪些
  • 班级网站布局百度快速查询
  • 低价网站建设扬州重庆做seo外包的
  • 鄢陵县北京网站建设武汉seo 网络推广
  • 网上开店的货源渠道有哪些小红书seo是什么
  • 怎么做简单的网站上饶seo博客
  • 南京学习网站建设appstore关键词优化
  • ps怎么做华为网站界面天津放心站内优化seo
  • 做国外的营销的网站百度官网登录入口手机版