当前位置: 首页 > news >正文

[论文阅读] 人工智能 + 软件工程 | 当AI成为文学研究员:Agentic DraCor如何用MCP解锁戏剧数据分析

当AI成为文学研究员:Agentic DraCor如何用MCP解锁戏剧数据分析

论文信息

  • 原标题:Agentic DraCor and the Art of Docstring Engineering: Evaluating MCP-empowered LLM Usage of the DraCor API
  • 主要作者:Peer Trilcke, Ingo Börner, Henny Sluyter-Gäthje, Daniil Skorinkin, Frank Fischer, Carsten Milling
  • 研究机构:1University of Potsdam, Germany;2Freie Universität Berlin, Germany
  • 引文格式(APA):Trilcke, P., Börner, I., Sluyter-Gäthje, H., Skorinkin, D., Fischer, F., & Milling, C. (2025). Agentic DraCor and the Art of Docstring Engineering: Evaluating MCP-empowered LLM Usage of the DraCor API. Preprint submitted to the 2nd Workshop on Computational Drama Analysis at DraCor Summit 2025, Berlin, Germany.

一段话总结

本文实现并评估了DraCor平台的Model Context Protocol(MCP)服务器,该服务器能让大型语言模型(LLM)自主调用DraCor的API工具进行戏剧数据分析。通过定性实验,研究团队评估了LLM在工具选择、使用正确性、效率和可靠性方面的表现,发现“Docstring Engineering”(文档字符串工程)——即通过精心设计工具文档优化LLM与工具的交互——至关重要。这项研究不仅展示了智能体AI在计算文学研究中的潜力,也为数字人文领域的可靠基础设施建设提供了方向。

在这里插入图片描述

思维导图(核心架构)

在这里插入图片描述

研究背景

想象一下,如果你问AI:“10世纪以来,德语女性剧作家写的最复杂的戏剧是哪部?”传统的ChatGPT或Claude可能会根据训练数据中的印象回答,比如提名某部知名作品,但结论可能缺乏实证支持——因为它们没有真正“分析”过戏剧文本的数据。

这正是计算文学研究(Computational Literary Studies)面临的痛点:文学语料库(如戏剧、小说)虽已数字化,但机器难以自主、精准地调用数据进行分析。DraCor(戏剧语料库平台)早就想解决这个问题,它推出了Python(pydracor)和R(rdracor)工具包,让研究者能通过代码调用API分析戏剧数据,但这需要编程能力,且无法让AI自主完成。

随着“智能体AI”(Agentic AI)的兴起,情况有了转机。Anthropic提出的“模型上下文协议(MCP)”允许LLM通过服务器自主调用“工具”(如API接口),就像人用软件完成任务一样。于是,研究者们想到:给DraCor加一个MCP服务器,让LLM能自己调用工具获取数据、分析问题,不就能让AI成为真正的“文学研究员”吗?

创新点

  1. 首个计算文学研究的MCP服务器:首次为DraCor实现MCP服务器,让LLM能自主调用其API,填补了AI与文学语料库自主交互的空白。
  2. 提出“Docstring Engineering”概念:发现工具的文档字符串(docstring)是LLM理解如何使用工具的核心,通过精心设计文档(而非仅优化代码)可显著提升LLM工具调用的准确性。
  3. 定性评估框架:针对LLM工具使用设计了“工具正确性”“调用效率”“使用可靠性”三维评估标准,为智能体AI在人文研究中的应用提供了评估范式。

研究方法和思路

1. 实现DraCor MCP服务器
  • 技术基础:基于Python的fastmcp框架,将DraCor API功能封装为“工具”(每个工具是一个带@mcp.tool()装饰器的函数)。
  • 工具分类
    • 直接API包装器:如get_play_characters(获取剧本角色),直接对应DraCor API端点。
    • 辅助工具:如分页工具get_corpus_metadata_paged_helper,解决LLM处理大数据时的长度限制。
    • 搜索发现工具:如get_plays_in_corpus_by_author_helper,支持按作者、标题检索剧本。
    • 文档工具:如get_api_feature_list,让LLM了解系统功能。
2. 实验设计
  • 目标:测试LLM(Claude Sonnet 4)使用工具处理文学研究问题的能力。
  • 实验场景:设计16个查询,覆盖4类场景(单剧本、语料库、多语料库、文学概念应用),并通过“术语差异”(如“角色数”vs“dramatis personae”)、“DraCor特异性”(如用“GerDraCor”指代德语语料库)等维度变化查询。
  • 评估标准
    • 正确答案:结果是否与人工计算一致。
    • 工具正确性:是否选用了合适的工具。
    • 调用效率:是否用最短路径完成任务(1-5分,5分为最优)。
    • 使用可靠性:5次重复实验中,工具选择和结果的一致性(5/5为最优)。

主要成果和贡献

核心发现(实验结果)
评估维度关键结果
正确答案13/16实验正确,错误多因数据长度限制
工具正确性15/16实验选用了正确工具
调用效率均值4.375,8/16实验达最优(5分)
使用可靠性11/16实验结果稳定(≥3/5)
贡献
  1. 技术贡献:提供了可复用的MCP服务器实现,代码开源(见下方链接),为其他人文语料库接入智能体AI提供了模板。
  2. 方法贡献:证明LLM可通过工具调用实现实证性文学分析(而非依赖训练数据),如通过get_play_metrics计算角色网络复杂度。
  3. 概念贡献:提出“Docstring Engineering”——通过优化工具文档(如明确参数、使用场景),可显著提升LLM工具调用的准确性,为智能体AI的工具设计提供了指导原则。
开源资源
  • DraCor MCP服务器代码:https://github.com/dracor-org/dracor-mcp
  • 实验文档:https://github.com/dracor-org/dracor-mcp-evaluation

关键问题

  1. 什么是MCP?它如何让LLM与DraCor交互?
    MCP(模型上下文协议)是Anthropic提出的协议,允许LLM通过服务器调用“工具”。在DraCor中,MCP服务器将API功能封装为工具,LLM通过阅读工具的docstring自主选择并调用,实现数据获取和分析。

  2. 为什么Docstring如此重要?
    LLM主要通过工具的docstring理解其功能、参数和使用场景。例如,get_corpus_metadata_paged_helper的docstring明确说明“处理大数据时用此工具分页获取”,能引导LLM避开长度限制。

  3. LLM在处理文学问题时表现如何?
    对简单问题(如“某剧本有多少角色”)表现稳定(正确率100%,可靠性5/5);但处理大数据(如“哪个语料库时间跨度最广”)时易出错,因受限于LLM的上下文长度。

  4. 这项研究对文学研究者有何意义?
    无需编程能力,研究者可通过自然语言让AI调用工具分析戏剧数据(如角色网络、性别分布),加速实证性文学研究;同时,Docstring设计为工具易用性提供了标准。

总结

本文通过实现DraCor的MCP服务器,首次让LLM能自主调用戏剧语料库API进行分析,并提出“Docstring Engineering”概念优化这一过程。实验表明,LLM在工具使用的正确性和效率上表现良好,但受限于数据处理能力。这项研究不仅为计算文学研究提供了新工具,也为智能体AI在人文领域的可靠应用指明了方向——未来,精心设计的文档可能比复杂的代码更能释放AI的潜力。

http://www.dtcms.com/a/341997.html

相关文章:

  • 短视频矩阵管理软件推荐:小麦矩阵系统全面解析
  • AR技术:重塑汽车制造的未来
  • B站视频字幕提取-为学习所用
  • java中ReentrantLock使用公平锁相关问题
  • 河南萌新联赛2025第(六)场:郑州大学补题
  • 分享一个基于Python与spark大数据的护肤品市场用户行为分析与可视化平台,基于hadoop的护肤品使用行为追踪与分析可视化平台的设计与实现
  • uniapp vue3 ts自定义底部 tabbar菜单
  • FPGA DP1.4 With DSC解决方案
  • IE启动时主页被360守护了想变回去怎么办?
  • Spring Boot + Spring AI 最小可运行 Demo
  • TensorFlow深度学习实战(33)——深度确定性策略梯度
  • 【知识储备】PyTorch / TensorFlow 和张量的联系
  • 29、工业网络威胁检测与响应 (IDS 模拟) - /安全与维护组件/industrial-network-ids
  • C# OpencvSharp获取Astra Pro奥比中光深度相机深度图
  • AXI GPIO S——ZYNQ学习笔记10
  • 基于OpenCV的物体识别与计数
  • 基于SpringBoot的流浪动物领养管理系统【2026最新】
  • 【Android】悬浮窗清理
  • 政务分建用户体系下基于OAuth2.0概念单点登录实现方案
  • CT02-20.有效的括号(Java)
  • 【Linux | 网络】多路转接IO之select
  • Linux软件编程--网络操作
  • FreeRTOS,事件标注组创建,xEventGroupCreate、xEventGroupCreateStatic
  • 【自记】Power BI 中 CALCULATETABLE 第二个及后续参数支持的两种类型说明
  • 基于混合注意力网络和深度信念网络的鲁棒视频水印技术基础理论深度解析
  • 【世纪龙科技】汽车专业虚拟仿真实训基地建设-理实虚一体化实践
  • 【lucene】lucene常用查询一览
  • 一键去除 Windows 图标角标(小箭头、盾牌与双箭头)
  • JeeSite V5.13.0 发布,升级 Spring Boot 3.5,Cloud 2025,AI 1.0,Vite 7
  • ORACLE中如何批量重置序列