用算法实现 用统计的方式实现 用自然语言处理的方法实现 用大模型实现 专利精益化统计分析
我们可以从算法、统计、自然语言处理(NLP)和大型语言模型(LLM)这四个方面,探讨如何实现对专利社区、作者重要性以及共同作者贡献度的分析。
1. 如何体现专利的社区 (社群效应)
🤖 用算法实现
- 网络分析算法:
- 社群检测 (Community Detection): 应用如 Louvain 算法、Girvan-Newman 算法等在专利引用网络(专利A引用专利B形成连接)或合作网络(共同发明人、共同受让人)中识别出紧密连接的专利集群或机构集群,这些集群可以被视为一个“社区”。
- 中心性算法 (Centrality Algorithms): 使用 PageRank、介数中心性 (Betweenness Centrality)、度中心性 (Degree Centrality) 等算法,识别社区中的核心专利、关键连接者(发明人/机构)。
- 聚类算法 (Clustering Algorithms):
- 基于专利的技术分类号 (IPC/CPC)、关键词、摘要文本特征等,使用 K-Means、DBSCAN 等算法将相似的专利聚集在一起,形成技术主题社区。
📊 用统计的方式实现
- 引文分析 (Citation Analysis):
- 统计前向/后向引用的数量、频率、引用机构的多样性等,高频互引的专利集合可视为一个社区。
- 计算共被引分析 (Co-citation Analysis) 和文献耦合分析 (Bibliographic Coupling),识别共同关注或共同基础的专利群组。
- 共现分析 (Co-occurrence Analysis):
- 统计技术关键词、IPC/CPC 分类号、发明人、受让人的共现频率。高频共现的实体对表明它们可能属于同一技术社区或合作网络。
- 地理空间统计:
- 分析发明人或受让人的地理位置分布,识别创新活动的地理聚集区,即地理上的创新社区。
- 趋势分析:
- 分析特定技术领域内或特定机构群体的专利申请量随时间的变化,观察社区的形成、发展和演变。
🗣️ 用自然语言处理 (NLP) 的方法实现
- 主题建模 (Topic Modeling):
- 应用 LDA (Latent Dirichlet Allocation)、NMF (Non-negative Matrix Factorization) 等模型从专利的摘要、权利要求或全文中提取隐藏的主题。具有相似主题分布的专利可以被认为属于同一技术社区。
- 文本相似度计算:
- 使用词袋模型 (Bag-of-Words)、TF-IDF、词嵌入 (Word Embeddings like Word2Vec, GloVe, BERT embeddings) 等技术计算专利文献之间的文本相似度,将高度相似的专利归为一类。
- 命名实体识别 (NER):
- 从专利文本中自动抽取出关键的技术术语、化学物质、基因序列、组织机构名等,用于构建更精细的知识图谱,从而识别和定义社区。
- 关系抽取 (Relation Extraction):
- 识别专利文本中实体之间的关系(例如,“技术A应用于产品B”,“公司X与大学Y合作研发”),构建社区内的关系网络。
🧠 用大模型 (LLM) 实现
- 语义聚类与检索:
- 利用 LLM 强大的语义理解能力,对专利摘要或权利要求进行向量化表示 (embeddings),然后在向量空间中进行聚类,比传统 NLP 方法能更好地捕捉深层语义联系,形成概念上更相关的社区。
- 通过自然语言提问,LLM 可以检索出与特定技术问题或概念相关的专利集合,间接定义一个围绕该问题的“社区”。
- 社区描述生成:
- 在识别出专利社区后,LLM 可以分析社区内专利的共同特征(如核心技术点、主要参与者、发展趋势),并自动生成对该社区的描述性摘要。
- 知识图谱构建辅助:
- LLM 可以从大量专利文本中提取实体和关系,辅助构建专利知识图谱,更全面地展现社区结构和动态。
2. 如何体现一个作者在这个领域的重要度
🤖 用算法实现
- 基于引文的排序算法:
- 计算发明人的 H-index、G-index 等学术评价指标(应用于专利引用)。
- 在发明人合作网络或其专利被引网络中,使用 PageRank 或其他中心性算法给发明人打分,排名靠前的可能更重要。
- 机器学习预测模型:
- 构建一个模型,输入发明人的多维度特征(专利数量、被引次数、合作者数量、专利技术领域广度等),输出其重要性评分或等级。
📊 用统计的方式实现
- 基础指标统计:
- 专利数量: 该发明人在特定领域的专利申请/授权总量。
- 被引次数: 其名下专利被后续专利引用的总次数或平均次数。
- 专利家族大小: 其专利在多少个国家/地区获得保护,反映国际影响力。
- 独立发明占比: 独立完成发明的比例。
- 高级指标统计:
- 领域加权影响力指数 (Category Normalized Citation Impact - CNCI): 考虑不同技术领域引用行为的差异,进行标准化后的影响力评估。
- 核心专利持有情况: 统计发明人是否拥有在其领域内被认为是开创性或颠覆性的高价值专利(通常通过高被引、专利审查员引用、或在标准中的地位等判断)。
- 合作网络广度与深度: 合作发明人数量、合作机构的多样性等。
🗣️ 用自然语言处理 (NLP) 的方法实现
- 专利文本分析:
- 分析发明人专利权利要求的广度、新颖性和技术先进性。例如,使用 NLP 技术评估其专利描述的技术方案与现有技术的差异程度。
- 对其专利组合进行主题建模,识别其核心技术贡献领域和影响力范围。
- 情感与影响力分析(间接):
- 如果能获取到关于其专利的法律诉讼文件、许可协议新闻等,可以分析其中的描述来间接判断其专利的重要性和市场影响力。
🧠 用大模型 (LLM) 实现
- 贡献总结与评估:
- LLM 可以阅读分析一个发明人的所有专利(至少是摘要和权利要求),并生成对其技术贡献、创新点和潜在影响力的总结性描述。
- 通过与领域内其他专利进行语义比较,LLM 可以辅助判断其发明的独特性和先进性。
- 问答式影响力探究:
- 向 LLM 提问,例如:“[发明人A]在[某领域]最重要的贡献是什么?”或“[发明人A]的哪些专利对后续技术发展影响最大?” LLM 结合其知识库和分析能力给出答案。
- 影响力叙事生成:
- LLM 可以基于该发明人的专利数据、引用情况、合作网络等信息,撰写一段关于其领域重要性的叙事性报告。
3. 如何体现同一篇专利不同作者的贡献度
前提:如前所述,仅从公开的专利文件本身很难直接、准确地判断不同发明人的具体贡献比例。专利法通常赋予所有列名发明人平等的权利。以下方法更多是探索性的,或依赖于额外信息。
🤖 用算法实现
- 基于排序的启发式方法(高度依赖约定):
- 如果某个组织内部有明确且一致的关于发明人排序与其贡献度相关的规则(例如,主要贡献者排第一),那么可以简单地根据排序来赋予权重。但这缺乏普遍适用性。
- 基于外部数据的算法:
- 如果能获取到与专利相关的内部贡献声明(如某些公司要求发明人填写的表格)或关联的学术论文(其中有作者贡献声明),可以设计算法来解析这些结构化或半结构化数据,并量化贡献。
📊 用统计的方式实现
- 基于历史数据的间接推断(非常粗略):
- 分析一个发明人在其所有专利中通常处于什么位置(第一发明人、中间发明人、最后发明人),以及不同位置的发明人其专利的平均被引次数等。但这只能反映一般模式,不能确定单篇专利的具体贡献。
- 对于单篇专利,统计方法几乎无法直接区分贡献度。
🗣️ 用自然语言处理 (NLP) 的方法实现
- 基于权利要求和发明人专长的关联分析(高难度、主观):
- 如果能将专利的每项权利要求(或技术点)通过 NLP 技术与每位发明人已知的技术专长领域(通过分析他们各自的其他专利或论文获得)进行匹配,或许可以推测谁对哪个技术点贡献更大。这非常复杂且主观性强。
- 分析实验室笔记或内部文档(需额外数据源):
- 如果能获得详细记录发明过程的内部文档(如实验室记录、项目报告),NLP 可以尝试从中提取描述各个发明人具体行动和贡献的文本片段,然后进行量化或定性评估。
🧠 用大模型 (LLM) 实现
- 基于文本理解的贡献推测(非常依赖上下文和额外信息):
- 如果LLM能够访问到描述发明过程的详细文本(例如,发明人提交给专利代理人的技术交底书,其中可能非正式地描述了各自的角色),LLM 或许可以从中提炼出关于贡献度的线索。但这同样超出了标准专利数据范围。
- 直接询问(如果模型被特定数据训练过): 如果一个LLM被用包含明确贡献度声明的数据集进行了微调(这在当前是不现实的通用场景),或许可以直接提问。
- 角色识别与归因(探索性): 比如,如果一个发明人主要负责实验验证,另一人主要负责理论构建,LLM 在理解了技术细节后,结合发明人各自的背景,或许能做出一些非常初步的、启发式的贡献角色划分,但这不能等同于法律或实际意义上的贡献度比例。
总结来说,对于前两个问题(专利社区和作者重要性),算法、统计、NLP 和 LLM 都有较多可行的实现路径。但对于第三个问题(共同作者贡献度),由于专利制度本身的设计,仅靠公开数据用任何技术手段都难以精确实现,更多时候需要依赖机构内部的约定或补充信息。