当前位置: 首页 > news >正文

TextIn ParseX重磅功能更新:支持切换公式输出形式、表格解析优化、新增电子档PDF去印章

ParseX重要版本更新内容速读

- 新增公式解析参数 formula_level,支持 LaTeX / Text 灵活切换;

- 表格解析优化单元格内换行输出;

- 导出excel时,图片链接放在单元格内;

- 新增电子档pdf去印章功能。

体验文档解析 最新更新功能https://cc.co/16YSSP


近期,为深度适配教育、金融、医疗、企业办公等场景需求,TextIn ParseX发布一系列功能升级,提升文档处理效率与准确性。下文将对新功能及版本优化进行详细介绍。

1 新增公式解析参数

新增参数 formula_level,用户可以通过参数控制不同层级的输出,支持自由切换公式输出形式,实现对公式解析的差异化需求。

参数详解

A. formula_level=0:获取精确的Latex公式格式

核心作用

在解析学术论文、国标文件、试卷等文档时,精确识别并保留公式的完整结构(如上下标、积分符号、矩阵等),以便用于学术引用、智能判题使用。

示例场景

科研人员分析学术论文、研究报告中的复杂公式,进行理论推导和数据验证。

示例样本

效果展示

B. formula_level=2:将公式还原为纯文本

核心作用

  1. 在涉及文字信息快速读取或系统录入的情况下,防止复杂公式干扰常规数据处理。
  2. 输出纯文本格式,兼容性更强,可直接导入 Excel、CRM 系统或进行关键词检索,无需额外渲染引擎。

示例场景

解析医疗报告中,去除公式符号,可减少 OCR 识别错误,提升数据录入效率(如医疗报告中 “白细胞计数 WBC₃” 转为 “WBC3”)。

示例样本

效果展示

| 分期      | 标准             |
|-----------|------------------|
| 原发肿瘤 (T) |               |
| Tx   | 原发肿瘤无法评价     |
| T0   | 无原发肿瘤证据       |
| Tis  | 原位癌           |

2 表格功能优化升级

表格解析支持单元格内换行的处理。

  • 在单元格中需要换行的地方,使用 <br> 表示;
  • 不管 table_flavor 参数是html还是md,都使用同样的换行符;
  • 输出结果中:
    • markdown、detail->text、pages->structured->text,均添加 <br>
    • pages->content 仍按行表示,不做修改
    • 导出的excel中,用 \n 替换 <br> 表示

核心作用

准确识别并正确展示表格单元格内换行信息,保障数据完整性与易读性,提升处理效率,降低人工核对成本。

示例场景

国际物流运输中,运单信息包含发货人和收货人的详细地址,这些地址往往包含多行信息,如门牌号、街道、城市、国家等。优化后的单元格内换行功能,能够使地址信息按照实际情况正确换行显示。

示例样本

效果展示-html

<td colspan="4" rowspan="3">***  TECHNOLOGY CO.,LTD<br>13F., NO.***, SEC.*** *** E. RD.,<br> *** 11354 US<br> +86 **** </td>

效果展示-md

| TO: | ***物流有限公司 |
| --- | --- |
| 发货人SHIPPER  | ...  |
| XIAMEN TECHNOLOGY CO.,LTD<br> **F.NO.**,SEC.*** ZHONGXIAO E. RD.,<br> BROOMFIELD CO ***<br> US<br> +****** |...|

B. 导出excel时,图片链接放在单元格内

解析表格导出为 Excel 文件时,支持仅保留图片链接,去掉所有markdown或html的标签。

核心作用

  1. 实现表格数据与图片的精准关联及高效展示。
  2. 简化数据处理流程,确保数据完整准确。

示例场景

电商商品管理,借助 Excel 中单元格内的图片链接核对商品信息。

示例样本

效果展示

3 图像处理升级:新增电子档去印章

电子档pdf解析支持自动去除页面印章。

核心作用

避免印章对数据的干扰,确保电子文档中的数据准确识别与提取。

示例场景

电子档的银行流水、银行对账单、银行回单等材料,通常都有印章,如果不去除,会影响识别结果中的数字准确率,导致下游数据处理出错。

如下图所示,箭头处数字出错:

示例样本

效果展示

*因银行单据有大量隐私信息,故对样本进行模糊处理,此为去除印章后的效果,精准还原文字内容。

体验文档解析 最新更新功能https://cc.co/16YSSP

相关文章:

  • 【day04】Fibonacci数列 | 单词搜索 | 杨辉三角
  • vue项目部署后部分子页面刷新后403
  • tmpfs和普通文件系统相比有哪些优缺点
  • overflow使用
  • Whistle无权限访问本地文件
  • Go语言中的并发编程--详细讲解
  • Python与C++类型对照及常用操作
  • 如何在24G显存机器上搭建一个超过gpt效果的DeepSeek-R1?
  • 将本地项目提交到新建的git仓库
  • 项目成果未达预期,如何补救
  • 小王包子铺的融资过程以及IPO上市过程
  • 记录学习《手动学习深度学习》这本书的笔记(十)
  • 【高级IO】多路转接之Epoll
  • RPG9.修改武器GA
  • 【软件设计师:数据结构】2.数据结构基础(二)
  • 《Python星球日记》 第45天:KNN 与 SVM 分类器
  • C语言 指针(8)
  • 从彼得·蒂尔四象限看 Crypto「情绪变迁」:从密码朋克转向「标准化追求者」
  • STM32的网络天气时钟项目
  • Kafka Controller的作用是什么?故障时如何恢复? (管理分区和副本状态;通过ZooKeeper选举新Controller)
  • 体验中国传统文化、采购非遗文创,波兰游客走进上海市群艺馆
  • 游戏论|暴君无道,吊民伐罪——《苏丹的游戏》中的政治
  • 面对非专业人士,科学家该如何提供建议
  • 道指跌逾100点,特斯拉涨近5%
  • 4月证券私募产品备案量创23个月新高,股票策略占比超六成
  • 对话哭泣照被恶意盗用成“高潮针”配图女生:难过又屈辱