当前位置: 首页 > news >正文

C# iText 抽取PDF页特定区域文本内容

开发中需要提取PDF文件某页某区域内的特定文本内容,对于文字转换而成的PDF文件,可以使用iText库,通过Rectangle划定PDF页中特定区域提取文字,思路是将这个Rectangle框定区域放到TextRegionEventFilter过滤器中,代码如下:

        /// <summary>
        /// 按指定区域提取PDF页文本
        /// </summary>
        /// <param name="page"></param>
        /// <param name="region"></param>
        /// <returns></returns>
        public static string ExtractPageText(PdfPage page, Rectangle region)
        {
            // 创建区域过滤器
            TextRegionEventFilter filter = new TextRegionEventFilter(region);

            // 创建过滤后的文本监听器
            FilteredTextEventListener listener = new FilteredTextEventListener(
                new LocationTextExtractionStrategy(), filter
            );

            // 提取文本
            string extractedText = PdfTextExtractor.GetTextFromPage(page, listener);

            // 输出结果
            return extractedText;
        }

该方法亲测有效,能成功提取出对应位置的文本。

相关文章:

  • MySQL:MySQL的数据类型
  • Autojs无线连接vscode方法
  • 【JAVA架构师成长之路】【持久层】第2集:SQL常用优化手段
  • 高精算法的用法及其优势
  • PHP之数组
  • Java 多线程
  • 初识Qt · 信号与槽 · 基础知识
  • 计算机视觉算法实战——图像分割(主页有源码)
  • 【FFmpeg之如何新增一个硬件解码器】
  • LeetCode 双指针章节
  • 【Spring AOP】_切点类的切点表达式
  • 安装IK分词器;IK分词器配置扩展词库:配置扩展字典-扩展词,配置扩展停止词字典-停用词
  • 【工具】COME对比映射学习用于scRNA-seq数据的空间重构
  • 通过HTML有序列表(ol/li)实现自动递增编号的完整解决方案
  • 基于遗传算法的无人机三维路径规划仿真步骤详解
  • GStreamer —— 2.3、Windows下Qt加载GStreamer库后运行 - “教程3:动态管道“(附:完整源码)
  • Redis7——进阶篇(三)
  • LLM实践——DeepSeek技术报告学习(含实现逻辑梳理)
  • 腾讯云物联网平台(IoT Explorer)设备端使用
  • 【练习】【链表】力扣热题100 141. 环形链表
  • 建设俄语网站/百度经验手机版
  • 图门市建设局网站/排名优化百度
  • 南通 外贸建站/公司百度官网优化
  • 做沙盘实训在哪个网站做/站点推广是什么意思
  • wordpress移动端导航菜单/优化模型的推广
  • 凡科网站怎样做/网址外链平台