当前位置: 首页 > news >正文

洛阳直播网站建设个人空间网站

洛阳直播网站建设,个人空间网站,wordpress nextapp插件,公司网站开发与维护我们在做PDF文档解析时有时需要解析PDF文档中的表格、形状等数据。跟解析文本类似的常见的解决方案也是两种。文档解析跟ocr技术处理。下面我们来看看使用文档解析的方案来做PDF文档中的表格、图形解析(使用pdfium库)。 表格解析: 在pdfium库…

我们在做PDF文档解析时有时需要解析PDF文档中的表格、形状等数据。跟解析文本类似的常见的解决方案也是两种。文档解析跟ocr技术处理。下面我们来看看使用文档解析的方案来做PDF文档中的表格、图形解析(使用pdfium库)。
表格解析:
在pdfium库中在解析表格时是将表格的线解析成单独的对象。所以我们在解析时只需要遍历页面中的所有线条,拿到线条之后再进行表格结构的重新组装即可。
以下为读取页面中线的相关代码:

std::string strPdfPath = "pdf.pdf";
//初始化库
FPDF_InitLibrary();
//加载文档
FPDF_DOCUMENT document = FPDF_LoadDocument(strPdfPath.c_str(), nullptr);
if (!document)
{//load error
}
//获取页数
int page_count = FPDF_GetPageCount(document);
//此处我们只演示处理第一页
FPDF_PAGE page = FPDF_LoadPage(document, 0); // 加载第一页 (索引 0)
if (page)
{int objCount = FPDFPage_CountObjects(page); //获取当前页的对象数for (int i = 0; i < objCount; ++i){FPDF_PAGEOBJECT obj = FPDFPage_GetObject(page, i);int nObjType = FPDFPageObj_GetType(obj);//对象类型switch (nObjType){case FPDF_PAGEOBJ_UNKNOWN:break;case FPDF_PAGEOBJ_PATH: {int nSegments = FPDFPath_CountSegments(obj); //std::vector<CPoint> vecPts;for (int j = 0; j < nSegments; j++){FPDF_PATHSEGMENT segment = FPDFPath_GetPathSegment(obj, j);int nSegType = FPDFPathSegment_GetType(segment);//线段类型switch (nSegType){case FPDF_SEGMENT_UNKNOWN:break;case FPDF_SEGMENT_LINETO:{float x, y;FPDFPathSegment_GetPoint(segment, &x, &y);CPoint pt(x, y);vecPts.push_back(pt);                                                   }break;case FPDF_SEGMENT_BEZIERTO:{//                        }break;case FPDF_SEGMENT_MOVETO:{float x, y;FPDFPathSegment_GetPoint(segment, &x, &y);    CPoint pt(x, y);vecPts.push_back(pt);                        }break;default:break;                   }                }            }     break;   default:break;                               }    }
}
FPDF_ClosePage(page);

通过上述代码我们获取Path对象中的数据即可拿到表格的线条,需要的注意的时如果只拿表格的线的话需要对线的数量做判断,如果对象只有两个点则为表格的线。这里拿到的线是整体的线。
在这里插入图片描述
比如上边的表格拿到的线数量为8条线段。
如果需要将线组成一个表格结构那我们需要自己做处理。大致的处理思路是将长线段打断为短线段然后再将短的线段组合成一个个的小多边形,根据多边形的上下左右共边关系生成一个表格结构。至于这里为什么要生成一个多边形,是为了后续做文本跟表格关联做准备。
根据之前文本解析文章中我们可以看到在获取文本信息时也能拿到文本的位置、大小等信息。所以我们在进行文本表格关联时只需要判断文本位置的那个点是否在表格的多边形内即可,如果在多边形内则说明PDF中该文本为表格中该单元格的数据。这样我们就可以生成一个虚拟的表格数据了。对于图片也是这样处理,拿到图片的中心点如果该点在多边形内则该图片为该表格中的数据。

形状解析:
读取代码跟读取线的代码一样,只是在读取形状时线的数量大于2。如果是圆、半圆之类的则其中一些点为贝塞尔曲线。我在测试时即使形状是线在解析时拿到的线的数量也是4个(一个闭合的多边形)。其他的形状经过测试也是一个闭合的多边形。
在这里插入图片描述
比如Word中的这些线条在解析出来后每个对象都是一些线段跟贝塞尔曲线组合成的一个闭合区域。

http://www.dtcms.com/a/420646.html

相关文章:

  • MyBatis-Plus使⽤
  • 长春网站制作报价南京软件定制
  • 烟台网站建设方案wordpress推荐好友
  • 著名网站用什么语言做后台定制软件开发报价
  • 质量好网站建设商家建设网站的建设费用包括哪些内容
  • 《Linux 基础 IO 完全指南:从文件描述符到缓冲区》
  • 如何上传ftp网站程序c 做网站开发
  • 【Linux】库的制作与原理(1)
  • 网站建设策划书悠悠如何做百度竞价推广
  • NVIDIA Warp v1.9.0深度解析:GPU加速物理仿真与计算的革命性进展
  • 网站怎么挂广告有没有做字的网站
  • dede电影网站模版个人博客模板wordpress
  • 临清设计网站网站建立价格
  • 公司电子商务网站建设规划方案米拓网站建设步骤
  • 易基因:Cell Res/IF25.9:童明汉/蓝斐/汤富酬合作利用ChIP-seq及多组学分析揭示精子发生的表观遗传调控机制
  • 免费免费网站模板wordpress主题更换字体教程 | hu
  • 郑州网站推广策划做景观私活的网站
  • 虚拟环境中多个activate:.bat、.fish、ps1以及无后缀的
  • 秦皇岛网站制作哪个好制作电子商务网站页面
  • 国际网站 建设网站建设技术人员
  • 凡科可以做淘宝客网站吗《高性能网站建设指南》
  • 【网络安全】三、入门篇:Web安全常见漏洞概述
  • 深入剖析Shader编程:从基础到高级优化的实战指南
  • 做电子商务网站需要学什么大一学生期末网页设计作业
  • 音乐网站开发代码vip网站解析建设
  • 网站开发晋升空间 路径海口云建站模板
  • 网站怎么做百度商桥iis网站
  • wordpress仿站标签做做网站入口
  • 通过Selenium实现网页截图来生成应用封面
  • MySQL数据库精研之旅第十八期:存储过程,数据处理的全能工具箱(一)