当前位置：首页 > news >正文

LinuxC++项目开发日志——基于正倒排索引的boost搜索引擎（1——项目框架）

news 2025/9/22 6:54:03

基于正倒排索引的boost搜索引擎

项目架构
- 一、项目结构与技术栈
- 二、开发流程概述
- - 1. 数据准备与解析（Parser模块）
  - 2. 索引构建（Index模块）
  - 4. HTTP服务模块（Server模块）
  - 5. 前端界面（Frontend模块）

项目架构

一、项目结构与技术栈

技术栈：C++11、STL、Boost、Jsoncpp、cppjieba、cpp-httplib

前端：HTML5 + CSS + JavaScript + jQuery + Ajax

环境：CentOS 7(或其他)、gcc/g++、Makefile、VS Code/VS2019

二、开发流程概述

1. 数据准备与解析（Parser模块）

输入：Boost官网HTML文档（比如boost_1_78_0/doc/html/*.html）
在这里插入图片描述

下载之后可以用lrzsz命令发送到云服务，用tar解压，然后把里面的html文件夹复制出来，获取数据。

在这里插入图片描述

输出：去标签后的干净文本，格式为：title\3content\3url\n

以\3为分隔符分割属性，以\n分割不用的html文档。标题，内容，原官网文档链接。

步骤：

递归遍历HTML文件目录
提取每个文件的标题（title）、内容（去标签）、URL（拼接官网路径）
保存为结构化文本文件（比如raw.txt）

ps:下载boost准标准库 sudo apt install libboost-all-dev

在这里插入图片描述

2. 索引构建（Index模块）

a. 正排索引（Forward Index）
结构：vector

每个文档包含：doc_id, title, content, url

功能：通过doc_id快速获取文档内容

b. 倒排索引（Inverted Index）
结构：unordered_map<string, vector<InvertedElem>>

InvertedElem包含：doc_id, word, weight

功能：通过关键词快速获取包含该词的文档列表

c. 索引构建流程：
读取raw.txt，逐行解析

对每个文档的title和content进行分词（使用cppjieba）

统计词频，计算权重（如：标题中出现的词权重更高）

构建正排和倒排索引

3. 搜索引擎模块（Searcher模块）

初始化：加载索引文件

搜索流程：

对用户查询词进行分词

根据每个词在倒排索引中查找文档ID列表

合并结果，按权重排序

生成摘要（从正文中提取包含关键词的片段）

返回JSON格式结果（使用Jsoncpp）

4. HTTP服务模块（Server模块）

使用cpp-httplib搭建HTTP服务器

提供两个接口：

GET /：返回前端页面

GET /s?word=xxx：处理搜索请求，返回JSON结果

部署在CentOS上，监听指定端口（如8081）

5. 前端界面（Frontend模块）

HTML结构：搜索框 + 结果列表

CSS样式：美化页面，响应式布局

JavaScript/jQuery：处理用户输入、发起Ajax请求、动态渲染结果

与后端通过JSON交互，支持点击跳转至原文档URL

查看全文

http://www.dtcms.com/a/393528.html

Photoshop - Photoshop 非破坏性编辑

C++入门小馆：C++11第三弹(可变参数模板)

常用设计模式中的工厂模式，责任链模式，策略模式和单例模式的简单说明

aave v3 合约解析1 存款

autosar中自旋锁和互斥锁的应用

建筑可视化告别“假”渲染：用Photoshop+Twinmotion打造照片级场景

一键生成linux服务器健康巡检html报告

数据结构（C语言篇）：（十八）交换排序

Ubuntu20.04下跑通ORB-SLAM2

C++二进制转十进制

WordPress用户系统 + JWT认证：打造统一的应用登录解决方案

PortSwigger靶场之将反射型 XSS 注入到带有尖括号和双引号的 JavaScript 字符串中，并使用 HTML 编码和单引号进行转义通关秘籍

win11电脑按键失灵，提供几个可能恢复的方法

Android 中获取稳定时间的方法

mac编译ffmpeg

Deepsoil V7.1.10+Shake2000，最新版程序、教学视频、PDF使用手册

Apollo相机数据RTMP推流与播放指南

使用Python扩展Unity编辑器

【Android】自定义控件

探索 Event 框架 6：高级特性与性能优化

JavaSE基础——第九章枚举类注解

云计算在金融领域中的应用

【入门算法】前缀和：先预存再求和，以空间换时间

mac编译vst3sdk

Java 网络原理（二）--- TCP的机制 + IP协议 +以太网协议 + DNS

Python文件名编码处理深度解析：绕过编码问题的专业指南

如何利用简单的浏览器插件Web Scraper爬取知乎评论数据

鹿鼎记豪侠传：Rust 重塑 iOS 江湖（下）

03.博客版-镜像

云原生docker离线二进制安装