当前位置: 首页 > news >正文

字典树(trie树)详解

【本文概要】本文主要介绍了字典树的概念,字典树的一般算法,包括初始化,插入,查找等,最后举了比较典型的案例来辅助理解字典树这种特殊的数据结构。

1、什么是字典树

        字典树,是一种特殊的树状数据结构,对于解决字符串相关问题非常有效。一般而言,我们认为字典树是一种前缀树,但有时它也可以是后缀树(具体见下图)。字典树在统计、保存大量字符串中有着极大的优势:它利用字符串的公共前缀或后缀来减少查询时间,最大限度地减少不必要的字符串比较,使得查询的效率比一般算法高得多。

        如上图所示,常见的字典树的每一个节点是由一个数据域(用来标记是否在此处有字符串终止)与一个长度为26的指针域(表示26个小写字母)组成。一般我们在根结点不存储任何数据,这样是为了可以存储所有的字符串,从根结点到某一个节点,路过的字符连起来就是该节点对应的字符串。由于每个节点的子节点字符不同,也就是说明找到对应单词、字符是唯一的。

2、字典树的实现

        这里我们整理字典树的定义、插入和查找的相应算法的写法。

2.1 字典树的定义

const int size = 26;
struct Node {
	bool k; // true表示有字符串在此结尾,false表示无字符串在此结尾
	Node* next[size];

	Node() :k(false) { // 给成员变量赋值false
		for (int i = 0; i < size; ++i) {
			next[i] = nullptr; // 初始化都是空指针
		}
	}
};

2.2 字典树的插入

void insert_ch(char *ch) {
	Node *p = head;
	for (int i = 0; ch[i]; ++i) {
		if (p->next[ch[i] - 'a'] == nullptr) // 判断下层节点是否存在
			p->next[ch[i] - 'a'] = new Node; // 开辟新空间
		p = p->next[ch[i] - 'a'];
	}
	p->k = true; // 进行字符串结尾标记
}

        每次从根节点进行插入,如果向下的节点已经存在,就直接读取,否则拓展一个新节点。之后将最后一个节点的k标记为true表示该位置有一个字符串结尾。

2.3 字典树的查找

bool find_ch(char *ch) {
	Node *p = head;
	for (int i = 0; ch[i]; ++i) {
		if (p->next[ch[i] - 'a'] == nullptr) { // 判断下层节点是否存在
			return false; // 不存在即判否
		}
		p = p->next[ch[i] - 'a'];
	}
	return p->k; // 最终判断
}

        基本过程与插入相同,向下查找,入过该节点不存在,直接返回false,如果存在一直向下查找,最终返回末尾标记的k。

3、关于字典树的常见问题整理

3.1 依依的瓶中信

//本题考察字典树的扩展应用
//其具体算法仍是字典树的插入与查询
//需要注意的是当前字符串不能与自己匹配,
//解决的方法是写一个删除函数,先将当前字符串删除再查询,查询后再恢复 
//由于插入与删除的本质相同,只是cnt数组对应位置的增加或减小,故只需改写插入函数即可 
#include <bits/stdc++.h>

using namespace std;

const int maxn=1e5+100;

string str[maxn];//存储原始字符串组 
int nex[maxn][27];//nex[x][0]表示从第x个结点出发,边为'a'的下一个结点地址 
int cnt[maxn];//cnt[i]表示以第i个结点结尾的前缀的数量 
int idx=2;//用于动态开点 

void Insert(string s,int tag)//将字符串s插入字典树中,或将其从字典树中删除
//若传入tag=1,则为插入;若传入tag=-1,则为删除
//插入与删除的本质是令对应的cnt[x]+1或-1 
{
    int x=1;//初始从根结点(1号)开始 
    for(int i=0;i<s.size();i++)//遍历字符串s 
    {
        cnt[x]+=tag;//对每个字符,以该字符结尾的前缀数量均+1/-1 
        if(nex[x][s[i]-'a']==0)//若该字符(存储该字符的边)未被记录 
        {
            nex[x][s[i]-'a']=idx++;//则动态开点并记录之 
        }
        x=nex[x][s[i]-'a'];//继续向下追溯 
    }        
    cnt[x]+=tag;//结尾字符对应的前缀数量+1/-1 
}

int Search(string s)//在字典树中查找与s最接近的字符串,并返回匹配的最长前缀的长度 
{
    int x=1;//初始从根结点(1号)开始 
    int ans=0;//记录匹配的最长前缀的长度 
    for(int i=0;i<s.size();i++)//遍历字符串 
    {
        if(nex[x][s[i]-'a']==0)//已经无法再匹配(不存在记录当前字符的边)
        {
            return ans;//返回之前累计的长度 
        }    
        x=nex[x][s[i]-'a'];//若能继续匹配,则继续向下追溯 
        if(cnt[x]==0)return ans;//已经不存在以x结点结尾的前缀,返回之前累计的长度
        //注意以上这句不可省略,因为在删除操作中只是减少了字符串出现的次数,并没有删除之前记录的字符 
        ans++;//计数值加1,重复上述操作 
    }    
    return ans;//最终返回ans 
}

int main()
{
    int N;
    cin>>N;
    for(int i=0;i<N;i++)//输入N个字符串 
    {
        cin>>str[i];
        Insert(str[i],1);//插入 
    }
    for(int i=0;i<N;i++)//N组查询 
    {
        Insert(str[i],-1);//先将当前字符串删除 
        cout<<Search(str[i])<<endl;//查询匹配的最长前缀的长度并输出 
        Insert(str[i],1);//将当前字符串重新插入以恢复字典树 
    }
    return 0;
}

相关文章:

  • TCP/IP 5层协议簇:网络层(ICMP协议)
  • 如何学习编程?
  • Windows Server开启审计功能
  • Release of anyui for LVGL v0.27.0
  • grum-与gam-词源故事
  • 【数据分享】1999—2023年我国地级市污染物排放和环境治理数据
  • 【MySQL】数据库基础
  • 【计算机网络】TCP
  • Android 蓝牙OTA固件升级
  • Yashan SQL语句
  • OSCP最新备考攻略:迎接2024改版后的OSCP+认证
  • STM32-I2C通信协议
  • 苦瓜书盘官网,免费pdf/mobi电子书下载网站
  • SyntaxError: Unexpected identifier
  • 期权帮|中证1000股指期权交割结算价怎么算?
  • WEB登录认证与鉴权
  • (七)企业级高性能 WEB 服务 - HTTPS 加密
  • C语言_数据结构总结4:不带头结点的单链表
  • fopen
  • 简单的二元语言模型bigram实现
  • 深圳专门网站建设/网络推广外包
  • 嘉定营销型 网站制作/江阴百度推广公司
  • 中小企业建站平台/网络营销工作内容和职责
  • 网站客户留言/培训机构最新消息
  • 网站建设大赛策划书/关键词优化的五个步骤
  • 建材 东莞网站建设/英文外链平台