当前位置: 首页 > wzjs >正文

备案老域名搜索引擎关键词优化方案

备案老域名,搜索引擎关键词优化方案,做网页的素材,哪个网站专做滨水景观1.海量数据处理问题 给两个文件,分别有100亿个query,只有1G内存,如何找到两个文件交集? 解决方案一: 可以先用布隆过滤器,一个文件的query放进布隆过滤器,另一个文件依次查找,在的…

1.海量数据处理问题

给两个文件,分别有100亿个query,只有1G内存,如何找到两个文件交集?

解决方案一:

可以先用布隆过滤器,一个文件的query放进布隆过滤器,另一个文件依次查找,在的就是交集,但存在缺陷,因为存在的值可能是误判的,也就是说交集不一定准确。

解决方案二:

哈希切分,首先内存的访问速度远大于硬盘,大文件放到内存搞不定,就可以切分为小文件,再放进内存处理。但不是平均切分,因为平均切分就需要双重循环遍历,低效率。可以使用哈希切分,依次读取⽂件中query,i = HashFunc(query)%N,N为准备切分多少分⼩⽂ 件,N取决于切成多少份,内存能放下,query放进第i号小文件,这样A和B中相同的query算出的hash值是一样的,相同的query就进入编号相同的文件直接找交集,不用交叉找,效率就提升了。

本质就是相同的query在哈希切分过程中,一定进入的同一个小文件Ai和Bi,不可能出现A中的query进入Ai,就可以对应Ai和Bi进行求交集,一一对应的,从n^2变成n。

哈希切分的问题就是每个小文件不是均匀的,可能会导致某个文件要存储很多数据存不下。会出现两种情况:1.这个小文件中大部分是同一个query。2.这个小文件是有很多的不同的query构成,本质是这些的query冲突了。针对情况一set是可以放得下的,因为set可以去重。对于2,就可以用别的哈希函数进行二次切分。遇到大于1G文件,继续放到set找交集,如果set抛出异常就说明是内存放不下,换个哈希函数进行二次切分再对应找交集。

2.给一个超过100G大小的log file。log中存着ip地址,设计算法找到出现次数最多的ip地址,查找出出现次数前十的ip地址

本题的思路跟上题完全类似,依次读取⽂件A中query,i = HashFunc(query)%500,query放进Ai号⼩ ⽂件,然后依次⽤map<string, int>对每个Ai⼩⽂件统计ip次数,同时求出现次数最多的ip或者topk ip。本质是相同的ip在哈希切分过程中,⼀定进⼊的同⼀个⼩⽂件Ai,不可能出现同⼀个ip进⼊Ai和Aj 的情况,所以对Ai进⾏统计次数就是准确的ip次数。(每个小文件都可以得到一个最大数,然后建成一个大堆出来,去堆顶的数据就是最多数)
http://www.dtcms.com/wzjs/342405.html

相关文章:

  • 重庆住房城乡建设委员会官方网站seo百度站长工具查询
  • 网站建设的难点在哪里秦皇岛seo排名
  • 网站建设 要学多久c++培训班学费一般多少
  • 遵义网站建设遵义seo词条
  • 永久在线观看电影网址seo入门基础教程
  • wordpress主题xstoreseo基础知识培训
  • 上海800做网站站长权重
  • 可以免费做中考题的网站关键词搜索优化外包
  • 网站建设公司河南软件开发工资一般多少
  • 建设银网官方网站百度关键词指数
  • 榆中建设投资有限公司网站苏州企业网站关键词优化
  • 深圳网站建设 外包合作长春网站建设平台
  • 淮南58同城网seo站群优化技术
  • python 做网站怎样神马推广
  • 宣城老品牌网站建设seo主要优化哪些
  • 长安做英文网站百度一下百度主页官网
  • 网上学做网站百度浏览器极速版
  • 东莞厚街网站建设贵州seo推广
  • 动态网站开发技术教材app拉新任务平台
  • 浙江省永康市建设局网站进不去百度seo关键词
  • 做网站开发需要什么证书seo自学教程推荐
  • 福州php做网站seo页面优化公司
  • 中国职业球队白帽优化关键词排名seo
  • 对话弹窗在网站上浮动谷歌推广代理
  • 搜索推广和信息流推广seo快速排名源码
  • 东莞网站建设都用哪个好全网推广费用
  • 东莞中赢网站建设公司怎么样长沙网络推广服务
  • 网站正在备案广州网站设计建设
  • python 搭建wordpressaso关键词优化工具
  • 网站建设是专业市场seo是什么