当前位置: 首页 > wzjs >正文

广州定制网站开发正规网站优化哪个公司好

广州定制网站开发,正规网站优化哪个公司好,做百度移动网站优化排,襄阳网站建设公司1.海量数据处理问题 给两个文件,分别有100亿个query,只有1G内存,如何找到两个文件交集? 解决方案一: 可以先用布隆过滤器,一个文件的query放进布隆过滤器,另一个文件依次查找,在的…

1.海量数据处理问题

给两个文件,分别有100亿个query,只有1G内存,如何找到两个文件交集?

解决方案一:

可以先用布隆过滤器,一个文件的query放进布隆过滤器,另一个文件依次查找,在的就是交集,但存在缺陷,因为存在的值可能是误判的,也就是说交集不一定准确。

解决方案二:

哈希切分,首先内存的访问速度远大于硬盘,大文件放到内存搞不定,就可以切分为小文件,再放进内存处理。但不是平均切分,因为平均切分就需要双重循环遍历,低效率。可以使用哈希切分,依次读取⽂件中query,i = HashFunc(query)%N,N为准备切分多少分⼩⽂ 件,N取决于切成多少份,内存能放下,query放进第i号小文件,这样A和B中相同的query算出的hash值是一样的,相同的query就进入编号相同的文件直接找交集,不用交叉找,效率就提升了。

本质就是相同的query在哈希切分过程中,一定进入的同一个小文件Ai和Bi,不可能出现A中的query进入Ai,就可以对应Ai和Bi进行求交集,一一对应的,从n^2变成n。

哈希切分的问题就是每个小文件不是均匀的,可能会导致某个文件要存储很多数据存不下。会出现两种情况:1.这个小文件中大部分是同一个query。2.这个小文件是有很多的不同的query构成,本质是这些的query冲突了。针对情况一set是可以放得下的,因为set可以去重。对于2,就可以用别的哈希函数进行二次切分。遇到大于1G文件,继续放到set找交集,如果set抛出异常就说明是内存放不下,换个哈希函数进行二次切分再对应找交集。

2.给一个超过100G大小的log file。log中存着ip地址,设计算法找到出现次数最多的ip地址,查找出出现次数前十的ip地址

本题的思路跟上题完全类似,依次读取⽂件A中query,i = HashFunc(query)%500,query放进Ai号⼩ ⽂件,然后依次⽤map<string, int>对每个Ai⼩⽂件统计ip次数,同时求出现次数最多的ip或者topk ip。本质是相同的ip在哈希切分过程中,⼀定进⼊的同⼀个⼩⽂件Ai,不可能出现同⼀个ip进⼊Ai和Aj 的情况,所以对Ai进⾏统计次数就是准确的ip次数。(每个小文件都可以得到一个最大数,然后建成一个大堆出来,去堆顶的数据就是最多数)
http://www.dtcms.com/wzjs/246358.html

相关文章:

  • 三品合一网站建设案例网站工具查询
  • 网站建设的步骤过程电商代运营公司100强
  • 网站一般费用淘宝关键词怎么选取
  • 用wordpress做答题网站优化官网咨询
  • 响应式中文网站欣赏百度关键词排名推广话术
  • 南通网站建设案例做一个官网要多少钱
  • html做网站收藏按钮中国seo第一人
  • 如何做建筑一体化的网站网站推广应该坚持什么策略
  • 怎么做网站上的模拟动画提供seo服务
  • 采集网站后台数据北京正规seo搜索引擎优化价格
  • 贵阳市做网站电话二维码推广赚佣金平台
  • 用html制作个人网站源代码怎样弄一个自己的平台
  • b2c跨境电子商务平台有哪些化工网站关键词优化
  • 排版设计英文武汉网站建设方案优化
  • 湛江网站建设开发百度移动应用
  • 房地产网站建设权重查询入口
  • 做网站用什么域名比较好前端性能优化
  • 新闻网站建设研究现状网站排名提升软件
  • 网站开发命名规则百度开户流程
  • aspnet通讯录网站开发seo网站推广优化就找微源优化
  • 网站建设在开封找谁做磁力狗最佳搜索引擎
  • 旅游网站案例分析关键词排名怎么做上去
  • 做暧暧暖免费观看网站搜索网
  • 免费小程序网站沪深300指数
  • 网站建设时间计划营销推广方式都有哪些
  • 个人作品网站链接怎么做网络推广平台哪家公司最好
  • 佛山外贸企业网站建设杭州百度seo
  • 豪华跑车网站建设手机游戏性能优化软件
  • 上海市网站信息无障碍建设培训机构
  • 近期国内外重大新闻10条seo索引擎优化