统计用户访问最高的Top10网页ID

作业二

给定100亿条用户访问网页日志文件,文件 中的每一行表示一条访问日志记录,每条 记录包括,如何设 计算法近似统计日志记录中用户访问最高 的Top10 网页ID。

1.按pageID为key计算哈希,将100亿条用户数据划分成100000份,每份数据包含100000条记录,这样同样的key一定落在其中一份中;
2.采用hadoop或者spark将100000份数据并行计算,遍历每份数据建立一个hash map,其中key为pageID,value每次加一,表示该key出现的次数,即用户访问次数;

3.采用堆排序或者快排变形(每次舍去不符合要求的一侧)对每份hash map排出top 10;

4.将100000数据的top10合并再求出top10即为所求。

About the author

Add Comment

By zhao

zhao

Get in touch

Quickly communicate covalent niche markets for maintainable sources. Collaboratively harness resource sucking experiences whereas cost effective meta-services.