作业二
给定100亿条用户访问网页日志文件,文件 中的每一行表示一条访问日志记录,每条 记录包括,如何设 计算法近似统计日志记录中用户访问最高 的Top10 网页ID。
1.按pageID为key计算哈希,将100亿条用户数据划分成100000份,每份数据包含100000条记录,这样同样的key一定落在其中一份中;2.采用hadoop或者spark将100000份数据并行计算,遍历每份数据建立一个hash map,其中key为pageID,value每次加一,表示该key出现的次数,即用户访问次数;
3.采用堆排序或者快排变形(每次舍去不符合要求的一侧)对每份hash map排出top 10;
4.将100000数据的top10合并再求出top10即为所求。