Category大数据处理与可视化分析

统计用户访问最高的Top10网页ID

作业二

给定100亿条用户访问网页日志文件,文件 中的每一行表示一条访问日志记录,每条 记录包括,如何设 计算法近似统计日志记录中用户访问最高 的Top10 网页ID。

1.按pageID为key计算哈希,将100亿条用户数据划分成100000份,每份数据包含100000条记录,这样同样的key一定落在其中一份中;2.采用hadoop或者spark将100000份数据并行计算,遍历每份数据建立一个hash map,其中key为pageID,value每次加一,表示该key出现的次数,即用户访问次数;

3.采用堆排序或者快排变形(每次舍去不符合要求的一侧)对每份hash map排出top 10;

4.将100000数据的top10合并再求出top10即为所求。

t-sne on Mnist

t

以MNIST为例使用降维投影进行高维数据可视化 问题提出 现在的大多数数据集拥有越来越多的维度,而我们人类无法直观想象高维数据分布情况,也不善于同时处理多维度信息,所以怎样将高维度数据可视化成为了关键。 二、问题定义 高维数据可视化是指使用合适的方法对高维数据进行处理,或者使用合适的展示方式将高维数据以可视化的形式展现,便于我们分析数据中内在的联系。 本文将使用MNIST数据集为例通过降维投影方式进行一些探索。事实上我们已经清楚该数据集分为10类,并且每个数据都有相应的标签,我们期望降维后的数据能体现出良好的聚类表示。 数据来源 MNIST数据集是一个手写数字图片数据集,该数据集共含有70000张图片,每张图片为28*28的灰度像素。我们将28*28=784个灰度像素值视为数据的维度,可视化时随机选取10000张图片以方便呈现。 下图为其中的几张图片: 解决方案 3.1 PCA...

SVD(奇异值分解)

S

奇异值分解在统计中的主要应用为主成分分析(PCA)。数据集的特征值(在SVD中用奇异值表征)按照重要性排列,降维的过程就是舍弃不重要的特征向量的过程,而剩下的特征向量张成空间为降维后的空间。摘自SVD维基百科 第一次作业-大数据处理与可视化分析 作业一 (10分) 随机构造100*1000的用户-商家稀疏矩阵A(思考如何让生成的矩阵满足稀疏性?) 利用SVD对矩阵A进行分解,求解U和V矩阵,并计算r=10条件下的降维矩阵; 从矩阵A中选择两行i和j,使得Ai.和Aj.中不为0的元素的交集为空,计算i和j在低维空间的相似度。   随机生成稀疏矩阵A In [ ]: import scipy.sparse as sparse m=100 n=1000 density=0.05 matrixformat='coo' #稀疏矩阵存储格式 B=sparse...

Get in touch

Quickly communicate covalent niche markets for maintainable sources. Collaboratively harness resource sucking experiences whereas cost effective meta-services.