大数据处理与可视化分析 – 静水流深的博客

统计用户访问最高的Top10网页ID

2022年1月4日

统

作业二

给定100亿条用户访问网页日志文件,文件中的每一行表示一条访问日志记录,每条记录包括,如何设计算法近似统计日志记录中用户访问最高的Top10 网页ID。

1.按pageID为key计算哈希，将100亿条用户数据划分成100000份，每份数据包含100000条记录，这样同样的key一定落在其中一份中；2.采用hadoop或者spark将100000份数据并行计算，遍历每份数据建立一个hash map，其中key为pageID，value每次加一，表示该key出现的次数，即用户访问次数；

3.采用堆排序或者快排变形（每次舍去不符合要求的一侧）对每份hash map排出top 10；

4.将100000数据的top10合并再求出top10即为所求。

Read on Add Comment

以MNIST为例使用降维投影进行高维数据可视化问题提出现在的大多数数据集拥有越来越多的维度，而我们人类无法直观想象高维数据分布情况，也不善于同时处理多维度信息，所以怎样将高维度数据可视化成为了关键。二、问题定义高维数据可视化是指使用合适的方法对高维数据进行处理，或者使用合适的展示方式将高维数据以可视化的形式展现，便于我们分析数据中内在的联系。本文将使用MNIST数据集为例通过降维投影方式进行一些探索。事实上我们已经清楚该数据集分为10类，并且每个数据都有相应的标签，我们期望降维后的数据能体现出良好的聚类表示。数据来源 MNIST数据集是一个手写数字图片数据集，该数据集共含有70000张图片，每张图片为28*28的灰度像素。我们将28*28=784个灰度像素值视为数据的维度，可视化时随机选取10000张图片以方便呈现。下图为其中的几张图片：解决方案 3.1 PCA...

Read on Add Comment

SVD（奇异值分解）

In 大数据处理与可视化分析, 学习

2021年11月1日

Add Comment

S

奇异值分解在统计中的主要应用为主成分分析（PCA）。数据集的特征值（在SVD中用奇异值表征）按照重要性排列，降维的过程就是舍弃不重要的特征向量的过程，而剩下的特征向量张成空间为降维后的空间。摘自SVD维基百科第一次作业-大数据处理与可视化分析作业一（10分）随机构造100*1000的用户-商家稀疏矩阵A（思考如何让生成的矩阵满足稀疏性？）利用SVD对矩阵A进行分解,求解U和V矩阵，并计算r=10条件下的降维矩阵；从矩阵A中选择两行i和j，使得Ai.和Aj.中不为0的元素的交集为空，计算i和j在低维空间的相似度。随机生成稀疏矩阵A In [ ]: import scipy.sparse as sparse m=100 n=1000 density=0.05 matrixformat='coo' #稀疏矩阵存储格式 B=sparse...

Read on Add Comment

Category大数据处理与可视化分析

统计用户访问最高的Top10网页ID

t-sne on Mnist

SVD（奇异值分解）

Get in touch