Latest stories

统计用户访问最高的Top10网页ID

作业二

给定100亿条用户访问网页日志文件,文件 中的每一行表示一条访问日志记录,每条 记录包括,如何设 计算法近似统计日志记录中用户访问最高 的Top10 网页ID。

1.按pageID为key计算哈希,将100亿条用户数据划分成100000份,每份数据包含100000条记录,这样同样的key一定落在其中一份中;2.采用hadoop或者spark将100000份数据并行计算,遍历每份数据建立一个hash map,其中key为pageID,value每次加一,表示该key出现的次数,即用户访问次数;

3.采用堆排序或者快排变形(每次舍去不符合要求的一侧)对每份hash map排出top 10;

4.将100000数据的top10合并再求出top10即为所求。

t-sne on Mnist

t

以MNIST为例使用降维投影进行高维数据可视化 问题提出 现在的大多数数据集拥有越来越多的维度,而我们人类无法直观想象高维数据分布情况,也不善于同时处理多维度信息,所以怎样将高维度数据可视化成为了关键。 二、问题定义 高维数据可视化是指使用合适的方法对高维数据进行处理,或者使用合适的展示方式将高维数据以可视化的形式展现,便于我们分析数据中内在的联系。 本文将使用MNIST数据集为例通过降维投影方式进行一些探索。事实上我们已经清楚该数据集分为10类,并且每个数据都有相应的标签,我们期望降维后的数据能体现出良好的聚类表示。 数据来源 MNIST数据集是一个手写数字图片数据集,该数据集共含有70000张图片,每张图片为28*28的灰度像素。我们将28*28=784个灰度像素值视为数据的维度,可视化时随机选取10000张图片以方便呈现。 下图为其中的几张图片: 解决方案 3.1 PCA...

Resnet

R

11月14日 第六周作业说明 提交截止时间:11月20日19:59:59 本次作业提交到腾讯文档中的个人的文件夹中。(在腾讯文档中还可做个人学习笔记) 作业的文件命名格式:学号-姓名-第六周作业 任务一、回答以下问题。 分别用广度优先、深度优先、迭代加深搜索按顺序写出访问和扩展的节点。 广度优先: 访问: A B C D E F G H I J 扩展: A B C E F 深度优先: 访问A B D C E G H F I J 扩展 A B C E F 迭代加深搜索: D=1: 访问:A 扩展 D=2: 访问A B C 扩展A D=3: 访问A B C D E F 扩展A B C D=4: 访问A B C D E F G H I J 扩展A B C E F 用迭代加深算法按顺序写其访问和扩展的节点,目标节点为 13。 D=1: 访问1 D=2: 访问1 2 3 4 扩展 1 D=3:...

Get in touch

Quickly communicate covalent niche markets for maintainable sources. Collaboratively harness resource sucking experiences whereas cost effective meta-services.