《大数据存储与处理-概述.ppt》由会员分享,可在线阅读,更多相关《大数据存储与处理-概述.ppt(35页珍藏版)》请在知学网上搜索。
1、*大数据的存贮和处理赵永祥*课程内容概述大规模文件系统和Mapreduce相似项发现数据流挖掘链接分析频繁项集聚类Web广告推荐系统教材http:/infolab.stanford.edu/ullman/mmds/book.pdf大数据-互联网大规模数据挖掘与分布式处理*第一章数据挖掘的基本概念11 数据挖掘的定义1.2 数据挖掘的统计限制13 相关知识数据挖掘的定义数据挖掘是数据模型的发现过程。什么是模型?统什模型:研究可见数据遵从的总体概率分布。如已有一系列数据,先猜想服从高斯分布,从数据获取模型参数,验证与数据分布是附合机器学习。将数据当作某类算法的训练集训练算法。然后再用这个算法分析未
2、知的数据*什么是模型?机器学习的长处。当对要在数据中寻找的目标一无所知的时候。如不知道是哪些因素影响人们对影片的喜好。netflix竞赛。如目标能明确描述,机器学习方法并不成功。如在web上寻找个人简历。机器学习方法.不如关键词或者短语更准确,*建模的计算方法数据挖掘已被看成是一个算法问题。数据模型就是提供复杂查询的答案。除了统计建模,其它大部分建模方法可分为如下两类对数据进行简要汇总从数据中抽取最突出的特征来代替数据并将剩余内容忽略。*数据汇总pagerank。谷歌成功的关键算法之一。Web的复杂结构可以由每个页面的pagerank描述,反映了一个web上的随机游走者在任意时刻处于该页面的概
3、率。聚类。数据被看成是多维空间的点。空间相互邻近的点被认为是相同的类别。每个类别可以析括表示,如质心或者是到质心的平均距离。*特征抽取从数据中寻找某个现象的特殊样例,用这些样例来表示数据。介绍两种方法:频繁项集:在很多购物篮/订单里面寻找同时出现的项集/商品。相似项:数据可以描述为一系列的集合。寻找共同元素较多的集合。亚马逊网站的顾客可以理解为他购买商品的集合。寻找相似的集合也就是寻找具有类似兴趣的人,把这些人购买过的东西推荐给该顾客。也称为协同过滤数据挖掘的统计限制2002年,布什政府提出一项对所有数据进行挖掘的计划,没有被国会通过。目的是追逐恐怖活动问题:如果能够获得所有的数据,并且想从中
4、获得恐怖活动的信息。是否会导致误报很多无辜的行为?*Bonferronis Principle随着数据规模的增加,任何数据都会显现出一些不同寻常的特征,这些特征看上去非常重要,实际上却并不重要。Bonferronis Principle。在数据随机性假设的基础上,计算所寻找的事件的发生的期望值,如果该期望值大于找到的真实事件的数目,则所找到的事件是假象。*13关于整体情报预警的故事设有一群坏人会偶尔在酒店聚会策划阴谋想找出那些同一天在同一个酒店至少出现两次的人群.14假设109 可疑人.1000 days.每个人去酒店的概率 1%(1000天里住10天酒店).酒店容纳100 人(有 105 个
6、7 510-13=250,000.实际上他们是纯随机导致的巧合17结论假设线 对坏人在同一个酒店出现两次.需要扫描250,010 对候选人才能找出这10对坏人.这个方法好吗?18小结寻找某个性质的事件的时候(如,“两个人在同一个旅馆出现了两次”),需要考虑纯随机性是否会产生多个具有这个性质的事件。19Rhine Paradox (1)Joseph Rhine是1950年代的心理学家,他猜想某些人有超感知能力.他设计了一个实验:要求实验对象猜10张隐藏的卡片的颜色:红 或者 蓝?他发现1000个人里面有1个具有超感知能力 能猜对所有10张卡片的颜色!20Rhine Paradox (2)
7、他告诉这些人他们有超能力,并要求他们再做一次同样的实验.这些人都失去了他们的超能力.为什么?见下一个幻灯片.21Rhine Paradox (3)这个心理学家总结道:你不能告诉人们他们具有超能力,否则他们就会失去超能力.22Moral理解了Bonferronis 原理,能够使你不犯那个心理学家的错误1.3 相关知识1.3.1 词语在文档中的重要性根据文档的主题对文档进行分类主题是通过一些能够表现主题的词语进行刻画。例如棒球、球、跑等。并不是出现频率高的词最重要。如the,and等,这些常见的词(数百个)应该去掉事实上,描述主题的词都比较罕见。*TF.IDF假定有N篇文档,fij为词i在文档j中
8、出现的频率(次数),词项i在文档j中的词项频率Tfij定义为Tfij=fij/maxkfkj其实就是fij除以在该文档出现次数最多的词的频率*TF.IDF假定词项i在文档集的ni篇文档中出现,词项i的IDF定义如下IDFi=log2(N/ni)最后,词项i在文档j中的得分定义为Tfij*IDFi*TF.IDF例1.3 如果有1048576个文档,词w在1024个文档中出现。对于文档j,w出现了20次,也是该文档中出现的最高频率。Tfij*IDFi=log(1048576/1024)*1=10其他条件同上,但是在文档k中,此w出现一次,而该文档中出现最多的词的频率是20.则Tfij*IDFi=l
9、og(1048576/1024)*1/20=1/2*哈希函数哈希函数的输入是一个哈希键值(hash-key),输出是一个桶编号(bucket number)。哈希函数将哈希键值随机化如果哈希键值随机地从某个合理可能的哈希键分布中抽样而成,函数h把数目近似相等的哈希键值映射到相同的桶编号。*一个哈希函数例子H(x)=x mod B如果x是随机的整数值,则x将被均匀分配到每个桶中,即0到B-1的整数如果X只是偶数,且B=10,则答案只有0,2,4,6,8.答案不够均匀如果X只是偶数,且B=11,则答案均匀如果大部分x与B具有公因式,则答案不均匀。通常取B为素数。*哈希函数如果输入数据类型是有比特位
10、构成,则把比特位转换为整数字符串转换为ASCII,在解释为整数等等*索引通常的数据对象是记录。每个记录包括多个字段。在某个字段上面建立索引。索引一种高效的数据查找结构。例如,哈希函数就是一种实现方法。如图1-2所示。*二级存储器从磁盘读入数据的时间是从内存读入数据的100000倍。磁盘读入数据的时间大约是10毫秒。如果需要读取的数据在磁盘上的一个柱面上,则读入一批数据时不需要转动磁头,则读入每块数据的时间可以小于10毫秒。*1.3.6 幂律分布随机变量的概率分布可以写为Y=c Xa Log y=b+a log(x)变量的横轴和纵轴取对数后,是一条直线 幂律分布Web图中的节点度商品的销量Web网站的大小词在文档中的分布*1.3.6 幂律分布原因来自于马太效应某网站有较多的输入链接,将导致更多的人找到他,从而获得更多的输入链接*
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。