`

Spark 都干啥

 
阅读更多

1. 腾讯

广点通是最早使用Spark的应用之一。腾讯大数据精准推荐借助Spark快速迭代的优势,围绕“数据+算法+系统”这套技术方案,实现了在“数据实时采集、算法实时训练、系统实时预测”的全流程实时并行高维算法,最终成功应用于广点通pCTR投放系统上,支持每天上百亿的请求量。

基于日志数据的快速查询系统业务构建于Spark之上的Shark,利用其快速查询以及内存表等优势,承担了日志数据的即席查询工作。在性能方面,普遍比Hive高2-10倍,如果使用内存表的功能,性能将会比Hive快百倍。

2. Yahoo

Yahoo将Spark用在Audience Expansion中的应用。Audience Expansion是广告中寻找目标用户的一种方法:首先广告者提供一些观看了广告并且购买产品的样本客户,据此进行学习,寻找更多可能转化的用户,对他们定向广告。Yahoo采用的算法是logistic regression。同时由于有些SQL负载需要更高的服务质量,又加入了专门跑Shark的大内存集群,用于取代商业BI/OLAP工具,承担报表/仪表盘和交互式/即席查询,同时与桌面BI工具对接。目前在Yahoo部署的Spark集群有112台节点,9.2TB内存。

3. 淘宝

阿里搜索和广告业务,最初使用Mahout或者自己写的MR来解决复杂的机器学习,导致效率低而且代码不易维护。淘宝技术团队使用了Spark来解决多次迭代的机器学习算法、高计算复杂度的算法等。将Spark运用于淘宝的推荐相关算法上,同时还利用Graphx解决了许多生产问题,包括以下计算场景:基于度分布的中枢节点发现、基于最大连通图的社区发现、基于三角形计数的关系衡量、基于随机游走的用户属性传播等。

4. 优酷土豆

优酷土豆在使用Hadoop集群的突出问题主要包括:第一是商业智能BI方面,分析师提交任务之后需要等待很久才得到结果;第二就是大数据量计算,比如进行一些模拟广告投放之时,计算量非常大的同时对效率要求也比较高,最后就是机器学习和图计算的迭代运算也是需要耗费大量资源且速度很慢。

最终发现这些应用场景并不适合在MapReduce里面去处理。通过对比,发现Spark性能比MapReduce提升很多。首先,交互查询响应快,性能比Hadoop提高若干倍;模拟广告投放计算效率高、延迟小(同hadoop比延迟至少降低一个数量级);机器学习、图计算等迭代计算,大大减少了网络传输、数据落地等,极大的提高的计算性能。目前Spark已经广泛使用在优酷土豆的视频推荐(图计算)、广告业务等。

分享到:
评论

相关推荐

    Spark从入门到精通

    5、Spark案例实战的代码,几乎都提供了Java和Scala两个版本和讲解(一次性同时精通Java和Scala开发Spark); 6、大量全网唯一的知识点:基于排序的wordcount,Spark二次排序,Spark分组取topn,DataFrame与RDD的两种...

    你需要Spark的10个理由

    3,Spark是继Hadoop之后,成为替代Hadoop的下一代云计算大数据核心技术,目前SPARK已经构建了自己的整个大数据处理生态系统,如流处理、图技术、机器学习、NoSQL查询等方面都有自己的技术,并且是Apache顶级Project...

    Laravel开发-spark

    Laravel开发-spark Laravel Spark为Laravel SaaS应用程序提供了一个启动脚手架。

    Spark2.2版本内核源码深度剖析(完整笔记)

    spark2.2是一个里程碑的版本,因为之前的版本很多特性都是实验性的,所以2.2是第一个真正完全可以把Spark的所有特性在生产环境中时候用的版本。 笔记的含金量集结了整个spark2.2源码的精华,不会多一点延伸内容,...

    spark源码结构,源码说明

    spark源码结构,spark官方源码详细说明,各个包是干什么用的

    世纪佳缘 spark实践 -吴金龙 -github源码

    spark 实践,世纪佳缘,吴景龙,github源码干货满满的

    python hadoop spark2.0

    这是python版本的重点在使用spark上handoop 分布式,也可以单独使用spark,挺新的

    Spark源码系列(五)分布式缓存

    这一章想讲一下Spark的缓存是如何实现的。...这里貌似也没干啥,这是有个鸟蛋用。。大神莫喷,知道干啥用的人希望告诉我一下。现在并没有保存,等到真正运行Task运行的时候才会去缓存起来。入口在Task的runTask方

    spark-nlp:最先进的自然语言处理

    Spark NLP:最先进的自然语言处理 Spark NLP是建立在Apache Spark ML之上的自然语言处理库。 它为机器学习管道提供了简单,高性能和准确的NLP注释,这些注释在分布式环境中易于扩展。...干mm 脱胶机 NGram

    从Storm和Spark学习流式实时分布式计算的设计

    本文对流式系统出现的背景,特点,数据HA,服务HA,节点间和计算逻辑间的消息传递,存储模型,计算模型,与生产环境融合都有涉及。希望对大家的工作和学习有所帮助。如果本文对您有所帮助,别忘

    黄洁:IntelSpark应用优化和实践经验

    摘要:黄洁就Spark的内存管理、IO提升和计算优化3个方面进行了详细讲解...我来自Intel大数据技术中心,整个技术中心在中国、美国、印度都有相应的开发人员,团队致力于大数据顶尖项目的研究,主要包括Spark、Hadoop、H

    opaque:加密的数据分析平台

    安全的Apache Spark SQL ... 并非所有Spark SQL操作都受支持(请参阅)。 UDF必须。 计算完整性验证(NSDI文件的第4.2节)目前正在进行中。 [1]郑文婷,Ankur Dave,Jethro Beekman,Raluca Ada Popa,Joseph Go

    黑马大数据视频

    黑马大数据视频分享,绝对干货。分为五章,包括hadoop,spark,hdfs等内容

    hadoop.rar

    Hadoop简介、集群配置、MapReduce集群搭建、Hdfs搭建。

    nlu:1条线,适用于数百种NLP模型和算法

    作为屡获殊荣的Spark NLP库的基础,它提供了数十种语言的数百种预训练模型-所有这些模型都是生产级的,可伸缩的和可训练的。 项目网站 查看我们的官方Spark NLU页面: : 以获取用户文档和示例 行动中的NLU 特征 ...

    MATCH-Social-Networking-Platform:允许用户找到在他们所在地区有相似兴趣的朋友的网络应用程序

    Web 服务器:Spark(嵌入式 Jetty Web 服务器) 服务器:Spark、JDBC 数据库:MySQL 入门 先决条件 在本地运行 启动 MySQL 并运行服务器。 记录您的 MySQL 凭据。 编辑MatchJDBC.java开头的MatchJDBC.java以...

    MATCH-Friend-Matching-Platform:Web应用程序,允许用户查找与其所在地区有相似兴趣的朋友

    Web服务器:Spark(嵌入式Jetty Web服务器) 服务器:Spark,JDBC 数据库:MySQL 入门 先决条件 本地运行 启动MySQL并运行服务器。 记录您MySQL凭证。 在MatchJDBC.java的开头编辑凭证,以匹配您MySQL凭证 运行...

    shoutout:为干得好的事点赞!

    喊出来 Shout Out 是一个可在 iOS 和 Android 上使用的应用程序,由 Operation Spark 创建,用作使用进行本机应用程序开发的介绍。

Global site tag (gtag.js) - Google Analytics