Tagged: Big Data

[转]数据可视化图表选型 0

[转]数据可视化图表选型

常听到一句话,“能用图描述的就不用表,能用表就不用文字”。这句话也直接的表明了:在认知上,大家对于图形的敏感度远比文字高。 但同时我们也面临着这样一些问题: 写 PPT、做 demo 时,心中有万千想法和海量数据想要去展现,但总是最后还是以文字和枯燥的图表堆叠呈现了出来,苦于怎么把这些数据展现的直观、性感、一看就懂。这时候,在心里怎么想和手上怎么画之间,差了一座“理解图表内涵”的桥梁了。 Please follow and like us:0

[转]基于大数据的情绪分析(二) 0

[转]基于大数据的情绪分析(二)

导言 情绪分析使用机器学习算法来确定正面或负面文本内容的方式。情绪分析的示例包括: 快速了解客户评论的基调: 了解客户喜欢或不喜欢的产品或服务。 了解可能影响新客户购买决策的因素。 为企业提供市场意识。 尽早解决问题 了解股市情绪,以获得对金融信号预测的见解 社交媒体监控 品牌/产品/公司人气/声誉/感知监控 不满意的客户检测监控和警报 营销活动监控/分析 客户服务意见监测/分析 品牌情绪态度分析 客户反馈分析 竞争情绪分析 品牌影响者监控 Please follow and like us:0

[转]基于大数据的情绪分析(一) 0

[转]基于大数据的情绪分析(一)

导语 社交媒体、电子邮件、聊天、产品评论和推荐的文本挖掘和分析已经成为几乎所有行业垂直行业研究数据模式的宝贵资源,它能够帮助企业获得更多信息、更加了解客户、预测和增强客户体验、量身定制营销活动,并协助做决策。 Please follow and like us:0

[汇总]Big Data经验 0

[汇总]Big Data经验

落后最可怕的地方是思维方式的落后 大数据引发的智能革命 Please follow and like us:0

[转]为什么我们需要数据预处理? 0

[转]为什么我们需要数据预处理?

数据挖掘的核心是什么?这个的答案是算法应该没什么疑问。那数据挖掘的基石又是什么呢?那就是今天我们要来说的数据预处理。 Please follow and like us:0

[转]如何绘制高大上的词云图? 0

[转]如何绘制高大上的词云图?

当我们手中有一篇文档,比如书籍、小说、电影剧本,若想快速了解其主要内容是什么,则可以采用绘制 WordCloud 词云图,显示主要的关键词(高频词)这种方式,非常方便。 本文将介绍常见的英文和中文文本的词云图绘制,以及 Frequency 频词云图。接下来,将详细说明各种形式的词云图绘制步骤。 Please follow and like us:0

[转]饿了么调度系统全解 0

[转]饿了么调度系统全解

随着饿了么在大数据应用的不断深入,需要解决任务数量增长快、任务多样化、任务关系复杂、任务执行效率低及任务失败不可控等问题。 饿了么大数据平台现状:每天完成大数据任务计算 54000+;节点集群 85 台。 Please follow and like us:0

[转]Flink如何取代JStorm,成为字节跳动流处理唯一标准? 0

[转]Flink如何取代JStorm,成为字节跳动流处理唯一标准?

本文主要内容包括: 引入 Apache Flink 的背景 Apache Flink 集群的构建过程 构建流式管理平台 近期规划 Please follow and like us:0

0

[转]Flink靠什么征服阿里工程师?

时下,谈及大数据,不得不提到热门的下一代大数据计算引擎 Apache Flink(以下简称 Flink)。 本文将结合 Flink 的前世今生,从业务角度出发,向大家娓娓道来:为什么阿里选择了 Flink? 为什么阿里选择了 Flink 随着人工智能时代的降临,数据量的爆发,在典型的大数据的业务场景下数据业务最通用的做法是:选用批处理的技术处理全量数据,采用流式计算处理实时增量数据。 在绝大多数的业务场景之下,用户的业务逻辑在批处理和流处理之中往往是相同的。 但是,用户用于批处理和流处理的两套计算引擎是不同的。因此,用户通常需要写两套代码。毫无疑问,这带来了一些额外的负担和成本。 阿里巴巴的商品数据处理就经常需要面对增量和全量两套不同的业务流程问题,所以阿里就在想,我们能不能有一套统一的大数据引擎技术,用户只需要根据自己的业务逻辑开发一套代码。 这样在各种不同的场景下,不管是全量数据还是增量数据,亦或者实时处理,一套方案即可全部支持,这就是阿里选择 Flink 的背景和初衷。 目前开源大数据计算引擎有很多选择,流计算如 Storm、Samza、Flink、Kafka Stream 等,批处理如 Spark、Hive、Pig、Flink 等。 而同时支持流处理和批处理的计算引擎,只有两种选择: Apache Spark。 Apache Flink。 从技术,生态等各方面的综合考虑。首先,Spark 的技术理念是基于批来模拟流的计算。而 Flink 则完全相反,它采用的是基于流计算来模拟批计算。 从技术发展方向看,用批来模拟流有一定的技术局限性,并且这个局限性可能很难突破。 而...