Category: Big Data

[转]如何绘制高大上的词云图? 0

[转]如何绘制高大上的词云图?

当我们手中有一篇文档,比如书籍、小说、电影剧本,若想快速了解其主要内容是什么,则可以采用绘制 WordCloud 词云图,显示主要的关键词(高频词)这种方式,非常方便。 本文将介绍常见的英文和中文文本的词云图绘制,以及 Frequency 频词云图。接下来,将详细说明各种形式的词云图绘制步骤。

[转]快手万亿级实时OLAP平台的建设与实践 0

[转]快手万亿级实时OLAP平台的建设与实践

快手 App 目前日活 1.5 亿,每天会产生数万亿规模的用户行为数据,对这些数据的高效探索是一件很有挑战同时也很有价值的工作。今天重点分享快手建设万亿级数据规模 OLAP 平台的设计方案以及主要改进过程。

[转]小米大数据:借助Apache Kylin打造高效、易用的一站式OLAP解决方案 0

[转]小米大数据:借助Apache Kylin打造高效、易用的一站式OLAP解决方案

如今的小米不仅是一家手机公司,更是一家大数据与人工智能公司。随着小米公司各项业务的快速发展,数据中的商业价值也愈发突显。而与此同时,各业务团队在数据查询、分析等方面的压力同样正在剧增。因此,为帮助公司各业务线解决这些数据方面的挑战,小米大数据团队不断地尝试通过不同的技术手段打造新的解决方案。

[转]如何使用 Lucene 做网站高亮搜索功能? 0

[转]如何使用 Lucene 做网站高亮搜索功能?

现在基本上所有网站都支持搜索功能,现在搜索的工具有很多,比如Solr、Elasticsearch,它们都是基于 Lucene 实现的,各有各的使用场景。Lucene 比较灵活,中小型项目中使用的比较多,我个人也比较喜欢用。

[转]饿了么调度系统全解 0

[转]饿了么调度系统全解

随着饿了么在大数据应用的不断深入,需要解决任务数量增长快、任务多样化、任务关系复杂、任务执行效率低及任务失败不可控等问题。 饿了么大数据平台现状:每天完成大数据任务计算 54000+;节点集群 85 台。

[转]Python 实现酷炫3D效果 0

[转]Python 实现酷炫3D效果

Pyecharts是一款强大的可视化工具。百度开发了一款基于JS强大的可视化库Echarts,可我们在绘图时,通常并不使用前端的技术来整理数据,而转换数据结构又非常麻烦。Pyecharts发挥了python胶水语言的特性,可以很好地帮助我们做数据可视化。

[转]小白都能看懂的Hadoop架构原理 0

[转]小白都能看懂的Hadoop架构原理

Hadoop 是目前大数据领域最主流的一套技术体系,包含了多种技术,例如 HDFS(分布式文件系统),YARN(分布式资源调度系统),MapReduce(分布式计算系统)等等。 有些朋友可能听说过 Hadoop,但是却不太清楚它到底是个什么东西,这篇文章就用大白话给各位阐述一下。