Category: Big Data

[转]为什么我们需要数据预处理? 0

[转]为什么我们需要数据预处理?

数据挖掘的核心是什么?这个的答案是算法应该没什么疑问。那数据挖掘的基石又是什么呢?那就是今天我们要来说的数据预处理。 Please follow and like us:0

[转]从Storm到Flink,有赞五年实时计算效率提升实践 0

[转]从Storm到Flink,有赞五年实时计算效率提升实践

有赞是一个商家服务公司,提供全行业全场景的电商解决方案。在有赞,大量的业务场景依赖对实时数据的处理,作为一类基础技术组件,服务着有赞内部几十个业务产品,几百个实时计算任务,其中包括交易数据大屏,商品实时统计分析,日志平台,调用链,风控等多个业务场景,本文将介绍有赞实时计算当前的发展历程和当前的实时计算技术架构。 Please follow and like us:0

[总结]从10秒到2秒!ElasticSearch性能调优实践 0

[总结]从10秒到2秒!ElasticSearch性能调优实践

做过数据收集、数据开发、数据存储的同学相信对这个简称并不陌生,而 ElasticSearch(以下简称 ES)则在 ELK 栈中占着举足轻重的地位。 前一段时间,我亲身参与了一个 ES 集群的调优,今天把我所了解与用到的调优方法与大家分享,如有错误,请大家包涵与指正。 Please follow and like us:0

[转]基于Elasticsearch分布式搜索引擎的架构原理 0

[转]基于Elasticsearch分布式搜索引擎的架构原理

(1)倒排索引到底是啥? 要了解分布式搜索引擎,先了解一下搜索这个事儿吧,搜索这个技术领域里最入门级别的一个概念就是倒排索引。 我们先简单说一下倒排索引是个什么东西。 Please follow and like us:0

[转]400+节点Elasticsearch集群的运维经验 0

[转]400+节点Elasticsearch集群的运维经验

Meltwater 的工程师通过官方技术博客分享了他们如何运行和维护 400+ 节点的 Elasticsearch 集群。主要介绍了业务中积累的时间序列数据的特点、数据量和每日滚动索引策略,以及他们对 Elasticsearch 版本的选择(没错,目前他们使用的是 1.X,而且做了源码级的修改)、为何不选择托管的云服务、索引结构和分片规划等,最后重点介绍了他们在性能方面的努力和经验,给出了一个性能参考列表。 Please follow and like us:0

[转]日均5亿查询量,京东到家订单中心ES架构演进 0

[转]日均5亿查询量,京东到家订单中心ES架构演进

京东到家订单中心系统业务中,无论是外部商家的订单生产,或是内部上下游系统的依赖,订单查询的调用量都非常大,造成了订单数据读多写少的情况。 我们把订单数据存储在 MySQL 中,但显然只通过 DB 来支撑大量的查询是不可取的。 同时对于一些复杂的查询,MySQL 支持得不够友好,所以订单中心系统使用了 Elasticsearch 来承载订单查询的主要压力。 Please follow and like us:0

[汇总]爬虫经验 0

[汇总]爬虫经验

技术揭秘:微博微信刷粉刷量的流程原理 分享我的分布式爬虫架构设计 如何用 JavaScript、Python 和 Google Flights 计划一场说走就走的旅行 解析航班信息,选择最佳旅行 告别排队!用 Python 定时自动挂号和快捷查询化验报告 用 Python Charles 全自动下载抖音视频 iOS Charles 抓包 https 实战并篡改返回数据 技术深扒丨没点想象力都看不透这个网站的反爬措施 Please follow and like us:0

[转]如何绘制高大上的词云图? 0

[转]如何绘制高大上的词云图?

当我们手中有一篇文档,比如书籍、小说、电影剧本,若想快速了解其主要内容是什么,则可以采用绘制 WordCloud 词云图,显示主要的关键词(高频词)这种方式,非常方便。 本文将介绍常见的英文和中文文本的词云图绘制,以及 Frequency 频词云图。接下来,将详细说明各种形式的词云图绘制步骤。 Please follow and like us:0

[转]快手万亿级实时OLAP平台的建设与实践 0

[转]快手万亿级实时OLAP平台的建设与实践

快手 App 目前日活 1.5 亿,每天会产生数万亿规模的用户行为数据,对这些数据的高效探索是一件很有挑战同时也很有价值的工作。今天重点分享快手建设万亿级数据规模 OLAP 平台的设计方案以及主要改进过程。 Please follow and like us:0