Category: Big Data

[转]如何使用Redis流和Apache Spark处理实时数据? 0

[转]如何使用Redis流和Apache Spark处理实时数据?

1. 本文要点 Apache Spark 的流框架(Structured Streaming)为数据流带来了 SQL 查询功能,让用户可以实时、可扩展地处理数据。 Redis 流(Redis Stream)是 Redis 5.0 新引入的数据结构,能够以亚毫秒级的延迟高速收集、保存和分发数据。 用户集成 Redis 流和流框架后就能简化连续应用程序(continuous application)的扩展工作。 开源的 Spark-Redis 库将 Apache Spark 与 Redis 连接起来。该库为 Redis 数据结构提供 RDD 和数据帧 API,使用户可以将 Redis 流用作流框架的数据源。 流框架是...

[转]从Storm到Flink,有赞五年实时计算效率提升实践 0

[转]从Storm到Flink,有赞五年实时计算效率提升实践

有赞是一个商家服务公司,提供全行业全场景的电商解决方案。在有赞,大量的业务场景依赖对实时数据的处理,作为一类基础技术组件,服务着有赞内部几十个业务产品,几百个实时计算任务,其中包括交易数据大屏,商品实时统计分析,日志平台,调用链,风控等多个业务场景,本文将介绍有赞实时计算当前的发展历程和当前的实时计算技术架构。

[总结]从10秒到2秒!ElasticSearch性能调优实践 0

[总结]从10秒到2秒!ElasticSearch性能调优实践

做过数据收集、数据开发、数据存储的同学相信对这个简称并不陌生,而 ElasticSearch(以下简称 ES)则在 ELK 栈中占着举足轻重的地位。 前一段时间,我亲身参与了一个 ES 集群的调优,今天把我所了解与用到的调优方法与大家分享,如有错误,请大家包涵与指正。

[转]基于Elasticsearch分布式搜索引擎的架构原理 0

[转]基于Elasticsearch分布式搜索引擎的架构原理

1. (1)倒排索引到底是啥? 要了解分布式搜索引擎,先了解一下搜索这个事儿吧,搜索这个技术领域里最入门级别的一个概念就是倒排索引。 我们先简单说一下倒排索引是个什么东西。

[转]400+节点Elasticsearch集群的运维经验 0

[转]400+节点Elasticsearch集群的运维经验

Meltwater 的工程师通过官方技术博客分享了他们如何运行和维护 400+ 节点的 Elasticsearch 集群。主要介绍了业务中积累的时间序列数据的特点、数据量和每日滚动索引策略,以及他们对 Elasticsearch 版本的选择(没错,目前他们使用的是 1.X,而且做了源码级的修改)、为何不选择托管的云服务、索引结构和分片规划等,最后重点介绍了他们在性能方面的努力和经验,给出了一个性能参考列表。

[转]日均5亿查询量,京东到家订单中心ES架构演进 0

[转]日均5亿查询量,京东到家订单中心ES架构演进

京东到家订单中心系统业务中,无论是外部商家的订单生产,或是内部上下游系统的依赖,订单查询的调用量都非常大,造成了订单数据读多写少的情况。 我们把订单数据存储在 MySQL 中,但显然只通过 DB 来支撑大量的查询是不可取的。 同时对于一些复杂的查询,MySQL 支持得不够友好,所以订单中心系统使用了 Elasticsearch 来承载订单查询的主要压力。

[汇总]爬虫经验 0

[汇总]爬虫经验

技术揭秘:微博微信刷粉刷量的流程原理 分享我的分布式爬虫架构设计 如何用 JavaScript、Python 和 Google Flights 计划一场说走就走的旅行 解析航班信息,选择最佳旅行 告别排队!用 Python 定时自动挂号和快捷查询化验报告 用 Python Charles 全自动下载抖音视频 iOS Charles 抓包 https 实战并篡改返回数据 技术深扒丨没点想象力都看不透这个网站的反爬措施 50行Python代码,教你获取公众号全部文章 python爬虫反反爬:CSS反爬加密彻底破解