Category: Big Data

Theory & Solution

June 15, 2019

[汇总]Big Data经验

落后最可怕的地方是思维方式的落后大数据引发的智能革命

Architecture / Redis Theory & Solutions

June 14, 2019

[转]如何使用Redis流和Apache Spark处理实时数据？

1. 本文要点 Apache Spark 的流框架（Structured Streaming）为数据流带来了 SQL 查询功能，让用户可以实时、可扩展地处理数据。 Redis 流（Redis Stream）是 Redis 5.0 新引入的数据结构，能够以亚毫秒级的延迟高速收集、保存和分发数据。用户集成 Redis 流和流框架后就能简化连续应用程序（continuous application）的扩展工作。开源的 Spark-Redis 库将 Apache Spark 与 Redis 连接起来。该库为 Redis 数据结构提供 RDD 和数据帧 API，使用户可以将 Redis 流用作流框架的数据源。流框架是...

Big Data Practice

March 11, 2019

[转]为什么我们需要数据预处理？

数据挖掘的核心是什么？这个的答案是算法应该没什么疑问。那数据挖掘的基石又是什么呢？那就是今天我们要来说的数据预处理。

Architecture

March 11, 2019

[转]从Storm到Flink，有赞五年实时计算效率提升实践

有赞是一个商家服务公司，提供全行业全场景的电商解决方案。在有赞，大量的业务场景依赖对实时数据的处理，作为一类基础技术组件，服务着有赞内部几十个业务产品，几百个实时计算任务，其中包括交易数据大屏，商品实时统计分析，日志平台，调用链，风控等多个业务场景，本文将介绍有赞实时计算当前的发展历程和当前的实时计算技术架构。

Elasticsearch

February 24, 2019

[总结]从10秒到2秒！ElasticSearch性能调优实践

做过数据收集、数据开发、数据存储的同学相信对这个简称并不陌生，而 ElasticSearch（以下简称 ES）则在 ELK 栈中占着举足轻重的地位。前一段时间，我亲身参与了一个 ES 集群的调优，今天把我所了解与用到的调优方法与大家分享，如有错误，请大家包涵与指正。

Architecture

February 24, 2019

[汇总]Big Data构架

基于Flink的超大规模在线实时反欺诈系统的建设与实践

Elasticsearch

February 20, 2019

[转]基于Elasticsearch分布式搜索引擎的架构原理

1. （1）倒排索引到底是啥？要了解分布式搜索引擎，先了解一下搜索这个事儿吧，搜索这个技术领域里最入门级别的一个概念就是倒排索引。我们先简单说一下倒排索引是个什么东西。

Elasticsearch

February 17, 2019

[转]400+节点Elasticsearch集群的运维经验

Meltwater 的工程师通过官方技术博客分享了他们如何运行和维护 400+ 节点的 Elasticsearch 集群。主要介绍了业务中积累的时间序列数据的特点、数据量和每日滚动索引策略，以及他们对 Elasticsearch 版本的选择（没错，目前他们使用的是 1.X，而且做了源码级的修改）、为何不选择托管的云服务、索引结构和分片规划等，最后重点介绍了他们在性能方面的努力和经验，给出了一个性能参考列表。

Elasticsearch

February 17, 2019

[转]日均5亿查询量，京东到家订单中心ES架构演进

京东到家订单中心系统业务中，无论是外部商家的订单生产，或是内部上下游系统的依赖，订单查询的调用量都非常大，造成了订单数据读多写少的情况。我们把订单数据存储在 MySQL 中，但显然只通过 DB 来支撑大量的查询是不可取的。同时对于一些复杂的查询，MySQL 支持得不够友好，所以订单中心系统使用了 Elasticsearch 来承载订单查询的主要压力。

Web Crawler

January 26, 2019

[汇总]爬虫经验

技术揭秘：微博微信刷粉刷量的流程原理分享我的分布式爬虫架构设计如何用 JavaScript、Python 和 Google Flights 计划一场说走就走的旅行解析航班信息，选择最佳旅行告别排队！用 Python 定时自动挂号和快捷查询化验报告用 Python Charles 全自动下载抖音视频 iOS Charles 抓包 https 实战并篡改返回数据技术深扒丨没点想象力都看不透这个网站的反爬措施 50行Python代码，教你获取公众号全部文章 python爬虫反反爬：CSS反爬加密彻底破解

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Category: Big Data

[汇总]Big Data经验

[转]如何使用Redis流和Apache Spark处理实时数据？

[转]为什么我们需要数据预处理？

[转]从Storm到Flink，有赞五年实时计算效率提升实践

[总结]从10秒到2秒！ElasticSearch性能调优实践

[汇总]Big Data构架

[转]基于Elasticsearch分布式搜索引擎的架构原理

[转]400+节点Elasticsearch集群的运维经验

[转]日均5亿查询量，京东到家订单中心ES架构演进

[汇总]爬虫经验

Meta

Categories