Category: Theory & Solution

[转]全文搜索引擎选 ElasticSearch 还是 Solr? 0

[转]全文搜索引擎选 ElasticSearch 还是 Solr?

最近项目组安排了一个任务,项目中用到了全文搜索,基于全文搜索 Solr,但是该 Solr 搜索云项目不稳定,经常查询不出来数据,需要手动全量同步,而且是其他团队在维护,依赖性太强,导致 Solr 服务一出问题,我们的项目也基本瘫痪,因为所有的依赖查询都无结果数据了。所以考虑开发一个适配层,如果 Solr 搜索出问题,自动切换到新的搜索–ES。 其实可以通过 Solr 集群或者服务容错等设计来解决该问题。但是先不考虑本身设计的合理性,领导需要开发,所以我开始踏上了搭建 ES 服务的道路,从零开始,因为之前完全没接触过 ES,所以通过本系列来记录下自己的开发过程。 Please follow and like us:0

[转]超详细的Elasticsearch高性能优化实践 0

[转]超详细的Elasticsearch高性能优化实践

ES 性能调优 ES 的默认配置,是综合了数据可靠性、写入速度、搜索实时性等因素。实际使用时,我们需要根据公司要求,进行偏向性的优化。 写优化 假设我们的应用场景要求是,每秒 300 万的写入速度,每条 500 字节左右。 针对这种对于搜索性能要求不高,但是对写入要求较高的场景,我们需要尽可能的选择恰当写优化策略。 综合来说,可以考虑以下几个方面来提升写索引的性能: 加大 Translog Flush ,目的是降低 Iops、Writeblock。 增加 Index Refresh 间隔,目的是减少 Segment Merge 的次数。 调整 Bulk 线程池和队列。 优化节点间的任务分布。 优化 Lucene 层的索引建立,目的是降低 CPU 及 IO。...

[转]基于大数据的情绪分析(二) 0

[转]基于大数据的情绪分析(二)

导言 情绪分析使用机器学习算法来确定正面或负面文本内容的方式。情绪分析的示例包括: 快速了解客户评论的基调: 了解客户喜欢或不喜欢的产品或服务。 了解可能影响新客户购买决策的因素。 为企业提供市场意识。 尽早解决问题 了解股市情绪,以获得对金融信号预测的见解 社交媒体监控 品牌/产品/公司人气/声誉/感知监控 不满意的客户检测监控和警报 营销活动监控/分析 客户服务意见监测/分析 品牌情绪态度分析 客户反馈分析 竞争情绪分析 品牌影响者监控 Please follow and like us:0

[转]基于大数据的情绪分析(一) 0

[转]基于大数据的情绪分析(一)

导语 社交媒体、电子邮件、聊天、产品评论和推荐的文本挖掘和分析已经成为几乎所有行业垂直行业研究数据模式的宝贵资源,它能够帮助企业获得更多信息、更加了解客户、预测和增强客户体验、量身定制营销活动,并协助做决策。 Please follow and like us:0

[汇总]Big Data经验 0

[汇总]Big Data经验

落后最可怕的地方是思维方式的落后 大数据引发的智能革命 Please follow and like us:0

[总结]从10秒到2秒!ElasticSearch性能调优实践 0

[总结]从10秒到2秒!ElasticSearch性能调优实践

做过数据收集、数据开发、数据存储的同学相信对这个简称并不陌生,而 ElasticSearch(以下简称 ES)则在 ELK 栈中占着举足轻重的地位。 前一段时间,我亲身参与了一个 ES 集群的调优,今天把我所了解与用到的调优方法与大家分享,如有错误,请大家包涵与指正。 Please follow and like us:0

[转]基于Elasticsearch分布式搜索引擎的架构原理 0

[转]基于Elasticsearch分布式搜索引擎的架构原理

(1)倒排索引到底是啥? 要了解分布式搜索引擎,先了解一下搜索这个事儿吧,搜索这个技术领域里最入门级别的一个概念就是倒排索引。 我们先简单说一下倒排索引是个什么东西。 Please follow and like us:0

[转]400+节点Elasticsearch集群的运维经验 0

[转]400+节点Elasticsearch集群的运维经验

Meltwater 的工程师通过官方技术博客分享了他们如何运行和维护 400+ 节点的 Elasticsearch 集群。主要介绍了业务中积累的时间序列数据的特点、数据量和每日滚动索引策略,以及他们对 Elasticsearch 版本的选择(没错,目前他们使用的是 1.X,而且做了源码级的修改)、为何不选择托管的云服务、索引结构和分片规划等,最后重点介绍了他们在性能方面的努力和经验,给出了一个性能参考列表。 Please follow and like us:0

[转]日均5亿查询量,京东到家订单中心ES架构演进 0

[转]日均5亿查询量,京东到家订单中心ES架构演进

京东到家订单中心系统业务中,无论是外部商家的订单生产,或是内部上下游系统的依赖,订单查询的调用量都非常大,造成了订单数据读多写少的情况。 我们把订单数据存储在 MySQL 中,但显然只通过 DB 来支撑大量的查询是不可取的。 同时对于一些复杂的查询,MySQL 支持得不够友好,所以订单中心系统使用了 Elasticsearch 来承载订单查询的主要压力。 Please follow and like us:0

[转]快手万亿级实时OLAP平台的建设与实践 0

[转]快手万亿级实时OLAP平台的建设与实践

快手 App 目前日活 1.5 亿,每天会产生数万亿规模的用户行为数据,对这些数据的高效探索是一件很有挑战同时也很有价值的工作。今天重点分享快手建设万亿级数据规模 OLAP 平台的设计方案以及主要改进过程。 Please follow and like us:0