Category: Big Data

[汇总]爬虫经验 0

[汇总]爬虫经验

技术揭秘:微博微信刷粉刷量的流程原理 分享我的分布式爬虫架构设计 如何用 JavaScript、Python 和 Google Flights 计划一场说走就走的旅行 解析航班信息,选择最佳旅行 告别排队!用 Python 定时自动挂号和快捷查询化验报告 用 Python Charles 全自动下载抖音视频 iOS Charles 抓包 https 实战并篡改返回数据 技术深扒丨没点想象力都看不透这个网站的反爬措施 50行Python代码,教你获取公众号全部文章 python爬虫反反爬:CSS反爬加密彻底破解

[汇总]微信开发资料 0

[汇总]微信开发资料

itchath和werobot itchat这是一个操作微信的第三方库。通过这个库几行代码就可以实现直接登录微信、自动添加好友、自定义给微信好友回复内容、给好友发送图片文本视频等聊天内容、参与群聊、采集微信好友的资料等等。 werobot这个库封装了微信公众号的很多接口。通过这个库你可以很容易的给订阅你公众号的粉丝发送消息、推送图文、跟粉丝互动。

[转]如何绘制高大上的词云图? 0

[转]如何绘制高大上的词云图?

当我们手中有一篇文档,比如书籍、小说、电影剧本,若想快速了解其主要内容是什么,则可以采用绘制 WordCloud 词云图,显示主要的关键词(高频词)这种方式,非常方便。 本文将介绍常见的英文和中文文本的词云图绘制,以及 Frequency 频词云图。接下来,将详细说明各种形式的词云图绘制步骤。

[转]快手万亿级实时OLAP平台的建设与实践 0

[转]快手万亿级实时OLAP平台的建设与实践

快手 App 目前日活 1.5 亿,每天会产生数万亿规模的用户行为数据,对这些数据的高效探索是一件很有挑战同时也很有价值的工作。今天重点分享快手建设万亿级数据规模 OLAP 平台的设计方案以及主要改进过程。

[转]小米大数据:借助Apache Kylin打造高效、易用的一站式OLAP解决方案 0

[转]小米大数据:借助Apache Kylin打造高效、易用的一站式OLAP解决方案

如今的小米不仅是一家手机公司,更是一家大数据与人工智能公司。随着小米公司各项业务的快速发展,数据中的商业价值也愈发突显。而与此同时,各业务团队在数据查询、分析等方面的压力同样正在剧增。因此,为帮助公司各业务线解决这些数据方面的挑战,小米大数据团队不断地尝试通过不同的技术手段打造新的解决方案。

[转]如何使用 Lucene 做网站高亮搜索功能? 0

[转]如何使用 Lucene 做网站高亮搜索功能?

现在基本上所有网站都支持搜索功能,现在搜索的工具有很多,比如Solr、Elasticsearch,它们都是基于 Lucene 实现的,各有各的使用场景。Lucene 比较灵活,中小型项目中使用的比较多,我个人也比较喜欢用。

[转]饿了么调度系统全解 0

[转]饿了么调度系统全解

随着饿了么在大数据应用的不断深入,需要解决任务数量增长快、任务多样化、任务关系复杂、任务执行效率低及任务失败不可控等问题。 饿了么大数据平台现状:每天完成大数据任务计算 54000+;节点集群 85 台。

[转]Python 实现酷炫3D效果 0

[转]Python 实现酷炫3D效果

Pyecharts是一款强大的可视化工具。百度开发了一款基于JS强大的可视化库Echarts,可我们在绘图时,通常并不使用前端的技术来整理数据,而转换数据结构又非常麻烦。Pyecharts发挥了python胶水语言的特性,可以很好地帮助我们做数据可视化。