Category: Big Data Practice

[转]为什么我们需要数据预处理? 0

[转]为什么我们需要数据预处理?

数据挖掘的核心是什么?这个的答案是算法应该没什么疑问。那数据挖掘的基石又是什么呢?那就是今天我们要来说的数据预处理。 Please follow and like us:0

[转]如何绘制高大上的词云图? 0

[转]如何绘制高大上的词云图?

当我们手中有一篇文档,比如书籍、小说、电影剧本,若想快速了解其主要内容是什么,则可以采用绘制 WordCloud 词云图,显示主要的关键词(高频词)这种方式,非常方便。 本文将介绍常见的英文和中文文本的词云图绘制,以及 Frequency 频词云图。接下来,将详细说明各种形式的词云图绘制步骤。 Please follow and like us:0

[转]如何使用 Lucene 做网站高亮搜索功能? 0

[转]如何使用 Lucene 做网站高亮搜索功能?

现在基本上所有网站都支持搜索功能,现在搜索的工具有很多,比如Solr、Elasticsearch,它们都是基于 Lucene 实现的,各有各的使用场景。Lucene 比较灵活,中小型项目中使用的比较多,我个人也比较喜欢用。 Please follow and like us:0

[转]Python 实现酷炫3D效果 0

[转]Python 实现酷炫3D效果

Pyecharts是一款强大的可视化工具。百度开发了一款基于JS强大的可视化库Echarts,可我们在绘图时,通常并不使用前端的技术来整理数据,而转换数据结构又非常麻烦。Pyecharts发挥了python胶水语言的特性,可以很好地帮助我们做数据可视化。 Please follow and like us:0

0

[转]Python 数据可视化

前言 在之前的一篇文章《Python 数据可视化利器》中,我写了 Bokeh、pyecharts 的用法,但是有一个挺强大的库 Plotly 没写,主要是我看到它的教程都是在 Jupyter Notebooks 中使用,说来也奇怪,硬是找不到如何本地使用(就是本地输出 HTML 文件),所以不敢写出来。现在已经找到方法了,这里我就在原文的基础上增加了 Plotly 的部分教程。 数据可视化的第三方库挺多的,这里我主要推荐两个,分别是 Bokeh、pyecharts。 Please follow and like us:0

[汇总]数据分析案例 0

[汇总]数据分析案例

用 Python 分析《斗破苍穹》,分析其究竟是烂片无疑还是沧海遗珠? 一万名教授的名字以及相关分析代码 开源一段代码-微信好友分析 程序员如何用技术搞定女朋友情绪? 如何用编程得出泰坦尼克号生还者的年龄段? 和 90 后女程序媛谈恋爱,一定要注意的细节! 注:微信群聊天数据 数据揭秘5000个知乎万粉大V的日常 @程序员,如何在买房时不被宰? 数据解读广大“钢铁直男”眼中的女神评判标准 爬取了 B 站上的 17398 条评论,分析这部二次元番剧为何受到技术宅的追捧? 爬取了 48048 条评论数据,解读 9.3 分的《毒液》是否值得一看? 流量明星小红书的增长组织架构和数据分析实例 何用 Python 一键搞定 CET 4 最爱考的 5000 个单词? Python...

0

[转]上万条评论解读《西虹市首富》是否值得一看

前言 纵观近几年的国产电影市场,“开心麻花“似乎已经成为了票房的保证。从《夏洛特烦恼》、《羞羞的铁拳》到最新上映的《西虹市首富》都引爆了票房。本期我们会根据从猫眼电影网爬取到的上万条评论为你解读《西虹市首富》是否值得一看。 Please follow and like us:0

0

[总结]统计开发语言薪资

本文主要用Python爬取拉勾网不同编程语言职位信息 Python、Java 薪资最高,C# 垫底:分析什么编程语言最赚钱!   本文爬取了BOSS直聘网站上Python和Java的招聘信 Python 起薪和均资都高于 Java?!   Please follow and like us:0

0

[转]IMDB、烂番茄…哪家网站的电影评分更靠谱?

我们在选择看哪一部电影时,通常会考虑很多个因素,比如导演是谁、演员是谁,或者电影的预算是多少。大部分人都是基于影评、预告片做出决定,或者直接根据电影的评分来决定。 出于某些原因,有些人不愿意看影评或预告片,尽管它们比评分提供了更多的信息。 Please follow and like us:0

image.png 0

[转]根据天猫胸罩销售数据分析中国女性胸部大小分布

 本文实现一个非常有趣的项目,这个项目是关于胸罩销售数据分析的。是网络爬虫和数据分析的综合应用项目。本项目会从天猫抓取胸罩销售数据,并将这些数据保存到SQLite数据库中,然后对数据进行清洗,最后通过SQL语句、Pandas和Matplotlib对数据进行数据可视化分析。我们从分析结果中可以得出很多有的结果,例如,中国女性胸部标准尺寸是多少;胸罩上胸围的销售比例;哪个颜色的胸罩最受女性欢迎。 Please follow and like us:0