Hadoop学习记录
Hadoop模块common 公共通用模块
HDFS 文件存储
YARN 资源管理
MapReduce 计算框架
Hadoop集群安装部署虚拟机配置 linux网络配置1.修改主机名称 /etc/hostname将克隆的2、3主机分别改名为hadoop02、hadoop032.主机名和ip映射配置 此处设置IP时注意
Host文件配置 三台虚拟机之间通信名称代替ip
2.网络参数配置 配置静态ip
3.测试网卡配置
若修改vmware默认初始网段,出现无法ping通外网在上图虚拟网络编辑器还原默认配置,使用还原后的网段即可.
SSH服务配置 免密登录1.生成私匙和公匙
1ssh-keygen -t rsa
将共匙加入authorized_keys文件, 复制公匙到自己以及hadoop02和hadoop03 实现免密登录,每一台都要将公匙复制到其他主机的authorized_keys文件
123ssh-copy-id hadoop01ssh-copy-id hadoop02ssh-copy-id hadoop03
防火墙配置123firewall-cm ...
练习从数据采集、分析到展示的过程
描述学了Python爬虫 文本分析 又看到学校上热搜 就写了个舆论监测的东西#结果展示首页数据总览热度排行榜TOP10趋势观察词云展示lda话题分析
项目结构数据采集、数据分析、数据展示
信息来源都是面向公众的媒体平台,像微博、贴吧、知乎、微信这些,主要搜集关于某个主题文本信息。爬下来的信息做了些初步的统计信息,和一些简单分析如上图。
采集数据用python写的爬虫
爬虫结构
用到的库
这几个平台的都有相应的反扒措施,但是我爬的都是大家都能看到的不违法,而且我用一台服务器每隔四个小时爬取一次,不会造成多大影响于是我看了其他一些反反扒的文章抓到了数据
模块介绍download模块
通用下载模块,对网页内容下载
parser模块
请求到的信息格式微博、知乎是json格式,只需json.loads下来取某个key的values即可,微信、贴吧等是html网页源码格式,我使用的是BeautifulSoup库,soup.find_all()很顺手,使用lxml库的etree的xpath语法虽更简单,但是有时因为一个元素去改整个得到list很是麻烦
dataoutput
数据储存,我用的是mys ...
东方财富股吧标题爬取分析
45个股吧,140万条数据库记录日期从2018-03-01至2021-03-01共36个月的股吧帖子,爬取股吧名称、阅读、评论、标题、作者和发帖时间,并分析总体情绪
亮点回顾时间问题获取的时间未加年份,解决方法,观察发现发帖日期月份逐级递减,按获取顺序下一个时间月份在同一年内小于等于上一个月份,设一个变量m储存月份,始值设为12,与获取的最新月份new_m比较,若new_m>m,使当前年份减一;再令m=new_m。数据去重问题有时候爬取会因各种问题中断,当你再次续爬时数据会重复,于是我加了一个用于去重的myidmyid = item[‘username’] + str(item[‘mdate’])[3:-4] + title[:100]思想是,时间地点人物组合,即{谁}在{什么时间}{干了什么}地点没加,但也使每条记录内容保证唯一,大概率去重。考虑过用每个news的url做主键去重,但是一下url是有重复的创建的数据表语句如下
123456789101112131415create table info_guba( id int au ...
随机森林算法的Python实现
随机森林主要应用于回归和分类。它几乎可以将任何数据填进去,下文使用鸢尾花数据进行分类和预测环境 python3.8数据集 鸢尾花数据集
12345678def dataset(self): iris = load_iris() feature = pd.DataFrame(data=iris.data, columns=iris.feature_names) target = pd.DataFrame(data=map(lambda item: iris.target_names[item], iris.target), columns={'target_names'}) feature_train, feature_test, target_train, target_test = \ train_test_split(feature, target, test_size=0.3) return feature_train, feat ...