Lu Ping's blog

Created2021-04-01|bigdata|Hadoop

Hadoop模块common 公共通用模块 HDFS 文件存储 YARN 资源管理 MapReduce 计算框架 Hadoop集群安装部署虚拟机配置 linux网络配置1.修改主机名称 /etc/hostname将克隆的2、3主机分别改名为hadoop02、hadoop032.主机名和ip映射配置此处设置IP时注意 Host文件配置三台虚拟机之间通信名称代替ip 2.网络参数配置配置静态ip 3.测试网卡配置若修改vmware默认初始网段,出现无法ping通外网在上图虚拟网络编辑器还原默认配置,使用还原后的网段即可. SSH服务配置免密登录1.生成私匙和公匙 1ssh-keygen -t rsa 将共匙加入authorized_keys文件，复制公匙到自己以及hadoop02和hadoop03 实现免密登录，每一台都要将公匙复制到其他主机的authorized_keys文件 123ssh-copy-id hadoop01ssh-copy-id hadoop02ssh-copy-id hadoop03 防火墙配置123firewall-cm ...

练习从数据采集、分析到展示的过程

Created2021-03-26|python|python 爬虫舆论监测

描述学了Python爬虫文本分析又看到学校上热搜就写了个舆论监测的东西#结果展示首页数据总览热度排行榜TOP10趋势观察词云展示lda话题分析项目结构数据采集、数据分析、数据展示信息来源都是面向公众的媒体平台，像微博、贴吧、知乎、微信这些，主要搜集关于某个主题文本信息。爬下来的信息做了些初步的统计信息，和一些简单分析如上图。采集数据用python写的爬虫爬虫结构用到的库这几个平台的都有相应的反扒措施，但是我爬的都是大家都能看到的不违法，而且我用一台服务器每隔四个小时爬取一次，不会造成多大影响于是我看了其他一些反反扒的文章抓到了数据模块介绍download模块通用下载模块，对网页内容下载 parser模块请求到的信息格式微博、知乎是json格式，只需json.loads下来取某个key的values即可，微信、贴吧等是html网页源码格式，我使用的是BeautifulSoup库，soup.find_all()很顺手，使用lxml库的etree的xpath语法虽更简单，但是有时因为一个元素去改整个得到list很是麻烦 dataoutput 数据储存，我用的是mys ...

东方财富股吧标题爬取分析

Created2021-03-10|python|python 爬虫

45个股吧，140万条数据库记录日期从2018-03-01至2021-03-01共36个月的股吧帖子，爬取股吧名称、阅读、评论、标题、作者和发帖时间，并分析总体情绪亮点回顾时间问题获取的时间未加年份，解决方法，观察发现发帖日期月份逐级递减，按获取顺序下一个时间月份在同一年内小于等于上一个月份，设一个变量m储存月份，始值设为12，与获取的最新月份new_m比较，若new_m>m，使当前年份减一；再令m=new_m。数据去重问题有时候爬取会因各种问题中断，当你再次续爬时数据会重复，于是我加了一个用于去重的myidmyid = item[‘username’] + str(item[‘mdate’])[3:-4] + title[:100]思想是，时间地点人物组合，即{谁}在{什么时间}{干了什么}地点没加，但也使每条记录内容保证唯一，大概率去重。考虑过用每个news的url做主键去重，但是一下url是有重复的创建的数据表语句如下 123456789101112131415create table info_guba( id int au ...

随机森林算法的Python实现

Created2021-03-01|python|python 随机森林

随机森林主要应用于回归和分类。它几乎可以将任何数据填进去，下文使用鸢尾花数据进行分类和预测环境 python3.8数据集鸢尾花数据集 12345678def dataset(self): iris = load_iris() feature = pd.DataFrame(data=iris.data, columns=iris.feature_names) target = pd.DataFrame(data=map(lambda item: iris.target_names[item], iris.target), columns={'target_names'}) feature_train, feature_test, target_train, target_test = \ train_test_split(feature, target, test_size=0.3) return feature_train, feat ...