Hadoop综合大作业-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

Hadoop综合大作业

阅读量：4932 次

发布时间：2019-06-11

本文共 384 字，大约阅读时间需要 1 分钟。

---恢复内容开始---

1.用Hive对爬虫大作业产生的文本文件（或者英文词频统计下载的英文长篇小说）进行词频统计。

在虚拟机上网下载一个著名的《教父》的英文小说，下载到本地。

首先要启动dfs：

在hdfs上创建文件夹：

查看hdfs上的所有文件：

把下载的文件上传到hdfs：

启动hive：

创建表：

把hdsf上的文件内容添加进去表里：

创建一个新的表存放词频统计：

查找表的前十条记录：

2.用Hive对爬虫大作业产生的csv文件进行数据分析，写一篇博客描述你的分析过程和分析结果。

首先在本地把统计好的词频转化成csv格式

把文件上传到虚拟机

启动hive

创建表

存放到表

查看前十

分析：说明大家喜欢的小说类型一般主题都是言情，男女之类的小说

转载于:https://www.cnblogs.com/a305810827/p/9090849.html

你可能感兴趣的文章

Mininet实验脚本实现控制交换机行为

c# 获取程序运行的根目录

Java之匿名内部类详解

adb 命令模拟按键事件

Codeforces Round #436 D. Make a Permutation!

React组件绑定this的四种方式

Jquery操作select

利用Git将项目传到GitHub上

转摘-谈谈后端业务系统的微服务化改造

搜索引擎优化

linux文件系统

mysql以zip安装，解决the service already exists

Java访问修饰符（访问控制符）

替换空格_把字符串里面的空格替换成%20

AFNetworking content type not support

【MSDN】 SqlServer DBCC解析

Caused by: java.lang.ClassNotFoundException: org.aopalliance.intercept.MethodInterceptor

VM VirtualBox安装Centos6.5

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-12-24 11:32:22 当前IP: 3.14.131.115 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我