코딩 연습장/데이터베이스(DB)

Hadoop/Hive 이용한 부동산 거래량, 지수 비교 분석 프로젝트 - 1 (데이터 수집)

Do아 2021. 6. 30. 12:58
728x90

2021/06/07(월)

 

 

 

 

 

 

부동산 가격이 치솟는 가운데 전에 비해 얼마나 부동산의 거래량과 가격이 올랐는지 확인하고 싶다는 생각을 했다

통계청에 있는 데이터를 가지고 Hadoop/Hive 비정형 데이터 처리를 통해 비교해 보고자 한다 

우선 데이터를 수집해서 Hive에 넣는 거부터 해보도록 하겠다

 

 

 

 

 

먼저 통계청에서 아파트 거래현황 검색하여 자료 가져오기

2006년부터 2020년도까지 2년씩 거래량을 연도별로 자료 출력

출력한 자료들을 하나의 csv로 합쳐주고 영어를 한글로 교체하여 property.csv라는 파일 생성

 

 

 

 

 

파일을 생성하고 나면 Hadoop/Hive안에 자료를 담을 테이블을 생성해줘야 함

테이블 만들기

Hive에 추가

create table property(
monthofyear int,
city string,
gu string,
coh int,
area int)
ROW FORMAT DELIMITED
    FIELDS TERMINATED BY ','
    LINES TERMINATED BY '\n'
    STORED AS TEXTFILE;

 

 

 

 

property.csv 파일을 생성한 테이블 안에 삽입

load data local inpath "property.csv"
overwrite into table property;

 

 

 

 

거래 가격 지수와 물가지수 비교를 하기 위해서 각 데이터도 수집하여 Hive안에 테이블과 데이터 삽입

<거래 가격 지수 테이블>

CREATE TABLE priceidx(
quarter STRING,
city STRING,
gu STRING,
idx FLOAT)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
STORED AS TEXTFILE;

<거래 가격 지수 테이터 삽입>

load data local inpath "index.csv"
overwrite into table priceidx;

 

 

 

<물가지수 테이블>

create table mulgaziso(
monthofyear string,
city string,
prices float)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
STORED AS TEXTFILE;

<물가지수 데이터 삽입>

load data local inpath "mulgaziso.csv"
overwrite into table mulgaziso;

 

 

 

 

 

이렇게까지 하면 데이터를 통계청에서 수집

Hive안에 테이블 생성, 데이터 테이블에 삽입까지 완료했다

Sql문을 통해서 원하는 데이터를 추출하여 엑셀로 만들거나 지도 시각화를 할 수 있다

 

728x90