강의지원 게시판

[빅데이터] 숙제

확-통
작성자
신 민규 신 민규
작성일
2015-06-03 15:17
조회
927

Dataset: BBC news text (첨부파일)
파일 이름 001.txt

첫줄:title

나머지:body

HBase에 Table 2개
1. 기사를 저장하는 Table

- 기사 내 특수문자 제거

- rowkey: 001 (파일 이름, 확장자 제거) -> DocID

- 각 row에 title, document

2. Term-DocID
- rowkey: term:DocID e.g. ultraviolet:001

- value 없음

제출할 프로그램
1. HBase 테이블을 만들고 데이터를 올리는 프로그램

- MapReduce Mapper로 만들면 가산점있음

2. 검색 프로그램
- Interface 포함

- 결과로 보여줄 내용(title인지 body 포함인지) 결정

- DocID

- title or document

- Term으로 검색

- 2번 테이블에서 나온 result -> DocID 분리 -> 1번 테이블에서 검색하여 내용 출력

- 여러개의 Term으로 동시 검색

제출할 것
- 프로그램 소스

- 리포트

- 컴공 양식

- 사용법 (빌드 방법, 실행 방법)

점수
- 기본 5점

- 검색 프로그램 10점

- 여러개의 Term 검색 5점

- Mapper를 사용 5점


제출은
ririgo@nate.com로 보내세요