BigData/Hive 2

[Hive] External vs. Internal

개요 Hive에서 External Table과 Internal Table의 차이점에 대해 파악하고, 실습을 진행해 보겠습니다. Internal Table Internal Table은 Manged Table이라고 하며, Table 생성 시 따로 Option을 주지 않으면 기본 저장 위치 ‘hive.metastore.warehouse.dir’에 정의한 하위 디렉터리를 만들어서 Data를 저장합니다. ex) hdfs:///user/hive/warehouse/{DB명}.db/{Table 명} Internal Table은 Drop 시에 Table의 Data 및 MetaData 또한 완전히 삭제되므로 주의하여야 합니다. 세션이 종료 되어도 Table의 Data와 파일은 유지 됩니다. 실습 shakespeare_wc..

BigData/Hive 2022.09.29

[Hive] Hive 란?

개요 Hive에 대한 개념 정리와 간단한 실습을 진행해보며 Hive의 구동원리 아키텍쳐에 대해 알아가 보도록 하겠습니다. Hive 란? Hive는 Hadoop에서 돌아가는 Data Warehousing Solution 입니다. MapReudce는 Java 기반이기 때문에 Java에 대한 역량이 부족한 데이터 엔지니어에게는 진입 장벽이 높습니다. 따라서 Hive를 통해 SQL문을 MapReduce로 변환 시켜주면서 진입 장벽을 낮추었습니다. 진행 과정은 Hive에서 SQL문을 MapReduce로 변환 시켜주고, 이를 Hadoop이 처리하는 순서로 진행됩니다. 즉, Hive는 단순히 SQL을 MapReduce로 변환 시켜주는 작업을 진행하고, Hadoop이 일을 처리하는 역할을 수행합니다. 따라서 엄밀히 이..

BigData/Hive 2022.09.20