일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- Python
- 파이썬처럼생각하기
- elk
- Kubernetes
- 데이터 플랫폼
- Tabular
- 쿠버플로
- Minikube
- TABNET
- MLOps
- 파이썬답게생각하기
- AWS Glue
- MachineLearning
- yarn
- 쿠버플로우
- fluentd
- gcp
- 쿠버네티스
- 머신러닝
- hive
- 파이썬
- 리눅스
- Kubeflow
- etl
- 데이터 아키텍처
- Spark
- mesos
- Kibana
- Opensearch
- 하이브
- Today
- Total
목록분류 전체보기 (52)
데이터를 걷는 선비

본 포스트는 아래 포스트를 보고 실습을 진행한 포스트입니다. https://spidyweb.tistory.com/302 [HIVE] (Hive 실습)Hadoop ETL with (HiveQL)HQL파일,HQL파일로 hadoop에 job제출하기 이번 포스트에는 standalone(pseudo distributed hadoop cluster)에 HQL파일을 생성하여 job을 제출하는 실습을 해보겠습니다. 하둡 및 하이브를 설치하지 못하신 분은 아래의 링크를 참조해주세요. 2021.04.26 - [ spidyweb.tistory.com 이번 포스트에는 standalone(pseudo distributed hadoop cluster)에 HQL파일을 생성하여 job을 제출하는 실습을 해보겠습니다. https://..

[순서] 0. Pre-requisite 설치 1. 하이브 다운로드 2. 하이브 설치 3. 하이브 환경 변수 설정하기 4. hive-config.sh 파일 편집하기 5. HDFS에 Hive directory 만들기 6. hive-site.xml 파일 설정하기 7. derby database 시작하기 8. 하이브 Client Shell 시작하기 [Prerequisite] - Hive 설치를 위한 조건 및 가정 - WSL2는 설치되어 있다고 가정 - WSL은 amd 기반의 cpu를 기준으로 함(arm은 꼭 공식 문서 및 별도 자료 참조!!) - Hadoop 설치 필요 실제 Hive를 쓰기위해서 하둡이 필수인 것은 아니나, 이번 실습에서는 하둡이 설치되어 있다는 것을 가정합니다. 해당 포스트는 single no..

[순서] 0. Pre-requisite 설치 1. 하둡 다운로드 2. 하둡 설치 3. 하둡 환경 변수 설정 4. hadoop-env.sh 파일 편집하기 5. core-site.xml 파일 편집하기 6. hdfs-site.xml 파일 편집하기 7. mapred-site.xml 파일 편집하기 8. yarn-site.xml 파일 편집하기 9. 네임노드 포맷하기 10. 하둡 클러스터 시작하기 [Prerequisite] - Hadoop 설치를 위한 조건 및 가정 - WSL2는 설치되어 있다고 가정 - WSL은 amd 기반의 cpu를 기준으로 함(arm은 꼭 공식 문서 및 별도 자료 참조!!) - (1) open-jdk 설치 - (2) ssh 통신 확인 해당 포스트는 single node에서의 설치 방법을 담았습니..

새해 들어 직접 내 컴퓨터에 여러 학습 환경을 구축하고 싶었지만, 호옥시나 가까운 시일 내에 결혼을 할 수도 있어 구매를 고민하던 와중 고민을 들으시던 회사 매니저님의 한 마디 "결혼하면 못산다" 들은 자리에서 바로 구매 결정!! GPU 데스크탑 구입 "현재 목표" Hyper-V 가상환경을 통해 쿠버네티스 환경 구축 마스터 노드 1대, 워커 노드 2대 Hyper-V 가상환경을 통해 하둡 에코시스템 환경 구축 네임노드 1대, 데이터 노드 2대 GPU로 Pytorch 학습 및 추론 GPU로 Tensorflow 학습 및 추론 1-2-3-4번 하는 과정을 블로그로 기록 데스크탑 스펙 CPU : 인텔코어 i7-12세대 메모리 : 32GB 그래픽카드 : RTX 3060 12GB (나머지는 뭔지 잘 모른다) 아무튼 ..

[순서] 1. Hive란? 2. Hive의 구성요소 3. Hive의 등장 배경 4. Hive 버전 별 특징 5. Hive 테이블의 문제점 1. Hive란? 하이브는 하둡 에코시스템 중에서 데이터를 모델링하고 프로세싱하는 경우 가장 많이 사용하는 데이터 웨어하우징용 솔루션입니다. RDB의 데이터베이스, 테이블과 같은 형태로 HDFS에 저장된 데이터의 구조를 정의하는 방법을 제공하며, 이 데이터를 대상으로 SQL과 유사한 HiveQL 쿼리를 이용하여 데이터를 조회하는 방법을 제공합니다. *가장 큰 특징으로는 메타스토어라는 것이 존재하는데, 하이브는 기존의 RDB와는 다르게 미리 스키마를 정의하고 그 틀에 맞게 데이터를 입력하는 것이 아닌, 데이터를 저장하고 거기에 스키마를 입히는(메타스토어에 입력하는) 것이..

[순서] 1. Hive metastore(메타스토어)란? 2. Hive 메타스토어 유형 3. Hive 메타스토어 설정 파라미터 4. Hive 버전 별 특징 5. Hive 테이블의 문제점 1.Hive metastore(메타스토어)란? 하이브는 테이블과 파티션과 관련된 메타정보를 모두 메타스토어에 저장합니다. 하이브는 기존의 RDBMS와 달리 데이터를 insert후 스키마를 입히게 되는데, 그때 스키마 정보를 메타스토어에서 참조하여 가져옵니다. 2.Hive 메타스토어 유형 하이브의 메타스토어 유형에는 임베디드 메타스토어(Embedded metastore), 로컬 메타스토어(Local metastore), 원격 메타스토어(Remote metastore) 세가지 유형이 있습니다. (1) 임베디드 메타스토어(Em..

https://semizero.tistory.com/59 [Kubernetes] 서비스 Port 유형 정리 [순서] 1) 서비스란?? 2) 포트(Port) 유형 정리 3) 서비스의 유형 3-1) ClusterIP (기본 형태) 3-2) NodePort 3-3) LoadBalancer 3-4) ExternalName 4) CLI 명령어로 파드에 서비스 정의하기 1) 서비스란?? 쿠버네티스 환경 semizero.tistory.com 지난 포스트에 이어 쿠버네티스 서비스가 배포되어 있는 상황에서, 포트 포워딩을 통해 로컬 호스트에서 서비스에 접속해보는 실습을 진행해 보겠습니다. 현재 구동되고 있는 서비스 정보 확인하기 현재 쿠버네티스를 통해 서비스가 배포되어 있다고 가정해봅시다. 해당 서비스를 제공하는 포트 ..

[순서] 1) 서비스란?? 2) 포트(Port) 유형 정리 3) 서비스의 유형 3-1) ClusterIP (기본 형태) 3-2) NodePort 3-3) LoadBalancer 3-4) ExternalName 4) CLI 명령어로 파드에 서비스 정의하기 1) 서비스란?? 쿠버네티스 환경에서 서비스(Service)는 파드들을 통해 실행되고 있는 애플리케이션을 네트워크에 노출(expose)시키는 가상의 컴포넌트다. 쿠버네티스 내부의 다양한 객체들이 애플리케이션과, 그리고 애플리케이션이 다른 외부의 애플리케이션이나 사용자와 연결될 수 있도록 도와주는 역할을 한다. 쿠버네티스에서의 파드는 무언가가 구동 중인 상태를 유지하기 위해 동원되는 일회성 자원으로 언제든 다른 노드로 옮겨지거나 삭제될 수 있다. 또한 파드..