CS 정리
빅데이터 빅데이터 기존 DB 관리도구의 수집,저장,관리,분석 역량을 넘어서는 데이터 특징 - 3V (크기,다양성,속도) , 5V(가치,정확성) 정형 - 데이터베이스,CSV,엑셀 반정형 - XML,HTML,JSON 비정형 - 동영상,사진,오디오 빅데이터 처리단계 수집 > 정제 > 적재 > 분석 > 시각화 Hadoop 등장 배경 및 필요성 웹 로그등의 비정형 데이터를 RDBMS에 저장하기에는 데이터의 크기가 너무 크고 비용도 부담이었다. 하둡은 x86 리눅스 서버라면 어떤 수준의 장비든 상관 없고 데이터 용량이 커지면 노드 확장(scale-out)이 가능, 분산 저장 및 처리로 성능도 향상 Avro Avro는 JSON 형식으로 스키마를 정의하고, 데이터는 바이너리 형태로 직렬화됩니다. 스키마가 데이터와 함께..
2023. 10. 13.