728x90
반응형

BigData 67

[꿀팁] 쉽게 설명하는 데이터베이스 설계 (1)

[꿀팁] 쉽게 설명하는 데이터베이스 설계 (1) 동적분석 # 단위 프로세스와 데이터 흐름의 관계를 분석하고 검증할 수 있는 방법이다. 대표적인 예로는 DFD(Data Flow Diagram)가 있다. 1. DFD(Data Flow Diagram)의 정의 DFD(Data Flow Diagram)는 데이터가 소프트웨어의 각 프로세스에 따라서 변환되는 모습을 나타내는 흐름표이며 정보시스템의 분석, 설계에서 유용하게 사용되고 있는 다이어그램이다. 데이터 흐름도 혹은 자료 흐름도라고 지칭되며 시스템의 모형화 도구로서 보편적으로 사용된다. 데이터보다 기능이 복잡하고 중요할 때 유용하게 사용되며 한눈에 프로세스를 이해할 수 있다. 2. DFD의 특징 1. 시스템을 분할하기 위한 중요한 모형화 도구 2. 도형을 사용하..

BigData 2021.04.12

(꿀팁) Mysql에서 JSON 저장과 조회하기

최근 데이터의 형태가 복잡해 지면서 다양한 인터넷 컨텐츠 저장을 위해서 RDBMS, NoSQL, 검색엔진 등 다양한 기술들을 고려하여야 하는 상황들이 있습니다. 지금까지 데이터 관리를 위해서 데이터간의 관계를 정의하고 데이터 형식을 정규화하여 데이터를 저장하는데 관심을 가져 왔습니다. 이제는 기존의 데이터형태를 벗어나 검색이나 인공지능을 위해서 정형화 하기 힘든 데이터를 저장하고 관리해야 하는 상황들이 많이 생겨 났습니다. 우리는 이러한 상황에서 NoSQL (Mongo, Cassandra, Druid 등)의 다양한 Object저장소들을 활용하고 있습니다. [데이터 베이스 환경의 변화] 기존의 RDBMS로는 세상의 모든 데이터를 정형화하여 관리할 수 없는 한계 환경에 다가왔다. 클라우드 시스템의 환경이 보..

BigData 2021.01.03

Graph DB 와 RDBMS 트랜드 3부- 그래프 데이터베이스의 종류와 활용

Graph DB 와 RDBMS 트랜드 3부- 그래프 데이터베이스의 종류 [Graph DB 와 RDBMS 트랜드] 1부- DBMS의 역사와 이론들 2부- 그래프 데이터베이스의 개념 3부- 그래프 데이터베이스의 종류와 활용 그래프 데이터베이스의 특징 그래프 데이터베이스의 종류 1. Apache AGE 2. Amazon Neptune 3. 카카오 Apache S2Graph 4. ArangoDB 5. Bitnine 6. Couchbase 7. Starcounter Apache AGE AGE는 PostgreSQL에 구축 된 그래프 및 관계형 모델을 지원하는 다중 모델 데이터베이스입니다. PostgreSQL의 확장 기능인 AGE를 통해 사용자는 최소한의 노력으로 기존 관계형 데이터베이스 위에 그래프 데이터베이스를 ..

BigData 2020.11.11

Graph DB 와 RDBMS 트랜드 2부- 그래프 데이터베이스의 개념

Graph DB 와 RDBMS 트랜드 2부- 그래프 데이터베이스의 개념 [Graph DB 와 RDBMS 트랜드] 1부- DBMS의 역사와 이론들 2부- 그래프 데이터베이스의 개념 3부- 그래프 데이터베이스의 종류와 활용 그래프 데이터베이스란? 그래프 데이터베이스는 그래프 이론에 토대를 둔 일종의 NoSQL 데이터베이스다. 객체나 노드로 불리는 데이터 포인트를 플롯하고, 그래프에서 이들을 연결하는 컴퓨터 과학 학문의 방법론이다. 기존 관계형 데이터베이스는 데이터를 열과 행으로 저장하고, NoSQL 데이터베이스는 많은 비정형 데이터를 저장한다. 그런데 그래프 데이터베이스는 여기에서 한 걸음 더 나아간다. 데이터 포인트를 연결, 데이터 네트워크를 구축한다. 오픈소스 소프트웨어 업체인 데이터스택스(DataSta..

BigData 2020.11.10

Bigdata - 데이터웨어 하우스 (DataWare House) 그리고 Data Lake

Bigdata - 데이터웨어 하우스 (DataWare House) 그리고 Data Lake 빅데이터를 이야기 하기전에는 Data-Mart (마트:DM) 와 Dataware house (하우스:DW) 라는 용어가 일반적인 데이터 활용체계 였습니다. 빅데이터 역시 다양한 데이터를 모아서 활용하는 측면에서 Data Lake 라는 용어를 사용합니다. 결국 데이터를 효과적으로 사용하는 환경과 기술을 통칭하여 우리는 "데이터 플랫폼" 이나 "데이터 인프라"라고 말하지만 모든 것의 내면은 데이터를 비즈니스에 잘 쓰고자 하는 것임에는 차이가 없습니다. 이런 관점에서 데이터 웨어 하우스를 정리해 보고자 합니다. 데이터 웨어하우스(data warehouse)란 사용자의 의사 결정에 도움을 주기 위하여, 기간계 시스템의 데..

BigData 2020.11.09

[SQLite] date형식 timestamp를 이용하여 날짜표현하기

[SQLite 사용법] date형식 timestamp를 이용하여 날짜표현하기 SQLite 사용법 관련 목차 1. [SQLite]-sqlite 소개 -Serverless-Database 2. [SQLite]-SQLite_관리-Commands 3. [SQLite] sqlite 테이블 생성 - create table 4. [SQLite] Sqlite transaction - ACID개념 5. [SQLite] [SQLite] Sqlite transaction 처리문 작성 - BEGIN TRANSACTION 6.[SQLite] date형식 timestamp를 이용하여 날짜 표현하기 7.[SQLite] SQLite 윈도우-리눅스 설치하기 * Sqlite3-timestamp를-이용하여-date-표현하기 [SQLite..

BigData 2020.08.05

Graph DB 와 RDBMS 트랜드 1부- DBMS의 역사와 이론들

Graph DB 와 RDBMS 트랜드 1부- DBMS의 역사와 이론들 [Graph DB 와 RDBMS 트랜드] 1부- DBMS의 역사와 이론들 2부- 그래프 데이터베이스의 개념 3부- 그래프 데이터베이스의 종류와 활용 지난 20년간 우리는 데이터베이스라고 하면 RDBMS 라는 것으로 생각해 왔다. 필자 역시 20년 부터 오라클,Mysql 등을 공부하면서 웹개발 부터 다양한 시스템 플랫폼을 구축해왔다. 아키텍처라고 하면 개발부터 시스템 전반적인 부분에 대한 인지가 필요하듯 이번에 GraphDB에 대한 관심을 가져 보았다. Graph DB를 논하기 전에 데이터 부터 DBMS에 이르는 Historic한 이야기가 필요하다. DBMS의 역사 데이터 베이스에 대한 기술을 정리하려면 COBOL( COmmon Busi..

BigData 2020.03.21

zookeeper / firewalld 설치

#Zookeeper #firewalld 1. Zookeeper 1) 주키퍼 설치하기 wget http://mirror.apache-kr.org/zookeeper/stable/apache-zookeeper-3.5.7.tar.gz wget http://mirror.apache-kr.org/zookeeper/stable/apache-zookeeper-3.5.7-bin.tar.gz 2) 설치할 디렉토리에 tar 압축을 해제한다. tar zvzf apache-zookeeper-3.5.7-bin.tar.gz ln -s apache-zookeeper-3.5.7-binzookeeper 3) zookeeper.conf 작성 아래와 같이 zookeeper/conf/zoo.cfg 를 만든다 tickTime=2000 init..

BigData 2020.03.08

(아나콘다 기초) Anaconda install (1)

Anaconda 기초 파이썬 개발 플랫폼 Anaconda 는 pip가 파이썬 패키지를 설치하고 관리하는 패키지 관리자라면 아나콘다는 Python ,R 기반 데이터 분석을 위해 다양한 라이브러리를 쉽게 쓸수 있도록 패키지 관리와 가상환경을 제공하는 패키지 관리 플랫폼이다. Anaconda는 Scipy, Numpy, Pandas 및 모든 종속성을 포함하는 바이너리 세트를 제공한다. [파이썬의 특징 과 변화] - 파이썬의 특징은 스크립트 언어이지만 오픈소스로 상당히 빠른 버전업이 되고 있다. 필자가 2000년경 썼던 파이썬은 웹 CGI(Common gateway interface) 서버나 메일 발송 서버 같은 데몬서비스 개발로 많이 썼던 때가 있었다. 특히 리눅스 설치 GUI나 redhat-update 같은 ..

BigData 2019.06.22

hadoop 3.0에 설치되는 시스템 정리

hadoop 3.0 설치되는 시스템 정리 HDFS3.1.1Apache Hadoop 분산 파일 시스템서비스번역기술YARN + MapReduce23.1.1Apache Hadoop NextGen MapReduce (YARN)Tez0.9.1Tez은 YARN 위에 작성된 차세대 Hadoop 쿼리 처리 프레임 워크입니다.하이브3.1.0대형 데이터 세트 및 테이블 및 스토리지 관리 서비스에 대한 임시 쿼리 및 분석을위한 데이터웨어 하우스 시스템HBase2.0.0구성 관리 및 동기화를위한 비 관계형 분산 데이터베이스 및 중앙 집중식 서비스돼지0.16.0대형 데이터 세트를 분석하기위한 스크립팅 플랫폼Sqoop1.4.7Apache Hadoop과 관계형 데이터베이스와 같은 구조화 된 데이터 저장소간에 대량 데이터를 전송하는..

BigData 2018.10.21

Apache Flink 버전 1.6.0이 출시

Process Unbounded and Bounded DataAny kind of data is produced as a stream of events. Credit card transactions, sensor measurements, machine logs, or user interactions on a website or mobile application, all of these data are generated as a stream.Apache Flink는 무한하고 한정된 데이터 스트림을 통한 상태 저장 계산을위한 프레임 워크 및 분산 처리 엔진입니다 . Flink는 모든 일반적인 클러스터 환경 에서 실행되도록 설계되었으며 메모리 속도 와 규모 에 관계없이 계산을 수행 합니다 . Flink는 Ha..

BigData 2018.09.13

빅 데이터 애플리케이션을위한 NoSQL 데이터베이스의 효과적인 크기 조정

빅 데이터 애플리케이션을위한 NoSQL 데이터베이스의 효과적인 크기 조정 Rajini 라잔 | 11/01/2017http://www.thedatateam.in/perspective/post/index.html?postId=34 구조화되지 않은 데이터의 확산으로 인해 대규모의 다양한 데이터 세트를 수집 및 처리하는 것이 조직의 실제 과제였습니다. 조직은 종종 조직 프로세스, 시스템 및 고객으로부터 비정형 데이터를 관리 할 때 NoSQL 데이터베이스를 설정하고 크기를 조정해야하는 어려움을 겪습니다. 크기 조정은 조직에서 직면 한 광범위한 데이터 문제에 대한 핵심 과제입니다. 데이터 엔지니어 및 IT 관리자는 데이터에 대한 올바른 하드웨어 계획에 어떻게 도달 할 수 있습니까? 거대한 데이터 세트 및 현대적인 ..

BigData 2018.07.24

Mariadb Install (1) - 패키지 다운로드 download Script for packages

Mariadb Install (1) - package download 가. Mariadb Download 할 패키지 목록 - MariaDB Download URL : "http://ftp.kaist.ac.kr/mariadb//mariadb-10.2.9/yum/centos7-amd64/rpms" - mariadb Package List # MariaDB-10.2.9-centos7-x86_64-aws-key-management.rpm # MariaDB-10.2.9-centos7-x86_64-backup.rpm # MariaDB-10.2.9-centos7-x86_64-client.rpm # MariaDB-10.2.9-centos7-x86_64-common.rpm # MariaDB-10.2.9-centos7-x..

BigData 2017.11.13

Oracle 11g 라이선스 정책

Oracle 11g 라이선스 정책 오라클 제품 종류 * Oracle Database 11g Standard Edition One은 최대 2개 소켓 용량을 보유한 단일서버에서 워크그룹, 부서 및 웹 애플리케이션을 위한 강력한 사용 용이성, 성능 및 가격대비 성능을 제공합니다. * Oracle Database 11g Standard Edition은 최대 4개 소켓 용량을 보유한 단일 또는 클러스터링된 서버에서 사용할 수 있습니다. 여기에는 별도 추가 비용없이 Oracle Real Application Clusters가 표준 기능으로 포함됩니다. * Oracle Database 11g Enterprise Edition은 소켓 제한 없이 단일 또는 클러스터링된 서버에서 사용할 수 있습니다. * Oracle Da..

BigData 2017.07.18

VoltDB 및 ChartIO 를 활용한 실시간 데이터 스트리밍 기술

VoltDB 및 ChartIO 를 활용한 실시간 데이터 스트리밍 기술 https://www.voltdb.com/blog/2017/03/14/gain-instant-insight-using-voltdb-chartio-real-time-data-streams/ https://www.voltdb.com/why-voltdb/fast-streaming-data/ 빠른 스트리밍 데이터를 작업에 적용데이터의 양과 속도가 증가함에 따라 빠른 데이터 응용 프로그램 구축의 어려움이 있습니다. 빠른 데이터 스택은 대형 데이터 호수에 빠르게 축적되는 이러한 고속 데이터 스트림을 처리하는 응용 프로그램을 구축하기 위해 업종과 산업 모두에서 사용되고 있습니다.이 새로운 스택 인 빠른 데이터 스택은 실시간 데이터를 수집하고 밀리 ..

BigData 2017.07.12

Power BI에 대해 알아야 할 사항

What you need to know about Power BI nowPower BI is now much more than an Excel query tool. Here’s how to use it for your business data analysis and reporting http://www.infoworld.com/article/3201824/analytics/what-you-need-to-know-about-power-bi-now.html 이제 Power BI는 Excel 쿼리 도구 이상입니다. 비즈니스 데이터 분석 및보고에이를 사용하는 방법은 다음과 같습니다. 마이크로 서비스를 시작하십시오. 클라우드를 사용하십시오. 기간 업무 (LOB) 응용 프로그램은 항상 우리와 함께 할 것입니다. 우..

BigData 2017.06.20

Apache Spark로 집계하기 클러스터 컴퓨팅으로 집계 해결 (2)

Aggregating with Apache Spark(2)Solving aggregation with cluster computing http://www.itworld.com/article/3184109/analytics/aggregating-with-apache-spark.html?page=2 MapReduce 관련 문제MapReduce 솔루션은 확장 성을 달성하지만 확장 성은 상대적입니다. 우리는 1 조 개 이상의 피커를위한 꽃의 수를 찾기 위해 애플리케이션을 확장 할 수있었습니다. 그러나 우리가 선택한 꽃의 수 사이의 표준 편차를 찾는 것과 같은 또 다른 연산을 수행하기를 원한다면, 또는이 수의 평균 또는 모드? 각 계산에 대해 새로운 MapReduce 프로그램을 작성해야합니다.모든 MapReduc..

BigData 2017.06.14

Apache Spark로 집계하기 클러스터 컴퓨팅으로 집계 해결 (1)

Aggregating with Apache Spark(1)Solving aggregation with cluster computing http://www.itworld.com/article/3184109/analytics/aggregating-with-apache-spark.html 집합체 수학이되는 정의 A와 "결과 총 전체 것을 의미하지 않고 조립을 또는 그룹의 구성 요소 또는 부품을 추가하거나 함께 모든 구성 요소를 바꾸어 도착 집단 금액 합계 질량." 데이터 집계에는 로그 집계, 공간 집계 및 네트워크 집계가 포함되지만 집계에는 항상 합산 또는 수집과 관련이 있습니다. 이 기사에서는 번개 빠른 클러스터 컴퓨팅에 널리 사용되는 최상위 Apache 프로젝트 인 Apache Spark에서 집계 기법을 ..

BigData 2017.06.14
728x90
반응형