라벨이 kafka인 게시물 표시

빅데이터 분석을 위한 준비 Kafka

이미지
Kafka 는 대용량 데이터를   위한   분산형 스트리밍 플랫폼입니다 . Kafka clustring Test 를   수행해   봅니다 . 전체Archtecture #1 ip setting 3대의 Centos 7.3 준비 server.1=192.168.0.145:2888:3888 server.2=192.168.0.174:2888:3888 server.3=192.168.0.175:2888:3888 #2 setting zookeeper & kafka  ## download zookeeper & kafka wget http://mirror.navercorp.com/apache/kafka/2.2.0/kafka_2.12-2.2.0.tgz tar zxvf kafka_2.12-2.2.0.tgz mv kafka_2.12-2.2.0 kafka configure zookeeper  (1,2,3 server)[root@kafka1 min]# vi kafka/config/zookeeper.properties # zookeeper servers server.1=192.168.0.145:2888:3888 server.2=192.168.0.174:2888:3888 server.3=192.168.0.175:2888:3888 ### configure kafka [root@kafka1 min]# vi kafka/config/server.properties broker.id=1 ## id를 server별로 설정 listeners=PLAINTEXT://:9092 zookeeper.connect=192.168.0.145:2181,192.168.0.174:2181,192.168.0.175:2181 delete.topic.enable=true #3 start zookeeper & kafka  #### start zookeeper serve

빅데이터 분석을 위한 준비 Kafka + Python 연결

이미지
Kafka  + Python 연결 테스트 #1 Start zookeeper & kafka [root@zepp zookeeper-3.4.14]# vi conf/zoo.cfg [root@zepp zookeeper-3.4.14]# bin/zkServer.sh start ZooKeeper JMX enabled by default Using config: /home/min/zookeeper-3.4.14/bin/../conf/zoo.cfg Starting zookeeper … STARTED [root@zepp kafka_2.12-2.2.0]# bin/kafka-server-start.sh config/server.properties [2019-04-19 18:12:03,572] INFO Registered kafka:type=kafka.Log4jController MBean (kafka.utils.Log4jControllerRegistration$) [2019-04-19 18:12:04,104] INFO starting (kafka.server.KafkaServer) [2019-04-19 18:12:04,105] INFO Connecting to zookeeper on localhost:2181 (kafka.server.KafkaServer) [2019-04-19 18:12:04,128] INFO [ZooKeeperClient] Initializing a new session to localhost:2181. (kafka.zookeeper.ZooKeeperClient) #2 create topic [root@zepp kafka_2.12-2.2.0]# ./bin/kafka-topics.sh –create –zookeeper localhost:2181 –replication-factor 1 –partitions 1 –topic suic

머신러닝을 활용한 빅데이터 분석 #4

이미지
druid에 수집된 데이터셋을 superset에서 시각화를 통한 분석을 수행합니다. 전체 분석 flow #1 druid 수집 머신러닝을 활용한 빅데이터 분석 #3 에서 수집된 데이터셋의 확인 ## druid-kafka indexing list http://192.168.0.166:8081/#/indexing-service ## dsql에서 데이터셋 확인 select * from suicides4kafka 2 Druid-Superset Druid에서 수집된 데이터셋을 Superset과 연결하고 데이터 분석을 수행합니다. #2-1 Connect Superset-Druid Druid Cluster와의 연결을 위한 설정을 수행합니다. 연결이 완료되면 Datasources 스캔을 통해 Druid Datasources설정 메뉴에서 데이터셋 스키마를 확인 할 수 있습니다. #2-2 Analysis Superset에서 간단하게 수집된 데이터셋에 대한 내용을 확인해 봅니다. #3 Result 전체 flow Apachi nifi -> kafka -> druid -> superset

머신러닝을 활용한 빅데이터 분석 #3

이미지
Apachi nifi에서 취득한 json 데이터를 kafka broker를 이용해 메세징 처리합니다. 이후, druid indexing처리를 이용하여 분석을 위한 데이터셋를 작성합니다. 전체 분석 flow #1 Kafka topic 만들기 이하 명령을 실행하여  suicide4  라는 카프카 항목을 만들고 여기에 데이터를 보내십시오 ## list kafka topic bin/kafka-topics.sh –list –zookeeper localhost ## delete kafka topic bin/kafka-topics.sh –delete –zookeeper localhost –topic suicides2 ## 위의 명령으로 삭제 되지 않을 경우, zookeeper shell을 이용하여 삭제 [zk: localhost:2181(CONNECTED) 2] ls /brokers/topics [suicides3, suicides4, __consumer_offsets] [zk: localhost:2181(CONNECTED) 3] rmr /brokers/topics/suicides3 [zk: localhost:2181(CONNECTED) 4] rmr /brokers/topics/suicides4 [zk: localhost:2181(CONNECTED) 5] ls /brokers/topics [__consumer_offsets] [zk: localhost:2181(CONNECTED) 6] ## create kafka topic bin/kafka-topics.sh –create –zookeeper localhost:2181 –replication-factor 1 –partitions 1 –topic suicides4 #2 Druid Kafka ingestion Druid의 Kafka 인덱싱 서비스를 사용하여 #1에서 작성한 suicides4에서

머신러닝을 활용한 빅데이터 분석 #1

이미지
분석 Suicide Rates Overview 1985 to 2016  Suicide Rates Data를 csv형태로 취득한 후, json변환을 거쳐 메세지큐를 통해 Druid에 저장하고 Machine Learning으로 분석 가공한 후, 시각화처리를 수행합니다. 분석에 필요한 솔루션 http://kafka.apache.org/ https://nifi.apache.org/ http://druid.io/ https://scikit-learn.org/ https://superset.incubator.apache.org/ #1 Start Druid ./bin/supervise -c quickstart/tutorial/conf/tutorial-cluster.conf **Druid 의 경우, zookeeper의 선행 시작이 필수. #2 Start Kafka broker ./bin/kafka-server-start.sh config/server.properties #3 Start Nifi ./bin/nifi.sh start