라벨이 nifi인 게시물 표시

머신러닝을 활용한 빅데이터 분석 #3

이미지
Apachi nifi에서 취득한 json 데이터를 kafka broker를 이용해 메세징 처리합니다. 이후, druid indexing처리를 이용하여 분석을 위한 데이터셋를 작성합니다. 전체 분석 flow #1 Kafka topic 만들기 이하 명령을 실행하여  suicide4  라는 카프카 항목을 만들고 여기에 데이터를 보내십시오 ## list kafka topic bin/kafka-topics.sh –list –zookeeper localhost ## delete kafka topic bin/kafka-topics.sh –delete –zookeeper localhost –topic suicides2 ## 위의 명령으로 삭제 되지 않을 경우, zookeeper shell을 이용하여 삭제 [zk: localhost:2181(CONNECTED) 2] ls /brokers/topics [suicides3, suicides4, __consumer_offsets] [zk: localhost:2181(CONNECTED) 3] rmr /brokers/topics/suicides3 [zk: localhost:2181(CONNECTED) 4] rmr /brokers/topics/suicides4 [zk: localhost:2181(CONNECTED) 5] ls /brokers/topics [__consumer_offsets] [zk: localhost:2181(CONNECTED) 6] ## create kafka topic bin/kafka-topics.sh –create –zookeeper localhost:2181 –replication-factor 1 –partitions 1 –topic suicides4 #2 Druid Kafka ingestion Druid의 Kafka 인덱싱 서비스를 사용하여 #1에서 작성한 suicides4에서

머신러닝을 활용한 빅데이터 분석 #2

이미지
Apachi nifi를 이용해서 csv파일을 로드하고 json형태의 데이타로 data transform을 구현합니다. 전체 분석 flow #1 Dataset 개요 https://www.kaggle.com/russellyates88/suicide-rates-overview-1985-to-2016 시간,장소, 연령 등의 요소가 포함된  데이터 셋을  분석하여  자살율 증가를 예방함을 목적으로 합니다.  country, year, sex, age group, count of suicides, population, suicide rate, country-year composite key, HDI for year, gdp_for_year, gdp_per_capita, generation (based on age grouping average). #2 Load Data with NIFI 프로세서 flow GetFile -> InferAvroSchema -> ConvertCSVToAvro -> ConvertAvroToJSON -> PublishKafka #2-1 GetFile Processor Apache NiFi 프로세서는 데이터 흐름을 만드는 블록입니다. 모든 프로세서는 출력 흐름 파일 생성에 기여하는 각각의 기능을 가지고 있습니다. 아래 이미지에 표시된 데이터 흐름은 GetFile 프로세서를 사용하여 한 sucides cvs 파일을 가져 와서 PutFile 프로세서를 사용하여 다른 디렉터리에 저장합니다. Input Directory, File Filter란에 수집대상 cvs파일의 Directory 및 파일명을 설정합니다. #2-2 InferAvroSchema Processor 입력 받은 콘텐츠에서 Avro 스키마를 자동으로 생성합

머신러닝을 활용한 빅데이터 분석 #1

이미지
분석 Suicide Rates Overview 1985 to 2016  Suicide Rates Data를 csv형태로 취득한 후, json변환을 거쳐 메세지큐를 통해 Druid에 저장하고 Machine Learning으로 분석 가공한 후, 시각화처리를 수행합니다. 분석에 필요한 솔루션 http://kafka.apache.org/ https://nifi.apache.org/ http://druid.io/ https://scikit-learn.org/ https://superset.incubator.apache.org/ #1 Start Druid ./bin/supervise -c quickstart/tutorial/conf/tutorial-cluster.conf **Druid 의 경우, zookeeper의 선행 시작이 필수. #2 Start Kafka broker ./bin/kafka-server-start.sh config/server.properties #3 Start Nifi ./bin/nifi.sh start