데이터 마이닝 작업에는
클러스터링(Clustering),
분류(Classification),
회귀(Regression),
연관규칙 마이닝(Association Rule Mining),
텍스트 마이닝(Text Mining),
이상 감지(Anomaly detection),
순차패턴 마이닝(Sequential Pattern Mining),
시계열 데이터 예측(Time Series Prediction) 등
클러스터링(Clustering)
연관있는 데이터 군집화하기?
군집화해서 연관성 찾기?
왼쪽 같은 이상적인 그림은 현실에 없을 듯, 실제 현실은 오른쪽과 같을 듯,
한두개 튀는 개체가 있을듯, -> 제외하고 가는건가?
암튼 최대한 자동으로 군집화를 해주면, 거기서 인사이트는 결과를 보는 사람이 찾는것인지?
결과물에서 데이터의 구조를 파악한다?
비지도학습이네.
시장의 세그멘테이션을 할 때 유용
-> 하나의 시장을 여러 고객의 하위군집으로 구분하여, divide and conquer 하는 건가
B2C에 맞겠네 그럼..
문서 데이터의 클러스터링은 어려울 것 같은데,
중심 키워드 찾는것도 어렵고, 키워드의 의미가 유사한 것들을 그룹화해야될 것인데,
의미를 어떻게 알아낼까?
이미지인식, 유사한 이미지 군집화?
실제 예시를 보니 이해가 빠르네
클러스터링 파이썬 연습 예제 – 학생 성적 데이터 분석
출처: <https://lucy-the-marketer.kr/ko/growth/clustering-python-student-data-analysis/>
아래 raw 데이터 표만 봐서는, 출석과 점수의 연관성을 찾을 수 없다.
그러나, 알아보려는 의도에 기반하여
군집 3개로 묶어보자
1) 출석도 좋고 성적도 좋은 학생군 2) 출석은 나쁘지만 성적은 좋은 학생군 3) 출석도 나쁘고 성적도 나쁜 학생군
# k=3 클러스터 생성
estimator = KMeans(n_clusters = 3)
cluster_ids = estimator.fit_predict(students)
# 플롯
plt.scatter(students['Attended'], students['Mark'], c=cluster_ids)
plt.xlabel("Attended classes")
plt.ylabel("Mark")
# 범례 달기
for name, mark, attended in students.itertuples():
plt.annotate(name, (attended, mark))
plt.show()
여기서 추가작업 ,
과목마다 만점이 다르다네
단위가 다를 때는 표준화(normalization)를 MinMaxScaler()로 표준화 같은방법
군집을 4개로
그런데 결론이 쉽게 들어오지는 않는데
출석이 높다고 무조건 성적이 높은건 아니고
결론이 뭐야? ㅋㅋㅋ
'기술(Azure 만...) > Azure빅데이터,분석' 카테고리의 다른 글
Azure OpenAI가 생겼음 202303 (0) | 2023.03.16 |
---|---|
시계열데이터 분석 (0) | 2023.02.27 |
Azure Data Factory 다시 요약 (0) | 2022.04.29 |
influxDB 정보 요약 (0) | 2022.03.16 |
Power BI 기본요소들 (0) | 2022.01.16 |