데이터 마이닝 작업에는

클러스터링(Clustering),

분류(Classification),

회귀(Regression),

연관규칙 마이닝(Association Rule Mining),

텍스트 마이닝(Text Mining),

이상 감지(Anomaly detection),

순차패턴 마이닝(Sequential Pattern Mining),

시계열 데이터 예측(Time Series Prediction) 등

 

클러스터링(Clustering)

연관있는 데이터 군집화하기?

군집화해서 연관성 찾기?

왼쪽 같은 이상적인 그림은 현실에 없을 , 실제 현실은 오른쪽과 같을 ,

한두개 튀는 개체가 있을듯, -> 제외하고 가는건가?

 

암튼 최대한 자동으로 군집화를 해주면, 거기서 인사이트는 결과를 보는 사람이 찾는것인지?

결과물에서 데이터의 구조를 파악한다?

비지도학습이네.

 

시장의 세그멘테이션을 할 때 유용

-> 하나의 시장을 여러 고객의 하위군집으로 구분하여, divide and conquer 하는 건가

B2C 맞겠네 그럼..

 

문서 데이터의 클러스터링은 어려울 같은데,

중심 키워드 찾는것도 어렵고, 키워드의 의미가 유사한 것들을 그룹화해야될 것인데,

의미를 어떻게 알아낼까?

 

이미지인식, 유사한 이미지 군집화?

 

 

실제 예시를 보니 이해가 빠르네

클러스터링 파이썬 연습 예제학생 성적 데이터 분석

출처: <https://lucy-the-marketer.kr/ko/growth/clustering-python-student-data-analysis/>

 

아래 raw 데이터 표만 봐서는, 출석과 점수의 연관성을 찾을 없다.

 

그러나,  알아보려는 의도에 기반하여

군집 3개로 묶어보자

1) 출석도 좋고 성적도 좋은 학생군 2) 출석은 나쁘지만 성적은 좋은 학생군 3) 출석도 나쁘고 성적도 나쁜 학생군

 

# k=3 클러스터 생성
estimator = KMeans(n_clusters = 3)
cluster_ids = estimator.fit_predict(students)
# 플롯
plt.scatter(students['Attended'], students['Mark'], c=cluster_ids)
plt.xlabel("Attended classes")
plt.ylabel("Mark")
# 범례 달기
for name, mark, attended in students.itertuples():
    plt.annotate(name, (attended, mark))
 
plt.show()

 

 

여기서 추가작업 ,

과목마다 만점이 다르다네

단위가 다를 때는 표준화(normalization)MinMaxScaler()로 표준화 같은방법

 

군집을 4개로

 

그런데 결론이 쉽게 들어오지는 않는데

출석이 높다고 무조건 성적이 높은건 아니고

 

결론이 뭐야? ㅋㅋㅋ

 

 




'기술(Azure 만...) > Azure빅데이터,분석' 카테고리의 다른 글

Azure OpenAI가 생겼음 202303  (0) 2023.03.16
시계열데이터 분석  (0) 2023.02.27
Azure Data Factory 다시 요약  (0) 2022.04.29
influxDB 정보 요약  (0) 2022.03.16
Power BI 기본요소들  (0) 2022.01.16

+ Recent posts