Please use this identifier to cite or link to this item: http://repository.eia.edu.co/handle/11190/2288
Title: Segmentación de clientes automatizada a partir de técnicas de minería de datos (K-Means Clustering)
Authors: Cálad Noreña, Felipe
Adviser: Echeverri Calderón, Juan Camilo
Keywords : Segmentación de clientes
Minería de datos
k-means clustering
Centroide
Sector de la moda
Customer segmentation
Data mining
Centroid
Fashion industry
Issue Date: 2015
Publisher: Universidad EIA
Abstract: Tiendacol S.A es una empresa del sector de la moda ubicada en la ciudad de Medellín, Colombia, que se dedica al comercio al por menor de prendas de vestir y accesorios en establecimientos especializados. Debido a que la compañía tiene una preocupación por mejorar los esfuerzos comerciales y de servicio al cliente, donde se es consciente de contar con gran cantidad de información en sus sistemas que está siendo subutilizada, se vio la necesidad de desarrollar proyectos que permitan hacer un mejor uso de la información disponible en especial con respecto a estos esfuerzos. Con tal necesidad se planteó implementar un modelo de minería de datos indirecta, a través del cual se logre analizar la información que se tiene de los clientes para clasificarlos automáticamente y agruparlos en grupos de características similares de acuerdo a los patrones de compra. Todo el proceso de minería de datos se diseñó con base en la metodología CRISP-DM que se caracteriza por los buenos resultados en proyectos de esta índole. Con esta se buscó emplear un procedimiento estándar, que tuviera validez en la industria y que se encontrará bien estructurado. Siguiendo dicha metodología se empezó entonces por entender el contexto de los clientes dentro de la empresa, tanto desde el punto de vista del negocio como de la capa de datos. A partir de ello se identificaron las ventas y la cartera como principales procesos relacionados con los clientes, los cuales se encontraban representados por 7 modelos dimensionales dentro de un sistema de inteligencia de negocios. Posteriormente se procedió a diseñar y ejecutar el modelo de clasificación. Inicialmente se extrajeron los datos que constituirían las variables del modelo y se prepararon mediante una estandarización en Z para, finalmente, poder obtener los segmentos a partir del algoritmo k-means clustering. Con los resultados obtenidos se ejecutó adicionalmente un árbol de decisión con el fin de encontrar características adicionales en los grupos encontrados. Se hicieron en total 3 modelos que seguían el proceso anterior pero que diferían en cuanto a sus variables. Los resultados finales permitieron diferenciar 3 segmentos de clientes: i) los mejores, ii) los intermedios y iii) los peores. Los mejores representan los clientes más constantes, que son los que compran montos más grandes, con mayor frecuencia y además adquieren mayor cantidad de créditos; los intermedios son los que compran un número aceptable de veces al año, con montos no muy altos y que además recurren poco a créditos; finalmente, los peores constituyen los clientes más esporádicos y los que menos compran.
Abstract (English): Tiendacol S.A. is an enterprise of the fashion industry located in Medellin, Colombia, dedicated to retailing of clothes and accessories on specialized stores. Due to a concern on how to improve the customer service and the commercial efforts so they can use better their underutilized information, the company is looking for new projects by which they can achieve these objective. Taking into account the previous concern, an indirect data mining model was proposed through which an analysis of the customer’s information can be made to classify them automatically into groups according to their similar buying patterns. The entire data mining process was designed based on CRISP-DM methodology, which is known for its good results on projects of this topic. This procedure was chosen due to the fact that it is well structured and it is a method tested by the industry. Following the previous methodology, process began by understanding the context of the company clients from the business point of view and also from the data and logical layer perspective. Afterwards a business intelligence system were identified, where can be found 7 dimensional models which describes the main processes related to the customers: sales and loans. Based on the understanding made, the segmentation model was designed and executed. First, all data that represented the model variables were extracted and then prepared through a Z-score standardization so, lastly, the different groups of customers can be retrieved using k-means clustering algorithm. With the results obtained a decision tree was applied looking for additional patterns and features of the generated groups. A total of three models were developed and applied, each one different from the other due to the involved variables. The final results allowed to identify 3 customer segments: i) the best, ii) intermediate and iii) the worst ones. The best ones represent the most consistent customers who are purchasing larger amounts more frequently and also acquire more loans; intermediates are clients buying an acceptable number of times a year, with not very high amounts and also make little use of credit; finally, the worst are the most sporadic customers who only spends little money.
Description: 88 páginas
URI: http://repository.eia.edu.co/handle/11190/2288
Citation: Cálad Noreña, F. (2015). Segmentación de clientes automatizada a partir de técnicas de minería de datos (K-Means Clustering) (Trabajo de grado). Recuperado de: http://repository.eia.edu.co/handle/11190/2288
Location: INFO0059
Appears in Collections:Ingeniería de Sistemas y Computación

Files in This Item:
File Description SizeFormat 
CaladFelipe_2015_SegmentacionClientesAutomatizada.pdfTrabajo de grado2.1 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.