تحلیل رفتار مشتری با استفاده از کاوش کاربری وب

نویسندگان

1 دانش‌آموختة کارشناسی ارشد مدیریت فناوری اطلاعات، دانشکدة علوم اجتماعی و اقتصاد، دانشگاه الزهرا (س)

2 استادیار گروه مدیریت، دانشکده علوم اجتماعی و اقتصاد، دانشگاه الزهرا (س)، تهران، ایران

چکیده

در راهبرد‌های اخیر بازاریابی، مشتریان از منابع مهم سازمان قلمداد می‌شوند. بر اساس این، کسبدانش دربارة مشتریان و درک نیازهای آنها برای حفظ مشتریان در تجارت‌ الکترونیک بسیار ضروری است. پیش‌بینی رفتار خرید مشتریانِ برخط دشوار است؛ زیرا به‌ندرت بازدید آنها از فروشگاه‌ها به خرید واقعی ختم می‌شود و این موضوع برای بازاریابان و پژوهشگران نوعی چالش شده است؛ از این‌رو، برای داشتن کسب‌وکارِ برخط موفق باید رفتار مشتریان را تحلیل کرد. بنابراین، این پژوهش با دو هدفِ الف) طرح چارچوبی برای افزایش دقت تحلیل و شناخت گروه‌های مشتریان و ب) ارائة مدل و قوانینی برای پیش‌بینی رفتار آ‌نها، رفتار مشتریان را تحلیل می‌کند. در این پژوهش از روش کریسپ و الگوریتم کا-میانگین برای خوشه‌بندی مشتریاناستفاده شده است؛ سپس با اختصاص سه نوع برچسب خرید، خریدنکردن و انتظار خرید به مشتریان و با استفاده از درخت تصمیم C5 مشتریان دسته‌بندی شدند. درنهایت، مدلی با دقت 63.6% و مجموعه‌ای از 261 قانون مناسب با اطمینان 70% برای کسب‌وکار به ‌دست آمد.

کلیدواژه‌ها


عنوان مقاله [English]

Customer Behavior Analysis using Web Usage Mining

نویسندگان [English]

  • Shahrzad Jalaly 1
  • Neda Abdolvand 2
  • Saeedeh Rajaee Harandi 1
1 1- Master’s Degree, Information Technology Management, Faculty of Social Science and Economics, Alzahra University, Tehran, Iran
2 2- Assistant Professor and Faculty Member of Management Department, Alzahra University, Tehran, Iran n.abdolvand@alzahra.ac.ir
چکیده [English]

Recent marketing strategies consider customers as important sources of the organization. Therefore, acquiring knowledge about customers and understanding their needs is necessary for keeping customers in an e-commerce business. Online customer shopping behavior is difficult to predict because they rarely visit the stores for real shopping, which is a challenge for marketers and researchers. Therefore, online business needs to analyze customers’ behavior in order to be successful. Hence, this study aims to provide a framework for increasing the accuracy of the analysis and recognition of customer groups as well as providing the model and rules for predicting customers’ behavior. Therefore, CRISP-DM and K-means algorithm were used for clustering data. Then, by assigning three tags of purchase, waiting and not purchase to customers, customers were categorized by C5 decision tree. Finally, a model with a precision of 63.6% and a collection of 261 rules with a confidence of 70% was obtained.

کلیدواژه‌ها [English]

  • Customer Behavior Analysis
  • Data Mining
  • Web Usage Mining
  • Online Retailing

- مقدمهو بیان مسئله

در عصر الکترونیک، شرکت‌های تجارت الکترونیک از دنیای قدیمی که در آن، محصولات استاندارد، بازارهای همگن و چرخة توسعه و عمر محصول طولانی یک قانون بود، به دنیای جدیدی انتقال می‌یابند که در آن انواع محصولات استاندارد جایگزین وجود دارند. مصرف‌کنندگان می‌توانند از میان میلیون‌ها کالا در یک فروشگاهِ برخط به جای ده‌ها هزار کالا در فروشگاه‌های بزرگ، کالاهای ضروری خود را انتخاب کنند (آرورا و چپرا[1]، 2016). از یک طرف رشد سریع و انتشار فناوری اینترنت، محبوبیت بازدید از پایگاه‌های وب‌ را در میان بازدیدکنندگان افزایش داده است و از طرفی دیگر، در راهبرد‌های اخیر بازاریابی، مشتریان جزو منابع مهم یک سازمان قلمداد می‌شود (پارک و چونگ[2]، 2009). بنابراین کسبدانش دربارة مشتریان و درک نیازهای آنها برای حفظ مشتریان در تجارت الکترونیک بسیار ضروری است، زیرا رق؛ا به اندازة یک کلیک از ما فاصله دارند (ژنگ[3] و همکاران، 2004). برای خرده‌فروشی برخط که در آن حفظ مشتری از عوامل کلیدی موفقیت است، توسعة مؤثر حضور در وب و عملیات بخش‌های مدیریتی لازم است. یک خرده‌فروشیِ برخط موفق باید سطحی  ایده‌آل از سیستم، اطلاعات و کیفیت خدمات را ارائه کند و مشتریان را برای بازدید دوباره از پایگاه وب خود جلب کند. هنگامی‌که بازدیدکنندگان، بازدید لذت‌بخشی داشته باشند، احتمال بازدید دوبارة آنها از پایگاه وب افزایش می‌یابد (آهن[4] و همکاران، 2007). پیش‌بینی رفتار خرید مشتریان برخط دشوار است؛ زیرا به‌ندرت بازدید آنها از فروشگاه‌ها به خرید واقعی می‌انجامد و این برای بازاریابان و پژهشگران نوعی چالش شده است. میزان تبدیل بازدید به خرید برای کسب‌وکارهای برخط متوسط حداکثر 3 درصد است (پارک و چونگ، 2009). در این صورت سازمان‌ها باید به‌ جای هدف قراردادن تمام مشتریان به یک اندازه یا پیشنهاد مشوق‌های یکسان به همة آنها، تنها مشتریانی را هدف قرار دهند که براساس نیازهای فردی یا رفتارهای خریدشان به معیارهای سودبخش مشخصی دست یافته‌اند (لیو و تزنگ[5]، 2010).

وب‌کاوی گام مؤثری برای رسیدن به این هدف است. وب‌کاوی، راهی تعیین‌کننده برای درک کاربران تجارت‌الکترونیک و تبدیل اطلاعات به مزیت رقابتی است و سازمان‌ها را قادر می‌سازد تا تصمیمات مبتنی بر داده بگیرند و راهبرد‌های تصمیم‌گیری خود را بهبود و توسعه دهند. همچنین در به دست آوردن مشتریان جدید و حفظ مشتریان موجود و بهبود رضایت مشتری نیز کمک می‌کند (ژنگ و همکاران، 2004؛ شانتی[6]، 2017). کاوش کاربری وب شاخه‌ای از وب‌کاوی است که بر کاربرد تکنیک‌های داده‌کاوی برای یافتن الگوهای مفید تمرکز دارد و می‌تواند رفتار کاربر را هنگامی تعامل با وب پیش‌بینی کند (روا و آرورا[7]، 2017). تجزیه ‌و تحلیل این اطلاعات به سازمان‌ها در تعیین ارزش طول عمر مشتریان، طراحی راهبرد بازاریابی در محصولات و خدمات، ارزیابی اثربخشی کمپین‌های تبلیغاتی، بهینه‌سازی عملکرد برنامه‌های کاربردی مبتنی بر وب، به دست دادن محتوای شخصی‌سازی‌شده به بازدیدکنندگان و پیداکردن مؤثرترین ساختار منطقی برای فضای وب خود، کمک می‌کند. این نوع تجزیه ‌و تحلیل شامل شناسایی خودکار الگوها و روابط معنی‌دار از مجموعة‌ بزرگی از داده‌های نیمه‌ساخت‌یافته است که بیشتر در پایگاه وب و برنامه‌های کاربردی لاگ‌سرور و همچنین در منابع دادة عملیاتی مرتبط ذخیره می‌شوند (لیو[8] و همکاران، 2011). برای داشتن راه‌حل تجارت الکترونیک موفق، نیاز است که رفتارهای کلیک مشتری در پایگاه وب جمع‌آوری و بررسی شود؛ زیرا جذب مشتریان جدید و حفظ مشتریان باارزش از اهمیت بسیاری برخوردار است (ژنگ و همکاران، 2004). بنابراین این سؤالات مطرح می‌شود که چگونه می‌توان با ترکیب روش‌های داده‌کاوی و کاوش کاربری وب به درک و شناخت بهتری از گروه‌های مشتریان دست یافت و چگونه می‌توان با ترکیب روش‌های داده‌کاوی و کاوش کاربری وب و براساس ویژگی‌های رفتاری مشتریان پیش‌بینی کرد که آیا رفتار آن‌ها به خرید ختم می‌شود یا خیر؟ از این‌رو، این پژوهش، دو هدف اصلی را دنبال می‌کند.

نخستین هدف، طرح چارچوبی برای افزایش دقت تحلیل و شناخت گروه‌های مشتریان و دیگری، ارائة مدل و قوانینی برای پیش‌بینی رفتار مشتریان بر مبنای ویژگی‌های رفتاری آنها با استفاده از ترکیب رویکردهای وب‌کاوی و داده‌کاوی است. در این پژوهش از رویکرد ترکیبی کمتر به‌کاررفتة داده‌کاوی و کاوش کاربری وب استفاده شده است که به مزیت رقابتی برای شرکت می‌انجامد.

درواقع نوآوری پژوهش در اِعمال روش‌های داده‌کاوی بر ابعاد مختلف داده‌های مشتری شامل داده‌های رفتاری مرور وب و داده‌های رفتار خرید است که به بهبود دانش از مشتری خواهد انجامید. در این پژوهش، داده‌ها و رفتار کاربران درون سایت با استفاده از دو تکنیک خوشه‌بندی و دسته‌بندی تحلیل می‌شود. خوشه‌بندی مشتریان سبب می‌شود شرکت بتواند مشتریان خود و مشتریان باارزش را شناسایی کند. از این طریق شرکت برای مشتریان هر خوشه سیاست‌های متفاوتی را اعمال می‌کند و مبتنی بر دانش به‌دست‌آمده تصمیم می‌گیرد و محتوا و طراحی سایت را براساس نیازهای هر خوشه تغییر می‌دهد. در دسته‌بندی بررسی می‌شود که براساس ویژگی‌های رفتاری مشتریان، چه رفتارهایی باعث خرید شده و چه رفتارهایی به خرید ختم نمی‌شود. با ایجاد مدلی جامع و مقبول، می‌توان رفتار مشتریان جدید را با داشتن ویژگی‌های رفتاری آ‌نان، در یکی از این دسته‌ها طبقه‌بندی و رفتار آیندة آنها را پیش‌بینی کرد. این کار باعث می‌شود شرکت بتواند مشتریان باارزش خود را شناسایی کند و با سپردنِ مزایا و خدماتی به آنها به‌سوی جذب سود بیشتر حرکت کند.

با توجه به هدف، نخست مبانی نظری پژوهش و سپس مدل و روش پژوهش بررسی‌ می‌شود و درنهایت پژوهش با بحث و نتیجه‌گیری و ارائه پیشنهادها خاتمه می‌یابد.

 

2- مبانی نظری پژوهش

خرده‌فروشی برخط[9]، یک کسب‌وکار مبتنی بر اینترنت است که محصولات و خدمات را در وب ارائه می‌دهد. خرده‌فروشی برخط نه‌تنها یک سیستم اطلاعاتی است، ارائه‌ای کامل از یک فروشگاه به مشتری است (آهن و همکاران، 2007). با توجه به رشد روزافزون خرده‌فروشی برخط، خرده‌فروشان برخط به درک دلایل خاصی نیاز دارند که چرا مصرف‌کنندگان خرید برخط را انتخاب می‌کنند (دکا[10]، 2017). رفتار مشتری، حاصل تعامل پیچیده‌ میان تعدادی از عوامل است که این عوامل شامل سطح فعالیت بازاریابی، رقابت‌پذیری محیط، درک نام تجاری، تأثیر فناوری‌های جدید و نیازهای فردی است (لیو و تزنگ، 2010). به‌منظور افزایش رضایت مشتری و جلوگیری از ترک سازمان از سوی مشتری، سازمان باید بر بخش‌بندی و تأمین نیازهای فردی مشتریان متمرکز شود (تسای[11] و همکاران، 2015). به‌طورکلی «بخش‌بندی مشتری» فرایند تقسیم مشتریان سازمان به گروه‌های مختلف بر مبنای اطلاعات مختلف جفرافیایی، جمعیت‌شناختی، رفتار شناختی و اتخاذ راهبردهای مناسب هر گروه با توجه به مصرف کالا و خدمات و تاریخچة خرید مشتریان است (تسای و همکاران، 2015). بخش‌بندی مشتری با تکنیک‌ها و روش‌های تحلیل داده‌ای متفاوت انجام می‌شود که در این میان استفاده از تکنیک‌های داده‌کاوی روی داده‌هایی که از تراکنش‌های برخط تولید می‌شوند، متداول‌تر از سایر روش‌هاست. داده‌کاوی قابلیت پیچیدة‌ جست‌وجوی داده است که از الگوریتم‌های آماری برای کشف الگوها و همبستگی داده‌ها استفاده می‌کند. به بیان ساده، داده‌کاوی فرایند خودکارِ یافتن اطلاعات مفید از مخازن بزرگِ داده است (بهشتیان اردکانی[12] و همکاران، 2018). یکی از متداول‌ترین روش‌ها برای مرتب‌سازی و تحلیل مشتریان، امتیازدهی به آنها براساس دفعات خرید و مقدار پرداخت است که از شناخته‌شده‌ترین روش‌ها برای انجام این کار مدل RFM (تازگی خرید، تکرار خرید و ارزش پولی خریدها) است که اساس بخش‌بندی برای بازاریابی مستقیم است. هنگامی‌که امتیازات RFM مشتریان تعیین می‌شود، می‌توان مشتریان را به‌صورت بخش‌هایی گروه‌بندی و متعاقباً سودآوری آنها را تحلیل کرد (مقدم[13] و همکاران، 2017).

وب بزرگ‌ترین پایگاهِ دادة در دسترس و موضوعی چالش‌برانگیز برای داده‌کاوی است. درواقع وب‌کاوی، تحلیل رفتار الکترونیکی مشتری است و به‌نوعی استفاده از تکنیک‌های داده‌کاوی برای کشف و استخراج اطلاعات از مستندات و خدمات وب تعریف می‌شود (شیخ و مناریا[14]، 2017). کاربرد تکنیک‌های داده‌کاوی روی داده‌های کاربردی وب اصطلاح علمی جدیدی با نام کاوش کاربری وب ایجاد کرده است (دارمارنجان و دورایزانگاسوامی[15]، 2016). با کاوش کاربری وب، اطلاعات مفیدی مانند الگوهای پیمایش کاربران با استفاده از داده‌های لاگ‌وب استخراج و تحلیل می‌شود. هم طراحان و هم کاربران وب از کاوش کاربری وب سود می‌برند. از طرفی، با تحلیل الگوهای پیمایش در لاگ‌وب سرور، طراحان وب‌سایت رفتارهای بازدید کاربران وب را تعیین می‌کنند؛ بنابراین آنها درمی‌یابند معروف‌ترین صفحات روی سایت کدامند و کدام صفحات با احتمال بیشتری با هم بازدید می‌شوند. از طرفی دیگر، کاربران وب همچنین می‌توانند از این موضوع برای دسترسی مؤثرتر به وب استفاده کنند (سان و ژنگ[16]، 2004).

2-1- پیشینة پژوهش

در بسیاری از پژوهش‌های انجام‌شده دربارة رفتار مشتری، مقادیر دموگرافیک مشتریان برای تحلیل رفتار آنها استفاده می‌شود (لیو و تزنگ، 2010)؛ برای نمونه، ژنگ و همکاران (2004) با استفاده از داده‌های جامع که شامل لاگ‌وب و اطلاعات مشتریان در وب‌سایت‌های تجارت الکترونیک هستند، الگوهای رفتاری کاربران و درک رفتارهای خرید آنها در پایگاه وب را شناسایی کرده‌اند. در این مقاله از سه تکنیک دسته‌بندی، خوشه‌بندی و قوانین انجمنی برای بررسی روش پیشنهادی استفاده کرده‌اند. داده‌های دموگرافیک و خرید کاربران و همچنین اطلاعات بازدید آنها از سایت شامل تعداد صفحات بازدیدشده در هر نشست و همچنین تعداد صفحات بازدیدشده در بخش‌های مختلف سایت نیز برای خوشه‌بندی مشتریان استفاده شده است.

همچنین در تحلیل رفتار مشتریان، اهمیت متغیرهای ارزشمند رفتار مشتری به‌ طور گسترده مطالعه شده است (لیو و تزنگ، 2010). پژوهشگران مشاهده کرده‌اند که متغیرهای RFM نه‌تنها برای تحلیل رفتار مشتریان مفید هستند، می‌توانند به صورت مؤثر در تجسس ارزش مشتری و بازارهای گوشه[17] استفاده شوند (لیو و تزنگ، 2010). هسیه[18] (2004) روشی پیشنهاد می‌دهد که داده‌کاوی و مدل‌های امتیازدهی رفتار یعنی RFM را برای مدیریت مشتریان یک بانک یکپارچه می‌کند. او توانست مشتریان بانک را به سه گروه بزرگ سودمند دسته‌بندی کند.

به‌تازگی کاوش کاربری وب، توجه پژوهشگران و متخصصان تجارت الکترونیک را در تحلیل رفتار مشتری به خود جلب کرده است. پژوهش‌ها در زمینة کاوش کاربری وب بیشتر بر توسعة تکنیک‌های کشف دانش، به‌خصوص آنهایی که برای تجزیه و تحلیل داده‌های کاربری وب طراحی شده، متمرکز شده است. بیشتر این تلاش‌ها، بیشتر بر سه پارادایم اصلی قوانین وابستگی، الگوهای ترتیبی و خوشه‌بندی توجه دارند (فاکا و لنزی[19]، 2005)؛ برای مثال، در پژوهش ینگ و سو[20] (2012) از الگوریتم SVM برای خوشه‌بندی رفتار مشتریان شبکه به‌منظور ارائة خدمات بهتر به آنها استفاده شده است که سازمان‌ها با استفاده از نتایج خدمات خود را بیشتر شخصی‌سازی می‌کنند. همچنین پارک و چونگ (2009) استفاده از داده‌های جریان‌های کلیک برای پیش‌بینی رفتارهای خرید کاربران را ارائه کردند. آنها با استفاده از تحلیل رگرسیون سلسله‌مراتبی ثابت کردند که کاربران انتقال‌داده‌شده از پایگاه وب ارجاع‌دهنده، کمتر از کاربرانی که مستقیم وارد سایت می‌شوند، خرید می‌کنند و هرچه مدت زمان ماندن این کاربران در سایت بیشتر باشد و صفحاتِ مشاهده‌کرده کمتر باشد، احتمال خریدشان بیشتر است. علاوه بر این، استفاده از تکنیک‌های داده‌کاوی شامل آمار توصیفی و قوانین انجمنی برای تحلیل رفتار هدایتی کاربران و شناسایی الگوهای گشت و گذار آنها را سیسودیا و ورما[21] (2012) مطرح کردند. هونگ[22] و همکاران (2013) در پژوهش مشابهی از روش کاوش کاربری وب روی سرویس مراقبت از خود برای افراد سالمند، به منظور بهبود درک و تحلیل رفتارهای آنها استفاده کرده‌اند. آنها این کار را با تکنیک‌های تحلیل انجمنی و مدل‌ مارکوف همراه با الگوریتم بهبودیافته کا-میانگین انجام داده‌اند. با استفاده از نمونه‌ای از لاگ‌وب سرور مرکز فضایی ناسا و کاوش کاربری وب، پامونتا[23] و همکاران (2012) به اطلاعات آماری از نشست کاربر دست یافتند که می‌توان از آن برای شناسایی الگوهای دسترسی کاربران و تحلیل رفتار آنها استفاده کرد. جنامانی و همکاران (2003) نیز مدل فرایندی نیمه مارکوف (یک ابزار کاوش کاربری وب)، برای درک رفتار مشتریان الکترونیک را مطرح کردند که نتایج این مدل به بهبود طراحی سایت و تشخیص عملکرد آن کمک کرد. ها[24] (2002) سیستم شخصی‌سازی‌شدة‌‌ مبتنی بر وبی را پیشنهاد داد که از کاوش کاربری وب برای دادن پیشنهادهایی شخصی به مشتریان ِ برخط استفاده می‌کند. این سیستم برای ارائة اطلاعات به مشتریان طراحی شده و به آنها در خرید کالاها کمک می‌کند. بایی[25] و همکاران (2003) سیستم انتخاب آگهی وبی طراحی کردند که کاربران پایگاه وب با ترجیحات مشابه را از راه کاوش کاربری وب به چند بخش تقسیم می‌کند. این سیستم با استنتاج فازی، تبلیغات مناسب را پیشنهاد می‌دهد. کیم[26] و همکاران (2003) روشی برای پیش‌بینی رفتار خرید مشتریان تجارت الکترونیک با ترکیب چند دسته‌بندی بر مبنای الگوریتم ژنتیک پیشنهاد داد که عملکرد بهتری نسبت به دسته‌بندهای تکی داشت. جنامانی[27] و همکاران (2003) با پیشنهاد مدل فرایندی نیمه‌مارکوف (یک ابزار کاوش کاربری وب)، به درک رفتار مشتریان الکترونیک پرداختند که نتایج این مدل به بهبود طراحی سایت و تشخیص عملکرد آن کمک می‌کند.

با توجه به پژوهش‌ها انجام‌شده در این زمینه، بیشتر پژوهش‌ها به پیش‌بینی رفتار مشتری با استفاده از رویکردهای وب‌کاوی یا داده‌کاوی تکیه‌ کرده و پژوهش‌های اندکی به پیش‌بینی رفتار مشتریان با ترکیب این دو رویکرد توجه کرده‌اند و پژوهشی در این زمینه در ایران انجام نشده است. اگر اطلاعات بیشتر در دسترس باشد که با داده‌های لاگ‌وب ارتباط داشته و همچنین به مشکل هم مربوط باشند، می‌توانند به صورت چشمگیری نتایج را بهبود بخشند و به نتایج دقیق‌تر هم برسند. داده‌های مشتریان، اطلاعات بیشتری هستند که همراه با داده‌های لاگ استفاده می‌شوند. از این‌رو، در این پژوهش به‌منظور افزایش دقت تحلیل و شناخت گروه‌های مشتریان و ارائة مدل و قوانینی برای پیش‌بینی رفتار مشتریان بر مبنای ویژگی‌های رفتاری آنها چارچوبی را ارائه می‌دهد. درواقع، از رویکرد ترکیبی و مغفول‌ماندة داده‌کاوی و کاوش کاربری وب استفاده شده است که می‌تواند به مزیت رقابتی برای شرکت منجر شود. در این پژوهش، داده‌ها و رفتار کاربران سایت با استفاده از دو تکنیک خوشه‌بندی و دسته‌بندی تحلیل می‌شوند که به شناخت بهتر مشتریان باارزش منجر شده و براساس ویژگی‌های رفتاری مشتریان، مشخص می‌شود چه رفتارهایی باعث خرید شده و چه رفتارهایی نمی‌شود؛ شرکت با تحلیل این موارد می‌تواند با اعطای مزایا و خدماتی به مشتریان، به ‌سوی جذب سود بیشتر حرکت کند. مزیت اصلی این روش کسب نتایج بهتر از فرایند تحلیل با استفاده از اطلاعات بیشتر مشتریان است.

 

3- روش پژوهش

این پژوهش دارای رویکردی سازنده است و با دو هدفِ الف) ارائة چارچوبی برای افزایش دقت تحلیل و شناخت گروه‌های مشتریان و ب) ارائة مدل و قوانینی برای پیش‌بینی رفتار آ‌نها رفتار مشتریان را تحلیل می‌کند. داده‌ها و رفتار کاربران درون سایت با استفاده از دو تکنیک خوشه‌بندی و دسته‌بندی تحلیل می‌شود. این پژوهش برمبنای متدولوژی کریسپ[28] انجام شده که یکی از قوی‌ترین روش‌های تحلیلی برای اجرای پروژه‌های داده‌کاوی است و شامل شش مرحلة فهم کسب‌وکار، فهم داده، آماده‌سازی، مدل‌سازی، ارزیابی و به‌کارگیری است (بهشتیان اردکانی و همکاران، 2018). ترتیب و توالی این شش مرحله انعطاف‌پذیر است. روش کریسپ بسیار کامل و مستند است. تمامی مراحل آن، به‌موقع سازماندهی، ساخته و تعریف می‌شود که اجازه می‌دهد یک پروژه بتواند به‌راحتی درک یا تجدیدنظر شود (آزودو[29]، 2008). برای بخش‌بندی و ارزش‌گذاری و همچنین الگویابی رفتار خرید مشتری از الگوریتم‌ها و تکنیک‌های مختلفی استفاده می‌شود که در دو گروه کلی خوشه‌بندی و کشف قواعد انجمنی دسته‌بندی می‌شوند. بر همین اساس، در این پژوهش سعی بر آن است تا از تکنیک خوشه‌بندی و الگوریتم کا-میانگین استفاده شود. الگوریتم خوشه‌بندی کا-میانگین یکی از ساده‌ترین و البته مشهورترین الگوریتم‌های یادگیری بدون نظارت است. این الگوریتم، کاربردی‌ترین روش خوشه‌بندی داده‌هاست که از مزایایی همچون سرعت و ساده‌بودن در اجرا برخوردار است و در مسائل بزرگ بسیار کارایی دارد. این الگوریتم، روشی بسیار مناسب برای یافتن گروه‌های مشتریان با رفتارهای مشابه است و و در تلاش است تا عدم تشابه میان گروه‌های مشتریان را به حداقل برساند (تاسینگر و هوبر[30]، 2000)؛ سپس به‌منظور سنجش صحت[31] نتایج، از معیار ارزیابی دیویس بولدین با استفاده از نرم‌افزار رپیدماینر روی 74.344 رکورد   نرمال‌شده انجام می‌شود (اطلاعات مربوط به سازمان و داده‌ها در بخش بعد آورده شده است). برای بررسی تمایز خوشه‌ها آزمون آنووا با استفاده از نرم‌افزار اس‌پی‌اس‌اس 19 روی خوشه‌های به‌دست‌آمده اجرا می‌شود. در مرحلة بعد با توجه به ضرورت استخراج قوانین، به دلیل اینکه شبکة عصبی مانند یک جعبة سیاه عمل می کند، با وجوددقت بیشتر دسته‌بندی شبکة عصبی، از الگوریتم درخت تصمیم C5، با اختصاص سه برچسب به نام‌های خرید، انتظار خرید و خریدنکردن با استفاده از نرم‌افزار کلمنتاین برای بررسی رفتارها با توجه به ویژگی‌های رفتاری کاربران و دسته‌بندی مشتریان براساس ویژگی‌های رفتاری آنها و ایجاد مدلی برای پیش‌بینی نوع رفتار مشتریان آینده استفاده می‌شود. درخت تصمیم‌ در بین الگوریتم‌های طبقه‌بندی، روش قدرتمندی است که محبوبیت آن با رشد داده‌کاوی به‌طور فزاینده‌ای در حال افزایش است. درخت تصمیم روشی برای نمایش دسته‌ای از قوانین است که به یک رده یا مقدار منتهی می‌شود. الگوریتم درخت تصمیم C5 روشی افزایشی از هرس‌کردن درخت را به کار   می‌گیرد تا خطای طبقه‌بندی ناشی از نویز یا جزئیات خیلی زیاد را در داده‌های آموزشی کاهش دهد. این درخت می‌تواند دسته‌بندهایی هم برای درخت تصمیم و هم برای مجموعه قوانین تولید کند. در پایان با استفاده از معیارهای ارزیابی الگوریتم‌های خوشه‌بندی و دسته‌بندی نتایج این دو تکنیک ارزیابی می‌شود.

 

4- پیاده‌سازی

این پژوهش برمبنای فرایند کریسپ انجام شده و شامل مراحل زیر است:

فاز 1. درک کسب و کار

 این فاز بر درک اهداف و نیازمندی‌های پروژه از دیدگاه کسب و کار تمرکز می‌کند. این پژوهش در شرکت XYZ انجام شده است که مرجع تخصصی نقد و بررسی و فروش اینترنتی کالا در ایران است. این شرکت در زمینة فروش برخط محصولات مختلف فعالیت می‌کند و در حال حاضر در حدود 67 هزار کالای مختلف را در سایت خود به فروش می‌رساند. سایت این شرکت به طور میانگین روزانه بیش از 400 هزار بازدیدکننده دارد و از پربازدیدترین سایت‌های کشور است. کاربران و مشتریان XYZ می‌‌‌توانند با حق انتخاب متنوع و با دریافت اطلاعاتی کامل برای انتخاب درست کالای مدنظر خود، وب‌سایت این شرکت را بررسی و با حداکثر اطمینان کالای خود را انتخاب و خرید کنند. XYZبا ارائة طیف گسترده‌‌ای از معتبرترین برندها در گروه‌‌های مختلف و با همکاری نزدیک با وارد‌کنندگان و توزیع‌کنندگان اصلی این کالاها در ایران، تلاش می‌‌کند نیازهای متفاوت مشتریان با کاربری‌‌های متفاوت آنان را برآورده سازد. کیفیت و سهولت استفاده از پایگاه وب و خدمات ارائه‌شده در آن، همواره یکی از مهم‌‌ترین و بااولویت‌ترین موضوعات در XYZ بوده است و این شرکت تلاش می‌کند در پایگاه وب XYZ، خدماتی شایسته و تجربه‌ای خوشایند را برای مخاطبان خود به ارمغان بیاورند.

فاز 2 و 3. شناخت و آماده‌سازی داده

این فاز با جمع‌آوری داده‌های اولیه و تصمیم اینکه کدام داده‌ها و در چه فرمت و اندازه‌ای لازم خواهند بود، آغاز می‌شود و فعالیت‌ها را به‌منظور آشنایی با داده‌ها، شناسایی مشکلات کیفیت داده‌ها، دریافت بینش‌های مقدماتی دربارة داده‌ها یا کشف زیرمجموعه‌های جالب برای شکل‌دادن فرضیه‌ها برای اطلاعات پنهان ادامه می‌دهد. براساس رویکرد پیشنهادی، دو سری داده (پایگاه دادة لاگ و پایگاه دادة مشتریان) ضروری است. بنابراین، داده‌های 100.000 کاربر تصادفی و یکتا در بازة شش‌ماه دوم سال 1393 از پایگاه دادة لاگ جمع‌آوری شده و داده‌های مربوط به سبد این کاربران هم از پایگاه داده مشتریان گرفته شده است. داده‌های دموگرافیک این کاربران به دلیل وجود برخی مسائل امنیتی و فنی در دسترس نبودند؛ از این‌رو، از استفاده از آنها صرف‌نظر می‌شود. تعداد نشست‌های این کاربران در حدود 1.2 میلیون و داده‌های لاگ در حدود 7.5 میلیون رکورد و داده‌های مربوط به سبد خرید این کاربران در حدود 142 هزار رکورد بود. در پایگاه دادة مشتریان کلیة اطلاعات مربوط به پروفایل مشتریان ذخیره می‌شوند؛ اما در این پژوهش، داده‌های سبد خرید مشتریان شامل شناسة کاربر، شمارة سبد، تاریخ و زمان، مبلغ، شناسة‌ کالای موجود در سبد خرید، نام کالای موجود در سبد خرید و دستة هر کالای موجود در سبد خرید و داده‌های لاگ‌سرور شامل تعداد نشست‌ها، زمان کل، صفحات مختلف، صفحات کالا، صفحات جست‌وجو، تأخر[32]، مدت مراجعه، مدت زمان بین نشست‌ها، کالاهای سبد، ارزش مالی، دسته‌های کالاهای سبد و برچسب دسته است. برای ایجاد مسیرهای طی‌شدة کاربر در هر نشست و همچنین تکمیل مسیرهای آنها برنامه‌ای به زبان برنامه‌نویسی پایتون[33] نوشته شد و برای هر کاربر مسیرهای هر نشست و زمان صرف‌شده در هر نشست آن به ‌دست آمد. پس از به دست آوردن مسیر دسترسی هر کاربر در هر نشست، با ترکیب ویژگی‌های رفتاری استخراج‌شده از سبد کالا و لاگ‌سرور بر اساس مدل RFM، ویژگی‌های مشترک آنها شامل 11 ویژگی تعداد نشست‌ها، زمان کل، صفحات مختلف، صفحات کالا، صفحات جست‌وجو، تأخر، مدت زمان بین نشست‌ها، کالاهای سبد، ارزش مالی، دسته‌های کالاهای سبد، برچسب دسته از پایگاه دادة لاگ و مشتریان استخراج شد.

وظیفة اصلی در کاوش کاربری وب، پیش‌پردازش داده است که شامل پاک‌سازی داده، شناسایی کاربر، شناسایی نشست، کامل‌کردن مسیر و شکل‌دهی داده است (پامونتا و همکاران، 2012). سه مرحلة‌ نخست از مراحل پیش‌پردازش داده، در هنگام ذخیره‌سازی لاگ‌ها در جداول پایگاه داده انجام شد. تنها یک مرحلة پاک‌سازی دیگر روی داده‌های لاگ انجام شد. به این صورت که درخواست‌های تکراری پشت سر هم در هر نشست و نشست‌هایی که تنها یک درخواست برای آنها ثبت شده بود، از داده‌ها حذف شد. همچنین تمامی داده‌ها از لحاظ داشتن مقادیر ازدست‌رفته و داده‌های غیرطبیعی بررسی شدند. پس از پاک‌سازی، تعداد کاربران به 74.344 رسید. پس از استخراج ویژگی‌ها وحذف داده‌های پرت نوبت به نرمال‌سازی آنها می‌رسد. به دلیل وجود محدوده‌ها و مقیاس‌های مختلف اندازه‌گیری برای هر ویژگی، لازم است برای یکسان‌کردن این محدوده‌ها، تمامی ویژگی‌ها نرمال شوند. در این پژوهش، برای نرمال‌سازی داده‌ها از روش نرما‌ل‌سازی مینیمم-ماکزیمم استفاده شده است. در این روش نرمال‌سازی، تبدیل خطی روی داده‌های اصلی انجام می‌دهد. فرض کنید که minA و maxA، کمترین و بیشترین مقدار ویژگی A باشند؛ سپس نرمال‌سازی مینیمم-ماکزیمم، مقداری مانند v از ویژگی A را به vدر محدوده [newminA, newmaxA] می‌نگارد. رابطة‌ (1) چگونگی این نگاشت را نشان می‌دهد:

رابطة (1)

فاز 4. مدلسازی

در فاز مدل‌سازی، برای شناخت گروه‌های مختلف مشتریان از تکنیک خوشه‌بندی و به‌منظور بررسی رفتارها با توجه به ویژگی‌های رفتاری کاربران و ایجاد مدلی برای پیش‌بینی نوع رفتار مشتریان آینده از تکنیک درخت تصمیم استفاده می‌شود.

  • ·       شناخت گروه‌های مشتریان

اولین هدف این پژوهش، شناخت الگوها و گروه‌های مختلف مشتریان بر مبنای رفتار آنهاست. بدین منظور از الگوریتم خوشه‌بندی کا-میانگین استفاده می‌شود که باید تعداد خوشه‌های آن از پیش تعیین شوند و در ادامه بر مبنای تعداد خوشه‌های اولیه داده‌ها در خوشه‌های مختلف قرار می‌گیرند (مقدم و همکاران، 2017). یکی از معایب الگوریتم کا-میانگین این است که تعداد خوشه‌ها را همچون پارامتر ورودی الگوریتم می‌گیرد و نمی‌تواند تعداد خوشه‌های بهینه را بیابد. بنابراین، با استفاده از شاخص دیویس بولدین الگوریتم برای تعداد خوشه‌های مختلف امتحان شده و بهترین نتیجه برای تعداد خوشه‌ها انتخاب می‌شود. براساس سه معیار شباهت مختلف (فاصلة اقلیدسی، فاصلة چبیشف و فاصلة منهتن) و برای تعداد خوشه‌های مختلف، الگوریتم کا-میانگین اجرا می‌شود تا زمانی که معیار دیویس بولدین آن به بالای عدد یک برسد. نتایج اعتبارسنجی الگوریتم کا-میانگین با استفاده از شاخص دیویس بولدین در جدول 1 نشان داده شده است. با توجه به نتایج به‌دست‌آمده بهترین جواب برای شاخص دیویس بولدین مربوط به معیار فاصلة اقلیدسی و با چهار خوشه است. درواقع هرچه مقدار این شاخص کمتر باشد، خوشه‌ها در بیشترین فاصله از هم قرار دارند.

 

جدول 1. نتایج اعتبارسنجی الگوریتم کا-میانگین با استفاده از شاخص دیویس بولدین

تعداد خوشه

فاصلة چبیشف

فاصلة اقلیدسی

فاصلة منهتن

3

0.808

0.819

0.829

4

0.725

0.716

0.718

 


سپس خوشه‌بندی با پارامترهای چهار خوشه و معیار شباهت برابر با فاصلة اقلیدسی انجام می‌شود (جدول 2). با توجه به جدول 2، بیشترین تعداد مشتریان در خوشة اول و کمترین تعداد مشتریان در خوشة دوم قرار گرفته‌اند. نقاط مرکزی هر چهار خوشه که درواقع میانگین فواصل نقاط موجود در آن خوشه به ازای تمامی ویژگی‌های به‌کاررفته، در جدول 2 آورده شده است.

 

 

جدول 2. نتایج خوشه‌بندی با چهار خوشه و نقاط مرکزی

نقاط مرکزی

تعداد

خوشه

دستة ‌کالاهای سبد

ارزش مالی

کالاهای سبد

زمان بین نشست‌ها

مدت مراجعه

تأخر

صفحات جستجو

صفحات کالا

صفحات مختلف

زمان کل

تعداد نشست

0.03

0.01

0.01

1

0

0.46

0.02

0.02

0.02

0.05

0

26441

1

0.02

0.01

0.00

0.08

0.64

0.13

0.020

0.02

0.02

0.05

0.04

12280

2

0.03

0.01

0.01

0.03

0.11

0.68

0.02

0.02

0.02

0.05

0.01

17736

3

0.03

0.01

0.01

0.03

0.12

0.15

0.02

0.02

0.02

0.05

0.01

17887

4

-

-

-

-

-

-

-

-

-

-

-

74344

کل

                           

 


·   دسته‌بندی مشتریان براساس ویژگی‌های رفتاری

برای دسته‌بندی رفتار مشتریان شرکت XYZ مشکل توزیع نامتوازن کلاس‌ها وجود دارد. به بیان دیگر، دستة خرید در میان دو دستة دیگر، کلاس اقلیت است و  نمونه‌های بسیار کمتری در مقایسه با دو دستة دیگر دارد؛ پس باید یک دسته‌بند ایجاد شود که هزینة کلی دسته‌بندی نادرست را کمینه کند. برای مجموعة داده‌های بزرگ با بیش از 10.000 نمونه، الگوریتم یادگیری حساس به هزینه بهترین نتایج را نسبت به روش‌های نمونه‌برداری ایجاد می‌کند (ویس و همکاران، 2007). بر این ‌اساس، در این پژوهش نیز با داشتن مجموعة‌ داده بزرگ از روش یادگیری حساس به هزینه استفاده می‌شود. بهترین نسبت هزینه در این پژوهش هم به‌صورت تجربی و براساس مجموعه اعتبارسنجی تعیین شده است. هدف اصلی این پژوهش از دسته‌بندی، علاوه بر مدل‌سازی برای پیش‌بینی رفتار مشتریان، استخراج قوانین به صورت واضح و دقیق به‌منظور استفاده در کسب‌وکار است. انتخاب الگوریتم درخت تصمیم C5.0 هم بر این مبنا صورت گرفته است؛ زیرا قوانین درخت تصمیم بسیار ساده و قابل تفسیر است. در این الگوریتم فیلدهای ورودی ویژگی‌های به‌دست‌آمده و فیلد خروجی برچسب‌‌های کاربران است. سپس داده‌ها با استفاده از گره پارتیشن به سه گروه آموزشی، آزمایشی و اعتبارسنجی تقسیم می‌شوند. در گره C5، برای افزایش قابلیت اطمینان اعتبارسنجی مدل، گزینة اعتبارسنجی متقابل با ده تکرار انتخاب شده است. این روش بر پایة تقسیم مجموعه‌داده به 10 قسمت مساوی است که در آن 9 قسمت از مجموعه‌داده آموزش مدل و بقیة آزمایش مدل را انجام می‌دهند. همچنین ساخت درخت تصمیم با استفاده از حالت ساده و مطلوب تعمیم انجام شده است.

این حالت باعث می‌شود بیشتر پارامترهای درخت به ‌صورت خودکار تنظیم شود. به دلیل کم‌بودن تعداد نمونه‌های خرید مشتریان و ارزشمندی این دسته در پژوهش، در ماتریس هزینة درخت، هزینة تشخیص نادرست مشتریان واقعی با عنوان دسته‌های دیگر افزایش یافته است. پس از اجرای الگوریتم، پایین‌ترین سطح شکست‌ها دوباره بررسی می‌شوند و آنهایی که کمک شایانی به ارزش مدل نمی‌کنند، از درخت حذف یا به عبارتی دیگر هرس می‌شوند. پس از اجرای این روند، درختی با میانگین دقت 63.6% و خطای استاندارد 0.3 به‌ دست آمد. در نهایت تعداد 261 قانون با اطمینان 70% حاصل شد.

فاز 5. ارزیابی

·       ارزیابی خوشه‌ها

پس از مشخص‌شدن نقاط مرکزی خوشه‌ها، به منظور بررسی این‌که به ازای تمامی ویژگی‌ها آیا میانگین‌های به‌دست‌آمده، اختلاف معنا‌داری با هم دارند یا خیر، آزمون آنووا در سطح معنا‌داری کمتر از 0.05 اجرا می‌شود. برای این کار، چهار میانگین‌ به‌دست‌آمده به ازای هر ویژگی‌ با اجرای این آزمون با هم مقایسه می‌شوند. همان‌طور که از جدول 3 و نتایج به‌دست‌آمده مشخص است، با بررسی ستون سطح معناداری مشاهده می‌شود که این مقدار برای تمامی متغیرها برابر با 0.000 و کمتر از 0.05 است؛ ازاین‌رو فرض همگن‌بودن میانگین‌های جامعه رد می‌شود و نشان می‌دهد گروه‌ها میانگین‌های مختلفی دارند.

 

جدول3.نتایجآزمونآنوابرایالگوریتم‌هایکا-میانگین

متغیر

منبع تغییر

مجموع مجذورات

درجة آزادی

میانگین مجذورات

آزمون F

معناداری

 

تعداد نشست‌ها

بین گروهی

12.889

3

4.296

 

6005.253

 

درون گروهی

53.184

74340

0.001

0.000

مجموع

66.073

74343

-

 

 

زمان کل

بین گروهی

0.420

3

0.140

 

65.369

 

درون گروهی

1590281

74340

0.002

0.000

مجموع

159.701

74343

-

 

 

صفحات مختلف

بین گروهی

0.312

3

0.104

 

149.594

 

درون گروهی

51.630

74340

0.001

0.000

مجموع

51.942

74343

-

 

 

صفحات کالا

بین گروهی

0.197

3

0.066

 

132.415

 

درون گروهی

36.928

74340

0.000

0.000

مجموع

37.126

74343

-

 

 

صفحات جستجو

بین گروهی

0.022

3

0.007

 

13.477

 

درون گروهی

41.005

74340

0.001

0.000

مجموع

41.028

74343

-

 

 

تأخر

بین گروهی

3419.960

3

1139.987

 

24519.324

 

درون گروهی

3456.319

74340

0.046

0.000

مجموع

6876.278

74343

-

 

 

مدت مراجعه

بین گروهی

3639.181

3

1213.060

 

100302.576

 

درون گروهی

899.069

74340

0.012

0.000

مجموع

4538.250

74343

-

 

 

زمان بین نشست‌ها

بین گروهی

15566.193

3

5188.731

 

1533667.518

 

درون گروهی

251.508

74340

0.003

0.000

مجموع

15817.702

74343

-

 

 

کالاهای سبد

بین گروهی

0.112

3

0.037

 

133.539

 

درون گروهی

20.848

74340

0.000

0.000

مجموع

20.961

74343

-

 

 

ارزش مالی

بین گروهی

0.434

3

0.145

 

101.549

 

درون گروهی

105.910

74340

0.001

0.000

مجموع

106.344

74343

-

 

دسته‌های کالای سبدها

بین گروهی

1.594

3

0.531

 

330.416

 

درون گروهی

119.538

74340

0.002

0.000

مجموع

121.132

74343

-

 

 


  • ·   تحلیل خوشه‌ها

برای تحلیل بهتر خوشه‌ها، نخست بررسی می‌شود در هر خوشه هر مشتری چه برچسبی دارد، هر کدام از این گروه‌ها چه درصدی از کل خوشه را به خود اختصاص داده‌اند و همچنین چند درصد از کل هر گروه در هر خوشه است. نتایج بررسی تعداد هر برچسب در هر خوشه در جدول 4 آورده شده است.

 

جدول 4. نتایج حاصل از بررسی تعداد برچسب در هر خوشه

تعداد کل

درصد در برچسب

درصد در خوشه

تعداد نمونه

برچسب

خوشه

26441

1.34

0.01

4

خرید

خوشة اول

36

41.14

10878

انتظار

35.5

58.85

15559

خریدنکردن

12280

58.33

1.4

171

خرید

خوشة دوم

10.6

26.1

3205

انتظار

20.3

72.5

8904

نخریدن

17736

25

0.41

73

خرید

خوشة سوم

29.1

49.59

8804

انتظار

20.2

50

8859

خریدنکردن

17887

15.33

0.25

45

خرید

خوشه چهارم

24.3

41.15

7363

انتظار

24

58.6

10479

خریدنکردن

 


باتوجه به نتایج جدول 4 خوشه‌ها تحلیل می‌شود:

خوشة اول: در خوشة نخست که بیشترین تعداد کاربران را داشت، کاربرانی‌اند که در بازة مطالعه‌شده، تنها یک‌ بار از سایت بازدید داشته‌ و نسبت به خوشه‌های دیگر از صفحات مختلف بیشتری بازدید کرده‌اند. حدود نیمی از کاربران، برخی از این کالاها را به سبد خرید خود اضافه کرده‌اند؛ اما خرید خود را نهایی نکرده‌ و سبد خرید آنها در حالت باز قرار دارد. نیمی دیگر از کاربران هم تمایلی به تشکیل سبد نداشته‌ و تنها به بازدید از صفحات اکتفا کرده‌اند. در این خوشه، تعداد کاربرانی که بازدیدشان به خرید ختم شده بسیار محدود است.

خوشة دوم: در خوشة دوم که کمترین تعداد کاربران را داشت، کاربرانی هستند که در بازة مطالعه‌شده، بیشترین دفعات بازدید از سایت را داشته‌اند. نسبت به دیگر خوشه‌ها، کمترین مدت زمان بازدید از سایت و کمترین تعداد صفحات مختلف بازدیدشده در هر مراجعه را دارند و بیشتر به جست‌وجوی کالاها می‌پردازند. فاصلة‌ زمانی بین بازدیدهای این گروه از خوشه‌های دیگر بیشتر است. بیشترین تعداد سبدهایی که به خرید ختم شده‌ است، در این گروه قرار دارد که می‌توان کاربران این خوشه را دارای احتمال خرید دانست.

خوشة سوم: کاربرانی که در خوشة سوم‌اند، در بازة‌ زمانی کوتاهی از سایت بازدید داشته‌اند. همچنین کمترین فاصلة زمانی بین بازدیدها هم متعلق به این گروه است. بعد از خوشة اول، بیشترین صفحات بازدیدشده متعلق به این خوشه است که می‌توان نتیجه گرفت بیشتر به جست‌وجوی کالاها در سایت و بازدید از آنها پرداخته‌اند. بعد از خوشة اول، بیشترین تعداد سبدهای باز در این خوشه قرار دارد. سبدهای این گروه از کاربران دارای بیشترین تعداد کالاست که از متنوع‌ترین سبدها هم محسوب می‌شود. همچنین مبالغ سبدهای تشکیل‌شده از سایر خوشه‌ها بیشتر است.

خوشة چهارم: کاربرانی که در خوشة چهارم‌اند، همانند خوشة سوم تنها در بازة زمانی کوتاهی از سایت بازدید کرده‌اند؛ با این تفاوت که این بازدیدها اغلب در اواخر بازة مطالعه‌شده انجام گرفته است. همچنین فاصلة‌ زمانی بین بازدیدها در این گروه کم است. بعد از خوشة اول، بیشترین تعداد کاربرانی که تمایلی به تشکیل سبد نداشته‌اند، در این خوشه است؛ با این حال، باز هم سبدهای این گروه از کاربران دارای بیشترین تعداد و متنوع‌ترین کالاها بعد از خوشة سوم است.

·            ارزیابی دسته‌بندی

برای ارزیابی درخت تصمیم از ماتریس درهم‌ریختگی استفاده می‌شود. این ماتریس ابزار مفیدی برای تحلیل چگونگی عملکرد روش دسته‌بندی در تشخیص داده‌ها یا مشاهدات دسته‌های مختلف است. مهم‌ترین معیار برای تعیین کارایی تکنیک دسته‌بندی، معیار دقت است. این پژوهش به دقت دسته‌بندی 63.6% دست یافت که با توجه به نوع دسته‌ها و تعداد نمونه‌های موجود در هر دسته، دقت قابل قبولی است. معیارهایی که به‌ صورت جداگانه عملکرد یک دسته‌بند[34] را روی دسته‌های مختلف برآورد می‌کنند حساسیت، شفافیت و صحت‌اند. این شاخص‌ها برای هر سه دسته با استفاده از ماتریس درهم‌ریختگی محاسبه شده‌اند. نتایج ارزیابی درخت تصمیم در جدول 5 ارائه شده است.

 

 

 

جدول 5. نتایج ارزیابی درخت تصمیم

Precision-

Precison+

Recall-

Recall+

برچسب

99%

1.6%

78%

80%

خرید

74%

76%

83%

66%

انتظار خرید

56%

82%

77%

65%

خریدنکردن

 

 

با توجه به نامتعادل‌بودن دسته‌ها و دقت به‌دست‌آمده از اعتبارسنجی متقابل با ده تکرار یعنی 63.6%، ثابت می‌شود که مدل دارای کارایی قابل قبولی است. براساس مدل (شکل 1)، تأخر مهم‌ترین و مدت زمان و زمان بین نشست‌ها کم‌اهمیت‌ترین ویژگی‌ها در دسته‌بندی بوده‌اند.

 

 

شکل 1. ویژگی‌های مهم در دسته‌‌بندی

 

 

فاز 6. به‌کارگیری

هدف از دسته‌بندی داده‌ها در این پژوهش، ارائة مدلی برای پیش‌بینی رفتار مشتریان و کشف دانشی مفید از پایگاه داده‌هاست. این مرحله شامل برنامه‌ریزی برای دانش کشف‌شده است که کجا و چگونه به کار رود. برنامه‌ای هم برای نظارت بر پیاده‌سازی دانش کشف‌شده باید ایجاد و تمام پروژه مستندسازی شود. کشف دانش از راه بررسی مدل و قوانین ایجاد شده انجام می‌گیرد. در این پژوهش 261 قانون با اطمینان 70% حاصل شد که تعدادی از آنها به شرح زیر است:

1- اگر کاربر هیچ صفحة کالایی را مشاهده نکند، اصلاً خرید نخواهد کرد.

2 - کاربرانی با مدت مراجعه یک‌روزه و داشتن تعداد نشست‌های کمتر از 12 و تعداد صفحات مختلف بزرگ‌تر از 6، از سایت خرید نمی‌کنند.

3- کاربرانی که تعداد نشست‌هایشان کمتر از 12 و تعداد صفحات مختلف کمتر از 6 و تعداد صفحات  جست‌وجوی آنها بیشتر از 3 است، خرید نمی‌کنند.

4- کاربرانی که 9 صفحه کالا را دیده‌اند و تعداد نشست‌هایشان بیشتر از 12 است، زمانی را که درون سایت می‌گذرانند، بیشتر از 28 دقیقه است و همچنین دارای مدت مراجعه بزرگ‌تر از 67 هستند، از سایت خرید می‌کنند.

5- کاربرانی که تأخرشان بین 82 تا 85 روز است، دارای تعداد نشست بالای 12 و تعداد صفحات مختلف بیشتر از 6 هستند، فقط تمایل به تشکیل سبد دارند.

 

5- نتیجه‌گیری

شرکت‌های تجارت الکترونیک از دنیای قدیمی که در آن، محصولات استاندارد، بازارهای همگن و چرخة توسعه و عمر محصول طولانی یک قانون بود، به دنیای جدیدی انتقال می‌یابند که در آن انواع محصولات استانداردِ جایگزین وجود دارند. مصرف‌کنندگان  می‌توانند از بین میلیون‌ها کالا در یک فروشگاه برخط به جای ده‌ها هزار کالا در فروشگاه‌های بزرگ، کالاهای خود را انتخاب کنند. بنابراین، پیش‌بینی رفتار مشتریان دشوار است؛ چون به‌ندرت بازدید آنها از سایت‌ها به خرید ختم می‌شود؛ از این‌رو، برای داشتن کسب‌وکار برخط موفق باید به تحلیل رفتار مشتریان پرداخت. استفاده از داده‌کاوی و وب‌کاوی به ما در تحلیل رفتار مشتریان و کشف دانش در این زمینه کمک می‌کند. این دانش، سازمان‌ها را قادر می‌سازد تا تصمیمات مبتنی بر داده گرفته و راهبرد‌های تصمیم‌گیری خود را بهبود و توسعه دهند. همچنین برای به دست آوردن مشتریان جدید و حفظ مشتریان موجود و بهبود رضایت مشتری نیز کمک می‌کند. از آنجا که به نظر می‌رسد در ایران پژوهشی در این زمینه از تجارت الکترونیک وجود ندارد، این پژوهش با هدف طرح چارچوبی برای افزایش دقت تحلیل و شناخت گروه‌های مشتریان و همچنین ارائة مدل و قوانینی برای پیش‌بینی رفتار مشتریان بر مبنای ویژگی‌های رفتاری آنها انجام شده است. در این پژوهش، با استفاده از رویکرد ترکیبی داده‌کاوی و کاوش کاربری وب، رفتار مشتریان تحلیل شده است؛ این روش مزیت رقابتی برای شرکت را باعث می‌شود. درواقع نوآوری این پژوهش اِعمال روش‌های داده‌کاوی بر ابعاد مختلف داده‌های مشتری شامل داده‌های رفتاری مرور وب و داده‌های رفتار خرید است که به بهبود دانش از مشتری می‌انجامد. این پژوهش مبتنی بر داده‌های واقعی است و داده‌های واقعیِ مشتریان شرکت XYZ را بررسی می‌کند که محدودة فعالیت آن، تجارت الکترونیک و از نوع خرده‌فروشی اینترنتی است. در این پژوهش اطلاعات حساب‌های کاربری مشتریان به همراه اطلاعات موجود در لاگ‌های وب سرور که در پایگاه دادة شرکت ذخیره می‌شوند، استفاده شده است. شرکت XYZ به‌منظور درک سازمانی بهتر نیازها، خواسته‌ها و تمایلات مشتریان و همچنین وجود انسجام و دیدی مشخص در سازمان برای پیام‌های بازاریابی و تعریف مشتریان بالقوه، می‌تواند از خوشه‌های به‌دست‌آمده در این پژوهش، برای این منظور بهره ببرد و به شناخت دقیقی از مشتریان خود دست یابد و می‌تواند راهبرد‌های مقتضی را در هر گروه پیاده‌سازی کند و احتمال موفقیت خود را افزایش دهد. در کل خرده‌فروشان برخط باید فعالیت‌های بازاریابی خود در رسانه‌های اجتماعی را گسترش داده تا بتوانند متناسب با نیازها و فعالیت‌های مشتریان خود (کاربران این رسانه‌ها) عمل کنند و فعالیت‌های جذب مشتری جدید و حفظ مشتریان موجود را ادامه دهند.

محدودیت‌های زیادی در زمینة استفاده از داده‌های دنیای واقعی برای تحلیل رفتار مشتریان وجود دارد. به دلیل وجود بازار رقابتی، شرکت‌ها به‌سادگی داده‌های مشتریان خود را در اختیار قرار نمی‌دهند یا در صورت انجام این کار، داده‌های دست‌کاری‌شده و ناقص در اختیار آ‌نها قرار می‌دهند. در واقع مدیران شرکت برای سپردن اطلاعات به افراد خارج از سازمان تمایلی ندارند و چون نتایج داده‌کاوی کاملاً به صحت داده‌های اولیه بستگی دارد، این امر ممکن است سبب به دست آمدن نتایج نامعتبر شود. همچنین در برخی از شرکت‌ها، ممکن است کارمندان به دلیل ترسِ از دست دادن موقعیت شغلی خود، حاضر به همکاری با پژوهشگران نباشند و در شناخت کسب‌وکار و داده‌ها کمک چندانی نکنند.

در این پژوهش به دلیل زیاد بودن حجم داده‌ها و کم‌بودن مقدار حافظه، امکان اجرای تکنیک‌های دیگر داده‌کاوی مانند الگوریتم SOM وجود نداشت؛ ازاین‌رو پیشنهاد می‌شود پژوهش‌های آینده از سایر الگوریتم‌های داده‌کاوی که به مشخص‌کردن تعداد خوشه‌های بهینه نیاز ندارند و خودشان این تعداد را به دست می‌آورند، برای خوشه‌بندی استفاده کنند.

در این پژوهش داده‌های دموگرافیک مشتریان شامل جنس، سن، مکان سکونت، تحصیلات و غیره به‌دلیل برخی مسائل فنی و امنیتی دردسترس نبودند؛ از این‌رو پیشنهاد می‌شود این ویژگی تحلیل رفتار مشتریان بررسی شود. علاوه بر آن، پیشنهاد می‌شود ویژگی‌های دیگری مانند نوع خرید، روش خرید، نوع پرداخت و غیره استخراج و تأثیر آنها در این رویکرد ترکیبی بررسی شود. هم‌چنین بررسی تأثیر وب‌کاوی بر ارزش مشتری برای پاسخ به این سؤال که آیا وب‌کاوی می‌تواند ارزش مشتری را پیش‌بینی کند یا خیر، نیز می‌تواند در پژوهش‌های آینده بررسی شود.



[1] Arora & Chopra

[2] Park & Chung

[3] Zhang

[4] Ahn

[6] Shanthi

[7] Rao & Arora

[8] Liu

[9] Online Retailing

[10] Deka

[11] Tsai

[12] Beheshtian-Ardakani

[13] Moghadam

[14] Sheikh & Menaria

[15] Dharmarajan & Dorairangaswamy

[16] Sun  & Zhang

[17] Niche Markets

[18] Hsieh

[20] Yang & Su

[21] Sisodia & Verma

[22] Hung

[23] Pamutha

[24] Ha

[25] Bae

[26] Kim

[27] Jenamani

[28] CRISP-DM

[29] Azevedo

[30] Theusinger & Huber

[31] Goodness

[32] . Recency

[33] . Python

[34] . Classifier

منابع
1- Ahn, T., Ryu, S., & Han, I. (2007). The impact of Web quality and playfulness on user acceptance of online retailing. Information & management, 44(3), 263-275.‌
2- Arora, M., & Chopra, A. B. (2016). Impact of online selling on physical retail in India. International Journal of Research in IT and Management, 6(10), 57-68.‌
3- Azevedo, A. I. R. L., & Santos, M. F. (2008). KDD, SEMMA and CRISP-DM: a parallel overview. IADS-DM.
4- Bae, S. M., Park, S. C., & Ha, S. H. (2003). Fuzzy web ad selector based on web usage mining. IEEE intelligent Systems18(6), 62-69.
5- Beheshtian-Ardakani, A., Fathian, M., & Gholamian, M. (2018). A novel model for product bundling and direct marketing in e-commerce based on market segmentation. Decision Science Letters, 7(1), 39-54.‌
6- Deka, P. K. (2017). A Conceptual Model for Determining Factors Influencing Online Purchasing Behavior. Journal of Management in Practice, 2(1).‌
7- Dharmarajan, K., & Dorairangaswamy, D. M. (2016). Web Usage Mining: Improve The User Navigation Pattern Using Fp-Growth Algorithm. Elysium journal of engineering research and management (EJERM), 3(4).‌
8- Facca, F. M., & Lanzi, P. L. (2005). Mining interesting knowledge from weblogs: a survey. Data & Knowledge Engineering53(3), 225-241.
9- Ha, S. H. (2002). Helping online customers decide through web personalization. IEEE Intelligent systems17(6), 34-43.
10- Hsieh, N. C. (2004). An integrated data mining and behavioral scoring model for analyzing bank customers. Expert systems with applications27(4), 623-633.
11- Hung, Y. S., Chen, K. L. B., Yang, C. T., & Deng, G. F. (2013). Web usage mining for analysing elder self-care behavior patterns. Expert Systems with Applications, 40(2), 775-783.‌
12- Jenamani, M., Mohapatra, P. K., & Ghose, S. (2003). A stochastic model of e-customer behavior. Electronic Commerce Research and Applications2(1), 81-94.
13- Kim, E., Kim, W., & Lee, Y. (2003). Combination of multiple classifiers for the customer's purchase behavior prediction. Decision Support Systems34(2), 167-175.
14- Liou, J. J., & Tzeng, G. H. (2010). A dominance-based rough set approach to customer behavior in the airline market. Information Sciences, 180(11), 2230-2238.‌
15- Liu, B., Mobasher, B., & Nasraoui, O. (2011). Web usage mining. In Web Data Mining (pp. 527-603). Springer Berlin Heidelberg.‌
16- Moghaddam, Q., S. Abdolvand, N., & Harandi, R. S. (2017). A RFMV Model and Customer Segmentation Based on Variety of Products. Information Systems & Telecommunication, 5(3), 155- 161
17- Pamutha, T., Chimphlee, S., Kimpan, C., & Sanguansat, P. (2012). Data preprocessing on web server log files for mining users access patterns. International Journal of Research and Reviews in Wireless Communications (IJRRWC) Vol, 2.‌
18- Park, J., & Chung, H. (2009). Consumers’ travel website transferring behaviour: analysis using clickstream data-time, frequency, and spending. The Service Industries Journal, 29(10), 1451-1463.‌
19- Shanthi, S. (2017). Survey on Web Usage Mining using Association Rule Mining.‌ International Journal of Innovative Computer Science & Engineering, (4) 3; 65-67
20- Sheikh, A. M., & Menaria, S. (2017). An Approach of Security in E-Commerce with Web Mining Framework. International Education and Research Journal, 3(5).‌
21- Sisodia, D. S., & Verma, S. (2012, May). Web usage pattern analysis through web logs: A review. In Computer Science and Software Engineering (JCSSE), 2012 International Joint Conference on (pp. 49-53). IEEE.
22- Sun, L., & Zhang, X. (2004, April). Efficient frequent pattern mining on web logs. In Asia-Pacific Web Conference (pp. 533-542). Springer, Berlin, Heidelberg.
23- Theusinger, C., & Huber, K. P. (2000, August). Analyzing the footsteps of your customers. In Proc. of the Sixth ACM SIGKDD Internat. Conf. on Web KDD 2000 (pp. 44-52).
24- Tsai, C. F., Hu, Y. H., & Lu, Y. H. (2015). Customer segmentation issues and strategies for an automobile dealership with two clustering techniques. Expert Systems, 32(1), 65-76.‌
25- Weiss, G. M., McCarthy, K., & Zabar, B. (2007). Cost-sensitive learning vs. sampling: Which is best for handling unbalanced classes with unequal error costs?. DMIN, 7, 35-41.‏
26- Yang, Z., & Su, X. (2012). Customer behavior clustering using SVM. Physics Procedia, 33, 1489-1496.‏
27- Zhang, X., Gong, W., & Kawamura, Y. (2004, January). Customer behavior pattern discovering with web mining. In APWeb (pp. 844-853).‏