Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/83092
Title: | การพยากรณ์สินค้าคงค้างด้วยการเรียนรู้ของเครื่องสำหรับข้อมูลไม่สมดุล |
Other Titles: | Backorder prediction using machine learning for imbalanced data classification |
Authors: | ธิรดา ธาดาจิรสกุล |
Advisors: | ปุณณมี สัจจกมล |
Other author: | จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์ |
Issue Date: | 2565 |
Publisher: | จุฬาลงกรณ์มหาวิทยาลัย |
Abstract: | การใช้การเรียนรู้ของเครื่องในการพยากรณ์สินค้าคงค้างกับข้อมูลที่มีรายการสินค้าเป็นจำนวนมากจึงเป็นเรื่องที่จำเป็น ซึ่งในความเป็นจริงข้อมูลที่เจอมักมีความไม่สมดุลทำให้ประสิทธิภาพในการพยากรณ์ด้วยการเรียนรู้ของเครื่องลดลง การพยากรณ์สินค้าคงค้างที่ไม่ถูกต้องนั้นส่งผลต่อความไว้วางใจของผู้ซื้อและทำให้เสียค่าใช้จ่ายถึงร้อยละ 10 ของรายได้ งานวิจัยฉบับนี้จึงได้ศึกษาการปรับสมดุลข้อมูลด้วยวิธี Threshold Moving และการปรับระดับข้อมูลด้วยวิธีสุ่มเพื่อสร้างตัวแบบที่มีประสิทธิภาพและมีความสามารถในการพยากรณ์ข้อมูลกลุ่มน้อยสูง โดยวิธีการปรับระดับข้อมูลมี 4 วิธีได้แก่ การปรับลดข้อมูลด้วยวิธี NearMiss-3, การปรับลดข้อมูลด้วยวิธี OSS, การปรับเพิ่มข้อมูลด้วยวิธี SMOTE และการปรับลดผสมกับเพิ่มข้อมูลด้วยวิธี OSS ผสม SMOTE โดยอัลกอริทึมที่ใช้ได้แก่ LOGIST, FOREST และ XGBoost นอกจากนี้มีการใช้การตรวจสอบแบบไขว้แบบ 5 กลุ่มกับตัวแบบเพื่อป้องกันการเกิด Overfitting ในวิจัยฉบับนี้มีการวัดประสิทธิภาพของตัวแบบด้วย AUROC, F1 score และ G-Mean ซึ่งผลที่ได้จากงานวิจัยฉบับนี้คือการจัดการข้อมูลด้วย Threshold Moving ด้วยการวัดประสิทธิภาพ G-Mean นั้นให้น้ำหนักกับข้อมูลกลุ่มน้อยมากกว่า F1 score และให้ผลลัพธ์ดีกว่า AUROC โดยวิธีการที่ให้ผลลัพธ์ดีที่สุดคือการจัดการข้อมูลด้วย Threshold Moving ด้วยการวัดประสิทธิภาพ G-Mean สำหรับอัลกอริทึม Forest ซึ่งได้ค่าประมาณ 0.8737 |
Other Abstract: | It is essential to use machine learning for predicting products’ backorder to deal with massive data of SKU. Naturally, real world data is usually imbalanced data which is affect to the efficiency of machine learning. Mistaken predicting products’ backorder negatively affects customer’s service level and decrease 10 percent of their revenue. This research has studied adjusting data by Threshold Moving and sampling methods for creating efficient model and high forecast proficiency in minority class model. There are 4 methods for adjusting data including NearMiss-3 for undersampling dataset, One-Sided Selection (OSS) for undersampling dataset, SMOTE for oversampling dataset, and combining OSS and SMOTE dataset. LOGIST, FOREST and XGBoost are used as algorithms and Stratified 5-Fold Cross-Validation is used to prevent overfitting. In this research, AUROC, F1 score and G-Mean are used as the efficiency measurements. The result obtained from this research study is Threshold Moving with the G-Mean metric gives more weight to the minority data group compared to F1 score and provides better results than AUROC. The most effective method is using Threshold Moving with G-Mean metric for the Forest algorithm, achieving an approximate value of 0.8737. |
Description: | วิทยานิพนธ์ (วศ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2565 |
Degree Name: | วิศวกรรมศาสตรมหาบัณฑิต |
Degree Level: | ปริญญาโท |
Degree Discipline: | วิศวกรรมอุตสาหการ |
URI: | https://cuir.car.chula.ac.th/handle/123456789/83092 |
URI: | http://doi.org/10.58837/CHULA.THE.2022.890 |
metadata.dc.identifier.DOI: | 10.58837/CHULA.THE.2022.890 |
Type: | Thesis |
Appears in Collections: | Eng - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
6370131521.pdf | 2.94 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.