เวลาโดยประมาณ: 8 นาที

อาร์ค ROC
หนึ่ง อาร์ค ROC (เส้นโค้งลักษณะการทำงานของเครื่องรับ) เป็นกราฟที่แสดงประสิทธิภาพของแบบจำลองการจำแนกประเภทที่ข้อกำหนดการจำแนกทั้งหมด เส้นโค้งนี้พล็อตพารามิเตอร์สองตัว:
- อัตราบวกที่เกือบ
- อัตราบวกเท็จ
อัตราบวกที่เกือบ (ทีพีอาร์) เป็นคำพ้องความหมายสำหรับการเรียกคืน ดังนั้นจึงถูกกำหนดดังนี้:
$$TPR = \frac{TP} {TP + FN}$$
อัตราบวกเท็จ (เอฟ.พี.อาร์) เช็ดกกำหนดดังนี้:
$$FPR = \frac{FP} {FP + TN}$$
อาร์ค ROC วางแผน TPR ใส่ียบกับ FPR ที่ข้อกำหนดการจำแนกประเภทที่แตกต่างกัน การลดเกณฑ์การจัดหมวดหมู่จะจัดประเภทรายการที่เป็นบวกมากขึ้น ซึ่งจะเป็นการเพิ่มทั้งผลบวกปลอมและผลบวกจริง รูปต่อไปนี้แสดงเส้นโค้ง ROC ปกติ
รูปที่ 4 ค่าธรรมเนียม TP ใส่ียบกับ FP ที่ข้อกำหนดการจำแนกประเภทต่างๆ
ในการคำนวณคะแนนในเส้นโค้ง ROC เราสามารถประเมินแบบจำลองการถดถอยโลจิความตระหนักกได้หลายครั้งด้วยเกณฑ์การจำแนกประเภทที่แตกต่างกัน อย่างไรก็ตามสิ่งนี้จะไม่เชื่อถือได้ มีความสุขที่มีแน่นอนอัลกอริธึมการเรียงลำดับที่มีแน่นอนประสิทธิภาพซึ่งสามารถให้ข้อมูลนี้แก่เราได้ ซึ่งเรียกว่า AUC
AUC: สถานที่ใต้อาร์ค ROC

อคส ย่อมาจาก “สถานที่ใต้อาร์ค ROC” นั่นคือ AUC วัดพื้นที่สองมิติทั้งหมดใต้อาร์ค ROC อย่างแน่นอน (คิดจากแคลคูลัสเชิงปริพันธ์) มาจาก (0,0) ถึง (1,1)
รูปที่ 5 AUC (สถานที่ใต้อาร์ค ROC)
AUC เสนอการวัดประสิทธิภาพโดยรวมของเกณฑ์การจัดประเภทที่{เป็นไปได้}อย่างแน่นอน ขั้นตอนหนึ่งในการตีความ AUC คือความน่าจะเป็นที่แบบจำลองจัดอันดับตัวอย่างเชิงบวกแบบสุ่มให้สูงกว่าตัวอย่างเชิงลบแบบสุ่ม ตัวอย่างเช่น จากตัวอย่างต่อไปนี้ซึ่งจัดเรียงจากซ้ายไปขวาในการทำนายการถดถอยโลจิความตระหนักกจากน้อยไปหามาก:
รูปที่ 6 การคาดคะเนเรียงลำดับจากน้อยไปหามากของคะแนนการถดถอยโลจิความตระหนักก
AUC แสดงถึงความน่าจะเป็นที่ตัวอย่างผลบวกแบบสุ่ม (เป็นมิตรกับสิ่งแวดล้อม) จะอยู่ทางด้านขวาของตัวอย่างผลลบแบบสุ่ม (สีต่างๆแดง)
AUC มีแน่นอนค่าตั้งแต่ 0 ถึง 1 โมเดลที่มีแน่นอนการคาดคะเนผิด 100% จะมี AUC เทียบเท่า 0.0; ผู้ที่คาดการณ์อย่างแม่นยำ 100% จะมี AUC เทียบเท่า 1.0
AUC เป็นที่ต้องการด้วยเหตุผลสองประการต่อไปนี้:
- AUC คือ สเกลไม่แตกต่าง. โดยจะวัดว่าการคาดการณ์มีแน่นอนการจัดอันดับดีเพียงใด เลิกกันจะเป็นค่าสัมบูรณ์
- AUC คือ การจำแนกเกณฑ์ไม่แน่นอนแตกต่าง. โดยจะวัดคุณภาพของการคาดคะเนของแบบจำลองโดยไม่คำนึงว่าเกณฑ์การจำแนกประเภทใดที่เลือกไว้
ได้กล่าวว่า เหตุผลทั้งสองนี้มาพร้อมกับคำเตือน ซึ่งอาจจำกัดประโยชน์ของ AUC ในกรณีการใช้งานบางอย่าง:
- ความแปรปรวนของมาตราส่วนไม่เป็นที่ต้องการเสมอไป ตัวอย่างเช่น บางครั้งเราต้องการผลลัพธ์ของความน่าจะเป็นที่ได้รับการปรับเทียบอย่างดี และ AUC จะไม่บอกเราเกี่ยวกับสิ่งนั้น
- ความไม่แปรผันของเกณฑ์การจำแนกประเภทไม่เป็นที่พึงปรารถนาเสมอไป ในกรณีที่ต้นทุนของผลลบปลอมเทียบกับผลบวกลวงมีความแตกต่างกันมาก อาจเป็นเรื่องสำคัญที่จะต้องลดข้อผิดพลาดในการจัดประเภทประเภทใดประเภทหนึ่งให้เหลือน้อยที่สุด ตัวอย่างเช่น เมื่อทำการตรวจจับสแปมอีเมล คุณอาจต้องการจัดลำดับความสำคัญของการลดผลบวกปลอมให้เหลือน้อยที่สุด (ยังว่าจะส่งผลให้ผลลบปลอมเพิ่มขึ้นอย่างมากก็ขึ้นอยู่กับ) AUC ไม่แน่นอนแน่นอนเมตริกที่ปฏิบัติสำหรับการเพิ่มประสิทธิภาพประเภทนี้
ข้อกำหนดที่จำเป็น