ROC Curve และ AUC | การเรียนรู้ของเครื่อง | นักพัฒนา Google

ROC Curve และ AUC | การเรียนรู้ของเครื่อง | นักพัฒนา Google

เวลาโดยประมาณ: 8 นาที

ROC Curve และ AUC | การเรียนรู้ของเครื่อง | นักพัฒนา Google
ROC Curve และ AUC | การเรียนรู้ของเครื่อง | นักพัฒนา Google

อาร์ค ROC

หนึ่ง อาร์ค ROC (เส้นโค้งลักษณะการทำงานของเครื่องรับ) เป็นกราฟที่แสดงประสิทธิภาพของแบบจำลองการจำแนกประเภทที่ข้อกำหนดการจำแนกทั้งหมด เส้นโค้งนี้พล็อตพารามิเตอร์สองตัว:

  • อัตราบวกที่เกือบ
  • อัตราบวกเท็จ

อัตราบวกที่เกือบ (ทีพีอาร์) เป็นคำพ้องความหมายสำหรับการเรียกคืน ดังนั้นจึงถูกกำหนดดังนี้:

$$TPR = \frac{TP} {TP + FN}$$

อัตราบวกเท็จ (เอฟ.พี.อาร์) เช็ดกกำหนดดังนี้:

$$FPR = \frac{FP} {FP + TN}$$

อาร์ค ROC วางแผน TPR ใส่ียบกับ FPR ที่ข้อกำหนดการจำแนกประเภทที่แตกต่างกัน การลดเกณฑ์การจัดหมวดหมู่จะจัดประเภทรายการที่เป็นบวกมากขึ้น ซึ่งจะเป็นการเพิ่มทั้งผลบวกปลอมและผลบวกจริง รูปต่อไปนี้แสดงเส้นโค้ง ROC ปกติ

รูปที่ 4 ค่าธรรมเนียม TP ใส่ียบกับ FP ที่ข้อกำหนดการจำแนกประเภทต่างๆ

ในการคำนวณคะแนนในเส้นโค้ง ROC เราสามารถประเมินแบบจำลองการถดถอยโลจิความตระหนักกได้หลายครั้งด้วยเกณฑ์การจำแนกประเภทที่แตกต่างกัน อย่างไรก็ตามสิ่งนี้จะไม่เชื่อถือได้ มีความสุขที่มีแน่นอนอัลกอริธึมการเรียงลำดับที่มีแน่นอนประสิทธิภาพซึ่งสามารถให้ข้อมูลนี้แก่เราได้ ซึ่งเรียกว่า AUC

AUC: สถานที่ใต้อาร์ค ROC

AUC: พื้นที่ใต้เส้นโค้ง ROC
AUC: สถานที่ใต้อาร์ค ROC

อคส ย่อมาจาก “สถานที่ใต้อาร์ค ROC” นั่นคือ AUC วัดพื้นที่สองมิติทั้งหมดใต้อาร์ค ROC อย่างแน่นอน (คิดจากแคลคูลัสเชิงปริพันธ์) มาจาก (0,0) ถึง (1,1)

รูปที่ 5 AUC (สถานที่ใต้อาร์ค ROC)

AUC เสนอการวัดประสิทธิภาพโดยรวมของเกณฑ์การจัดประเภทที่{เป็นไปได้}อย่างแน่นอน ขั้นตอนหนึ่งในการตีความ AUC คือความน่าจะเป็นที่แบบจำลองจัดอันดับตัวอย่างเชิงบวกแบบสุ่มให้สูงกว่าตัวอย่างเชิงลบแบบสุ่ม ตัวอย่างเช่น จากตัวอย่างต่อไปนี้ซึ่งจัดเรียงจากซ้ายไปขวาในการทำนายการถดถอยโลจิความตระหนักกจากน้อยไปหามาก:

รูปที่ 6 การคาดคะเนเรียงลำดับจากน้อยไปหามากของคะแนนการถดถอยโลจิความตระหนักก

AUC แสดงถึงความน่าจะเป็นที่ตัวอย่างผลบวกแบบสุ่ม (เป็นมิตรกับสิ่งแวดล้อม) จะอยู่ทางด้านขวาของตัวอย่างผลลบแบบสุ่ม (สีต่างๆแดง)

AUC มีแน่นอนค่าตั้งแต่ 0 ถึง 1 โมเดลที่มีแน่นอนการคาดคะเนผิด 100% จะมี AUC เทียบเท่า 0.0; ผู้ที่คาดการณ์อย่างแม่นยำ 100% จะมี AUC เทียบเท่า 1.0

AUC เป็นที่ต้องการด้วยเหตุผลสองประการต่อไปนี้:

  • AUC คือ สเกลไม่แตกต่าง. โดยจะวัดว่าการคาดการณ์มีแน่นอนการจัดอันดับดีเพียงใด เลิกกันจะเป็นค่าสัมบูรณ์
  • AUC คือ การจำแนกเกณฑ์ไม่แน่นอนแตกต่าง. โดยจะวัดคุณภาพของการคาดคะเนของแบบจำลองโดยไม่คำนึงว่าเกณฑ์การจำแนกประเภทใดที่เลือกไว้

ได้กล่าวว่า เหตุผลทั้งสองนี้มาพร้อมกับคำเตือน ซึ่งอาจจำกัดประโยชน์ของ AUC ในกรณีการใช้งานบางอย่าง:

  • ความแปรปรวนของมาตราส่วนไม่เป็นที่ต้องการเสมอไป ตัวอย่างเช่น บางครั้งเราต้องการผลลัพธ์ของความน่าจะเป็นที่ได้รับการปรับเทียบอย่างดี และ AUC จะไม่บอกเราเกี่ยวกับสิ่งนั้น
  • ความไม่แปรผันของเกณฑ์การจำแนกประเภทไม่เป็นที่พึงปรารถนาเสมอไป ในกรณีที่ต้นทุนของผลลบปลอมเทียบกับผลบวกลวงมีความแตกต่างกันมาก อาจเป็นเรื่องสำคัญที่จะต้องลดข้อผิดพลาดในการจัดประเภทประเภทใดประเภทหนึ่งให้เหลือน้อยที่สุด ตัวอย่างเช่น เมื่อทำการตรวจจับสแปมอีเมล คุณอาจต้องการจัดลำดับความสำคัญของการลดผลบวกปลอมให้เหลือน้อยที่สุด (ยังว่าจะส่งผลให้ผลลบปลอมเพิ่มขึ้นอย่างมากก็ขึ้นอยู่กับ) AUC ไม่แน่นอนแน่นอนเมตริกที่ปฏิบัติสำหรับการเพิ่มประสิทธิภาพประเภทนี้

ข้อกำหนดที่จำเป็น