Apache PredictionIO: การเรียนรู้ของเครื่องที่ง่ายขึ้นด้วย Spark

Apache Foundation ได้เพิ่มโปรเจ็กต์แมชชีนเลิร์นนิงใหม่ลงในบัญชีรายชื่อ Apache PredictionIO ซึ่งเป็นโครงการโอเพ่นซอร์สของโครงการที่พัฒนาโดย บริษัท ในเครือของ Salesforce

PredictionIO ทำอะไรเพื่อการเรียนรู้ของเครื่องและ Spark

Apache PredictionIO สร้างขึ้นบน Spark และ Hadoop และให้บริการการคาดการณ์ที่ขับเคลื่อนด้วย Spark จากข้อมูลโดยใช้เทมเพลตที่ปรับแต่งได้สำหรับงานทั่วไป แอปจะส่งข้อมูลไปยังเซิร์ฟเวอร์เหตุการณ์ของ PredictionIO เพื่อฝึกโมเดลจากนั้นสอบถามเอ็นจิ้นสำหรับการคาดคะเนตามโมเดล

Spark, MLlib, HBase, Spray และ Elasticsearch ทั้งหมดมาพร้อมกับ PredictionIO และ Apache มี SDK ที่รองรับสำหรับการทำงานใน Java, PHP, Python และ Ruby ข้อมูลสามารถจัดเก็บไว้ในแบ็คเอนด์ที่หลากหลาย: JDBC, Elasticsearch, HBase, HDFS และระบบไฟล์ภายในได้รับการสนับสนุนทั้งหมดนอกกรอบ Back end สามารถเสียบได้ดังนั้นนักพัฒนาจึงสามารถสร้างตัวเชื่อมต่อส่วนหลังที่กำหนดเองได้

เทมเพลต PredictionIO ช่วยให้การคาดการณ์จาก Spark ง่ายขึ้นได้อย่างไร

ข้อได้เปรียบที่โดดเด่นที่สุดของ PredictionIO คือระบบแม่แบบสำหรับการสร้างกลไกการเรียนรู้ของเครื่อง เทมเพลตช่วยลดการยกของหนักที่จำเป็นในการตั้งค่าระบบเพื่อรองรับการคาดการณ์บางประเภท พวกเขาอธิบายถึงการอ้างอิงของบุคคลที่สามที่อาจจำเป็นสำหรับงานเช่นเฟรมเวิร์กแอปการเรียนรู้ของเครื่อง Apache Mahout

เทมเพลตที่มีอยู่บางส่วน ได้แก่ :

  • เครื่องมือแนะนำสากล
  • การจัดประเภทข้อความ
  • การวิเคราะห์การอยู่รอด (สำหรับการทำนายเวลาระหว่างความล้มเหลว)
  • การติดป้ายชื่อหัวข้อโดยใช้ Wikipedia เป็นฐานความรู้
  • การวิเคราะห์ความคล้ายคลึงกัน

เทมเพลตบางรายการยังรวมเข้ากับผลิตภัณฑ์แมชชีนเลิร์นนิงอื่น ๆ ตัวอย่างเช่นเทมเพลตการทำนายสองแบบที่อยู่ในแกลเลอรีของ PredictionIO สำหรับการตรวจจับอัตราการปั่นและคำแนะนำทั่วไปให้ใช้การปรับปรุง Sparkling Water ของ H2O.ai สำหรับ Spark

PredictionIO ยังสามารถประเมินเอ็นจิ้นการคาดการณ์โดยอัตโนมัติเพื่อกำหนดไฮเปอร์พารามิเตอร์ที่ดีที่สุดที่จะใช้กับมัน นักพัฒนาจำเป็นต้องเลือกและตั้งค่าเมตริกสำหรับวิธีการดำเนินการนี้ แต่โดยทั่วไปแล้วจะมีงานที่เกี่ยวข้องน้อยกว่าในการปรับแต่งพารามิเตอร์ด้วยมือ

เมื่อทำงานเป็นบริการ PredictionIO สามารถยอมรับการคาดการณ์แบบเดี่ยวหรือแบบกลุ่ม การคาดการณ์แบบเป็นกลุ่มจะขนานกันโดยอัตโนมัติในคลัสเตอร์ Spark ตราบใดที่อัลกอริทึมที่ใช้ในงานการทำนายแบบเป็นกลุ่มสามารถต่ออนุกรมกันได้ทั้งหมด (อัลกอริทึมเริ่มต้นของ PredictionIO คือ)

จะดาวน์โหลด PredictionIO ได้ที่ไหน

ซอร์สโค้ดของ PredictionIO มีอยู่ใน GitHub เพื่อความสะดวกมีอิมเมจ Docker ที่หลากหลายรวมถึงชุดสร้าง Heroku