Apache Eagle จับตาดูการใช้ข้อมูลขนาดใหญ่

Apache Eagle ซึ่งพัฒนาขึ้นครั้งแรกที่ eBay จากนั้นบริจาคให้กับ Apache Software Foundation เติมช่องทางการรักษาความปลอดภัยข้อมูลขนาดใหญ่ที่ยังคงมีประชากรอยู่บ้างหากไม่เปลือย: จะช่วยขจัดปัญหาด้านความปลอดภัยและประสิทธิภาพที่เป็นไปได้ด้วยกรอบข้อมูลขนาดใหญ่

ในการทำเช่นนั้น Eagle ใช้ส่วนประกอบโอเพนซอร์สอื่น ๆ ของ Apache เช่น Kafka, Spark และ Storm เพื่อสร้างและวิเคราะห์โมเดลการเรียนรู้ของเครื่องจากข้อมูลพฤติกรรมของคลัสเตอร์ข้อมูลขนาดใหญ่

มองจากด้านใน

ข้อมูลสำหรับ Eagle อาจมาจากบันทึกกิจกรรมสำหรับแหล่งข้อมูลต่างๆ (HDFS, Hive, MapR FS, Cassandra) หรือจากเมตริกประสิทธิภาพที่เก็บเกี่ยวโดยตรงจากเฟรมเวิร์กเช่น Spark จากนั้นข้อมูลจะถูกส่งโดยเฟรมเวิร์กสตรีมมิ่ง Kafka ไปยังระบบตรวจจับแบบเรียลไทม์ที่สร้างขึ้นด้วย Apache Storm หรือในระบบการฝึกอบรมแบบจำลองที่สร้างขึ้นบน Apache Spark เดิมสำหรับสร้างการแจ้งเตือนและรายงานตามนโยบายที่มีอยู่ ส่วนหลังมีไว้สำหรับสร้างโมเดลการเรียนรู้ของเครื่องเพื่อขับเคลื่อนนโยบายใหม่ ๆ

การเน้นพฤติกรรมแบบเรียลไทม์นี้อยู่ในอันดับต้น ๆ ของ "คุณสมบัติหลัก" ในเอกสารสำหรับ Eagle ตามด้วย "scalability" "metadata driven" (หมายถึงการเปลี่ยนแปลงนโยบายจะทำให้ใช้งานได้โดยอัตโนมัติเมื่อมีการเปลี่ยนแปลงข้อมูลเมตา) และ "extensibility" สุดท้ายนี้หมายความว่าแหล่งข้อมูลระบบแจ้งเตือนและเอ็นจินนโยบายที่ Eagle ใช้นั้นมาจากปลั๊กอินและไม่ จำกัด เฉพาะสิ่งที่อยู่ในกล่อง

เนื่องจาก Eagle ถูกรวบรวมจากชิ้นส่วนที่มีอยู่ของโลก Hadoop จึงมีข้อดีสองประการทางทฤษฎี หนึ่งมีการประดิษฐ์ล้อใหม่น้อยกว่า สองผู้ที่มีประสบการณ์กับชิ้นส่วนที่เป็นปัญหาอยู่แล้วจะมีขาขึ้น

คนของฉันกำลังทำอะไรอยู่

นอกเหนือจากกรณีการใช้งานที่กล่าวถึงข้างต้นเช่นการวิเคราะห์ประสิทธิภาพของงานและการตรวจสอบพฤติกรรมที่ผิดปกติ Eagle ยังสามารถวิเคราะห์พฤติกรรมของผู้ใช้ สิ่งนี้ไม่ได้เกี่ยวกับการพูดวิเคราะห์ข้อมูลจากเว็บแอปพลิเคชันเพื่อเรียนรู้เกี่ยวกับผู้ใช้แอปสาธารณะ แต่เป็นผู้ใช้กรอบข้อมูลขนาดใหญ่เอง - คนที่สร้างและจัดการส่วนหลังของ Hadoop หรือ Spark มีตัวอย่างวิธีเรียกใช้การวิเคราะห์ดังกล่าวและสามารถปรับใช้ตามที่เป็นอยู่หรือแก้ไขได้

Eagle ยังช่วยให้สามารถจำแนกการเข้าถึงข้อมูลแอปพลิเคชันตามระดับความไว มีเพียงแอปพลิเคชัน HDFS, Hive และ HBase เท่านั้นที่สามารถใช้คุณลักษณะนี้ได้ในขณะนี้ แต่การโต้ตอบกับแอปพลิเคชันเหล่านี้เป็นแบบจำลองสำหรับวิธีการจำแนกแหล่งข้อมูลอื่น ๆ

ให้อยู่ภายใต้การควบคุม

เนื่องจากกรอบข้อมูลขนาดใหญ่เป็นการสร้างสรรค์ที่มีการเคลื่อนไหวอย่างรวดเร็วจึงเป็นการยากที่จะสร้างความปลอดภัยที่เชื่อถือได้รอบตัว สมมติฐานของ Eagle คือสามารถให้การวิเคราะห์ตามนโยบายและการแจ้งเตือนเป็นส่วนเสริมที่เป็นไปได้สำหรับโครงการอื่น ๆ เช่น Apache Ranger Ranger ให้การรับรองความถูกต้องและการควบคุมการเข้าถึงผ่าน Hadoop และเทคโนโลยีที่เกี่ยวข้อง Eagle ช่วยให้คุณทราบว่าผู้คนกำลังทำอะไรเมื่อได้รับอนุญาตให้เข้าไปข้างใน

คำถามที่ใหญ่ที่สุดที่อยู่เหนืออนาคตของ Eagle ใช่แม้ในช่วงแรก ๆ นี้คือระดับใดที่ผู้ขาย Hadoop จะนำไปใช้ในการกระจายสินค้าที่มีอยู่หรือใช้ข้อเสนอด้านความปลอดภัยของตนเอง ความปลอดภัยของข้อมูลและการกำกับดูแลเป็นหนึ่งในส่วนที่ขาดหายไปที่ข้อเสนอเชิงพาณิชย์สามารถแข่งขันได้