Microsoft นำ. NET dev มาสู่ Apache Spark

Microsoft และ. NET Foundation ได้เปิดตัว. NET เวอร์ชัน 1.0 สำหรับ Apache Spark ซึ่งเป็นแพ็กเกจโอเพนซอร์สที่นำการพัฒนา. NET ไปสู่เครื่องมือวิเคราะห์ Spark สำหรับการประมวลผลข้อมูลขนาดใหญ่

ประกาศเมื่อวันที่ 27 ตุลาคม. NET สำหรับ Apache Spark 1.0 รองรับแอปพลิเคชัน. NET ที่กำหนดเป้าหมาย. NET Standard 2.0 หรือใหม่กว่า ผู้ใช้สามารถเข้าถึง Spark DataFrame APIs เขียน Spark SQL และสร้างฟังก์ชันที่ผู้ใช้กำหนดเอง UDFs)

.NET สำหรับ Apache Spark framework มีอยู่ในหน้า GitHub ของ. NET Foundation หรือจาก NuGet ความสามารถอื่น ๆ ของ. NET สำหรับ Apache Spark 1.0 ได้แก่ :

  • เฟรมเวิร์กส่วนขยาย API เพื่อเพิ่มการสนับสนุนสำหรับไลบรารี Spark เพิ่มเติมรวมถึง Linux Foundation Delta Lake, Microsoft OSS Hyperspace, ML.NET และ Apache Spark MLlib
  • .NET สำหรับโปรแกรม Apache Spark ที่ไม่ใช่ UDF แสดงความเร็วเท่ากับแอปพลิเคชันที่ไม่ใช่ UDF ที่ใช้ Scala และ PySpark หากแอปพลิเคชันมี UDFs โปรแกรม. NET สำหรับ Apache Spark อย่างน้อยก็เร็วพอ ๆ กับโปรแกรม PySpark หรืออาจเร็วกว่า
  • .NET สำหรับ Apache Spark ถูกสร้างขึ้นใน Azure Synapse และ Azure HDInsight นอกจากนี้ยังสามารถใช้ในข้อเสนอคลาวด์อื่น ๆ ของ Apache Spark รวมถึง Azure Databricks

โครงการสาธารณะรุ่นแรกได้รับการประกาศในเดือนเมษายน 2019 การขับเคลื่อนการพัฒนา. NET สำหรับ Apache Spark ทำให้ความต้องการเพิ่มขึ้นสำหรับวิธีที่ง่ายขึ้นในการสร้างแอปพลิเคชันข้อมูลขนาดใหญ่แทนที่จะต้องเรียนรู้ Scala หรือ Python โครงการนี้ดำเนินการภายใต้. NET Foundation และได้รับการยื่นเป็นข้อเสนอการปรับปรุงโครงการ Spark เพื่อให้ได้รับการพิจารณาเพื่อรวมไว้ในโครงการ Apache Spark โดยตรง

เมื่อมองไปข้างหน้า Microsoft กำลังจัดการกับอุปสรรคต่างๆรวมถึงการตั้งค่าข้อกำหนดเบื้องต้นและการอ้างอิงและการค้นหาเอกสารที่มีคุณภาพพร้อมตัวอย่างเช่นอิมเมจ Docker ที่ "พร้อมใช้งาน" จากชุมชนและการอัปเดตเอกสาร. NET สำหรับ Apache Spark ลำดับความสำคัญอีกประการหนึ่งคือการสนับสนุนตัวเลือกการปรับใช้รวมถึงการรวมกับ CI / CD devops pipeline และการเผยแพร่งานโดยตรงจาก Visual Studio