วิธีตรวจสอบข้อมูลการวิเคราะห์และการแสดงข้อมูล

แอปพลิเคชันการทดสอบเป็นระเบียบวินัยที่สมบูรณ์พร้อมด้วยเครื่องมือที่ช่วยให้ทีมประกันคุณภาพพัฒนาและทำการทดสอบการทำงานโดยอัตโนมัติเรียกใช้การทดสอบโหลดและประสิทธิภาพดำเนินการวิเคราะห์โค้ดแบบคงที่ห่อ API ด้วยการทดสอบหน่วยและตรวจสอบความถูกต้องของแอปพลิเคชันจากปัญหาด้านความปลอดภัยที่ทราบ ทีมที่ฝึก devops สามารถใช้การทดสอบแบบต่อเนื่องโดยรวมการทดสอบอัตโนมัติทั้งหมดหรือบางส่วนในท่อ CI / CD และใช้ผลลัพธ์เพื่อพิจารณาว่าควรส่งบิลด์ไปยังสภาพแวดล้อมเป้าหมายหรือไม่

แต่ความสามารถในการทดสอบทั้งหมดนี้สามารถเพิกเฉยต่อชุดการทดสอบที่สำคัญชุดหนึ่งซึ่งมีความสำคัญอย่างยิ่งต่อการประมวลผลแอปพลิเคชันหรือการนำเสนอข้อมูลการวิเคราะห์หรือการแสดงข้อมูล

ข้อมูลถูกต้องและการวิเคราะห์ถูกต้องหรือไม่ การแสดงภาพข้อมูลแสดงผลลัพธ์ที่เหมาะสมกับผู้เชี่ยวชาญเรื่องหรือไม่ นอกจากนี้ในขณะที่ทีมทำการปรับปรุงท่อส่งข้อมูลและฐานข้อมูลพวกเขาจะแน่ใจได้อย่างไรว่าการเปลี่ยนแปลงจะไม่เป็นอันตรายต่อแอปพลิเคชันดาวน์สตรีมหรือแดชบอร์ด

จากประสบการณ์ของฉันในการพัฒนาแอปพลิเคชันข้อมูลและการวิเคราะห์ที่หลากหลายการทดสอบและการตรวจสอบความถูกต้องประเภทนี้มักจะเป็นความคิดที่สองเมื่อเทียบกับการทดสอบหน่วยการทำงานประสิทธิภาพและความปลอดภัย นอกจากนี้ยังเป็นชุดเกณฑ์การทดสอบที่ยากขึ้นด้วยเหตุผลหลายประการ:

  • การตรวจสอบความถูกต้องของข้อมูลและการวิเคราะห์เป็นเรื่องยากสำหรับนักพัฒนาผู้ทดสอบและนักวิทยาศาสตร์ข้อมูลที่มักจะไม่ใช่ผู้เชี่ยวชาญเฉพาะเรื่องโดยเฉพาะอย่างยิ่งวิธีใช้แดชบอร์ดและแอปพลิเคชันเพื่อพัฒนาข้อมูลเชิงลึกหรือกระตุ้นการตัดสินใจ
  • ข้อมูลโดยตัวมันเองไม่สมบูรณ์โดยมีปัญหาด้านคุณภาพของข้อมูลที่ทราบและมักไม่ทราบแน่ชัด
  • การพยายามจับกฎการตรวจสอบความถูกต้องไม่ใช่เรื่องสำคัญเพราะมักจะมีกฎทั่วไปที่ใช้กับข้อมูลส่วนใหญ่ตามด้วยกฎสำหรับค่าผิดปกติประเภทต่างๆ การพยายามจับภาพและเขียนโค้ดสำหรับกฎเหล่านี้อาจเป็นเรื่องยากและซับซ้อนสำหรับแอปพลิเคชันและการแสดงข้อมูลที่ประมวลผลชุดข้อมูลที่ซับซ้อนจำนวนมาก
  • องค์กรที่ขับเคลื่อนด้วยข้อมูลที่ใช้งานอยู่กำลังโหลดชุดข้อมูลใหม่และกำลังพัฒนาไปป์ไลน์ข้อมูลเพื่อปรับปรุงการวิเคราะห์และการตัดสินใจ
  • ระบบประมวลผลข้อมูลมักมีความซับซ้อนโดยมีเครื่องมือที่แตกต่างกันสำหรับการรวมการจัดการการประมวลผลการสร้างแบบจำลองและการส่งมอบผลลัพธ์

ทีมงานที่นำเสนอข้อมูลที่ไม่ถูกต้องหรือการวิเคราะห์ที่ไม่ถูกต้องต่อผู้มีส่วนได้ส่วนเสียมักจะเป็นการโทรปลุกครั้งแรกที่อาจต้องใช้แนวทางปฏิบัติและเครื่องมือเพื่อทดสอบวินิจฉัยและแก้ไขปัญหาข้อมูลในเชิงรุก

การทำความเข้าใจเชื้อสายของข้อมูลและคุณภาพของข้อมูล

ปัญหาข้อมูลได้รับการแก้ไขอย่างดีที่สุดจากแหล่งที่มาและผ่านการแปลงข้อมูลต่างๆที่ดำเนินการในการโหลดและประมวลผลข้อมูล หากข้อมูลต้นทางมีปัญหาด้านคุณภาพของข้อมูลใหม่หรือมีข้อบกพร่องที่เกิดขึ้นกับไปป์ไลน์ข้อมูลการระบุและแก้ไขปัญหาเหล่านี้ตั้งแต่เนิ่นๆในขั้นตอนการประมวลผลข้อมูลจะมีประสิทธิภาพมากกว่า

แนวทางปฏิบัติสองประการและเครื่องมือที่เกี่ยวข้องช่วยแก้ไขปัญหาเหล่านี้ ทั้งสองช่วยให้ทีมพัฒนาและข้อมูลสามารถระบุปัญหาข้อมูลก่อนที่จะไปถึงการแสดงข้อมูลและแอปพลิเคชันดาวน์สตรีม

แนวปฏิบัติแรกเกี่ยวข้องกับเครื่องมือคุณภาพข้อมูลซึ่งมักจะเป็นความสามารถเสริมในการแยกแปลงและโหลด (ETL) รวมทั้งเครื่องมือเตรียมข้อมูลบางอย่าง เครื่องมือคุณภาพข้อมูลตอบสนองวัตถุประสงค์หลายประการ แต่สิ่งหนึ่งที่ทำได้คือระบุและแก้ไขปัญหาข้อมูลที่ทราบแล้ว การแก้ไขบางอย่างสามารถทำได้โดยอัตโนมัติในขณะที่การแก้ไขอื่น ๆ สามารถถูกตั้งค่าสถานะเป็นข้อยกเว้นและส่งไปยังผู้ดูแลข้อมูลเพื่อแก้ไขด้วยตนเองหรือเพื่ออัปเดตกฎการล้าง

Informatica, Talend, IBM, Oracle, Microsoft และอื่น ๆ อีกมากมายนำเสนอเครื่องมือคุณภาพข้อมูลที่เชื่อมต่อกับแพลตฟอร์ม ETL ของตนในขณะที่เครื่องมือเตรียมข้อมูลจาก Tableau, Alteryx, Paxata, Trifacta และอื่น ๆ มีความสามารถด้านคุณภาพข้อมูล

แนวทางปฏิบัติประการที่สองคือเชื้อสายข้อมูล แม้ว่าคุณภาพของข้อมูลจะช่วยระบุปัญหาของข้อมูลได้ แต่สายข้อมูลคือชุดของแนวทางปฏิบัติและเครื่องมือที่ติดตามการเปลี่ยนแปลงข้อมูลและการนำไปใช้ ช่วยให้ผู้ใช้เข้าใจว่าในวงจรชีวิตของข้อมูลมีการนำการแปลงการคำนวณหรือการจัดการข้อมูลไปใช้ที่ใดในวงจรชีวิต เครื่องมือดาต้าไลน์รายงานและเอกสารประกอบสามารถใช้เพื่อติดตามย้อนกลับไปยังท่อส่งข้อมูลและช่วยระบุตำแหน่งที่ข้อมูลมีข้อบกพร่องหรือปัญหาอื่น ๆ

การใช้ชุดข้อมูลสีทองเพื่อตรวจสอบความถูกต้องของการแสดงข้อมูล

การวิเคราะห์แดชบอร์ดและการแสดงภาพข้อมูลไม่ทำงานบนแหล่งข้อมูลแบบคงที่ ข้อมูลมีการเปลี่ยนแปลงด้วยความเร็วบางอย่างและในขณะเดียวกันนักพัฒนาและนักวิทยาศาสตร์ข้อมูลอาจกำลังแก้ไขกระแสข้อมูลอัลกอริทึมและการแสดงข้อมูล เมื่อคุณกำลังดูแดชบอร์ดมันยากที่จะแยกว่าปัญหาข้อมูลที่ไม่คาดคิดเกิดจากการเปลี่ยนแปลงทางโปรแกรมหรือเกี่ยวข้องกับข้อมูลหรือการเปลี่ยนแปลงคุณภาพของข้อมูลหรือไม่

วิธีหนึ่งในการแยกการเปลี่ยนแปลงคือการแยกชุดข้อมูลสีทองที่รู้จักเพื่อช่วยตรวจสอบความถูกต้องของกระแสข้อมูลแอปพลิเคชันและการเปลี่ยนแปลงการแสดงข้อมูล การใช้ชุดข้อมูลทองคำทีมทดสอบสามารถกำหนดการทดสอบหน่วยการทำงานและประสิทธิภาพเพื่อตรวจสอบและเปรียบเทียบผลลัพธ์ ผู้ทดสอบสามารถเรียกใช้การทดสอบ A / B โดยที่ A คือผลลัพธ์ก่อนที่จะมีการเปลี่ยนแปลงการนำไปใช้งานและ B คือผลลัพธ์หลังจากทำการเปลี่ยนแปลง การทดสอบควรแสดงเฉพาะความแตกต่างของผลลัพธ์ในพื้นที่ที่คาดไว้ซึ่งกระแสข้อมูลแบบจำลองการวิเคราะห์ตรรกะทางธุรกิจหรือการแสดงภาพมีการเปลี่ยนแปลง

แม้ว่านี่จะเป็นแนวคิดที่ค่อนข้างเรียบง่าย แต่ก็ไม่สำคัญที่จะนำไปใช้

ขั้นแรกทีมต้องสร้างชุดข้อมูลทองคำและตัดสินใจว่าปริมาณและความหลากหลายของข้อมูลใดบ้างที่เป็นชุดตัวอย่างที่ครอบคลุมเพื่อทดสอบ นอกจากนี้ยังอาจต้องใช้ชุดข้อมูลหลายชุดเพื่อช่วยในการตรวจสอบกลุ่มข้อมูลเงื่อนไขขอบเขตหรือแบบจำลองการวิเคราะห์ที่แตกต่างกัน เครื่องมือหนึ่งที่สามารถช่วยทีมจัดการข้อมูลการทดสอบคือ Delphix สำหรับการจัดการข้อมูลทดสอบ ผู้ขายรายอื่นก็เสนอความสามารถนี้เช่นกัน

ประการที่สองเมื่อสร้างชุดข้อมูลสีทองแล้วทีมทดสอบอาจต้องการสภาพแวดล้อมหรือเครื่องมือเพิ่มเติมเพื่อเปลี่ยนแหล่งข้อมูลพื้นฐานในสภาพแวดล้อมของตน ตัวอย่างเช่นผู้ทดสอบอาจต้องการทดสอบกับชุดข้อมูลสีทองจากนั้นเรียกใช้ครั้งที่สองกับข้อมูลที่เป็นการจำลองข้อมูลการผลิต ทีมที่ทำงานในสภาพแวดล้อมระบบคลาวด์และการใช้เครื่องมือโครงสร้างพื้นฐานเช่น Puppet, Chef และ Ansible สามารถสร้างและฉีกสภาพแวดล้อมการทดสอบหลายรูปแบบเพื่อวัตถุประสงค์ที่แตกต่างกันเหล่านี้

ประการสุดท้ายทีมทดสอบจำเป็นต้องมีเครื่องมือเพื่อใช้การทดสอบ A / B ของข้อมูลและผลลัพธ์ หลายทีมที่ฉันรู้จักทำสิ่งนี้ด้วยตนเองโดยการเขียนแบบสอบถาม SQL จากนั้นเปรียบเทียบผลลัพธ์ หากชุดข้อมูลและการทดสอบเรียบง่ายแนวทางนี้อาจเพียงพอ แต่หากจำเป็นต้องทดสอบหลายจุดในโฟลว์ข้อมูลคุณอาจต้องใช้เครื่องมือเฉพาะเพื่อรวมการสืบค้นการทดสอบทำให้เป็นอัตโนมัติและใช้รายงานเพื่อตรวจสอบการเปลี่ยนแปลง เครื่องมือหนึ่ง QuerySurge ได้รับการออกแบบมาโดยเฉพาะสำหรับการใช้การทดสอบ A / B กับกระแสข้อมูลฐานข้อมูลและเครื่องมือทางธุรกิจบางอย่าง

ทำงานร่วมกับผู้เชี่ยวชาญด้านเนื้อหาอย่างมีประสิทธิภาพ

ในบางประเด็นคุณต้องมีส่วนร่วมกับผู้เชี่ยวชาญเฉพาะเรื่องเพื่อใช้การแสดงภาพข้อมูลใหม่และปรับปรุงและให้ข้อเสนอแนะ พวกเขาต้องช่วยตอบคำถามว่าการวิเคราะห์นั้นถูกต้องหรือไม่และมีประโยชน์ในการพัฒนาข้อมูลเชิงลึกหรือช่วยในการตัดสินใจโดยอาศัยข้อมูล

ปัญหาที่หลายทีมเผชิญคือการได้รับเวลาอย่างเพียงพอจากผู้เชี่ยวชาญเรื่องที่จะเข้าร่วมการทดสอบนี้ นี่อาจเป็นความท้าทายที่สำคัญเมื่อพยายามทดสอบและปรับใช้การเปลี่ยนแปลงบ่อยๆ

เพื่อใช้เวลาอย่างมีประสิทธิภาพขอแนะนำกิจกรรมสามอย่างแยกกัน:

  • ใช้คุณภาพของข้อมูลสายเลือดข้อมูลและการทดสอบ A / B ให้มากที่สุดเท่าที่จะเป็นไปได้บนชุดข้อมูลสีทอง ก่อนที่จะให้ผู้เชี่ยวชาญของหัวข้อเข้ามาเกี่ยวข้องให้ใช้ความพยายามอย่างสมเหตุสมผลเพื่อตรวจสอบว่าข้อมูลดิบและข้อมูลที่คำนวณนั้นถูกต้อง สิ่งนี้ต้องทำด้วยความมั่นใจเพื่อที่คุณจะได้อธิบายและอธิบายให้ผู้เชี่ยวชาญในเรื่องนั้น ๆ เข้าใจได้อย่างดีเยี่ยมว่าข้อมูลพื้นฐานการเปลี่ยนแปลงและการคำนวณนั้นมีความถูกต้องดังนั้นจึงมั่นใจได้ว่าพวกเขาไม่จำเป็นต้องเสียเวลามากในการทดสอบด้วยตนเอง
  • ออกแบบการแสดงภาพข้อมูลเพื่อช่วยผู้เชี่ยวชาญในการตรวจสอบและตรวจสอบข้อมูลและการวิเคราะห์ การแสดงภาพบางอย่างอาจเป็นผลลัพธ์จากการทดสอบ A / B ในขณะที่ภาพอื่น ๆ ควรเป็นการแสดงภาพที่เปิดเผยข้อมูลระดับต่ำ เมื่อใช้การเปลี่ยนแปลงข้อมูลอัลกอริทึมโมเดลหรือการแสดงภาพที่มีขนาดใหญ่ขึ้นมักจะช่วยให้มีการแสดงภาพข้อมูลการควบคุมคุณภาพเหล่านี้เพื่อช่วยให้ผู้เชี่ยวชาญในเรื่องดำเนินการตรวจสอบได้อย่างรวดเร็ว
  • คุณต้องการให้ผู้เชี่ยวชาญเฉพาะเรื่องทำการทดสอบการยอมรับของผู้ใช้ (UAT) ในแอปพลิเคชันขั้นสุดท้ายและการแสดงข้อมูล เมื่อถึงขั้นตอนนี้พวกเขาควรมั่นใจอย่างเต็มที่ว่าข้อมูลและการวิเคราะห์นั้นถูกต้อง

ขั้นตอนสุดท้ายนี้จำเป็นเพื่อตรวจสอบว่าการแสดงภาพมีประสิทธิภาพในการสำรวจข้อมูลและตอบคำถามหรือไม่: การแสดงภาพใช้งานง่ายหรือไม่ มีมิติข้อมูลที่ถูกต้องสำหรับการเจาะลึกข้อมูลหรือไม่ การแสดงภาพช่วยตอบคำถามที่ออกแบบมาเพื่อตอบได้สำเร็จหรือไม่

ณ จุดนี้ในกระบวนการคุณกำลังทดสอบประสบการณ์ของผู้ใช้และตรวจสอบให้แน่ใจว่าแดชบอร์ดและแอปพลิเคชันได้รับการปรับให้เหมาะสม ขั้นตอนที่สำคัญนี้สามารถทำได้อย่างมีประสิทธิภาพมากขึ้นเมื่อมีความเข้าใจและไว้วางใจในข้อมูลพื้นฐานและการวิเคราะห์