Faith Evans feat. Stevie J – "A Minute" [Official Music Video]
สารบัญ:
เนื่องจากซูเปอร์คอมพิวเตอร์มีพลังมากขึ้น นักวิจัยบางคนในการประชุม SC12 เมื่อเร็ว ๆ นี้ที่ Salt Lake City, Utah ได้เสนอแนวทางแก้ปัญหาที่อาจเกิดขึ้นได้
ระบบคอมพิวเตอร์ประสิทธิภาพสูงในปัจจุบัน (HPC) สามารถมี 100,000 โหนดหรือมากกว่าได้ด้วยแต่ละโหนดที่สร้างขึ้นจากหลาย ๆ ส่วนประกอบของหน่วยความจำโปรเซสเซอร์รถโดยสารและวงจรไฟฟ้าอื่น ๆ สถิติการพูดองค์ประกอบทั้งหมดเหล่านี้จะล้มเหลวในบางช่วงเวลาและพวกเขาก็หยุดการดำเนินงานเมื่อทำเช่นนั้น David Fiala นักศึกษาปริญญาเอกจาก North Carolina State University กล่าวในระหว่างการพูดคุยกับ SC12
ปัญหาคือไม่ได้ ใหม่แน่นอน เมื่อลีนุกซ์ของ ASCI (Accelerated Strategic Computing Initiative) แห่งลอว์เรนซ์ลิเวอร์โมร์ (ASCI) จำนวน 600 โหนดได้ออนไลน์ในปีพ. ศ. 2544 มีเวลาเฉลี่ยระหว่างความล้มเหลว (MTBF) เพียง 5 ชั่วโมงเท่านั้นขอบคุณในความล้มเหลวของคอมโพเนนต์ ความพยายามปรับปรุงภายหลังได้ปรับปรุง MTBF ของ ASCI White ถึง 55 ชั่วโมง Fiala กล่าวว่า
แต่เนื่องจากจำนวนของโหนด supercomputer เติบโตขึ้นปัญหาจะเป็นอย่างไร Fiala กล่าวว่า "สิ่งที่ต้องทำเกี่ยวกับเรื่องนี้จะแย่ลงเมื่อเราย้ายไปสู่การขู่เข็ญ" Fiala กล่าวว่าหมายถึงว่าซูเปอร์คอมพิวเตอร์แห่งทศวรรษหน้าคาดว่าจะมีพลังทางคอมพิวเตอร์ถึงสิบเท่าที่รุ่นปัจจุบันทำอย่างไร
เทคนิคของวันนี้ สำหรับการจัดการกับความล้มเหลวของระบบอาจไม่ดีมาก Fiala กล่าวว่า เขาอ้างถึงจุดตรวจสอบซึ่งโปรแกรมทำงานจะถูกระงับชั่วคราวและสถานะจะถูกบันทึกลงในดิสก์ ระบบจะสามารถเริ่มต้นงานใหม่จากจุดตรวจล่าสุดได้
NCSUDavid Fiala ปัญหาเกี่ยวกับ checkpointing ตาม Fiala คือจำนวนของโหนดที่เพิ่มขึ้นจำนวนเงินของระบบเหนือศีรษะ จำเป็นต้องทำ checkpointing เติบโตขึ้นและเติบโตขึ้นด้วยอัตราการแทน ตัวอย่างเช่นบนซุปเปอร์คอมพิวเตอร์ที่มีโหนด 100,000 โหนดมีเพียงประมาณ 35 เปอร์เซ็นต์ของกิจกรรมเท่านั้นที่จะมีส่วนร่วมในการดำเนินงาน ส่วนที่เหลือจะถูกนำมาใช้โดย checkpointing และควรมีการดำเนินการกู้คืนความล้มเหลวของระบบโดยประมาณ Fiala
เนื่องจากฮาร์ดแวร์เพิ่มเติมทั้งหมดที่จำเป็นสำหรับระบบ exascale ซึ่งสามารถสร้างได้จากคอมโพเนนต์มากกว่าหนึ่งล้านเครื่องความน่าเชื่อถือของระบบจะมี จะเพิ่มขึ้น 100 เท่าเพื่อให้ MTBF เดียวกันกับที่บรรดา supercomputers ปัจจุบันชื่นชอบ Fiala กล่าวว่า Fiala นำเสนอเทคโนโลยีที่เขาและเพื่อนนักวิจัยพัฒนาขึ้นซึ่งอาจช่วยปรับปรุงความเชื่อถือได้. เทคโนโลยีนี้จะกล่าวถึงปัญหาของการทุจริตข้อมูลแบบเงียบเมื่อระบบตรวจพบข้อผิดพลาดในการเขียนข้อมูลลงดิสก์
โดยทั่วไปวิธีการของนักวิจัยประกอบด้วยการเรียกใช้สำเนาหลายชุดหรือ "โคลน" ของโปรแกรมพร้อม ๆ กันและจากนั้นเปรียบเทียบคำตอบ ซอฟต์แวร์ที่เรียกว่า RedMPI จะทำงานร่วมกับ Message Passing Interface (MPI) ซึ่งเป็นไลบรารีสำหรับการแยกแอพพลิเคชันที่ใช้งานข้ามเซิร์ฟเวอร์หลาย ๆ เครื่องเพื่อให้ส่วนต่างๆของโปรแกรมสามารถทำงานแบบขนาน
RedceptI intercepts และคัดลอกทุกๆ MPI ข้อความที่โปรแกรมส่งและส่งสำเนาข้อความไปยังโคลน (หรือโคลน) ของโปรแกรม ถ้าตัวเลขที่แตกต่างกันสามารถคำนวณคำตอบที่ต่างกันได้ตัวเลขสามารถคำนวณใหม่ได้ทันทีซึ่งจะช่วยประหยัดเวลาและทรัพยากรจากการรันโปรแกรมทั้งหมดอีกครั้ง
"การใช้ความซ้ำซ้อนไม่แพงอาจเป็นจำนวนที่สูงขึ้น ที่จำเป็น แต่หลีกเลี่ยงความจำเป็นในการเขียนใหม่ด้วยรีสตาร์ทจุดตรวจสอบ "Fiala กล่าวว่า "ทางเลือกคือแน่นอนเพียงแค่เรียกใช้งานใหม่จนกว่าคุณจะคิดว่าคุณมีคำตอบที่ถูกต้อง"
Fiala แนะนำให้ใช้สำเนาสำรองของแต่ละโปรแกรมสองชุดสำหรับความซ้ำซ้อนสามครั้ง แม้ว่าการเรียกใช้สำเนาหลาย ๆ โปรแกรมในตอนแรกจะใช้ทรัพยากรมากขึ้น แต่เมื่อเวลาผ่านไปอาจเป็นไปได้อย่างมีประสิทธิภาพเนื่องจากข้อเท็จจริงที่ว่าโปรแกรมไม่จำเป็นต้องถูกเรียกใช้อีกต่อไปเพื่อตรวจสอบคำตอบ นอกจากนี้อาจไม่จำเป็นต้องใช้ checkpointing เมื่อมีการเรียกใช้สำเนาหลายชุดซึ่งจะช่วยประหยัดทรัพยากรของระบบ
UCSCEthan Miller
"ผมคิดว่าแนวคิดในการทำซ้ำซ้อนเป็นความคิดที่ยอดเยี่ยมจริงๆ [สำหรับ] การคำนวณที่มีขนาดใหญ่มากซึ่งเกี่ยวข้องกับโหนดนับร้อยนับพันก็จะมีโอกาสเกิดข้อผิดพลาด" อีธานมิลเลอร์กล่าว ศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์แห่งมหาวิทยาลัยแคลิฟอร์เนียซานตาครูซผู้เข้าร่วมงานนำเสนอ แต่เขากล่าวว่าแนวทางนี้อาจไม่เหมาะที่จะให้ปริมาณการรับส่งข้อมูลเครือข่ายที่อาจเกิดซ้ำซ้อนดังกล่าว เขาแนะนำให้ใช้งานแอพพลิเคชันทั้งหมดในชุดโหนดเดียวกันซึ่งอาจลดการจราจรภายในขบวนได้
ในงานนำเสนออื่น Ana Gainaru นักศึกษาปริญญาเอกจาก University of Illinois ที่ Urbana-Champaign นำเสนอเทคนิคการวิเคราะห์ log ไฟล์ที่จะคาดการณ์เมื่อความล้มเหลวของระบบจะเกิดขึ้นงานนี้รวมการวิเคราะห์สัญญาณกับการทำเหมืองข้อมูล การวิเคราะห์สัญญาณใช้เพื่ออธิบายลักษณะการทำงานปกติดังนั้นเมื่อความล้มเหลวเกิดขึ้นก็สามารถมองเห็นได้ง่าย การทำเหมืองข้อมูลจะค้นหาความสัมพันธ์ระหว่างความล้มเหลวที่รายงานแยกกัน นักวิจัยคนอื่น ๆ แสดงให้เห็นว่าความล้มเหลวหลายครั้งมีความสัมพันธ์กันในบางครั้งเนื่องจากความล้มเหลวของเทคโนโลยีอาจส่งผลกระทบต่อประสิทธิภาพการทำงานของคนอื่น Gainaru กล่าว ตัวอย่างเช่นเมื่อการ์ดเครือข่ายล้มเหลวจะทำให้กระบวนการของระบบอื่น ๆ พึ่งพาการติดต่อสื่อสารกับเครือข่ายได้เร็ว ๆ นี้นักวิจัยพบว่า 70% ของความผิดพลาดที่เชื่อมโยงกันทำให้เกิดโอกาสที่จะเกิดขึ้นได้มากกว่า 10 วินาที กล่าวได้ว่าเมื่อมีการตรวจพบสัญญาณแรกของความล้มเหลวระบบอาจมีเวลาถึง 10 วินาทีในการบันทึกงานหรือย้ายงานไปยังโหนดอื่นก่อนเกิดความล้มเหลวที่สำคัญยิ่งขึ้น "การทำนายความล้มเหลวสามารถรวมเข้ากับเทคนิคการทนต่อข้อผิดพลาดอื่น ๆ ได้" Gainaru กล่าว "Joab Jackson ได้รวบรวมข่าวซอฟต์แวร์สำหรับองค์กรและข่าวเทคโนโลยีทั่วไปสำหรับ
ข่าวบริการ IDG
ติดตาม Joab ทางทวิตเตอร์ที่ @Joab_Jackson ที่อยู่อีเมลของ Joab คือ [email protected]