ยกตัวอย่าง การทดสอบกับผู้ใช้จริง

การทดสอบการใช้งานเป็นเทคนิคที่ใช้ในการออกแบบการโต้ตอบที่เน้นผู้ใช้เป็นศูนย์กลาง เพื่อประเมินผลิตภัณฑ์โดยการทดสอบกับผู้ใช้ สิ่งนี้ถือได้ว่าเป็นแนวทางปฏิบัติในการใช้งานที่ไม่สามารถถูกแทนที่ได้เนื่องจากจะให้ข้อมูลโดยตรงเกี่ยวกับวิธีที่ผู้ใช้จริงใช้ระบบ [1]เกี่ยวข้องกับความเข้าใจง่ายในการออกแบบของผลิตภัณฑ์มากกว่าและทดสอบกับผู้ใช้ที่ไม่เคยสัมผัสมาก่อน การทดสอบดังกล่าวเป็นสิ่งสำคัญยิ่งต่อความสำเร็จของผลิตภัณฑ์ขั้นสุดท้ายเนื่องจากแอปพลิเคชันที่ทำงานได้อย่างสมบูรณ์ซึ่งสร้างความสับสนในหมู่ผู้ใช้จะใช้เวลาไม่นาน [2]สิ่งนี้ตรงกันข้ามกับวิธีการตรวจสอบความสามารถในการใช้งานที่ผู้เชี่ยวชาญใช้วิธีการต่างๆในการประเมินอินเทอร์เฟซผู้ใช้โดยไม่เกี่ยวข้องกับผู้ใช้

สารบัญ Show

การทดสอบทางเดิน
การทดสอบการใช้งานระยะไกล
การตรวจสอบจากผู้เชี่ยวชาญ
การตรวจสอบโดยผู้เชี่ยวชาญโดยอัตโนมัติ
การทดสอบ A / B

การทดสอบการใช้งานมุ่งเน้นไปที่การวัดขีดความสามารถของผลิตภัณฑ์ที่มนุษย์สร้างขึ้นเพื่อให้เป็นไปตามวัตถุประสงค์ที่ตั้งไว้ ตัวอย่างผลิตภัณฑ์ที่มักได้รับประโยชน์จากการทดสอบการใช้งาน ได้แก่อาหารผลิตภัณฑ์สำหรับผู้บริโภคเว็บไซต์หรือเว็บแอปพลิเคชันอินเทอร์เฟซคอมพิวเตอร์เอกสารและอุปกรณ์ การทดสอบการใช้งานจะวัดความสามารถในการใช้งานหรือความสะดวกในการใช้งานของวัตถุเฉพาะหรือชุดของวัตถุในขณะที่การศึกษาปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์โดยทั่วไปพยายามกำหนดหลักการสากล

เพียงแค่รวบรวมความคิดเห็นเกี่ยวกับวัตถุหรือเอกสารคือการวิจัยตลาดหรือการวิจัยเชิงคุณภาพมากกว่าการทดสอบการใช้งาน การทดสอบการใช้งานมักจะเกี่ยวข้องกับการสังเกตอย่างเป็นระบบภายใต้เงื่อนไขที่ควบคุมเพื่อพิจารณาว่าผู้คนสามารถใช้ผลิตภัณฑ์ได้ดีเพียงใด [3]อย่างไรก็ตามมักใช้ทั้งการวิจัยเชิงคุณภาพและการทดสอบการใช้งานร่วมกันเพื่อทำความเข้าใจแรงจูงใจ / การรับรู้ของผู้ใช้ให้ดีขึ้นนอกเหนือจากการกระทำของพวกเขา

แทนที่จะแสดงให้ผู้ใช้เห็นแบบร่างคร่าวๆและถามว่า "คุณเข้าใจสิ่งนี้หรือไม่" การทดสอบการใช้งานจะเกี่ยวข้องกับการเฝ้าดูผู้คนที่พยายามใช้บางสิ่งตามวัตถุประสงค์ที่ตั้งใจไว้ ตัวอย่างเช่นเมื่อทดสอบคำแนะนำในการประกอบของเล่นผู้ทดสอบควรได้รับคำแนะนำและกล่องชิ้นส่วนและแทนที่จะขอให้แสดงความคิดเห็นเกี่ยวกับชิ้นส่วนและวัสดุควรขอให้รวมของเล่นเข้าด้วยกัน การใช้คำสั่งคุณภาพของภาพประกอบและการออกแบบของเล่นล้วนส่งผลต่อกระบวนการประกอบ

การตั้งค่าการทดสอบความสามารถในการใช้งานเกี่ยวข้องกับการสร้างสถานการณ์อย่างรอบคอบหรือสถานการณ์ที่เป็นจริงโดยบุคคลนั้นทำรายการงานโดยใช้ผลิตภัณฑ์ที่กำลังทดสอบในขณะที่ผู้สังเกตการณ์เฝ้าดูและจดบันทึก ( การตรวจสอบแบบไดนามิก ) นอกจากนี้ยังใช้เครื่องมือทดสอบอื่น ๆ อีกมากมายเช่นคำแนะนำแบบสคริปต์ต้นแบบกระดาษและแบบสอบถามก่อนและหลังการทดสอบเพื่อรวบรวมความคิดเห็นเกี่ยวกับผลิตภัณฑ์ที่กำลังทดสอบ (การตรวจสอบแบบคงที่ ) ตัวอย่างเช่นในการทดสอบฟังก์ชันการแนบของโปรแกรมอีเมลสถานการณ์จำลองจะอธิบายถึงสถานการณ์ที่บุคคลต้องส่งไฟล์แนบอีเมลและขอให้เขาทำงานนี้ จุดมุ่งหมายคือการสังเกตว่าผู้คนทำงานอย่างไรในลักษณะที่เป็นจริงเพื่อให้นักพัฒนาสามารถระบุประเด็นปัญหาและแก้ไขได้ เทคนิคที่นิยมใช้ในการรวบรวมข้อมูลในระหว่างการทดสอบการใช้งานรวมถึงคิดว่าโพรโทคอออกเสียงการเรียนรู้ร่วมค้นพบและตาติดตาม

การทดสอบทางเดิน

การทดสอบทางเดินในห้องโถงหรือที่เรียกว่าการใช้งานแบบกองโจรเป็นวิธีการทดสอบการใช้งานที่รวดเร็วและราคาถูกซึ่งผู้คนเช่นผู้ที่เดินผ่านไปมาในห้องโถงจะถูกขอให้ลองใช้ผลิตภัณฑ์หรือบริการ สิ่งนี้สามารถช่วยให้นักออกแบบระบุ "กำแพงอิฐ" ปัญหาร้ายแรงที่ผู้ใช้ไม่สามารถก้าวไปข้างหน้าได้ในช่วงแรกของการออกแบบใหม่ สามารถใช้ได้ทุกคนยกเว้นผู้ออกแบบโครงการและวิศวกร (พวกเขามักจะทำหน้าที่เป็น "ผู้ตรวจสอบผู้เชี่ยวชาญ" เนื่องจากอยู่ใกล้กับโครงการมากเกินไป)

การทดสอบการใช้งานระยะไกล

ในสถานการณ์ที่ผู้ประเมินความสามารถในการใช้งานนักพัฒนาและผู้ใช้ที่คาดหวังอยู่ในประเทศและเขตเวลาต่างๆการดำเนินการประเมินความสามารถในการใช้งานในห้องปฏิบัติการแบบเดิมจะสร้างความท้าทายทั้งจากมุมมองด้านต้นทุนและด้านลอจิสติกส์ ข้อกังวลเหล่านี้นำไปสู่การวิจัยเกี่ยวกับการประเมินการใช้งานระยะไกลโดยแยกผู้ใช้และผู้ประเมินออกจากพื้นที่และเวลา การทดสอบระยะไกลซึ่งอำนวยความสะดวกในการประเมินที่ทำในบริบทของงานและเทคโนโลยีอื่น ๆ ของผู้ใช้อาจเป็นแบบซิงโครนัสหรืออะซิงโครนัส อดีตเกี่ยวข้องกับการสื่อสารแบบตัวต่อตัวแบบเรียลไทม์ระหว่างผู้ประเมินและผู้ใช้ในขณะที่แบบหลังเกี่ยวข้องกับผู้ประเมินและผู้ใช้ที่ทำงานแยกกัน [4]มีเครื่องมือมากมายเพื่อตอบสนองความต้องการของทั้งสองวิธีนี้

วิธีการทดสอบความสามารถในการใช้งานแบบซิงโครนัสเกี่ยวข้องกับการประชุมทางวิดีโอหรือใช้เครื่องมือแชร์แอปพลิเคชันระยะไกลเช่น WebEx WebEx และ GoToMeeting เป็นเทคโนโลยีที่ใช้บ่อยที่สุดในการทดสอบการใช้งานระยะไกลแบบซิงโครนัส [5]อย่างไรก็ตามการทดสอบระยะไกลแบบซิงโครนัสอาจขาดความรวดเร็วและความรู้สึกของ "การแสดงตน" ที่ต้องการเพื่อสนับสนุนกระบวนการทดสอบร่วมกัน ยิ่งไปกว่านั้นการจัดการพลวัตระหว่างบุคคลข้ามอุปสรรคทางวัฒนธรรมและภาษาอาจต้องใช้แนวทางที่ละเอียดอ่อนต่อวัฒนธรรมที่เกี่ยวข้อง ข้อเสียอื่น ๆ ได้แก่ การควบคุมสภาพแวดล้อมการทดสอบลดลงรวมถึงการรบกวนและการหยุดชะงักที่เกิดขึ้นกับผู้เข้าร่วมในสภาพแวดล้อมดั้งเดิมของตน [6]หนึ่งในวิธีการใหม่ที่พัฒนาขึ้นสำหรับการทดสอบการใช้งานระยะไกลแบบซิงโครนัสคือการใช้โลกเสมือนจริง [7]

วิธีการแบบอะซิงโครนัสรวมถึงการรวบรวมสตรีมคลิกของผู้ใช้โดยอัตโนมัติบันทึกผู้ใช้ของเหตุการณ์ร้ายแรงที่เกิดขึ้นขณะโต้ตอบกับแอปพลิเคชันและข้อเสนอแนะส่วนตัวบนอินเทอร์เฟซโดยผู้ใช้ [8]เช่นเดียวกับการศึกษาในห้องปฏิบัติการการทดสอบความสามารถในการใช้งานระยะไกลแบบอะซิงโครนัสนั้นขึ้นอยู่กับงานและแพลตฟอร์มดังกล่าวช่วยให้นักวิจัยสามารถบันทึกจำนวนคลิกและเวลางานได้ ดังนั้นสำหรับ บริษัท ขนาดใหญ่หลายแห่งสิ่งนี้ช่วยให้นักวิจัยเข้าใจเจตนาของผู้เยี่ยมชมได้ดีขึ้นเมื่อเยี่ยมชมเว็บไซต์หรือไซต์บนอุปกรณ์เคลื่อนที่ นอกจากนี้การทดสอบผู้ใช้รูปแบบนี้ยังให้โอกาสในการแบ่งกลุ่มความคิดเห็นตามประเภทข้อมูลประชากรทัศนคติและพฤติกรรม การทดสอบจะดำเนินการในสภาพแวดล้อมของผู้ใช้เอง (แทนที่จะเป็นห้องปฏิบัติการ) เพื่อช่วยจำลองการทดสอบสถานการณ์ในชีวิตจริงเพิ่มเติม วิธีนี้ยังช่วยให้สามารถเรียกร้องข้อเสนอแนะจากผู้ใช้ในพื้นที่ห่างไกลได้อย่างรวดเร็วและลดค่าใช้จ่ายขององค์กร ในช่วงไม่กี่ปีที่ผ่านมาการทดสอบการใช้งานแบบอะซิงโครนัสได้กลายเป็นที่แพร่หลายและช่วยให้ผู้ทดสอบสามารถให้ข้อเสนอแนะในเวลาว่างและจากความสะดวกสบายในบ้านของพวกเขาเอง

การตรวจสอบจากผู้เชี่ยวชาญ

การตรวจสอบโดยผู้เชี่ยวชาญเป็นวิธีการทดสอบการใช้งานทั่วไปอีกวิธีหนึ่ง ตามชื่อที่แนะนำวิธีนี้อาศัยการนำผู้เชี่ยวชาญที่มีประสบการณ์ในสาขา (อาจมาจาก บริษัท ที่เชี่ยวชาญด้านการทดสอบการใช้งาน) เพื่อประเมินความสามารถในการใช้งานของผลิตภัณฑ์

การประเมินผลแบบฮิวริสติกหรือการตรวจสอบความสามารถในการใช้งานคือการประเมินอินเทอร์เฟซโดยผู้เชี่ยวชาญด้านปัจจัยมนุษย์หนึ่งคนขึ้นไป ผู้ประเมินจะวัดการใช้งานประสิทธิภาพและประสิทธิผลของอินเทอร์เฟซตามหลักการใช้งานเช่นฮิวริสติกการใช้งาน 10 ประการที่จาคอบนีลเส็นกำหนดไว้ในปี พ.ศ. 2537 [9]

การวิเคราะห์พฤติกรรมการใช้งานของ Nielsen ซึ่งมีการพัฒนาอย่างต่อเนื่องเพื่อตอบสนองต่อการวิจัยผู้ใช้และอุปกรณ์ใหม่ ๆ ได้แก่ :

การเปิดเผยสถานะของระบบ
จับคู่ระหว่างระบบและโลกแห่งความจริง
การควบคุมและเสรีภาพของผู้ใช้
ความสอดคล้องและมาตรฐาน
การป้องกันข้อผิดพลาด
การรับรู้มากกว่าการเรียกคืน
ความยืดหยุ่นและประสิทธิภาพในการใช้งาน
การออกแบบที่สวยงามและเรียบง่าย
ช่วยให้ผู้ใช้จดจำวินิจฉัยและกู้คืนจากข้อผิดพลาด
ความช่วยเหลือและเอกสาร

การตรวจสอบโดยผู้เชี่ยวชาญโดยอัตโนมัติ

เช่นเดียวกับบทวิจารณ์ของผู้เชี่ยวชาญบทวิจารณ์จากผู้เชี่ยวชาญอัตโนมัติให้การทดสอบการใช้งาน แต่ผ่านการใช้โปรแกรมที่กำหนดกฎเกณฑ์สำหรับการออกแบบและการวิเคราะห์พฤติกรรมที่ดี แม้ว่าการตรวจสอบอัตโนมัติอาจไม่ได้ให้รายละเอียดและข้อมูลเชิงลึกมากเท่ากับบทวิจารณ์จากผู้คน แต่ก็สามารถดำเนินการให้เสร็จสิ้นได้อย่างรวดเร็วและสม่ำเสมอ แนวคิดในการสร้างผู้ใช้ตัวแทนสำหรับการทดสอบการใช้งานเป็นแนวทางที่ท้าทายสำหรับชุมชนปัญญาประดิษฐ์

การทดสอบ A / B

ในการพัฒนาเว็บและการตลาดการทดสอบ A / B หรือการทดสอบแยกเป็นแนวทางทดลองในการออกแบบเว็บ (โดยเฉพาะการออกแบบประสบการณ์ของผู้ใช้) ซึ่งมีจุดมุ่งหมายเพื่อระบุการเปลี่ยนแปลงของหน้าเว็บที่เพิ่มหรือเพิ่มผลลัพธ์ที่น่าสนใจ (เช่นอัตราการคลิกผ่าน สำหรับโฆษณาแบนเนอร์) ตามความหมายของชื่อจะมีการเปรียบเทียบสองเวอร์ชัน (A และ B) ซึ่งเหมือนกันยกเว้นรูปแบบเดียวที่อาจส่งผลต่อพฤติกรรมของผู้ใช้ เวอร์ชัน A อาจเป็นเวอร์ชันที่ใช้ในปัจจุบันในขณะที่เวอร์ชัน B ได้รับการแก้ไขในบางประการ ตัวอย่างเช่นในเว็บไซต์อีคอมเมิร์ซโดยทั่วไปแล้วช่องทางการซื้อจะเป็นตัวเลือกที่ดีสำหรับการทดสอบ A / B เนื่องจากการปรับปรุงอัตราการออกจากร้านเพียงเล็กน้อยก็สามารถแสดงถึงยอดขายที่เพิ่มขึ้นอย่างมีนัยสำคัญ การปรับปรุงที่สำคัญสามารถมองเห็นได้ผ่านองค์ประกอบการทดสอบเช่นข้อความคัดลอกเลย์เอาต์รูปภาพและสี

การทดสอบหลายตัวแปรหรือการทดสอบที่เก็บข้อมูลคล้ายกับการทดสอบ A / B แต่จะทดสอบมากกว่าสองเวอร์ชันในเวลาเดียวกัน

ในช่วงต้นทศวรรษ 1990 Jakob Nielsenซึ่งเป็นนักวิจัยของSun Microsystems ในเวลานั้นได้นำแนวคิดเรื่องการใช้การทดสอบการใช้งานขนาดเล็กจำนวนมากโดยปกติจะมีผู้ทดสอบเพียงห้าคนในแต่ละขั้นตอนของกระบวนการพัฒนา ข้อโต้แย้งของเขาคือเมื่อพบว่ามีคนสองหรือสามคนสับสนกับหน้าแรกโดยสิ้นเชิงจะได้รับเพียงเล็กน้อยจากการเฝ้าดูผู้คนจำนวนมากที่ต้องทนทุกข์ทรมานจากการออกแบบที่มีข้อบกพร่องเดียวกัน "การทดสอบความสามารถในการใช้งานอย่างละเอียดเป็นการสิ้นเปลืองทรัพยากรผลลัพธ์ที่ดีที่สุดมาจากการทดสอบผู้ใช้ไม่เกินห้าคนและทำการทดสอบเล็กน้อยให้มากที่สุดเท่าที่จะทำได้" [10]

คำกล่าวอ้างของ "ผู้ใช้ห้าคนก็เพียงพอแล้ว" ได้รับการอธิบายในภายหลังโดยแบบจำลองทางคณิตศาสตร์[11]ซึ่งระบุถึงสัดส่วนของปัญหาที่เปิดเผย U

ยู=1-(1-หน้า)n{\ displaystyle U = 1- (1-p) ^ {n}} $U=1-(1-p)^{n}$

โดยที่ p คือความน่าจะเป็นของเรื่องหนึ่งที่ระบุปัญหาเฉพาะและ n จำนวนวิชา (หรือเซสชันการทดสอบ) แบบจำลองนี้แสดงเป็นกราฟแบบไม่แสดงอาการต่อจำนวนปัญหาที่มีอยู่จริง (ดูรูปด้านล่าง)

Virzis Formula.PNG

ในการวิจัยต่อมาเรียกร้องของนีลเซ่นได้รับการสอบสวนโดยใช้ทั้งเชิงประจักษ์หลักฐาน[12]และสูงขึ้นแบบจำลองทางคณิตศาสตร์ [13]ความท้าทายที่สำคัญสองประการในการยืนยันนี้คือ:

เนื่องจากความสามารถในการใช้งานเกี่ยวข้องกับกลุ่มผู้ใช้ที่เฉพาะเจาะจงขนาดตัวอย่างที่เล็กเช่นนี้จึงไม่น่าจะเป็นตัวแทนของประชากรทั้งหมดดังนั้นข้อมูลจากกลุ่มตัวอย่างขนาดเล็กดังกล่าวจึงมีแนวโน้มที่จะสะท้อนถึงกลุ่มตัวอย่างมากกว่าจำนวนประชากรที่พวกเขาอาจเป็นตัวแทน
ไม่ใช่ทุกปัญหาในการใช้งานที่ตรวจพบได้ง่าย ปัญหาที่เกิดขึ้นยากจะทำให้กระบวนการโดยรวมช้าลง ภายใต้สถานการณ์เหล่านี้ความคืบหน้าของกระบวนการจะตื้นกว่าที่สูตร Nielsen / Landauer ทำนายไว้มาก [14]

เป็นที่น่าสังเกตว่า Nielsen ไม่สนับสนุนให้หยุดหลังจากการทดสอบเพียงครั้งเดียวกับผู้ใช้ห้าคน ประเด็นของเขาคือการทดสอบกับผู้ใช้ 5 รายแก้ไขปัญหาที่พบจากนั้นทดสอบไซต์ที่แก้ไขแล้วกับผู้ใช้ที่แตกต่างกัน 5 รายเป็นการใช้ทรัพยากรที่ จำกัด ได้ดีกว่าการทดสอบการใช้งานเพียงครั้งเดียวกับผู้ใช้ 10 ราย ในทางปฏิบัติการทดสอบจะดำเนินการสัปดาห์ละครั้งหรือสองครั้งในรอบการพัฒนาทั้งหมดโดยใช้วิชาทดสอบสามถึงห้าคนต่อรอบและส่งผลให้นักออกแบบภายใน 24 ชั่วโมง จำนวนผู้ใช้ที่ทดสอบจริงตลอดระยะเวลาของโครงการสามารถเข้าถึง 50 ถึง 100 คนได้อย่างง่ายดาย การวิจัยแสดงให้เห็นว่าการทดสอบผู้ใช้ที่ดำเนินการโดยองค์กรส่วนใหญ่เกี่ยวข้องกับการสรรหาผู้เข้าร่วม 5-10 คน [15]

ในระยะแรกเมื่อผู้ใช้มักจะพบกับปัญหาที่หยุดพวกเขาทันทีแทบทุกคนที่มีสติปัญญาปกติสามารถใช้เป็นหัวข้อทดสอบได้ ในขั้นตอนที่สองผู้ทดสอบจะคัดเลือกผู้เข้าร่วมการทดสอบที่มีความสามารถหลากหลาย ตัวอย่างเช่นในการศึกษาหนึ่งผู้ใช้ที่มีประสบการณ์พบว่าไม่มีปัญหาในการใช้การออกแบบใด ๆ ตั้งแต่ครั้งแรกจนถึงครั้งสุดท้ายในขณะที่ผู้ใช้ที่ไร้เดียงสาและผู้ใช้ระดับสูงที่ระบุตัวเองล้มเหลวซ้ำแล้วซ้ำเล่า [16] ในภายหลังเมื่อการออกแบบราบรื่นผู้ใช้ควรได้รับการคัดเลือกจากกลุ่มเป้าหมาย

เมื่อวิธีนี้ถูกนำไปใช้กับผู้คนจำนวนมากพอตลอดระยะเวลาของโครงการการคัดค้านที่ยกมาข้างต้นจะได้รับการแก้ไข: ขนาดของกลุ่มตัวอย่างจะไม่เล็กและพบปัญหาในการใช้งานที่เกิดขึ้นกับผู้ใช้เป็นครั้งคราวเท่านั้น คุณค่าของวิธีการนี้อยู่ที่ความจริงที่ว่าเมื่อพบปัญหาในการออกแบบที่เฉพาะเจาะจงแล้วจะไม่พบเห็นอีกเลยเพราะจะถูกกำจัดทันทีในขณะที่ชิ้นส่วนที่ประสบความสำเร็จจะได้รับการทดสอบซ้ำแล้วซ้ำเล่า แม้ว่าจะเป็นความจริงที่ว่าปัญหาเริ่มต้นในการออกแบบอาจได้รับการทดสอบโดยผู้ใช้เพียงห้าคน แต่เมื่อใช้วิธีการนี้อย่างเหมาะสมส่วนของการออกแบบที่ใช้งานได้ในการทดสอบเบื้องต้นนั้นจะถูกทดสอบโดย 50 ถึง 100 คน

คู่มือคอมพิวเตอร์ Appleปี 1982 สำหรับนักพัฒนาที่แนะนำเกี่ยวกับการทดสอบการใช้งาน: [17]

"เลือกกลุ่มเป้าหมายเริ่มต้นการออกแบบอินเทอร์เฟซสำหรับมนุษย์ของคุณโดยระบุกลุ่มเป้าหมายของคุณคุณกำลังเขียนถึงนักธุรกิจหรือเด็ก ๆ "
กำหนดว่าผู้ใช้เป้าหมายรู้เกี่ยวกับคอมพิวเตอร์ Apple และเนื้อหาของซอฟต์แวร์มากน้อยเพียงใด
ขั้นตอนที่ 1 และ 2 อนุญาตให้ออกแบบอินเทอร์เฟซผู้ใช้ให้เหมาะกับความต้องการของกลุ่มเป้าหมาย ซอฟต์แวร์เตรียมภาษีที่เขียนขึ้นสำหรับนักบัญชีอาจคิดว่าผู้ใช้ไม่รู้อะไรเกี่ยวกับคอมพิวเตอร์ แต่เชี่ยวชาญเรื่องรหัสภาษีในขณะที่ซอฟต์แวร์ดังกล่าวเขียนขึ้นสำหรับผู้บริโภคอาจคิดว่าผู้ใช้ไม่รู้เรื่องภาษี แต่คุ้นเคยกับพื้นฐานของคอมพิวเตอร์ Apple

Apple แนะนำนักพัฒนาว่า "คุณควรเริ่มการทดสอบโดยเร็วที่สุดโดยใช้เพื่อนญาติและพนักงานใหม่ที่ร่างไว้": [17]

วิธีการทดสอบของเรามีดังนี้ เราจัดห้องที่มีระบบคอมพิวเตอร์ห้าถึงหกเครื่อง เรากำหนดเวลาให้ผู้ใช้สองถึงสามกลุ่มกลุ่มละห้าถึงหกคนเพื่อทดลองใช้ระบบ (โดยมากโดยที่พวกเขาไม่รู้ว่าเป็นซอฟต์แวร์แทนที่จะเป็นระบบที่เรากำลังทดสอบ) เรามีนักออกแบบสองคนในห้องนี้ น้อยลงและพวกเขาพลาดสิ่งที่เกิดขึ้นมากมาย อีกต่อไปและผู้ใช้รู้สึกราวกับว่ามีคนหายใจรดต้นคออยู่เสมอ

นักออกแบบต้องดูคนใช้โปรแกรมด้วยตนเองเพราะ[17]

เก้าสิบห้าเปอร์เซ็นต์ของการสะดุดพบได้จากการดูภาษากายของผู้ใช้ ดูตาที่เหล่ไหล่ที่ค่อมส่ายหัวและถอนหายใจลึก ๆ ที่ทำให้รู้สึกถึงหัวใจ เมื่อผู้ใช้โดนอุปสรรค์เขาจะถือว่า "เพราะเขาไม่สว่างเกินไป" เขาจะไม่รายงานมัน เขาจะซ่อนมัน ... อย่าตั้งสมมติฐานว่าเหตุใดผู้ใช้จึงสับสน ถามเขา. คุณมักจะประหลาดใจเมื่อรู้ว่าผู้ใช้คิดว่าโปรแกรมกำลังทำอะไรในเวลาที่เขาหลงทาง