Blog

เจาะลึกเบื้องหลังระบบเสถียรแม้ช่วงพีกกับ Director of Infrastructure ของ Opn Payments

30 กรกฎาคม 2567

การรักษาความเสถียรของระบบ (Service Reliability) เป็นองค์ประกอบที่สำคัญมากในการให้บริการรับชำระเงิน โดยเฉพาะอย่างยิ่งในช่วงที่มีธุรกรรมจำนวนมาก เช่น ช่วงโปรโมชัน Double Day เพราะหากเกิดเหตุที่ทำให้ระบบใช้งานไม่ได้ แม้ว่าจะเพียงชั่วครู่ก็ตาม ก็อาจส่งผลเสียตามมามากมาย จึงเป็นเหตุผลที่ทำให้ Opn Payments ใส่ใจพัฒนาระบบที่เสถียรและมีความพร้อมใช้งานอยู่ที่ 99.99% เสมอ รวมถึงมีทีมงานเพื่อดูแลด้านโครงสร้างพื้นฐานของระบบ (Infrastructure) โดยเฉพาะ

เราได้เชิญคุณพรพรรณ บูรณะพิมพ์ ผู้อำนวยการฝ่ายโครงสร้างระบบ (Director of Infrastructure) มาพูดคุยเรื่องมาตรการในการรักษาความเสถียรของระบบ ทั้งในด้านบุคลากร การวางระบบ ไปจนถึงกระบวนการดำเนินงาน

ต่อไปนี้เป็นคำถามสัมภาษณ์และคำตอบของคุณพรพรรณเกี่ยวกับทีม Infrastructure และความสำคัญของทีม รวมถึงมาตรการของทีมในการดูแลระบบให้เสถียรและมีข้อขัดข้องน้อยที่สุดแม้ในช่วงที่มีการทำธุรกรรมจำนวนมาก

ผู้สัมภาษณ์: ช่วยแนะนำทีม Infrastructure ให้กับผู้อ่านที่อาจจะยังไม่คุ้นเคยกับทีมนี้ได้ไหม

คุณพรพรรณ: ทีม Infrastructure เป็นทีมที่มีหน้าที่ดูแลระบบของ Opn ทั้งหมดให้สามารถดำเนินการรับชำระเงินและมอบบริการอื่นๆ ของเราได้อย่างราบรื่น ซึ่งระบบของเราส่วนใหญ่จะอยู่บนระบบคลาวด์ และมี Data Center อยู่ที่สิงคโปร์และญี่ปุ่น การดูแลระบบในที่นี้ครอบคลุมทั้งตัวระบบ การเชื่อมต่อ ไปจนถึงฐานข้อมูลต่างๆ นอกจากนี้ ทางทีมยังมีหน้าที่ในการมองหาโอกาสในการพัฒนาระบบให้ทันต่อเทคโนโลยีใหม่ๆ เช่นการ​วางระบบให้ทำงานอัตโนมัติ (Automate Workflow) เพื่อเพิ่มประสิทธิภาพการทำงานอย่างต่อเนื่อง

ทีม Infra จะประกอบด้วย 3 ฝ่าย คือ System Infrastructure (ฝ่ายดูแลโครงสร้างระบบ) Database (ฝ่ายดูแลฐานข้อมูล) และ Operation (ฝ่ายดำเนินงาน) หรือที่เราเรียกว่า SOC (Service Operation Center) ซึ่งมีหน้าที่เฝ้าระวังรวมถึงแก้ไขและประสานงานกับทีม Customer Success เมื่อเกิดเหตุขัดข้องขึ้น

ผู้สัมภาษณ์: สรุปง่ายๆ ก็คือทีม Infra คือทีมที่ช่วยให้ระบบรับชำระเงินสามารถทำงานได้อย่างราบรื่น แล้วผลกระทบที่อาจขึ้นมีอะไรบ้างถ้าหากระบบเกิดข้อขัดข้องขึ้น

คุณพรพรรณ: หากเกิดเหตุขัดข้องที่ทำให้ร้านค้าไม่สามารถรับชำระเงินได้ แน่นอนว่าผลกระทบสำหรับร้านค้าก็คือลูกค้าไม่สามารถซื้อสินค้าหรือบริการได้ในช่วงเวลาดังกล่าว ซึ่งนอกจากจะทำให้เสียรายได้แล้ว ยังทำให้ลูกค้ามีประสบการณ์ที่ไม่ดีกับร้านค้าและส่งผลต่อความพึงพอใจกับร้านค้าโดยตรง นอกจากนี้ ยังส่งผลเสียต่อทีมดำเนินงานของร้านค้า ซึ่งต้องเข้ามาจัดการแก้ไขปัญหาดังกล่าวและเยียวยาความเสียหายที่อาจเกิดขึ้น

ดังนั้น ทีม Infra จึงมีบทบาทสำคัญอย่างมากต่อร้านค้าโดยการดูแลระบบรับชำระเงินทั้งหมดให้สามารถทำงานได้อย่างราบรื่น ซึ่งเราพยายามอย่างต่อเนื่องเพื่อรักษาความพร้อมใช้งานของระบบ (Uptime) ให้อยู่ที่ 99.99% โดยร้านค้าสามารถดูสถานะของระบบแต่ละระบบของเราได้ที่หน้าแสดงสถานะของระบบ

ผู้สัมภาษณ์: แล้ว Opn มีมาตรการอะไรบ้างในการรักษาความพร้อมใช้งานของระบบ (Uptime) ให้อยู่ที่ 99.99%

คุณพรพรรณ: สำหรับมาตรการในการรักษา Service Uptime เราจะแบ่งเป็น 3 ด้านด้วยกัน ได้แก่ บุคลากร (Personel) การวางระบบ (System) และการวางกระบวนการ (Process)

บุคลากร (Personel): ทีม Infra ได้คัดเลือกผู้เชี่ยวชาญด้านบริการของ AWS ซึ่งเป็นผู้ให้บริการระบบคลาวด์ของเรามาโดยเฉพาะ และเรายังพัฒนาบุคลากรอย่างต่อเนื่องโดยสนับสนุนให้ทุกคนสอบใบรับรอง AWS Solutions Architect และเข้าเซสชันเทรนนิ่งที่เกี่ยวข้อง

การวางระบบ (System): โครงสร้างระบบของ Opn ใช้เทคโนโลยีของ AWS ซึ่งเป็นโซลูชันโครงสร้างระบบคลาวด์ที่มีความพร้อมใช้งานสูงเป็นอันดับต้นๆ ของโลก นอกจากนี้ ระบบของเรายังออกแบบมาให้มีความซ้ำซ้อน (Redundancy) โดยมีเซิร์ฟเวอร์ 2 กลุ่มที่ทำงานพร้อมกันอยู่เสมอ เพื่อให้มั่นใจว่าหากเกิดข้อขัดข้องขึ้นกับกลุ่มหนึ่ง ก็ยังมีมีระบบแบคอัพให้เราสามารถให้บริการต่อไปได้

การวางกระบวนการ (Process): การมีกระบวนการทำงานที่ชัดเจนและเป็นระบบจะช่วยป้องกันไม่ให้เกิดเหตุขัดข้องได้ตั้งแต่ต้น และยังช่วยให้สามารถจัดการแก้ไขปัญหาได้อย่างรวดเร็วเมื่อเกิดเหตุขึ้นจริง โดยทางทีมได้จัดวางกระบวนการต่างๆ สำหรับขั้นตอนที่สำคัญ เช่น

  • Change Management คือกระบวนตรวจสอบการเปลี่ยนแปลงโค้ด โดยเริ่มจากการระบุผลกระทบของการเปลี่ยนแปลงดังกล่าวว่าจะส่งผลต่อบริการใดบ้างและจะกระทบร้านค้าอย่างไร แล้ววางแผนเพื่อลดผลกระทบดังกล่าว รวมถึงตรวจสอบขั้นตอนและวิธีแก้ไขปัญหาหากเกิดข้อผิดพลาดขึ้น
  • Incident Management คือกระบวนการแก้ไขข้อขัดข้องที่เกิดขึ้น ซึ่งจะแตกต่างกันไปตามความรุนแรงของเหตุการณ์นั้นๆ เช่น เหตุการณที่มีระดับความรุนแรงสูงสุด (Severity 1) จะต้องแจ้งให้ผู้บริหารระดับสูงทราบเพื่อช่วยให้แก้ไขปัญหาได้โดยเร็วที่สุด นอกจากนี้ Incident Management ยังครอบคลุมการหา Lesson Learned หรือบทเรียนที่ได้รับจากเหตุขัดข้องครั้งนั้นด้วย
  • Problem Management คือกระบวนการแก้ไขปัญหาที่เกิดขึ้นซ้ำ หมายความว่าเมื่อเกิดข้อขัดข้องแบบเดิมซ้ำกันหลายๆ ครั้ง ก็แสดงให้เห็นว่าการแก้ไขปัญหาที่ได้จาก Lesson Learned ของกระบวนการ Incident Management นั้นไม่ได้ผล ทางทีมก็จะใช้กระบวนการ Problem Management เพื่อหาวิธีการแก้ไขปัญหาดังกล่าวแบบถาวร

ผู้สัมภาษณ์: อีกอย่างหนึ่งที่คิดว่าร้านค้าน่าจะสนใจก็คือเรื่องของมาตรการเพื่อการรองรับธุรกรรมจำนวนมากในช่วงโปรโมชันต่างๆ อย่างเช่น 8.8 ไม่ทราบว่าเรามีมาตรการพิเศษอย่างไรบ้างเพื่อรับมือกับตรงนี้

คุณพรพรรณ: มาตรการในด้านการวางระบบ (System) ก็คือเราใช้เทคโนโลยีของ AWS ซึ่งมีโซลูชัน Auto Scaling ในการทำการตรวจสอบและขยายขีดความสามารถให้รองรับธุรกรรมจำนวนมากๆ ได้แบบอัตโนมัติ ในส่วนของการวางกระบวนการ (Process) เราจะกำหนด Freeze Period ขึ้นในช่วงโปรโมชันดังกล่าวเพื่อไม่ให้มีการเปลี่ยนแปลงโค้ดที่อาจส่งผลให้ระบบขัดข้องได้ ซึ่งนอกจากช่วงโปรโมชันแล้ว เรายังมี Freeze Period ในช่วงปลายเดือนที่จะมีผู้ใช้งานระบบมากเป็นพิเศษด้วย และสุดท้ายในส่วนของมาตรการด้านของบุคลากร (Personel) คือเรามีทีม SOC ที่ประสานงานกับทีม Customer Success คอยเฝ้าระวังเหตุขัดข้องที่อาจเกิดขึ้นด้วยความระมัดระวังมากเป็นพิเศษ

Interview - Pornphan_TH_Article_img_1.png
สรุป

Opn Payments ให้ความสำคัญกับการดำเนินธุรกิจของคุณ จึงพัฒนาระบบที่เสถียรและมีความพร้อมใช้งานอยู่ที่ 99.99% เสมอ รวมถึงจัดสรรทีมงานเพื่อดูแลด้านโครงสร้างพื้นฐานของระบบโดยเฉพาะ และจัดทำมาตรการที่ชัดเจนและเป็นระบบเพื่อป้องกันและจัดการแก้ไขข้อข้องที่อาจเกิดขึ้น ทั้งนี้ เพื่อให้ธุรกิจของคุณสามารถดำเนินงานได้อย่างราบรื่นไม่มีสะดุด แม้ว่าจะมีจำนวนธุรกรรมมากแค่ไหนก็ตาม