Image credit: www.traveloffpath.com |
ภาพจากตัวอย่างสถาปัตยกรรมด้านข้อมูล จาก AWS และ Microsoft
ในขณะที่ธุรกิจไม่ว่าเล็กหรือใหญ่ต่างเห็นความสำคัญของการใช้ข้อมูลและประโยชน์จาก AI กันมากขึ้น อันเป็นผลจากการเติบโตอย่างก้าวกระโดดในยุคดิจิต้ล ทำให้เกิดข้อมูลใหม่ๆ จำนวนมาก เกิดความต้องการใช้ข้อมูลอย่างเป็นระบบ โครงสร้างพื้นฐานด้านข้อมูลที่รองรับการเติบโตอย่างรวดเร็ว จัดการข้อมูลได้ง่าย โดยใช้ประโยชน์จากเทคโนโลยีใหม่ๆ เพื่อช่วยเพิ่มโอกาสทางธุรกิจใหม่ๆ เพิ่มประสิทธิภาพ สร้างประสบการณ์ที่ดีให้แก่ลูกค้า เพิ่มรายได้และลดค่าใช้จ่าย โดยทั้งหมดนี้ ไม่จำเป็นต้องลงทุนสูง ไม่ต้องการดูแลที่ซับซ้อน ใช้คนมาก อีกทั้งจากผลสำรวจพบว่า SMB เห็นถึงความสำคัญในการนำ AI มาใช้ในธุรกิจอย่างมากในปัจจุบัน ซึ่งเน้นย้ำถึงความสำคัญในการจัดการด้านข้อมูลให้มีประสิทธิภาพ
จริงอยู่ที่ว่าเทคโนโลยีด้านการจัดการข้อมูล Machine Learning (ML) และ AI ในยุคใหม่ล้วนถูกพัฒนาขึ้นโดยบริษัทเทคโนโลยี เพื่อธุรกิจขนาดใหญ่ อีกทั้ง AI/ML ต้องใช้ข้อมูลจำนวนมากในการพัฒนาเรียนรู้ แต่ในปัจจุบัน เทคโนโลยีอย่าง Cloud-Based Analytics Services ช่วยให้ SMB สามารถเข้าถึงเทคโนโลยีด้านข้อมูลได้ง่ายขึ้น ใช้เครื่องมือระดับเดียวกับบริษัทขนาดใหญ่ โดยสามารถเลือกใช้เครื่องมือ หรือบริการ (services) ที่เหมาะสมต่อการใช้งาน โดยไม่ต้องลงทุนหนักในระบบหรือบุคคลากร อีกทั้งการพัฒนาของ AI ในปัจจุบันที่ใช้งานได้ง่ายขึ้น ใช้ข้อมูลจำนวนน้อยลง ทำให้เราเห็นการเติบโตในการใช้งาน Big Data และ AI ในกลุ่มธุรกิจ SMB มากขึ้นในช่วงปีที่ผ่านมา มีกรณีศึกษาที่น่าสนใจมากมาย อย่างบริษัทรถมือสองเล็กๆก็สามารถใช้ AI ช่วยลูกค้าประเมินมูลค่ารถได้ด้วยตัวเองจากภาพถ่ายในสมาร์ทโฟน
บทความนี้จัดทำขึ้นเพื่อให้เห็นประโยชน์และแนวทางการจัดทำ กระบวนการจัดการข้อมูลสมัยใหม่อย่าง Data Lakehouse บนระบบคลาวด์ (cloud platform) สำหรับธุรกิจ SMB เพื่อต่อยอดไปใช้ Data Analytics และ AI โดยแบ่งเป็น 2 ส่วน Part I: นำเสนอแนวทาง กระบวนการบริหารจัดการข้อมูล โดยใช้เครื่องมือเท่าที่จำเป็น ไม่ต้องใช้เครื่องมือและฐานข้อมูล ในสเกลเดียวกับที่ใช้ในองค์กรขนาดใหญ่ เรียกว่า Lakehouse Lite และ Part II: เป็นการจัดเตรียมพร้อมเหตุผลทางเทคนิค สำหรับ Lakehouse Lite โดยจะใช้ Microsoft Azure Synapse Analytics เป็นต้นแบบ แต่อย่างไรก็ได้ สามารถประยุกต์ใช้ใน cloud รายอื่นๆ ได้เช่นกัน
ความจำเป็นด้านการใช้งานสำหรับ SMB
ความต้องการด้านข้อมูลสำหรับ SMB มีจำนวนผู้ใช้งานและระบบงานไม่มาก จึงไม่จำเป็นสำหรับ data governance ที่ครอบคลุมทุกด้าน มีเพียงเรื่อง data catalog สำหรับการหาข้อมูล การดูแลความปลอดภัยและสิทธิการเข้าถึงข้อมูลที่จำเป็นก็เพียงพอ การนำเข้าข้อมูลและประมวลผลเป็น batch มากกว่า real time หรืออาจเป็นแค่เป็น near real time ทุกๆ 15-30 นาที หรือทุกชั่วโมง ปริมาณข้อมูลที่ไม่มาก ทำให้ไม่จำเป็นต้องใช้ MPP database ที่ใช้สำหรับข้อมูลขนาดใหญ่ ทำให้เราลดภาระด้านโครงสร้างพื้นฐานไปได้มาก อีกทั้ง SMB มักมีบุคคลากรด้าน IT จำนวนไม่มากนัก ระบบจึงจำเป็นต้องพัฒนาและดูแลรักษาได้ง่าย
ทางเลือกด้าน Solution
Data Lakehouse บน cloud ทำให้เราสามารถเลือกให้เหมาะกับการใช้งาน ง่ายต่อการดูแล โดยใช้ประโยชน์จากพื้นที่จัดเก็บข้อมูลราคาประหยัด เทคโนโลยีใหม่ๆ อย่าง Serverless SQL ซึ่งคล่องตัวในการประมวลผล PolyBase ช่วยให้ใช้ข้อมูลโดยตรงจากไฟล์ที่จัดเก็บในรูปแบบต่างๆ ได้ง่าย ไม่ว่าจะเป็น csv, JSON, parquet หรือ delta ที่กำลังมาแรง เนื่องจากความสามารถด้านการจัดการกับข้อมูลในไฟล์ ใช้ python ในการจัดเตรียมและวิเคราะห์ ทำ machine learning model จาก spark notebooks โดยคุมการทำงานทั้่งหมดนี้ด้วย Azure Synapse Pipelines ทำให้ทุกขั้นตอนตั้งแต่ เริ่มต้น จนถึงมือผู้ใช้ข้อมูล เป็นไปอย่างสะดวก ค่าใช้จ่ายที่เหมาะสม
Lakehouse Lite Solution |
ข้อดีของแนวทางการใช้ Lakehouse Lite
- สามารถเริ่มต้นได้อย่างรวดเร็ว ใช้คนน้อย เรียนรู้ได้ง่าย สามารถต่อยอดขยายขอบเขตตามการเติบโต โดยปรับเปลี่ยนหรือเพิ่มเครื่องมือ หรือบริการที่เหมาะสมได้ในอนาคต
- ลดขั้นตอนการจัดการข้อมูลด้วยเครื่องมือที่ซับซ้อน เน้นการนำข้อมูลไปประยุกต์ใช้ให้เกิดประโยชน์
- สามารถใช้เครื่องมือสำหรับบริหารจัดการข้อมูล (data management) และความปลอดภัยข้อมูล ระดับเดียวกับองค์กรขนาดใหญ่
- สำหรับองค์กรหรือสตาร์ตอัพ ที่ยังไม่ต้องการการลงทุนในเทคโนโลยีที่ซับซ้อน หรือจัดหา วิศวกรข้อมูล ประสบการณ์สูง หรือแม้แต่สำหรับองค์กรใหญ่ที่ต้องการทำ data lake หรือ lakehouse เล็กๆ เพื่อเป็นการทดลอง (Sandbox) หรือแม้แต่ทำเป็น Data Mesh กรณีที่มีข้อจำกัดในการรวมข้อมูลเข้ามาในฐานข้อมูลเดียวกัน แต่ยังต้องการใช้ข้อมูลร่วมกัน
- มีพื้นฐานบน open standard อย่าง open data format (e.g. csv, parquet, delta )ใช้ภาษาที่แพร่หลายอย่าง SQL และ python ในการจัดเตรียมและประมวลผลข้อมูล ทำให้การจัดหาหรือพัฒนาบุคคลากรทำได้ง่าย อีกทั้งการเปลี่ยนโปรย้ายค่ายผู้ให้บริการ cloud service หรือหาเครื่องมือมาใช้ร่วมกัน ทำได้ง่าย ลดอุปสรรคจาก cloud vendor lock in
เริ่มต้นอย่างไรสำหรับ SMB
- ควรเริ่มจาก มุ่งเน้นไปที่ผลลัพธ์ เราต้องการทำอะไร ใช้ประโยชน์อย่างไร คือต้องมี business use case(s) ที่ชัดเจน และความเข้าใจในกระบวนการด้านข้อมูลของเรา อย่าเริ่มโดยคิดว่าเราต้อง"มี"อะไร ตาม buzz word เช่น ต้องมีเทคโนโลยีตัวนั้นตัวนี้ บางที solution ที่เหมาะกับเรา อาจจะเรียบง่ายซะจนเรามองข้ามไปก็ได้
- เนื่องจากเราใช้ประโยชน์จาก cloud-based analytics services ทำให้เราสามารถเริ่มต้นจากงานเล็กๆ ง่ายๆ ก่อน เมื่อทีมงานเรียนรู้และเข้าใจมากขึ้น จึงค่อยเพิ่มเติม ขยับไปยังทำงานที่ซับซ้อนมากขึ้น ระหว่างนี้อาจมีปรับเปลี่ยนวิธีการหรือเครื่องมือตามความเหมาะสม อันไหนไม่เหมาะก็เลิกใช้ ทดแทนด้วยวิธีการหรือเครื่องมือใหม่ ตรงนี้มองว่าเป็นจุดเด่นอีกด้านหนึ่ง ทำให้เราไม่จำเป็นต้องเริ่มจากงานที่มีผลกระทบทางธุรกิจสูงก่อน เนื่องจากมีการลงทุนตั้งต้นสูงเหมือนเหมือนแต่ก่อน
- ระลึกเสมอว่า ระบบไม่สามารถทดแทนกระบวนการทำงานที่ดี และข้อมูลที่มีคุณภาพได้
ใน Part II เราจะมาดู การจัดเตรียมทางเทคนิค สำหรับ Lakehouse Lite กัน
“Even the smallest person can change the course of history.” -- Galadriel: The Lord of the Rings
Data Lakehouse for Small & Midsize Business: Lakehouse Lite - Part I
Reviewed by aphidet
on
7:32 PM
Rating:
No comments: