![]() |
Image credit: www.traveloffpath.com |
ภาพจากตัวอย่างสถาปัตยกรรมด้านข้อมูล จาก AWS และ Microsoft
ในขณะที่ธุรกิจไม่ว่าเล็กหรือใหญ่ต่างเห็นความสำคัญของการใช้ข้อมูลและประโยชน์จาก AI กันมากขึ้น อันเป็นผลจากการเติบโตอย่างก้าวกระโดดในยุคดิจิต้ล ทำให้เกิดข้อมูลใหม่ๆ จำนวนมาก เกิดความต้องการใช้ข้อมูลอย่างเป็นระบบ โครงสร้างพื้นฐานด้านข้อมูลที่รองรับการเติบโตอย่างรวดเร็ว จัดการข้อมูลได้ง่าย โดยใช้ประโยชน์จากเทคโนโลยีใหม่ๆ เพื่อช่วยเพิ่มโอกาสทางธุรกิจใหม่ๆ เพิ่มประสิทธิภาพ สร้างประสบการณ์ที่ดีให้แก่ลูกค้า เพิ่มรายได้และลดค่าใช้จ่าย โดยทั้งหมดนี้ ไม่จำเป็นต้องลงทุนสูง ไม่ต้องการดูแลที่ซับซ้อน ใช้คนมาก อีกทั้งจากผลสำรวจพบว่า SMB เห็นถึงความสำคัญในการนำ AI มาใช้ในธุรกิจอย่างมากในปัจจุบัน ซึ่งเน้นย้ำถึงความสำคัญในการจัดการด้านข้อมูลให้มีประสิทธิภาพ
จริงอยู่ที่ว่าเทคโนโลยีด้านการจัดการข้อมูล Machine Learning (ML) และ AI ในยุคใหม่ล้วนถูกพัฒนาขึ้นโดยบริษัทเทคโนโลยี เพื่อธุรกิจขนาดใหญ่ อีกทั้ง AI/ML ต้องใช้ข้อมูลจำนวนมากในการพัฒนาเรียนรู้ แต่ในปัจจุบัน เทคโนโลยีอย่าง Cloud-Based Analytics Services ช่วยให้ SMB สามารถเข้าถึงเทคโนโลยีด้านข้อมูลได้ง่ายขึ้น ใช้เครื่องมือระดับเดียวกับบริษัทขนาดใหญ่ โดยสามารถเลือกใช้เครื่องมือ หรือบริการ (services) ที่เหมาะสมต่อการใช้งาน โดยไม่ต้องลงทุนหนักในระบบหรือบุคคลากร อีกทั้งการพัฒนาของ AI ในปัจจุบันที่ใช้งานได้ง่ายขึ้น ใช้ข้อมูลจำนวนน้อยลง ทำให้เราเห็นการเติบโตในการใช้งาน Big Data และ AI ในกลุ่มธุรกิจ SMB มากขึ้นในช่วงปีที่ผ่านมา มีกรณีศึกษาที่น่าสนใจมากมาย อย่างบริษัทรถมือสองเล็กๆก็สามารถใช้ AI ช่วยลูกค้าประเมินมูลค่ารถได้ด้วยตัวเองจากภาพถ่ายในสมาร์ทโฟน
บทความนี้จัดทำขึ้นเพื่อให้เห็นประโยชน์และแนวทางการจัดทำ กระบวนการจัดการข้อมูลสมัยใหม่อย่าง Data Lakehouse บนระบบคลาวด์ (cloud platform) สำหรับธุรกิจ SMB เพื่อต่อยอดไปใช้ Data Analytics และ AI โดยแบ่งเป็น 2 ส่วน Part I: นำเสนอแนวทาง กระบวนการบริหารจัดการข้อมูล โดยใช้เครื่องมือเท่าที่จำเป็น ไม่ต้องใช้เครื่องมือและฐานข้อมูล ในสเกลเดียวกับที่ใช้ในองค์กรขนาดใหญ่ เรียกว่า Lakehouse Lite และ Part II: เป็นการจัดเตรียมพร้อมเหตุผลทางเทคนิค สำหรับ Lakehouse Lite โดยจะใช้ Microsoft Azure Synapse Analytics เป็นต้นแบบ แต่อย่างไรก็ได้ สามารถประยุกต์ใช้ใน cloud รายอื่นๆ ได้เช่นกัน
ความจำเป็นด้านการใช้งานสำหรับ SMB
ความต้องการด้านข้อมูลสำหรับ SMB มีจำนวนผู้ใช้งานและระบบงานไม่มาก จึงไม่จำเป็นสำหรับ data governance ที่ครอบคลุมทุกด้าน มีเพียงเรื่อง data catalog สำหรับการหาข้อมูล การดูแลความปลอดภัยและสิทธิการเข้าถึงข้อมูลที่จำเป็นก็เพียงพอ การนำเข้าข้อมูลและประมวลผลเป็น batch มากกว่า real time หรืออาจเป็นแค่เป็น near real time ทุกๆ 15-30 นาที หรือทุกชั่วโมง ปริมาณข้อมูลที่ไม่มาก ทำให้ไม่จำเป็นต้องใช้ MPP database ที่ใช้สำหรับข้อมูลขนาดใหญ่ ทำให้เราลดภาระด้านโครงสร้างพื้นฐานไปได้มาก อีกทั้ง SMB มักมีบุคคลากรด้าน IT จำนวนไม่มากนัก ระบบจึงจำเป็นต้องพัฒนาและดูแลรักษาได้ง่าย
ทางเลือกด้าน Solution
Data Lakehouse บน cloud ทำให้เราสามารถเลือกให้เหมาะกับการใช้งาน ง่ายต่อการดูแล โดยใช้ประโยชน์จากพื้นที่จัดเก็บข้อมูลราคาประหยัด เทคโนโลยีใหม่ๆ อย่าง Serverless SQL ซึ่งคล่องตัวในการประมวลผล PolyBase ช่วยให้ใช้ข้อมูลโดยตรงจากไฟล์ที่จัดเก็บในรูปแบบต่างๆ ได้ง่าย ไม่ว่าจะเป็น csv, JSON, parquet หรือ delta ที่กำลังมาแรง เนื่องจากความสามารถด้านการจัดการกับข้อมูลในไฟล์ ใช้ python ในการจัดเตรียมและวิเคราะห์ ทำ machine learning model จาก spark notebooks โดยคุมการทำงานทั้่งหมดนี้ด้วย Azure Synapse Pipelines ทำให้ทุกขั้นตอนตั้งแต่ เริ่มต้น จนถึงมือผู้ใช้ข้อมูล เป็นไปอย่างสะดวก ค่าใช้จ่ายที่เหมาะสม
![]() |
Lakehouse Lite Solution |
ข้อดีของแนวทางการใช้ Lakehouse Lite
- สามารถเริ่มต้นได้อย่างรวดเร็ว ใช้คนน้อย เรียนรู้ได้ง่าย สามารถต่อยอดขยายขอบเขตตามการเติบโต โดยปรับเปลี่ยนหรือเพิ่มเครื่องมือ หรือบริการที่เหมาะสมได้ในอนาคต
- ลดขั้นตอนการจัดการข้อมูลด้วยเครื่องมือที่ซับซ้อน เน้นการนำข้อมูลไปประยุกต์ใช้ให้เกิดประโยชน์
- สามารถใช้เครื่องมือสำหรับบริหารจัดการข้อมูล (data management) และความปลอดภัยข้อมูล ระดับเดียวกับองค์กรขนาดใหญ่
- สำหรับองค์กรหรือสตาร์ตอัพ ที่ยังไม่ต้องการการลงทุนในเทคโนโลยีที่ซับซ้อน หรือจัดหา วิศวกรข้อมูล ประสบการณ์สูง หรือแม้แต่สำหรับองค์กรใหญ่ที่ต้องการทำ data lake หรือ lakehouse เล็กๆ เพื่อเป็นการทดลอง (Sandbox) หรือแม้แต่ทำเป็น Data Mesh กรณีที่มีข้อจำกัดในการรวมข้อมูลเข้ามาในฐานข้อมูลเดียวกัน แต่ยังต้องการใช้ข้อมูลร่วมกัน
- มีพื้นฐานบน open standard อย่าง open data format (e.g. csv, parquet, delta )ใช้ภาษาที่แพร่หลายอย่าง SQL และ python ในการจัดเตรียมและประมวลผลข้อมูล ทำให้การจัดหาหรือพัฒนาบุคคลากรทำได้ง่าย อีกทั้งการเปลี่ยนโปรย้ายค่ายผู้ให้บริการ cloud service หรือหาเครื่องมือมาใช้ร่วมกัน ทำได้ง่าย ลดอุปสรรคจาก cloud vendor lock in
เริ่มต้นอย่างไรสำหรับ SMB
- ควรเริ่มจาก มุ่งเน้นไปที่ผลลัพธ์ เราต้องการทำอะไร ใช้ประโยชน์อย่างไร คือต้องมี business use case(s) ที่ชัดเจน และความเข้าใจในกระบวนการด้านข้อมูลของเรา อย่าเริ่มโดยคิดว่าเราต้อง"มี"อะไร ตาม buzz word เช่น ต้องมีเทคโนโลยีตัวนั้นตัวนี้ บางที solution ที่เหมาะกับเรา อาจจะเรียบง่ายซะจนเรามองข้ามไปก็ได้
- เนื่องจากเราใช้ประโยชน์จาก cloud-based analytics services ทำให้เราสามารถเริ่มต้นจากงานเล็กๆ ง่ายๆ ก่อน เมื่อทีมงานเรียนรู้และเข้าใจมากขึ้น จึงค่อยเพิ่มเติม ขยับไปยังทำงานที่ซับซ้อนมากขึ้น ระหว่างนี้อาจมีปรับเปลี่ยนวิธีการหรือเครื่องมือตามความเหมาะสม อันไหนไม่เหมาะก็เลิกใช้ ทดแทนด้วยวิธีการหรือเครื่องมือใหม่ ตรงนี้มองว่าเป็นจุดเด่นอีกด้านหนึ่ง ทำให้เราไม่จำเป็นต้องเริ่มจากงานที่มีผลกระทบทางธุรกิจสูงก่อน เนื่องจากมีการลงทุนตั้งต้นสูงเหมือนเหมือนแต่ก่อน
- ระลึกเสมอว่า ระบบไม่สามารถทดแทนกระบวนการทำงานที่ดี และข้อมูลที่มีคุณภาพได้
ใน Part II เราจะมาดู การจัดเตรียมทางเทคนิค สำหรับ Lakehouse Lite กัน
“Even the smallest person can change the course of history.” -- Galadriel: The Lord of the Rings
Data Lakehouse for Small & Midsize Business: Lakehouse Lite - Part I
Reviewed by aphidet
on
7:32 PM
Rating:

No comments: