สรุปไฮไลต์สำคัญงาน Google I/O 2024 ก้าวสู่ยุค Gemini โดยสมบูรณ์

Google I/O งานประชุมนักพัฒนาซอฟต์แวร์ ประจำปี 2024 ครั้งนี้ Google (กูเกิล) เปิดตัวเครืองมือ AI เพียบ ต้อนรับการเข้าสู่ยุค Gemini อย่างสมบูรณ์ พร้อมสู้ค่ายคู่แข่งอย่าง OpenAI

Google I/O งานประชุมนักพัฒนาซอฟต์แวร์ครั้งใหญ่ ประจำปี 2024 จัดขึ้นเมื่อวันอังคาร (14 พ.ค. 67) ที่แคลิฟอร์เนีย ซึ่งเป็นงานที่บริษัทจะประกาศผลิตภัณฑ์ตัวใหม่หรือโปรเจกต์ที่กำลังพัฒนา โดยในปีนี้ Sundar Pichai CEO Alphabet และ Google ขึ้นมากล่าวเปิดงาน พร้อมประกาศว่า “ขณะนี้ Google เข้าสู่ยุค Gemini โดยสมบูรณ์แบบแล้ว” พร้อมกับได้นำ AI ของตัวเองอย่าง ”Gemini" ไปผสมผสานใช้ผลิตภัณฑ์ต่าง ๆ ของ Google รวมถึงขยายไปสู่พาร์ทเนอร์อื่น ๆ ไปดูกันว่าปีนี้ จะมีอะไรน่าสนใจบ้าง

Gemini 1.5 Pro

Gemini 1.5 Pro ซึ่งมาพร้อมกับความก้าวหน้าครั้งใหญ่ โดยสามารถรองรับการประมวลผลข้อมูลได้มากยิ่งขึ้น Gemini 1.5 Pro สามารถรองรับการประมวลผลข้อมูลจำนวนมากอย่างต่อเนื่องได้ถึง 1 ล้านโทเค็น ไม่ว่าจะเป็นเอกสาร 1,500 หน้า หรือโค้ดที่ยาวกว่า 30,000 บรรทัด รองรับ 35 ภาษา ซึ่งมากกว่าโมเดลพื้นฐานขนาดใหญ่อื่นๆ ที่มีอยู่ในตอนนี้ นอกจากนี้ยังมีฟีเชอร์ใหม่ ๆ เช่น

• การอัปโหลดไฟล์ผ่าน Google Drive หรือจากอุปกรณ์เพื่อให้ผู้ใช้วิเคราะห์ข้อมูลเชิงลึกได้อย่างรวดเร็วยิ่งขึ้น และในเร็วๆ นี้ Gemini Advanced จะทำหน้าที่เป็นนักวิเคราะห์ข้อมูลเชิงลึก และสามารถแสดงข้อมูลผ่านภาพและแผนภูมิได้ทันทีจากไฟล์ข้อมูลที่อัปโหลด เช่น สเปรดชีต ที่สำคัญ Gemini จะรักษาความเป็นส่วนตัวให้กับไฟล์ และจะไม่นำข้อมูลเหล่านี้ไปใช้ในการฝึกโมเดลของเรา

• การวิเคราะข้อมูลจากรูปภาพ เช่น อัปโหลดรูปโจทย์เลขให้ Gemini ช่วยอธิบายวิธีแก้โจทย์ทีละขั้นตอน หรือให้ Gemini วิเคราะห์สูตรอาหารจานโปรดจากรูปที่ถ่ายตอนไปร้านอาหาร เช่น สามารถถ่ายรูปอาหารจานโปรดในร้านอาหารที่ผู้ใช้ชื่นชอบและขอสูตรอาหารนั้น หรือถ่ายภาพโจทย์คณิตศาสตร์และรับคำแนะนำวิธีแก้ปัญหาแบบทีละขั้นตอน ซึ่งทั้งหมดนี้สามารถทำได้โดยใช้เพียงรูปภาพเดียว

• Gemini Live พูดคุยตอบโต้กับ Gemini ผ่านมือถือ ใน Google Messages และขอความช่วยเหลือผ่านเสียงพูดได้อย่างเป็นธรรมชาติ โต้ตอบการสนทนาได้เหมือนปกติทั่วไป หรือการพูดแทรก

• การวางแผนทริปแบบใหม่ที่มากกว่าลิสต์แนะนำกิจกรรมธรรมดา ๆ แต่สามารถออกแบบแผนการเดินทางที่ตอบโจทย์ทุกความต้องการเฉพาะได้อย่างละเอียด เช่น ถาม Gemini ว่า “ฉันและครอบครัวจะไปเที่ยวไมอามีในวันแรงงานนี้ ลูกชายของฉันชอบงานศิลปะ ส่วนสามีของฉันก็อยากทานอาหารทะเลที่สดใหม่ ช่วยดึงข้อมูลเที่ยวบินและโรงแรมของฉันจาก Gmail และวางแผนทริปสำหรับช่วงสุดสัปดาห์นี้ได้ไหม”

• Gemini Advanced จะสามารถสร้าง Gem หรือ Gemini เวอร์ชันที่กำหนดเองได้ตามแบบที่ต้องการ ตั้งแต่คู่หูในการออกกำลังกาย ผู้ช่วยในการทำอาหาร ไปจนถึงผู้ให้คำแนะนำงานเขียน โดยสามารถตั้งค่าได้ง่ายๆ เพียงอธิบายสิ่งที่ต้องการให้ Gem ทำและวิธีตอบสนอง เช่น “คุณเป็นโค้ชวิ่งของฉัน ช่วยวางแผนการวิ่งรายวัน สร้างแรงบันดาลใจ และมอบพลังบวกให้ฉันด้วย” Gemini จะรับคำสั่งจากผู้ใช้ และสร้าง Gem ที่ตอบโจทย์ความต้องการเฉพาะของผู้ใช้ภายในคลิกเดียว

ที่มา : goo.gle/3WEZDyQ

Veo โมเดลสร้างวิดีโอมืออาชีพ

Veo โปรแกรมสร้างวิดีโอ AI ใหม่ของ Google ที่จะต่อสู้กับ Sora ของ OpenAI เป็นโมเดลที่สามารถสร้างวิดีโอความละเอียด 1080p ความยาวเกินนาที โดยเข้าใจถึงศัพท์ด้านภาพยนตร์ เช่น ภาพ timelapse, หรือภาพถ่ายทางอากาศ ที่ผ่านมา Google เชิญผู้สร้างภาพยนตร์เข้ามาทดสอบ Veo เป็นหลัก โดย Imagen3 รองรับการเรนเดอร์ข้อความในภาพแล้ว ปรับปรุงการสร้างภาพให้ภาพสมจริงยิ่งขึ้นลดความผิดปกติจากการสร้างภาพ AI ตามปกติ รองรับ Prompt ยาวขึ้น

นอกจากนี้ บริการ Music AI Sandbox เป็นศูนย์รวมบริการ AI สร้างเพลงหลายตัวที่ Google เปิดให้ครีเอเตอร์เข้าใช้งาน โดยเชิญนักดนตรีหลายคนมาทดสอบใช้งาน ที่สำคัญยังเน้นความปลอดภัยและการให้บริการอย่างรับผิดชอบ โดยจะใส่ลายน้ำ SynthID เพื่อแสดงว่าเป็นเนื้อหาที่สร้างจากปัญญาประดิษฐ์เสมอ

ที่มา : Google

Google Photos ให้ AI ค้นหารูปภาพด้วย Ask Photos

เกือบ 9 ปีแล้วที่ปิดตัว Google Photos นับตั้งแต่นั้นมา ผู้คนก็ได้ใช้ Google Photos เพื่อจัดระเบียบรูปภาพที่เต็มไปด้วยความทรงจำดีๆ และช่วงเวลาที่สำคัญๆ ของพวกเขา ปัจจุบัน ผู้คนอัปโหลดรูปภาพและวิดีโอมากกว่า 6,000 ล้านรายการลงใน Google Photos ในแต่ละวัน ทำให้ Google ประกาศเพิ่มความสามารถด้าน AI โดยสามารถค้นหารูปภาพในคลังของผู้ใช้งานแต่ละคน ด้วยคำถามภาษาธรรมชาติ (natural language) เช่น

• ค้นหาโดยผสมคำสำคัญหลายอย่าง หรือการถามคำถามที่คำตอบเป็นรายละเอียดในรูปภาพ เช่น สมมติว่ากำลังจะจ่ายค่าที่จอดรถ แต่จำหมายเลขทะเบียนรถของตัวเองไม่ได้ สามารถามจาก Google Photos ได้เลย โดยระบบจะจำรถที่เห็นบ่อย ๆ จากนั้นจะวิเคราะห์ว่าคันไหนเป็นของคุณ และบอกหมายเลขทะเบียนรถให้ทราบ ซึ่งถ้าเป็นก่อนหน้านี้ ผู้ใช้จะต้องค้นหารูปภาพโดยใช้คีย์เวิร์ด จากนั้นก็เลื่อนดูภาพถ่ายย้อนไปหลายปีเพื่อหาหมายเลขทะเบียนรถที่ต้องการ

• ค้นหาในรูปแบบคำสั่ง เช่น อาจจะนึกถึงเหตุการณ์สำคัญเมื่อตอนที่ลูกสาวของคุณยังเป็นเด็กอยู่ ตอนนี้ผู้ใช้สามารถถาม Google Photos ได้แล้วว่า “ลูกสาวหัดว่ายน้ำตั้งแต่เมื่อไร”

อย่างไรก็ตาม Ask Photos จะเปิดให้ใช้งานในรูปแบบทดลอง (experimental) โดยเริ่มเปิดให้ใช้งานได้เร็ว ๆ นี้

ที่มา : Ask photos

AI Overviews บน Google Search

Google Search ถูกสร้างขึ้นมาเพื่อช่วยให้ผู้คนเข้าถึงข้อมูลบนโลกออนไลน์ ปัจจุบัน Google ได้ปลดล็อกคำถามและคำตอบประเภทใหม่ ๆ เช่น การรับรู้ถึงตำแหน่ง และข้อมูลแบบเรียลไทม์ ความก้าวหน้าในเรื่องความเข้าใจภาษาธรรมชาติ ทำให้เรามีวิธีใหม่ๆ ในการค้นหา ไม่ว่าจะเป็นการค้นหาด้วยเสียง การฮัมเพื่อค้นหาเพลงที่ชอบ หรือการค้นหาด้วยรูปภาพของดอกไม้ที่เห็นข้างทาง ขณะที่ สามารถใช้ฟีเชอร์วงเพื่อค้นหาด้วย Search (Circle to Search) เพื่อหารองเท้าคู่ใหม่

Google Search ยังได้ใช้ Generative AI เข้ามาช่วยตอบคำถาม โดยมีชื่อเรียกว่า "AI Overviews" เตรียมเปิดให้กับผู้ใช้งานในสหรัฐอเมริกา และจะขยายไปยังผู้ใช้งานประเทศอื่นเร็ว ๆ นี้ เครื่องมือและความสามารถใหม่ให้ AI Overviews เช่น

• ปรับรูปแบบคำตอบให้อ่านเข้าใจง่ายสำหรับคนที่ไม่มีพื้นฐาน หรือใส่รายละเอียดให้มากที่สุด
• ถามคำถามที่ซับซ้อน และ Google จะสรุปคำตอบให้ จากเดิมแยกเป็นหัวข้อและค้นหาทีละเรื่อง
• ช่วยออกแบบวางแผน เช่น สูตรอาหารสำหรับ 3 วันข้างหน้า
• AI ช่วยคัดเลือกคำตอบ
• ถ่ายวิดีโอเพื่อส่งเป็นคำถาม เช่น วิธีซ่อมอุปกรณ์ต่าง ๆ

ที่มา : https://blog.google/products/search/generative-ai-google-search-may-2024/

Gemini สำหรับ Android

Gemini จะทำหน้าที่เป็นผู้ช่วย AI คนใหม่ที่พร้อมให้การช่วยเหลือได้ทุกที่ทุกเวลา Google นำโมเดล Gemini ผสานรวมเข้ากับ Android ซึ่งรวมถึง Gemini Nano ซึ่งเป็นโมเดลที่ออกแบบมาสำหรับการทำงานในอุปกรณ์ ที่สามารถประมวลผลข้อมูลได้หลากหลายรูปแบบ ทั้งข้อความ รูปภาพ เสียง และเสียงพูด ซึ่งจะช่วยปลดล็อกประสบการณ์ใหม่ ๆ ไปพร้อม ๆ กับการรักษาความเป็นส่วนตัวให้กับข้อมูลบนอุปกรณ์ สำหรับฟีเชอร์ใหม่ ได้แก่

• Circle to Search ช่วยทำการบ้าน แก้โจทย์คณิต ตอบคำถามได้ลึกขึ้น อัปเดตบน Pixel และ Samsung แล้ววันนี้

• Gemini on Android วิเคราะห์ สรุปวิดีโอใน YouTube สำหรับทำแบบทดสอบเกี่ยวกับเนื้อหาในวิดีโอ ลดภาระการดูวิดีโอนาน ๆ หรือการสรุปเนื้อหาในไฟล์ PDF ได้

• Gemini Nano with Multimodality วิเคราะห์ เข้าใจข้อมูลภาพ เสียง และคำพูดได้ดีขึ้นแบบ On-Device อัปเดตเฉพาะ Google Pixel

• TalkBack ฟีเชอร์การช่วยเหลือพิเศษที่ช่วยให้คนตาบอดหรือมีสายตาเลือนรางให้โต้ตอบกับอุปกรณ์ Android ได้ โดยใช้การสัมผัสหน้าจอและการอธิบายลักษณะสิ่งของ พร้อมกับการอ่านออกเสียงโดยไม่ต้องใช้อินเทอร์เน็ต อัปเดตมากับ Gemini Nano with Multimodality

• Scam Detection Alerts ตรวจจับมิจฉาชีพด้วย AI วิเคราะห์บนสนทนาตอนโทรศัพท์ โดยจะฟังรูปแบบการสนทนาที่มักเกี่ยวข้องกับการหลอกลวงแบบเรียลไทม์ เมื่อพบรูปแบบที่น่าสงสัย จะแจ้งเตือนให้ผู้ใช้ทราบถึงความเสี่ยงทันที อัปเดตมากับ Gemini Nano with Multimodality

ที่มา : https://blog.google/products/android/google-ai-android-update-io-2024/#more-on-android

Google Workspace

ผู้ช่วยในการทำงานให้ง่ายขึ้น ด้วยโมเดล Gemini 1.5 Pro ตั้งแต่ Doc Sheet Slide Drive ไปจนถึง Gmail ปัจจุบันผู้คนค้นหาอีเมลใน Gmail กันเป็นประจำ แต่การใช้ AI จะทำให้การค้นหาอีเมลมีประสิทธิภาพมากขึ้นด้วย Gemini เช่น

• สรุปอีเมลล่าสุดทั้งหมดจากองค์กรหรือหน่วยงานได้ โดย Gemini จะระบุอีเมลที่เกี่ยวข้องกับผู้ใช้ รวมถึงวิเคราะห์ไฟล์ต่าง ๆ ที่ถูกแนบมา เช่น ไฟล์ PDF จากนั้นผู้ใช้ จะได้รับข้อมูลสรุปประเด็นสำคัญและรายการที่ต้องทำ
• สรุปไฮไลต์จากบันทึกวิดีโอการประชุมผ่าน Google Meet ความยาว 1 ชั่วโมงได้
• เขียนอีเมลตอบกลับได้เหมาะสมตามบริบทของเนื้อหา
• จัดระเบียบใบเสร็จจากอีเมลและใส่ไว้ในโฟลเดอร์ Drive หรือแยกข้อมูลจากใบเสร็จและใส่ลงใน Sheet

ที่มา : https://blog.google/products/workspace/google-gemini-workspace-may-2024-updates/

AI Agent ผู้ช่วยแสนฉลาด

AI Agent เป็นระบบอัจฉริยะที่มีความสามารถในการให้เหตุผล การวางแผน และการจดจำ นอกจากนี้ยังสามารถ “คิด” เผื่อไปอีกหลายขั้น และยังสามารถทำงานข้ามซอฟต์แวร์และระบบต่าง ๆ ได้ด้วย AI Agent จะช่วยทำสิ่งต่างๆ แทน และที่สำคัญที่สุด คือ ทุกอย่างจะอยู่ภายใต้การดูแลของผู้ใช้ เช่น เมื่อย้ายไปอยู่ต่างเมือง AI จะทำให้การสำรวจเมืองและหาบริการต่าง ๆ ที่อยู่ในละแวกใกล้เคียง ง่ายขึ้น อาทิ บริการซักรีด บริการพาสุนัขเดินเล่น หรือการอัปเดตรายละเอียดเกี่ยวกับที่อยู่ใหม่บนเว็บไซต์ต่าง ๆ

Project Astra ผู้ช่วย AI อัจฉริยะ

ทีมงาน Google DeepMind ทำงานอย่างหนัก เพื่อปลดล็อกศักยภาพสูงสุดของ AI โดยกำลังพัฒนา Project Astra ที่สามารถทำความเข้าใจข้อมูลหลายรูปแบบและสนทนาได้แบบเรียลไทม์ สามารถช่วยทำงาน ตอบคำถาม จดจำสภาพแวดล้อม ใช้ความคิดสร้างสรรค์ รวมถึงค้นหาสิ่งที่ผู้ใช้ต้องการ

ในการสาธิต พนักงานของ Google เดินไปรอบ ๆ สำนักงาน DeepMind ในลอนดอน และถาม Gemini ว่าจำได้ไหมว่าเธอทิ้งแว่นตาไว้ที่ไหน Project Astra ตอบว่า "เธอทิ้งมันไว้ข้างแอปเปิลบนโต๊ะในออฟฟิศ จากนั้นเธอเดินไปที่นั่น พบว่ามีแว่นตาของเธออยู่ข้างลูกแอปเปิลบนโต๊ะของเธอจริง ๆ หลักการทำงานของ Project Astra จะใช้ AI "จดจำ" แว่นตาในเฟรมก่อนหน้าจากฟีดวิดีโอสดบนโทรศัพท์ ผู้ช่วย AI อัจฉริยะสามารถมองเห็นและเข้าใจสภาพแวดล้อมรอบตัว อย่างไรก็ตาม Project Astra ยังเป็นเพียงแค่ตัวต้นแบบและอยู่ในช่วงเริ่มต้นเท่านั้น

ที่มา https://blog.google/technology/ai/google-gemini-update-flash-ai-assistant-io-2024/#exploration

ชมคลิปย้อนหลังงาน Google Keynote (Google I/O ‘24) ได้ที่นี่