KORIX Feed EP.44 | AI จีนท้าชนยักษ์! ERNIE 4 Vision เอาชนะ GPT-5 และ Gemini
Автор: Korix
Загружено: 2025-11-14
Просмотров: 660
Описание:
Baidu ได้สร้างความตื่นตัวในโลกของปัญญาประดิษฐ์ด้วยการเปิดตัวโมเดล Multimodal แบบโอเพนซอร์สล่าสุด โดยเฉพาะ ERNIE 4 Vision หรือที่รู้จักในชื่อ ERNIE 4.5-VL-28B-A3B-Thinking โมเดลนี้อ้างว่ามีประสิทธิภาพเหนือกว่าคู่แข่งระดับสูง เช่น GPT-5 High และ Gemini 2.5 Pro และถูกเรียกว่าเป็น "สัตว์ร้ายหลายรูปแบบ" (Multimodal BEAST) การเปิดตัวครั้งนี้ถือเป็นความก้าวหน้าพิเศษในการแข่งขัน AI ทั่วโลก โดยโมเดลนี้ได้รับการออกแบบมาสำหรับนักพัฒนาที่ต้องการควบคุมเวิร์กโฟลว์ AI ได้อย่างเต็มที่ โดยไม่ต้องเสียค่าใช้จ่ายในระดับเดียวกับ OpenAI
ERNIE 4 Vision ไม่ได้เป็นเพียงโมเดลข้อความเท่านั้น แต่ยังมีความสามารถในการประมวลผลข้อมูลที่หลากหลายและซับซ้อน เช่น รูปภาพ, ข้อความ, เอกสาร, เสียง และวิดีโอ ได้อย่างมีประสิทธิภาพ Baidu สนับสนุนคำกล่าวอ้างด้านประสิทธิภาพด้วยข้อมูลเกณฑ์มาตรฐานที่แสดงให้เห็นว่า ERNIE เอาชนะ Gemini 2.5 Pro และ GPT-5 High ใน 10 จาก 15 เกณฑ์มาตรฐานหลัก โดยมีคะแนนเฉลี่ยรวมอยู่ที่ 73.1 เทียบกับ 70.3 ของ Gemini และ 69.4 ของ GPT-5 โมเดลนี้แสดงความสามารถที่เหนือกว่าในการทำความเข้าใจเอกสาร (DocQA), การวิเคราะห์แผนภูมิ (Chart QA), และการให้เหตุผลเชิงภาพ (Visual Reasoning) นอกจากนี้ ERNIE X1 ซึ่งเป็นอีกโมเดลในตระกูล ยังมุ่งเน้นที่การคิดเชิงวิเคราะห์และตรรกะเชิงลึกเป็นหลัก โดยมีคุณสมบัติที่เรียกว่า "Thinking with Images" ซึ่งอนุญาตให้โมเดลซูมเข้าออกบนรูปภาพแบบไดนามิก เพื่อวิเคราะห์รายละเอียดที่ซับซ้อน เช่น แผนผังวงจรไฟฟ้าหรือแผนภูมิการจัดตารางเวลา.
จุดสำคัญที่ทำให้นักพัฒนาสนใจคือสถาปัตยกรรม MoE (Mixture-of-Experts) ของ ERNIE โมเดลนี้มีพารามิเตอร์รวม 28 พันล้านพารามิเตอร์ แต่จะเปิดใช้งานเพียงประมาณ 3 พันล้านพารามิเตอร์ต่อภารกิจเท่านั้น การเลือกเปิดใช้งานพารามิเตอร์เฉพาะส่วนนี้ช่วยให้โมเดลรักษาความแม่นยำสูง แต่ยังคงสามารถทำงานได้เร็วยิ่งขึ้นและลดต้นทุนการอนุมาน (inference cost) Baidu ยังชูจุดขายด้านต้นทุน โดยอ้างว่า ERNIE 4.5 มีค่าใช้จ่ายเพียง 1% ของราคา GPT-4.5 ในขณะที่ยังคงมีประสิทธิภาพเหนือกว่า โดยต้นทุนการป้อนข้อมูลเริ่มต้นที่ต่ำเพียง 0.004 RMB ต่อพันโทเค็น.
Baidu ตอกย้ำกลยุทธ์การเปิดกว้างด้วยการปล่อยโมเดลนี้ภายใต้ Apache 2.0 License ซึ่งเป็นใบอนุญาตแบบเปิดที่อนุญาตให้ ใช้งานเชิงพาณิชย์ได้ รวมถึงการปรับแต่งเฉพาะทาง โดยไม่มีข้อผูกมัดหรือการล็อกอิน API การเคลื่อนไหวนี้ถือเป็นการ "ประกาศสงครามกับ AI แบบปิด" และเป็นการตอกย้ำความตั้งใจของ Baidu ที่จะผลักดันการนำเทคโนโลยี AI ไปใช้งานอย่างแพร่หลายในตลาดทั่วโลก การมาถึงของ ERNIE 4 Vision จึงถูกมองว่าเป็นการส่งสัญญาณว่า "เสรีภาพของ AI ได้มาถึงแล้ว" ในรูปแบบที่ทั้งทรงพลัง คุ้มค่า และเปิดกว้างสำหรับองค์กรที่ต้องการใช้ประโยชน์จากข้อมูลภาพและเอกสารที่ซับซ้อนในระบบอัตโนมัติของตน
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: