مایکروسافت مدل های جدید Phi-3.5 را معرفی کرد

امروز، مایکروسافت خانواده مدل های Phi-3.5 را معرفی کرد که شامل Phi-3.5-vision، Phi-3.5-MoE و Phi-3.5-mini است. این مدل های سبک وزن بر اساس داده های مصنوعی و وب سایت های عمومی فیلتر شده ساخته شده اند و از طول متن 128K پشتیبانی می کنند. همه مدل ها اکنون تحت مجوز MIT در Hugging Face در دسترس هستند.

 

مدل‌ های جدید هوش مصنوعی Phi-3.5 رونمایی شد

 

Phi-3.5-MoE: یک پیشرفت در تکنولوژی MoE

Phi-3.5-MoE اولین مدل در خانواده Phi است که از تکنولوژی Mixture of Experts (MoE) استفاده می کند. این مدل 16 x 3.8B MoE با تنها 6.6B پارامتر فعال و 2 متخصص، با استفاده از 512 H100 بر روی 4.9T توکن آموزش دیده است. تیم تحقیقاتی مایکروسافت این مدل را از ابتدا طراحی کرده است تا عملکرد آن را بهبود بخشد. در معیارهای استاندارد هوش مصنوعی، Phi-3.5-MoE از Llama-3.1 8B، Gemma-2-9B و Gemini-1.5-Flash پیشی می گیرد و نزدیک به رهبر فعلی، GPT-4o-mini است.

 

Phi-3.5-mini: سبک وزن و قدرتمند

Phi-3.5-mini یک مدل 3.8B پارامتری است که از Llama3.1 8B و Mistral 7B پیشی می گیرد و حتی با Mistral NeMo 12B قابل رقابت است. این مدل با استفاده از 512 H100 بر روی 3.4T توکن آموزش دیده است. با تنها 3.8B پارامتر فعال، این مدل در مقایسه با LLM های با پارامترهای فعال بسیار بیشتر، در وظایف چند زبانه رقابتی است. علاوه بر این، Phi-3.5-mini اکنون از طول متن 128K پشتیبانی می کند، در حالی که رقیب اصلی آن، خانواده Gemma-2، تنها از 8K پشتیبانی می کند.

 

Phi-3.5-vision: درک بهبود یافته تصویر چند فریم

Phi-3.5-vision یک مدل 4.2B پارامتری است که با استفاده از 256 A100 GPU بر روی 500B توکن آموزش دیده است. این مدل اکنون از درک و استدلال تصویر چند فریم پشتیبانی می کند. Phi-3.5-vision عملکرد خود را در MMMU (از 40.2 به 43.0)، MMBench (از 80.5 به 81.9) و معیار درک سند TextVQA (از 70.9 به 72.0) بهبود بخشیده است.

 

Phi-3.5-MoE-instructPhi-3.5-mini-instructPhi-3.5-vision-instruct

انتظار می رود مایکروسافت امروز جزئیات بیشتری در مورد خانواده مدل های Phi-3.5 را به اشتراک بگذارد. انتشار Phi-3.5 مایکروسافت پیشرفت هایی در کارایی و قابلیت های مدل های هوش مصنوعی را نشان می دهد. با تمرکز بر طراحی سبک وزن و درک چند وجهی، خانواده مدل های Phi-3.5 ممکن است در برنامه های مختلف هوش مصنوعی پذیرش گسترده تری داشته باشند.

source