मैग्मा: माइक्रोसॉफ्ट का मल्टीमॉडल AI मॉडल
| पहलू | विवरण | | --- | --- | | क्यों चर्चा में है? | माइक्रोसॉफ्ट ने मैग्मा नामक एक बहुआयामी AI मॉडल पेश किया है, जो वास्तविक दुनिया के कार्यों के लिए छवियों और भाषा को समझने में सक्षम है। | | विकसित किया गया | माइक्रोसॉफ्ट रिसर्च, यूनिवर्सिटी ऑफ मैरीलैंड, यूनिवर्सिटी ऑफ विस्कॉन्सिन-मैडिसन, KAIST, और यूनिवर्सिटी ऑफ वाशिंगटन द्वारा। | | अद्वितीय विशेषता | मौखिक और स्थानिक बुद्धिमत्ता को एकीकृत करता है, जो पारंपरिक दृष्टि-भाषा मॉडलों से परे वास्तविक दुनिया में कार्यों को क्रियान्वित करने में सक्षम बनाता है। | | मुख्य विशेषताएँ | - बहुआयामी AI: दृश्य और भाषाई डेटा को संसाधित करता है। <br> - स्थानिक बुद्धिमत्ता: वास्तविक दुनिया के कार्यों की योजना बनाता है और उन्हें क्रियान्वित करता है। <br> - रोबोटिक मैनिपुलेशन: उच्च सटीकता के साथ रोबोट को नियंत्रित करता है। <br> - UI नेविगेशन: डिजिटल इंटरफेस को पहचानता है और उनके साथ इंटरैक्ट करता है। <br> - अत्याधुनिक सटीकता: वास्तविक दुनिया के कार्यों में मौजूदा मॉडलों से बेहतर प्रदर्शन करता है। | | प्रशिक्षण प्रक्रिया | - डेटासेट: बड़े पैमाने पर बहुआयामी डेटा (छवियाँ, वीडियो, रोबोटिक्स डेटा)। <br> - प्रयुक्त तकनीकें: UI नेविगेशन के लिए सेट-ऑफ-मार्क (SoM) और ऑब्जेक्ट गतिविधियों को ट्रैक करने के लिए ट्रेस-ऑफ-मार्क (ToM)। | | वास्तविक दुनिया के अनुप्रयोग | - UI नेविगेशन: मौसम की जांच करना, फ्लाइट मोड सक्षम करना, फ़ाइलें साझा करना, टेक्स्ट भेजना। <br> - रोबोटिक मैनिपुलेशन: नरम वस्तुओं को संभालना, पिक-एंड-प्लेस, नए कार्यों के अनुकूल होना। <br> - स्थानिक तर्क: भविष्य की स्थितियों की भविष्यवाणी करना और गतिविधियों को क्रियान्वित करना। <br> - बहुआयामी समझ: वीडियो समझ कार्यों में अग्रणी मॉडलों से बेहतर प्रदर्शन। |

