છબી ક્રેડિટ્સ: ડીકોડર
ચાઇનીઝ ફર્મ ડીપસીકે ડીપસીક V3, એક નવું ઓપન-સોર્સ AI મોડલ બહાર પાડ્યું છે, જે હાલના ઓપન-સોર્સ મોડલ્સ અને ઓપનએઆઈના GPT-4o જેવા બંધ મોડલને પણ ઘણા બેન્ચમાર્ક પર વટાવી જાય છે. મોડેલ 671 બિલિયન પેરામીટર્સથી સજ્જ છે અને ટેક્સ્ટ, કોડ જનરેટ કરી શકે છે અને સંબંધિત કાર્યો કરી શકે છે. ડીપસીક V3 નિષ્ણાતો (MoE) આર્કિટેક્ચરના મિશ્રણનો ઉપયોગ કરે છે, વિવિધ કાર્યો માટે બહુવિધ ન્યુરલ નેટવર્કને ઑપ્ટિમાઇઝ કરે છે, જે આપેલ પ્રોમ્પ્ટ માટે માત્ર સંબંધિત નેટવર્કને સક્રિય કરીને હાર્ડવેર ખર્ચ ઘટાડવામાં મદદ કરે છે.
મોડલની તાલીમ અંદાજે 2788K H800 GPU કલાકમાં કરવામાં આવી હતી, જેનો અંદાજિત ખર્ચ $5.57 મિલિયન છે. યુ.એસ.માં મોટી ટેક કંપનીઓના મલ્ટી-મિલિયન-ડોલર તાલીમ ખર્ચ કરતાં આ નોંધપાત્ર રીતે ઓછું છે એક ટેકનિકલ પેપર અનુસાર, ડીપસીક V3 એ મોટાભાગના બેન્ચમાર્કમાં Llama-3.1-405B અને Qwen 2.5-72B જેવા ઓપન-સોર્સ મોડલ્સને પાછળ છોડી દીધા છે. તેણે GPT-4o ને પણ હરાવ્યું, સિમ્પલક્યુએ જેવા બેન્ચમાર્ક સિવાય, જે અંગ્રેજી અને ફ્રેમ્સ પર ધ્યાન કેન્દ્રિત કરે છે. મોટા ભાગના બેન્ચમાર્કમાં ડીપસીક વી3ને પાછળ રાખનાર એકમાત્ર મોડેલ એન્થ્રોપિકનું ક્લાઉડ 3.5 સોનેટ હતું.
DeepSeek V3 માટેનો કોડ GitHub પર ઉપલબ્ધ છે, અને મોડેલને કંપનીના મોડલ લાયસન્સ હેઠળ એક્સેસ કરી શકાય છે.
માતૃકા શુક્લા, બિઝનેસ અપટર્નના બીટ એડિટર, મલ્ટીમીડિયા વિદ્યાર્થી છે. તે જટિલ વિષયો પર તપાસ અને રિપોર્ટિંગ કરવા માટે ઉત્સાહી છે. રાજનીતિ પર વિશેષ ધ્યાન કેન્દ્રિત કરીને ડિજિટલ મીડિયામાં તેણીની વ્યાપક પૃષ્ઠભૂમિ છે.