યુએસ યુનિવર્સિટીઓના ટોચના સંશોધનકારો ચેતવણી આપે છે કે પ્રી-ટ્રેનિંગને વિસ્તૃત કરવા માટે ખૂબ જ પૂર્વ-તાલીમ માટે હાનિકારક હોઈ શકે છે, બટરફ્લાયની અસરની જેમ તેઓ વધુ પ્રશિક્ષિત છે તેટલું જ ખરાબ પ્રદર્શન કરી શકે છે, જેટલું તેઓ નાના ફેરફારો માટે સંવેદનશીલ બને છે જે અંતિમ પરિણામને વિક્ષેપિત કરી શકે છે.
કાર્નેગી મેલોન, સ્ટેનફોર્ડ, હાર્વર્ડ અને પ્રિન્સટનના સંશોધકો એઆઈ વિકાસની સ્વીકૃત મુખ્ય માન્યતાઓમાંની એકને પડકાર આપી રહ્યા છે – કે વધુ પૂર્વ -તાલીમ ડેટા પ્રભાવને વધુ સારી રીતે.
દ્વારા અહેવાલ મુજબ HPCWIREએક નવું કાગળ “આપત્તિજનક ઓવરટ્રેઇનિંગ” ની કલ્પનાને ચર્ચા કરે છે, જેના દ્વારા પ્રી-ટ્રેનિંગ વિસ્તૃત ફાઇન-ટ્યુનિંગ પછી મોડેલના પ્રભાવને નુકસાન પહોંચાડી શકે છે.
સંશોધનકારોએ ઓએલએમઓ -1 બી મોડેલના બે સંસ્કરણોની તુલના કરી, એકએ 2.3 ટ્રિલિયન ટોકન્સ અને બીજા 3 ટ્રિલિયન પર તાલીમ લીધી. મોટા તાલીમ સમૂહ હોવા છતાં, વધુ વ્યાપક પ્રશિક્ષિત મ model ડેલે આલ્પાકેવલ અને આર્ક જેવા બેંચમાર્ક પર 3% વધુ ખરાબ પ્રદર્શન કર્યું છે.
તમને ગમે છે
ઇન્ફ્લેક્શન પોઇન્ટ સુધી પહોંચવું
આ પ્રદર્શન ડ્રોપ, અભ્યાસના દાવાઓ, “પ્રગતિશીલ સંવેદનશીલતા” નામની ઘટના સાથે જોડાયેલું છે.
જેમ જેમ ટોકન ગણતરી વધે છે તેમ, મોડેલ વધુ નાજુક બને છે. નાના ઝટકો, જેમ કે ફાઇન-ટ્યુનિંગ દરમિયાન ગોઠવણો, અથવા અવાજની રજૂઆત, અગાઉના લાભોને વિરુદ્ધ કરી શકે છે.
લેખકોએ પૂર્વ-પ્રશિક્ષિત મ models ડેલોમાં ગૌસિયન અવાજ ઇન્જેક્શન આપીને આ દર્શાવ્યું, નોંધ્યું કે પ્રભાવને વધુ ઝડપથી ઘટાડવામાં આવે છે તેટલા લાંબા સમય સુધી મોડેલને તાલીમ આપવામાં આવી હતી.
આ વધારાની તાલીમ કામગીરીને ડિગ્રેઝ કરવાનું શરૂ કરે છે તે બિંદુને “ઇન્ફ્લેક્શન પોઇન્ટ” કહેવામાં આવે છે.
એકવાર પહોંચ્યા પછી, તાલીમના ફાયદા આંતરિક અસ્થિરતાના જોખમથી વટાવી જવાનું શરૂ કરે છે. અધ્યયનમાં જાણવા મળ્યું છે કે આ ટિપિંગ પોઇન્ટ ઘણીવાર ઓલ્મો -1 બી જેવા નાના મોડેલોમાં 2.5 ટ્રિલિયન ટોકન્સથી આગળ થાય છે.
“આપત્તિજનક ઓવરટ્રેઇનિંગ અનિવાર્ય હોઈ શકે છે … ખાસ કરીને જ્યારે પૂર્વ-તાલીમ અને ફાઇન-ટ્યુનિંગ કાર્યો ખોટી રીતે કરવામાં આવે છે,” લેખકોએ તેમના કાગળમાં ચેતવણી આપી છે, જે તમે દ્વારા .ક્સેસ કરી શકો છો પ્રી-પ્રિન્ટ સર્વર.
જ્યારે સંશોધનકારો પૂર્વ-તાલીમનો અંત લાવવાનું સૂચન કરી રહ્યા નથી, ત્યારે તેઓને લાગે છે કે વિકાસકર્તાઓએ પૂર્વ-તાલીમ કેટલી પૂરતી છે તે ધ્યાનમાં લેવી જોઈએ. જેમ જેમ કાગળ નિષ્કર્ષ પર આવે છે, “અમારા તારણો મોડેલ સ્કેલિંગ પર નવા ધ્યાન કેન્દ્રિત કરવા કહે છે જે આખી તાલીમ પાઇપલાઇનને ધ્યાનમાં લે છે.”
એઆઈ વિકાસકર્તાઓ માટે સ્કેલનો પીછો કરવા માટે, સંદેશ સ્પષ્ટ લાગે છે: કેટલીકવાર, ખરેખર ઓછી હોય છે.