Nvidia એ નવા જનરેટિવ AI મોડલનું અનાવરણ કર્યું છે જે ઇનપુટ તરીકે ટેક્સ્ટ અને ઑડિયોનો ઉપયોગ કરીને સંગીત, અવાજો અને ધ્વનિનું કોઈપણ સંયોજન બનાવી શકે છે. ફુગાટ્ટો, (ફાઉન્ડેશનલ જનરેટિવ ઓડિયો ટ્રાન્સફોર્મર ઓપસ 1) કહેવાય છે, તે ટેક્સ્ટ અને ઑડિઓ ફાઇલોના કોઈપણ સંયોજનનો ઉપયોગ કરીને પ્રોમ્પ્ટ સાથે વર્ણવેલ સંગીત, અવાજો અને અવાજોના કોઈપણ મિશ્રણને જનરેટ કરે છે અથવા રૂપાંતરિત કરે છે. “જ્યારે કેટલાક AI મોડેલો ગીત કંપોઝ કરી શકે છે અથવા અવાજમાં ફેરફાર કરી શકે છે, ત્યારે કોઈની પાસે નવી ઓફરની કુશળતા નથી,” Nvidiaએ સોમવારે એક બ્લોગ પોસ્ટમાં જણાવ્યું હતું.
આ પણ વાંચો: એન્થ્રોપિક કમ્પ્યુટર ઉપયોગ ક્ષમતા સાથે નવા AI મોડલનું અનાવરણ કરે છે
Fugatto AI મોડલ શું કરી શકે?
Nvidia આ મોડેલને “સ્વિસ આર્મી નાઇફ ફોર ધ્વનિ” તરીકે વર્ણવે છે, જે વપરાશકર્તાઓને ફક્ત ટેક્સ્ટનો ઉપયોગ કરીને ઑડિઓ આઉટપુટને નિયંત્રિત કરવાની મંજૂરી આપે છે. ફુગાટ્ટો ટેક્સ્ટ પ્રોમ્પ્ટના આધારે મ્યુઝિક સ્નિપેટ બનાવી શકે છે, હાલના ગીતમાંથી ઇન્સ્ટ્રુમેન્ટને દૂર કરી શકે છે અથવા ઉમેરી શકે છે, અવાજમાં ઉચ્ચાર અથવા લાગણી બદલી શકે છે અને લોકોને એવા અવાજો ઉત્પન્ન કરવા પણ દે છે જે પહેલાં ક્યારેય ન સાંભળ્યા હોય, કંપનીએ સમજાવ્યું.
“અમે એક એવું મોડેલ બનાવવા માગીએ છીએ જે માનવીઓની જેમ અવાજને સમજે અને જનરેટ કરે,” એનવીડિયાના એપ્લાઇડ ઑડિયો સંશોધનના મેનેજર રાફેલ વાલેએ જણાવ્યું હતું.
ફુગાટોની મુખ્ય લાક્ષણિકતાઓ
અસંખ્ય ઓડિયો જનરેશન અને ટ્રાન્સફોર્મેશન કાર્યોને ટેકો આપતા, ફુગાટ્ટો એ પહેલું પાયાનું જનરેટિવ AI મોડલ છે જે ઉભરતા ગુણધર્મો દર્શાવે છે – ક્ષમતાઓ જે તેની વિવિધ પ્રશિક્ષિત ક્ષમતાઓની ક્રિયાપ્રતિક્રિયામાંથી ઉદ્ભવે છે – અને ફ્રી-ફોર્મ સૂચનાઓને જોડવાની ક્ષમતા, Nvidiaએ જણાવ્યું હતું.
“ફ્યુગાટ્ટો એ ભવિષ્ય તરફનું અમારું પ્રથમ પગલું છે જ્યાં ઑડિઓ સંશ્લેષણ અને ટ્રાન્સફોર્મેશનમાં દેખરેખ વિનાનું મલ્ટિટાસ્ક લર્નિંગ ડેટા અને મોડેલ સ્કેલમાંથી ઉભરી આવે છે,” વાલે ઉમેર્યું.
આ પણ વાંચો: માઈક્રોસોફ્ટે બિઝનેસ ટ્રાન્સફોર્મેશન ચલાવવા માટે ઈન્ડસ્ટ્રી-સ્પેસિફિક એઆઈ મોડલ્સ લોન્ચ કર્યા
Fugatto AI માટે સંભવિત ઉપયોગના કેસો
Nvidia અનુસાર, સંગીત નિર્માતાઓ વિવિધ શૈલીઓ, અવાજો અને વાદ્યોને અજમાવીને ગીત માટે ઝડપથી પ્રોટોટાઇપ કરવા અથવા વિચારને સંપાદિત કરવા માટે ફુગાટોનો ઉપયોગ કરી શકે છે. તેઓ પ્રભાવો ઉમેરી શકે છે અને હાલના ટ્રેકની એકંદર ઑડિયો ગુણવત્તાને પણ વધારી શકે છે.
વૉઇસઓવરમાં વિવિધ ઉચ્ચારો અને લાગણીઓ લાગુ કરીને, એક જાહેરાત એજન્સી બહુવિધ પ્રદેશો અથવા પરિસ્થિતિઓ માટે વર્તમાન ઝુંબેશને ઝડપથી લક્ષ્ય બનાવવા માટે ફુગાટ્ટો લાગુ કરી શકે છે.
વધુમાં, Nvidia કહે છે કે સ્પીકર પસંદ કરે તે કોઈપણ અવાજનો ઉપયોગ કરવા માટે ભાષા શીખવાના સાધનોને વ્યક્તિગત કરી શકાય છે. પરિવારના કોઈપણ સભ્ય અથવા મિત્રના અવાજમાં બોલાતા ઓનલાઈન કોર્સની કલ્પના કરો.
વિડિયો ગેમ ડેવલપર્સ AI મોડલનો ઉપયોગ તેમના શીર્ષકમાં પ્રી-રેકોર્ડ કરેલી અસ્કયામતોને સંશોધિત કરવા માટે કરી શકે છે જેથી વપરાશકર્તાઓ ગેમ રમે ત્યારે બદલાતી ક્રિયાને ફિટ કરી શકે. અથવા, તેઓ ટેક્સ્ટ સૂચનાઓ અને વૈકલ્પિક ઑડિઓ ઇનપુટ્સથી સરળતાથી નવી સંપત્તિઓ બનાવી શકે છે.
આ પણ વાંચો: માઇક્રોસોફ્ટે હેલ્થકેર માટે નવા AI મોડલ્સ અને સોલ્યુશન્સની જાહેરાત કરી
ફ્યુગાટો પાછળની ટેકનોલોજી
Nvidia જણાવ્યું હતું કે Fugatto એ પાયાનું જનરેટિવ ટ્રાન્સફોર્મર મોડલ છે જે સ્પીચ મૉડલિંગ, ઑડિયો વોકોડિંગ અને ઑડિયો સમજણ જેવા ક્ષેત્રોમાં અગાઉના કામ પર નિર્માણ કરે છે. ફુગાટ્ટો ભારત, બ્રાઝિલ, ચીન, જોર્ડન અને દક્ષિણ કોરિયા સહિત વિશ્વભરના લોકોના વિવિધ જૂથ દ્વારા બનાવવામાં આવ્યો હતો. “તેમના સહયોગથી ફુગાટ્ટોની બહુ-ઉચ્ચાર અને બહુભાષી ક્ષમતાઓ વધુ મજબૂત બની છે,” કંપનીએ જણાવ્યું હતું.
સંપૂર્ણ સંસ્કરણમાં 2.5 બિલિયન પેરામીટર્સનો ઉપયોગ કરવામાં આવ્યો હતો અને તેને Nvidia DGX સિસ્ટમ્સના બેંક પર તાલીમ આપવામાં આવી હતી, જે 32 Nvidia H100 ટેન્સર કોર GPU થી સજ્જ છે.