यो नयाँ एआईले केवल ३ सेकेन्डको अडियोबाट तपाईंको आवाज सिमुलेट गर्न सक्छ


माइक्रोसफ्टको नयाँ भाषा मोडेल Vall-E कथित रूपमा केवल तीन-सेकेन्ड नमूना रेकर्डिङ प्रयोग गरेर कुनै पनि आवाज नक्कल गर्न सक्षम छ।

भर्खरै जारी गरिएको एआई उपकरणको अंग्रेजी स्पीच डाटाको ६०,००० घण्टामा परीक्षण गरिएको थियो। शोधकर्ताहरूले कर्नेल विश्वविद्यालयको एक पेपरमा भने कि यसले वक्ताको भावना र स्वरलाई नक्कल गर्न सक्छ।

मूल वक्ताले कहिल्यै नभनेका शब्दहरूको रेकर्डिङ सिर्जना गर्दा पनि ती निष्कर्षहरू स्पष्ट रूपमा सत्य थिए।

“Vall-E को सन्दर्भमा सिक्ने क्षमताहरू देखा पर्छन् र उच्च-गुणस्तरको निजीकृत भाषणलाई संश्लेषण गर्न प्रयोग गर्न सकिन्छ। केवल 3-सेकेन्ड दर्ता गरिएको रेकर्डिङ ध्वनिक प्रम्प्टको रूपमा नदेखेको स्पिकरको। प्रयोग परिणामहरूले देखाउँदछ कि Vall-E ले अत्याधुनिक शून्य-शटलाई उल्लेखनीय रूपमा अगाडि बढाउँछ [text to speech] बोलीको प्राकृतिकता र वक्ता समानताको सन्दर्भमा प्रणाली,” लेखकहरूले लेखे। “यसबाहेक, हामी भेला-ईले वक्ताको भावना र संश्लेषणमा ध्वनिक प्रम्प्टको ध्वनिक वातावरणलाई जोगाउन सक्छ भन्ने पाउँछौं।”

एन्ड्रोइड स्पाइवेयरले वित्तीय संस्थाहरू र तपाईंको पैसालाई लक्षित गर्दै फेरि स्ट्राइक गर्छ

Microsoft Corporation बुथ साइनेज CES 2023 मा जनवरी 6, 2023 मा Las Vegas, Nevada मा Las Vegas Convention Centre मा प्रदर्शित हुन्छ।
(डेभिड बेकर / गेटी छविहरू द्वारा फोटो))

Val-E नमूनाहरू GitHub मा साझेदारी गरिएको स्पिकर प्रम्प्टहरू जस्तै eerily मिल्दोजुल्दो छ, यद्यपि तिनीहरू गुणस्तरमा दायरा छन्।

भावनात्मक आवाज डाटाबेसबाट एक संश्लेषित वाक्यमा, भ्याल-ईले निद्रामा यो वाक्य भन्छ: “हामीले प्लास्टिकको झोलाको संख्या घटाउनु पर्छ।”

डिज्नी क्यारेक्टरहरू ‘हे डिज्नी’ कमाण्डको साथ अमेजन एलेक्सामा आउँदैछन्

माइक्रोसफ्टको नयाँ भाषा मोडेल Vall-E ले केवल तीन-सेकेन्ड नमूना रेकर्डिङ प्रयोग गरेर कुनै पनि आवाज नक्कल गर्न सक्षम छ।

माइक्रोसफ्टको नयाँ भाषा मोडेल Vall-E ले केवल तीन-सेकेन्ड नमूना रेकर्डिङ प्रयोग गरेर कुनै पनि आवाज नक्कल गर्न सक्षम छ।
(iStock)

यद्यपि, अनुसन्धानमा टेक्स्ट-टू-स्पीच एआई चेतावनी संग आउँछ।

“भ्याल-ई ले वक्ताको पहिचान कायम राख्ने भाषण संश्लेषण गर्न सक्छ, यो हुन सक्छ मोडेलको दुरुपयोगमा सम्भावित जोखिमहरू बोक्नुहोस्, जस्तै स्पूफिंग आवाज पहिचान वा एक विशिष्ट स्पिकर को रूप मा, “अनुसन्धानकर्ताहरु वेब पृष्ठ मा भन्छन्। “हामीले यो धारणा अन्तर्गत प्रयोगहरू सञ्चालन गर्यौं कि प्रयोगकर्ता स्पीच संश्लेषणमा लक्षित वक्ता हुन सहमत छन्। जब मोडेललाई वास्तविक संसारमा नदेखेका स्पिकरहरूमा सामान्यीकृत गरिन्छ, यसमा स्पिकरले उनीहरूको आवाजको प्रयोग र संश्लेषित भाषण पत्ता लगाउने मोडेललाई अनुमोदन गर्ने सुनिश्चित गर्नको लागि एक प्रोटोकल समावेश गर्नुपर्छ।”

माइक्रोसफ्ट कर्पोरेटको कर्पोरेट साइनेज माइक्रोसफ्ट इन्डिया डेभलपमेन्ट सेन्टर, नोएडा, भारतमा शुक्रबार, नोभेम्बर ११, २०२२ मा।

माइक्रोसफ्ट कर्पोरेटको कर्पोरेट साइनेज माइक्रोसफ्ट इन्डिया डेभलपमेन्ट सेन्टर, नोएडा, भारतमा शुक्रबार, नोभेम्बर ११, २०२२ मा।
(फोटोग्राफर: प्रकाश सिंह/ब्लुमबर्ग गेटी इमेज मार्फत)

फक्स समाचार एप प्राप्त गर्न यहाँ क्लिक गर्नुहोस्

यस समयमा, Vall-E, जसलाई माइक्रोसफ्टले “न्यूरल कोडेक भाषा मोडेल” भनिन्छ, सार्वजनिक रूपमा उपलब्ध छैन।



Source link

Leave a Reply

Your email address will not be published. Required fields are marked *