Yapay Zeka ile Gerçekçi İnsan Sesleri Oluşturun: ElevenLabs

Yapay zeka her ne kadar bize büyük faydalar sağlasa da zaman zaman insanlar tarafından kötü amaçla kullanılabiliyor. AI uygulamalarıyla ucu bucağı olmayan görseller, gerçekçi fotoğraflar üretebiliyoruz. Ayrıca bir sesi taklit etmemizi sağlayan yapay zeka çözümleri de mevcut. Kimi zaman bu tür imkanlar kötü amaçlı kullanılsa da yapay zeka inanılmaz işler ortaya çıkıyor.

Metinden görsel üreten platformlarda çok sık kullanılmaya başladı, oldukça popüler hale gelmeye başladı. Öte yandan seslendirme uygulamaları da yaygın şekilde kullanılmaya başlıyor. Fikir basit; bir sesi alıyoruz ve verdiğimiz kelimeleri tıpkı seslendiren kişi söylüyormuş gibi taklit edebiliyoruz. Bu konuda kullanımı ücretsiz başarılı bir uygulama var: ElevenLabs.

Eski Google makine öğrenimi mühendisi ve eski bir Palintir dağıtım stratejisti tarafından kurulan ElevenLabs, bir ses teknolojisi araştırma şirketi. Yapay zeka konuşma yazılımı stratejisinin önemli bir unsuru, ancak nihai amaç “konuşulan sesi diller arasında anında dönüştüren” bir araç yaratmak.

Seslendirmeye odaklanan şirket, kulağa gerçekçi gelen bir insan sesi yaratabilen metinden sese yapay zeka modelleri geliştirdi. ElevenLabs web sitesinde amaç şöyle açıklanıyor:

Misyonumuz eğitim, yayın, sesli kitap, oyun, film ve hatta gerçek zamanlı konuşmalarda isteğe bağlı çok dilli ses desteğini gerçeğe dönüştürmek.

Google Translate ve alternatifleri bir yana, duyduklarınızı anında tercüme eden bir araç hayal edebiliyor musunuz? Konuşmacının sesini klonlayarak farklı konuşmalar tıpkı o kişi söylüyormuş gibi seslendirilebiliyor. Bu gerçekten büyük bir gelişme.

Basitçe tanımlamak gerekirse, AI ses üretim teknikleriyle var olan bir sesi alıyoruz ve duymak istediğimiz her şeyi söyletebiliyoruz. Herhangi bir ses seçmeniz ve kelimeleri vermeniz yeterli, yapay zeka gerisini halledebiliyor.

“Microsoft Sam bunu zaten yıllar öncesinde yapabiliyordu” diye düşünebilirsiniz. Ancak Microsoft Sam gibi araçlar robot gibi ses çıkarıyor, yani hiçbir şey gerçekçi değil. ElevenLabs’in aracı ise insana çok daha yakın sesler çıkarıyor.

ElevenLabs üç konuşma yapay zekası seçeneği sunuyor: tamamen ücretsiz “önceden hazırlanmış” sesler, ses oluşturucu (cinsiyet, yaş ve aksan seçmenize olanak tanıyor) ve yalnızca abonelik yoluyla yükleyebileceğiniz “klonlanmış” sesler.

İşte bir örnek:

Yapay zekanın yaratıcı amaçlarla kullanılması bazı ahlaki ve etik sorumlulukları da beraberinde getiriyor. ElevenLabs’in yapay zekası bu konuda oldukça maharetli ve kullanımı ücretsiz olduğundan dolayı birçok amaçla kullanılabilir. Kısacası, birinin sesini izni olmadan kullanmayın. Bazı durumlarda yasa dışı konularla karşı karşıya kalabilirsiniz. Ayrıca yasa dışı olmasa da bu etik değil; insanlar rahatsız olabilir.

Ek olarak, ElevenLabs’ın konuşma yapay zekası aracı şu anda beta aşamasında. Yani her şey tamamen yerine oturmuş değil ve bazen sorunlar yaşanabilir.

ElevenLabs’ı kullanmanın en basit yolu ücretsiz konuşma yapay zekası aracı. Bunu kullanmak için beta.elevenlabs.io adresine gidin ve bir hesap oluşturun. Kendi e-postanızı ve Google hesabınızı kullanabilirsiniz.

  • Sonrasında Speech Synthesis’e (Konuşma Sentezi) tıklayın.
  • Ayarlar’da önceden hazırlanmış kadın veya erkek seslerinden birini seçin.
  • Kararlılık ve Netlik + Benzerlik Geliştirme (yüksek kararlılık monotonal, yüksek netlik amaçlanan sese daha yakın) kaydırıcılarını ayarlamak için Ses Ayarlarını (Voice Settings) genişletin.
  • Eleven English v1 veya Eleven Multilingual v1 modellerinden birini seçin.
    • Eleven English v1 ile standart İngilizce dil modeliyle çeşitli sesler, stiller ve ruh hallerinde konuşmalar oluşturabilirsiniz.
    • Eleven Multilingual v1 ile İngilizce, Almanca, Lehçe, İspanyolca, İtalyanca, Fransızca, Portekizce ve Hintçe dillerde sesler üretebilirsiniz.
  • Test kısmına dönüştürmek istediğiniz metni girin.
  • Devamında “Generate (Oluştur) butonuna tıklayın.

İşlem tamamlandığında üretilen ses otomatik olarak oynatılacak. Eğer oynatılmazsa Play tuşuna basarak dinleyebilirsiniz, ayrıca indirme yapabilirsiniz.

Yeni bir ses oluşturmayı tercih ederseniz VoiceLab sayfasını ziyaret edin ve “Add Generative or Cloned Voice” seçeneğine tıklayın.

  • Add Voice > Voice Design’e tıklayın.
  • Şimdi Generate voice kısmından gerekli ayarlamaları yapabilirsiniz.
    Cinsiyet (Gender), Yaş (Age)  ve Aksan (Accent) alanlarını ayarlayın.
    Vurgu Gücü (Accent Strength) kaydırıcısını gerektiği gibi ayarlayın.
  • Dönüştürmek istediğiniz metni boş alana yazın.
  • Son olarak Generate’e tıklayın.

Bittiğinde elde edilen sesi dinleyebilirsiniz. Söylediğimiz gibi, ElevenLabs henüz beta aşamasında ve bazı eksiklikleri olabilir. Teknoloji geliştikçe sorunlar giderilecek, daha iyi sonuçlar üretilecektir.

Önceden hazırlanmış ve yapılandırılabilir seçenekler ilginç olsa da ElevenLabs’ın en heyecan verici teknolojisi Anında Ses Klonlama (Instant Voice Cloning) aracı. Diğer seçeneklerden farklı olarak Anında Ses Klonlama bir abonelik gerektiriyor. En ucuzu ayda 5 dolar olmak üzere çeşitli seçenekler mevcut. Ayrıca şirket ilk ay için %80’lik indirim yapmış ve 1 dolara abone olabilirsiniz. Diğer seçenekler ayda 22, 99 ve 330 dolara mal oluyor ve ayda 40 saate kadar ses üretme imkanı sunuyor.

Anında Ses Klonlamayı kullanmak için sadece bir diyaloğa değil, aynı zamanda sesinizin bir örneğine de ihtiyacınız var. Ses dosyası net, anlaşılırsa ve MP3 formatında olduğu sürece her şey çok kolay. Ayrıca örnek ne kadar uzun olursa o kadar iyi (5 dakikaya kadar).

  • Add Voice (Ses Ekle) ve Anında Ses Klonlama’ya (Instant Voice Cloning) tıklayın.
  • “Click to upload a file or drag and drop” seçeneğiyle ses dosyasını yükleyin. Gelişmiş doğruluk için en fazla 25 örnek eklenebilir.
  • Labels’e tıklayın, sonrasında bir seçenek ve değer belirleyin. Örneğin aksan ve İngiliz gibi. Bunu en fazla 5 kez yapın.
  • Sesin kısa bir açıklamasını girin.
  • Onay kutusunu işaretleyin ve ardından Ses Ekle (Add Voice) seçeneğine tıklayın.

Önceden hazırlanmış ve klonlanmış seslerle yapay zeka konuşması çok sayıda olasılığa sahip. Daha önce de belirtildiği gibi ElevenLabs’ın nihai amacı canlı çeviri, ancak farklı kullanım alanlarına da dikkat çekilmiş.

Yapay zeka ile hayatta olmayan bir kişi tarafından tarafından seslendirilen sesli kitaplar oluşturabilir, oyunlarda çeşitli seslendirmeler yapabilirsiniz. Ayrıca yapay zeka ses modellerini size fayda sağlayacak birçok amaç için kullanabilirsiniz. Yapay zeka konuşmasını kullanarak bir podcast bile oluşturabilirsiniz, ancak sonuçlar düz ve sıkıcı gelebilir.

Belki yapay zeka seslendirme çözümleri tam olarak beklentilerinizi karşılamayabilir, ancak şu andaki durum bile umut verici. Ayrıca teknoloji kısa süre içinde gelişebilir. Bu arada ElevenLabs, gelecekte tanıtmak üzere oluşturulmuş bir “sesli konuşma” özelliği planlıyor.

Yapay zeka, son birkaç yılda bize bazı şaşırtıcı yeni araçlar getirdi. Chat-GPT metin oluşturmak, soruları yanıtlamak, raporları özetlemek ve daha fazlası için kullanılabilir. Midjourney ise sanatsal çalışmalar üreten, sıra dışı görseller oluşturabilen ilginç bir yapay zeka aracı.

ElevenLabs’in yapay zekası bir sesi taklit etmemize imkan tanıyor, ancak orijinal sesin bir klonuyla. Seslerin izin alınmadan kullanılmasına karşı etik argümanlar olsa da, bu bazı ilginç sonuçlar üretebilecek güçlü bir araç. Hepsinden iyisi, kullanımı şaşırtıcı derecede kolay ve etkileyici sonuçlar veriyor.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

x