* feat(audio): use PyAV instead of ffmpeg replaced usage of ffmpeg in favor of PyAV (`av`) * refactor(audio): store all of the audio related functions in the `infer.lib.audio` refactors previous commit to have singular functions for each task, all located in `infer.lib.audio` * fix(audio): remove downsample_audio from mdxnet.py it is no longer needed, since it's imported from infer.lib.audio * docs: remove every ffmpeg mention in the documentation to avoid confusion * chore(requirements): remove ffmpeg-python and ffmpy from all requirements * fix(audio): fix loading for UVR wrapped gathering of META info from the stream into a function fixes loading for UVR * fix(audio): use np.frombuffer() instead of direct conversion of the resampled frames this fixes traceback on preprocessing * feat(audio): pre-allocate decoded_audio array in the load_audio function this should improve performance, even if just a little * Revert "docs: remove every ffmpeg mention in the documentation to avoid confusion" This reverts commit1e05bbce03. * chore(format): run black on dev * fix(requirements): revert removal of ffmpeg in unitest.yml and Dockerfile * Revert "fix(requirements): revert removal of ffmpeg in unitest.yml and Dockerfile" This reverts commite28a0eebb2. * feat(audio): pre-allocate numpy array to store the AudioFrame data in ndarray of dtype float32 * chore(format): run black on dev * fix(audio): fix the decoded_audio size estimation in estimated_total_samples we multiply by `sr` instead of `container.streams.audio[0].rate` since we want to estimate size of the OUTPUT file, not the input one. - Added dynamic resizing, in case something goes wrong and the size of decoded_audio is estimated incorrectly Fixed function `load_audio` when the input audio's samplerate does not match the desired samplerate (`sr`) * chore(format): run black on dev * refactor(audio): remove `clean_path()` function as it serves no purpose anymore * docs: remove everything related to ffmpeg this includes everything except for formats support specification in the training_tips docs, since it has nothing to do with what ffmpeg does/did but rather what audio formats are supported (all the ones that ffmpeg supports!) * docs: fix order of the steps in preparation in the READMEs --------- Co-authored-by: github-actions[bot] <github-actions[bot]@users.noreply.github.com>
Değişiklik Geçmişi | SSS (Sıkça Sorulan Sorular)
İngilizce | 中文简体 | 日本語 | 한국어 (韓國語) | Français | Türkçe | Português
Burada Demo Video'muzu izleyebilirsiniz!
RVC Kullanarak Gerçek Zamanlı Ses Dönüşüm Yazılımı: w-okada/voice-changer
Ön eğitim modeli için veri kümesi neredeyse 50 saatlik yüksek kaliteli VCTK açık kaynak veri kümesini kullanır.
Yüksek kaliteli lisanslı şarkı veri setleri telif hakkı ihlali olmadan kullanımınız için eklenecektir.
Lütfen daha büyük parametrelere, daha fazla eğitim verisine sahip RVCv3'ün ön eğitimli temel modeline göz atın; daha iyi sonuçlar, değişmeyen çıkarsama hızı ve daha az eğitim verisi gerektirir.
Özet
Bu depo aşağıdaki özelliklere sahiptir:
- Ton sızıntısını en aza indirmek için kaynak özelliğini en iyi çıkarımı kullanarak eğitim kümesi özelliği ile değiştirme;
- Kolay ve hızlı eğitim, hatta nispeten zayıf grafik kartlarında bile;
- Az miktarda veriyle bile nispeten iyi sonuçlar alın (>=10 dakika düşük gürültülü konuşma önerilir);
- Timbraları değiştirmek için model birleştirmeyi destekleme (ckpt işleme sekmesi-> ckpt birleştir);
- Kullanımı kolay Web arayüzü;
- UVR5 modelini kullanarak hızla vokalleri ve enstrümanları ayırma.
- En güçlü Yüksek tiz Ses Çıkarma Algoritması InterSpeech2023-RMVPE sessiz ses sorununu önlemek için kullanılır. En iyi sonuçları (önemli ölçüde) sağlar ve Crepe_full'den daha hızlı çalışır, hatta daha düşük kaynak tüketimi sağlar.
- AMD/Intel grafik kartları hızlandırması desteklenir.
- Intel ARC grafik kartları hızlandırması IPEX ile desteklenir.
Ortamın Hazırlanması
Aşağıdaki komutlar, Python sürümü 3.8 veya daha yüksek olan bir ortamda çalıştırılmalıdır.
(Windows/Linux) İlk olarak ana bağımlılıkları pip aracılığıyla kurun:
# PyTorch ile ilgili temel bağımlılıkları kurun, zaten kuruluysa atlayın
# Referans: https://pytorch.org/get-started/locally/
pip install torch torchvision torchaudio
# Windows + Nvidia Ampere Mimarisi(RTX30xx) için, https://github.com/fumiama/Retrieval-based-Voice-Conversion-WebUI/issues/21 deneyime göre pytorch'a karşılık gelen cuda sürümünü belirtmeniz gerekebilir
#pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
Sonra poetry kullanarak diğer bağımlılıkları kurabilirsiniz:
# Poetry bağımlılık yönetim aracını kurun, zaten kuruluysa atlayın
# Referans: https://python-poetry.org/docs/#installation
curl -sSL https://install.python-poetry.org | python3 -
# Projeyi bağımlılıkları kurun
poetry install
Ayrıca bunları pip kullanarak da kurabilirsiniz:
Nvidia grafik kartları için
pip install -r requirements/main.txt
AMD/Intel grafik kartları için:
pip install -r requirements/dml.txt
Intel ARC grafik kartları için Linux / WSL ile Python 3.10 kullanarak:
pip install -r requirements/ipex.txt
Mac kullanıcıları run.sh aracılığıyla bağımlılıkları kurabilir:
sh ./run.sh
Diğer Ön Modellerin Hazırlanması
RVC'nin çıkarım ve eğitim yapması için diğer ön modellere ihtiyacı vardır.
Bu ön modelleri Huggingface alanımızdan indirmeniz gerekecektir.
İşte RVC'nin ihtiyaç duyduğu diğer ön modellerin ve dosyaların bir listesi:
./assets/hubert/hubert_base.pt
./assets/pretrained
./assets/uvr5_weights
V2 sürümü modelini test etmek isterseniz, ek özellikler indirmeniz gerekecektir.
./assets/pretrained_v2
V2 sürüm modelini test etmek isterseniz (v2 sürüm modeli, 9 katmanlı Hubert+final_proj'ün 256 boyutlu özelliğini 12 katmanlı Hubert'ün 768 boyutlu özelliğiyle değiştirmiştir ve 3 periyot ayırıcı eklemiştir), ek özellikleri indirmeniz gerekecektir.
./assets/pretrained_v2
En son SOTA RMVPE vokal ton çıkarma algoritmasını kullanmak istiyorsanız, RMVPE ağırlıklarını indirip RVC kök dizinine koymalısınız.
https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/rmvpe.pt
AMD/Intel grafik kartları kullanıcıları için indirmeniz gereken:
https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/rmvpe.onnx
Intel ARC grafik kartları kullanıcıları Webui'yi başlatmadan önce source /opt/intel/oneapi/setvars.sh komutunu çalıştırmalı.
Daha sonra bu komutu kullanarak Webui'yi başlatabilirsiniz:
python web.py
Windows veya macOS kullanıyorsanız, RVC-beta.7z dosyasını indirip çıkararak go-web.bati kullanarak veya macOS'ta sh ./run.sh kullanarak doğrudan RVC'yi kullanabilirsiniz.
Krediler
Katkıda Bulunan Herkese Teşekkürler