fumiama/Retrieval-based-Voice-Conversion-WebUI

mirror of https://github.com/fumiama/Retrieval-based-Voice-Conversion-WebUI.git synced 2026-07-17 10:56:24 +08:00

Files

Alex Murkoff 1e22d468ea feat(audio): use PyAV instead of ffmpeg (#31 )

* feat(audio): use PyAV instead of ffmpeg

replaced usage of ffmpeg in favor of PyAV (`av`)

* refactor(audio): store all of the audio related functions in the `infer.lib.audio`

refactors previous commit to have singular functions for each task, all located in `infer.lib.audio`

* fix(audio): remove downsample_audio from mdxnet.py

it is no longer needed, since it's imported from infer.lib.audio

* docs: remove every ffmpeg mention in the documentation to avoid confusion

* chore(requirements): remove ffmpeg-python and ffmpy from all requirements

* fix(audio): fix loading for UVR

wrapped gathering of META info from the stream into a function

fixes loading for UVR

* fix(audio): use np.frombuffer() instead of direct conversion of the resampled frames

this fixes traceback on preprocessing

* feat(audio): pre-allocate decoded_audio array in the load_audio function

this should improve performance, even if just a little

* Revert "docs: remove every ffmpeg mention in the documentation to avoid confusion"

This reverts commit 1e05bbce03.

* chore(format): run black on dev

* fix(requirements): revert removal of ffmpeg in unitest.yml and Dockerfile

* Revert "fix(requirements): revert removal of ffmpeg in unitest.yml and Dockerfile"

This reverts commit e28a0eebb2.

* feat(audio): pre-allocate numpy array to store the AudioFrame data in ndarray of dtype float32

* chore(format): run black on dev

* fix(audio): fix the decoded_audio size estimation

in estimated_total_samples we multiply by `sr` instead of `container.streams.audio[0].rate` since we want to estimate size of the OUTPUT file, not the input one. - Added dynamic resizing, in case something goes wrong and the size of decoded_audio is estimated incorrectly

Fixed function `load_audio` when the input audio's samplerate does not match the desired samplerate (`sr`)

* chore(format): run black on dev

* refactor(audio): remove `clean_path()` function as it serves no purpose anymore

* docs: remove everything related to ffmpeg

this includes everything except for formats support specification in the training_tips docs, since it has nothing to do with what ffmpeg does/did but rather what audio formats are supported (all the ones that ffmpeg supports!)

* docs: fix order of the steps in preparation in the READMEs

---------

Co-authored-by: github-actions[bot] <github-actions[bot]@users.noreply.github.com>

2024-06-12 20:13:26 +09:00

Changelog_TR.md

Snmz tony native 1 (#1129 )

2023-08-30 16:33:59 +09:00

faiss_tips_tr.md

Snmz tony native 1 (#1129 )

2023-08-30 16:33:59 +09:00

faq_tr.md

feat(audio): use PyAV instead of ffmpeg (#31 )

2024-06-12 20:13:26 +09:00

README.tr.md

feat(audio): use PyAV instead of ffmpeg (#31 )

2024-06-12 20:13:26 +09:00

training_tips_tr.md

feat(audio): use PyAV instead of ffmpeg (#31 )

2024-06-12 20:13:26 +09:00

README.tr.md

Çekme Temelli Ses Dönüşümü Web Arayüzü

VITS'e dayalı kullanımı kolay bir Ses Dönüşümü çerçevesi.

Değişiklik Geçmişi | SSS (Sıkça Sorulan Sorular)

Burada Demo Video'muzu izleyebilirsiniz!

RVC Kullanarak Gerçek Zamanlı Ses Dönüşüm Yazılımı: w-okada/voice-changer

Ön eğitim modeli için veri kümesi neredeyse 50 saatlik yüksek kaliteli VCTK açık kaynak veri kümesini kullanır.

Yüksek kaliteli lisanslı şarkı veri setleri telif hakkı ihlali olmadan kullanımınız için eklenecektir.

Lütfen daha büyük parametrelere, daha fazla eğitim verisine sahip RVCv3'ün ön eğitimli temel modeline göz atın; daha iyi sonuçlar, değişmeyen çıkarsama hızı ve daha az eğitim verisi gerektirir.

Özet

Bu depo aşağıdaki özelliklere sahiptir:

Ton sızıntısını en aza indirmek için kaynak özelliğini en iyi çıkarımı kullanarak eğitim kümesi özelliği ile değiştirme;
Kolay ve hızlı eğitim, hatta nispeten zayıf grafik kartlarında bile;
Az miktarda veriyle bile nispeten iyi sonuçlar alın (>=10 dakika düşük gürültülü konuşma önerilir);
Timbraları değiştirmek için model birleştirmeyi destekleme (ckpt işleme sekmesi-> ckpt birleştir);
Kullanımı kolay Web arayüzü;
UVR5 modelini kullanarak hızla vokalleri ve enstrümanları ayırma.
En güçlü Yüksek tiz Ses Çıkarma Algoritması InterSpeech2023-RMVPE sessiz ses sorununu önlemek için kullanılır. En iyi sonuçları (önemli ölçüde) sağlar ve Crepe_full'den daha hızlı çalışır, hatta daha düşük kaynak tüketimi sağlar.
AMD/Intel grafik kartları hızlandırması desteklenir.
Intel ARC grafik kartları hızlandırması IPEX ile desteklenir.

Ortamın Hazırlanması

Aşağıdaki komutlar, Python sürümü 3.8 veya daha yüksek olan bir ortamda çalıştırılmalıdır.

(Windows/Linux) İlk olarak ana bağımlılıkları pip aracılığıyla kurun:

# PyTorch ile ilgili temel bağımlılıkları kurun, zaten kuruluysa atlayın
# Referans: https://pytorch.org/get-started/locally/
pip install torch torchvision torchaudio

# Windows + Nvidia Ampere Mimarisi(RTX30xx) için, https://github.com/fumiama/Retrieval-based-Voice-Conversion-WebUI/issues/21 deneyime göre pytorch'a karşılık gelen cuda sürümünü belirtmeniz gerekebilir
#pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117

Sonra poetry kullanarak diğer bağımlılıkları kurabilirsiniz:

# Poetry bağımlılık yönetim aracını kurun, zaten kuruluysa atlayın
# Referans: https://python-poetry.org/docs/#installation
curl -sSL https://install.python-poetry.org | python3 -

# Projeyi bağımlılıkları kurun
poetry install

Ayrıca bunları pip kullanarak da kurabilirsiniz:


Nvidia grafik kartları için
  pip install -r requirements/main.txt

AMD/Intel grafik kartları için：
  pip install -r requirements/dml.txt

Intel ARC grafik kartları için Linux / WSL ile Python 3.10 kullanarak: 
  pip install -r requirements/ipex.txt

Mac kullanıcıları run.sh aracılığıyla bağımlılıkları kurabilir:

sh ./run.sh

Diğer Ön Modellerin Hazırlanması

RVC'nin çıkarım ve eğitim yapması için diğer ön modellere ihtiyacı vardır.

Bu ön modelleri Huggingface alanımızdan indirmeniz gerekecektir.

İşte RVC'nin ihtiyaç duyduğu diğer ön modellerin ve dosyaların bir listesi:

./assets/hubert/hubert_base.pt

./assets/pretrained 

./assets/uvr5_weights

V2 sürümü modelini test etmek isterseniz, ek özellikler indirmeniz gerekecektir.

./assets/pretrained_v2

V2 sürüm modelini test etmek isterseniz (v2 sürüm modeli, 9 katmanlı Hubert+final_proj'ün 256 boyutlu özelliğini 12 katmanlı Hubert'ün 768 boyutlu özelliğiyle değiştirmiştir ve 3 periyot ayırıcı eklemiştir), ek özellikleri indirmeniz gerekecektir.

./assets/pretrained_v2

En son SOTA RMVPE vokal ton çıkarma algoritmasını kullanmak istiyorsanız, RMVPE ağırlıklarını indirip RVC kök dizinine koymalısınız.

https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/rmvpe.pt

    AMD/Intel grafik kartları kullanıcıları için indirmeniz gereken:

    https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/rmvpe.onnx

Intel ARC grafik kartları kullanıcıları Webui'yi başlatmadan önce source /opt/intel/oneapi/setvars.sh komutunu çalıştırmalı.

Daha sonra bu komutu kullanarak Webui'yi başlatabilirsiniz:

python web.py

Windows veya macOS kullanıyorsanız, RVC-beta.7z dosyasını indirip çıkararak go-web.bati kullanarak veya macOS'ta sh ./run.sh kullanarak doğrudan RVC'yi kullanabilirsiniz.

Krediler

ContentVec
VITS
HIFIGAN
Gradio
Ultimate Vocal Remover
audio-slicer
Vokal ton çıkarma:RMVPE
- Ön eğitimli model yxlllc ve RVC-Boss tarafından eğitilip test edilmiştir.

README.tr.md Unescape Escape

Çekme Temelli Ses Dönüşümü Web Arayüzü

Özet

Ortamın Hazırlanması

Diğer Ön Modellerin Hazırlanması

Krediler

Katkıda Bulunan Herkese Teşekkürler

README.tr.md