DaVinci Resolve vs Whisper: ¿quién ganará la batalla de la inteligencia artificial para transcribir voz a texto? La última versión de DaVinci Resolve, la 18.5, que por ahora todavía sigue en estado beta, incluye una novedad maravillosa, y es que podemos transcribir voz a texto.
Además, en la última beta ya disponemos también de la posibilidad de transcribir en idioma español, pero yo he querido ir un poquito más allá y quiero saber si realmente el rendimiento de DaVinci Resolve para realizar esta tarea es mejor que la de la todopoderosa Whisper, que es una inteligencia artificial maravillosa para transcribir voz a texto, como ya habrás visto varias veces en Creatubers.
Así que lo que voy a hacer es comparar DaVinci Resolve y Whisper en cuatro puntos: precio, tiempo de procesamiento, precisión en la transcripción y flexibilidad a la hora de trabajar con los subtítulos que hemos generado. Por cierto, aquí estamos hablando de la integración de los modelos de transcripción de voz a texto con un programa de edición de vídeo. No estamos valorando si funciona mejor en bruto un modelo u otro. Así que sin más dilación, vamos con el primer punto.
1. Precio: la gran baza de Whisper
Evidentemente, aquí hay un caballo ganador y es Whisper. Mientras que DaVinci Resolve dispone de la capacidad de transcribir voz a texto sólo en la versión Studio, es decir, la versión de pago, que a día de hoy está en torno a los 332 euros, en el caso de Whisper, tenemos una inteligencia artificial a nuestro servicio para realizar una tarea de transcripción de voz a texto con una precisión increíble completamente gratis.
DaVinci Resolve 0 – 1 Whisper
2. Tiempo de procesamiento: DaVinci Resolve es más rápido
Ya vimos en un vídeo anterior que a Whisper le cuesta un poquito trabajar con la CPU y hace que el proceso de transcripción sea bastante lento cuando no utilizamos una tarjeta gráfica. Para hacer que Whisper se ejecute con una tarjeta gráfica y procese el audio utilizando este componente que es tan potente para realizar esta tarea, tenemos que habilitar una serie de parámetros que resulta un poco farragoso si no estás muy acostumbrado o acostumbrada a toquetear cosas en la línea de comandos, cambiar código, etcétera, etcétera. Se puede habilitar Whisper para que trabaje con la GPU, pero es bastante complicado.
En el caso de DaVinci Resolve, tenemos un modelo para realizar la transcripción de voz a texto y simplemente disponemos de una sola opción. Es decir, no podemos habilitar o deshabilitar el uso de la GPU o usar modelos más o menos pequeños (al contrario que Whisper), sino que está todo perfectamente empaquetado para que tú solo tengas que pulsar un botón y ya está.
Lo que he hecho ha sido tomar el último vídeo que subí al canal, el de la Blackmagic Pocket Cinema Camera 6K, que es un vídeo que dura 21 minutos y 28 segundos. Disponemos de una sola opción, pero tenemos diferentes modalidades de esa única opción. Podemos hacerlo en la línea de tiempo completa o podemos hacerlo por clips.
Para hacerlo en la línea de tiempo, nos tenemos que ir al menú Línea de tiempo y a crear subtítulos desde el audio. Se nos abrirá una ventana en la que podemos seleccionar el idioma, que puede ser automático o no, y también podemos traducir lo que hayamos transcrito.
También tenemos la posibilidad de usar un ajuste predefinido. Por ejemplo, podemos usar un estándar muy extendido, que es el de Netflix. Esto hará que la división de palabras y líneas se ajuste a lo que especifica Netflix. También podemos hacer que los subtítulos tengan una línea o dos o incrementar el espacio en el tiempo entre subtítulos. Pues bien, DaVinci Resolve tardó 1 minuto y 47 segundos en realizar la transcripción.
En el caso de Whisper, usé el modelo Medium y la GPU para acelerar el proceso y tardó 8 minutos y 19 segundos. Estamos hablando de que tardó casi 7 minutos más que DaVinci Resolve para realizar la transcripción. Por lo tanto, aquí tenemos un claro ganador que es DaVinci Resolve.
DaVinci Resolve 1 – 1 Whisper
3. Precisión
A nivel de puntuación, lo que me llama la atención es que, en el caso de DaVinci Resolve, tenemos puntuaciones muy bien aplicadas en general. Tenemos comas, tenemos puntos y signos de interrogación y exclamación, mientras que Whisper, como ya sabemos, realiza esta labor estupendamente.
Ahora, a nivel transcripción de palabras, ¿quién gana aquí? Pues la verdad es que tengo bastante difícil dar aquí un ganador porque ambos han realizado una tarea bastante buena de transcripción, teniendo en cuenta además que el modelo que ha utilizado DaVinci Resolve seguramente sea mucho más ligero que el que ha usado Whisper, porque el tiempo ha sido muchísimo menor.
Pues lo interesante de esto es que ambos han clavado muchas palabras raras, inventadas o nombres comerciales, y en general es un poco partido de tenis. Ahora tú aciertas, ahora yo acierto. No he percibido una superioridad aplastante en ningún contendiente, tanto en este como en otros vídeos que he transcrito.
Por lo tanto, yo aquí me veo obligado a dar un empate y a darle un puntito a cada uno.
DaVinci Resolve 2 – 2 Whisper
4. Flexibilidad
Aquí partimos de la base de que DaVinci Resolve, por un lado, es un programa que se instala y ya está. Tiene incluido este modelo de transcripción para que podamos realizar esta tarea mucho más fácilmente. Y por otro lado, tenemos Whisper, que es un programa que no se instala con “siguiente, siguiente, siguiente” y ya está. Sino que tienes que descargar un lenguaje de programación y una serie de componentes para que funcione. No deja de ser un engorro espectacular si no tienes mucha idea de programación.
Además, como el sistema en el que se apoya Whisper es muy cambiante en el tiempo, pues muchas veces lo que explicas en un tutorial de instalación dentro de tres meses ya no funciona. Y además de lo que estamos hablando aquí es de la integración con un programa de edición, no de la potencia en bruto ni de las posibilidades que pueda tener para trabajar con varios vídeos a la vez o para realizar tareas de transcripción de un audio y ya está.
Si estamos hablando única y exclusivamente de esto, yo aquí tengo que darle la victoria a DaVinci Resolve.
DaVinci Resolve 3 – 2 Whisper
Cómo eliminar silencios en DaVinci Resolve mediante IA
Rizando ya el rizo, en DaVinci Resolve ahora tenemos la posibilidad de editar el vídeo según esa transcripción que se ha realizado y además, desde la última beta, tenemos la posibilidad también de eliminar silencios.
Esto lo podemos hacer con clips en el panel multimedia (si habías sincronizado el audio desde una fuente externa, arrastra el clip completo al panel multimedia). Luego le tenemos que dar al botón derecho y a audio transcription. Aquí seleccionamos transcribe (transcribir) y se realizará el proceso.
Y ahora aparecerá el audio transcrito con los silencios señalizados con paréntesis y puntos suspensivos. Si le damos a botón derecho en estos paréntesis, aparecerá un menú con la opción de editar el texto, borrar el texto, deshacer la eliminación y también de copiar el texto. También puedes borrar el texto pulsando retroceso. Se tachará el texto indicándonos que no se va a importar a la línea de tiempo cuando importemos este clip. O puedes ir a los tres puntitos de arriba a la derecha y seleccionar borrar espacios en silencio.
Le damos a control o comando + A para seleccionar todo el texto y luego le damos a uno de los botones de añadir para que se importe a la línea de tiempo el clip con los silencios eliminados.
Adquiere las herramientas de trabajo de Creatubers
Equípate para tu proyecto creativo y me ayudarás con una pequeña comisión de afiliado. No pagarás de más, sino que los proveedores dejarán de recibir una pequeña parte para dársela a Creatubers.
0 comentarios en "Cómo transcribir audio con DaVinci Resolve"