Si quieres probar el reconocimiento de voz de alta calidad sin comprar nada, buena suerte. Claro, puede tomar el reconocimiento de voz de su teléfono o forzar a algunos asistentes virtuales de Raspberry Pi a que hagan el procesamiento por usted, pero no son buenos para el trabajo básico que no desea vincular a ninguna fuente cerrada. solución. Presentación de OpenAI Susurro, que afirman es una red neuronal de código abierto que «se acerca a la estabilidad y precisión a nivel humano para el reconocimiento del habla en inglés». Parece que también funciona en al menos algunos otros idiomas.
Si prueba las demostraciones, verá que hablar rápido o con un buen acento no parece afectar los resultados. La publicación afirma que fue entrenado en 680,000 horas de datos supervisados. Si hablaras tanto con una IA, te llevaría 77 años sin dormir.
El discurso interno se divide en fragmentos de 30 segundos que alimentan el espectrograma. Los codificadores procesan el espectrograma y los decodificadores digieren los resultados usando algunas predicciones y otras heurísticas. Alrededor de un tercio de los datos procedían de fuentes que no estaban en inglés y luego se tradujeron. Puedes leer papel sobre cómo el aprendizaje generalizado tiene un rendimiento inferior al de algunos modelos especialmente entrenados en los puntos de referencia estándar, pero creen que Whisper funciona mejor en el habla aleatoria además de ciertos puntos de referencia.
El tamaño del modelo en la versión «pequeña» sigue siendo de 39 megabytes, y la versión «grande» es de un giga y medio. Así que esto probablemente no se ejecutará en tu Arduino en el corto plazo. Sin embargo, si desea codificar, todo está en orden GitHub:.
Hay otros soluciones, pero no tan apretado. Si quieres ir a la ruta basada en asistente, aquí está un poco de inspiración.
Beer ninja. Internet maven. Music buff. Wannabe web evangelist. Analista. Introvertido