Δώστε στο YouTube ένα γύρο [ΕΦΑΡΜΟΓΗ] - Οι ήχοι είναι τώρα αυτόματες λεζάντες

έναρξη της υπηρεσίας ζωντανής ροής της τηλεόρασης youtube 28691186 mlΤο YouTube αξίζει ένα χειροκρότημα - επειδή η πλατφόρμα βίντεο μπορεί πλέον να περιλαμβάνει αυτόματα [APPLAUSE] και άλλα ηχητικά εφέ στους υπότιτλους ενός βίντεο. Η επέκταση των υπότιτλων, που ανακοινώθηκε την Πέμπτη 23 Μαρτίου, καθίσταται δυνατή από τα βαθιά νευρωνικά δίκτυα, μια μορφή τεχνητής νοημοσύνης.

Προς το παρόν, το YouTube μπορεί μόνο να επισημάνει αυτόματα χειροκροτήματα, μουσική και γέλια, αλλά αυτά τα τρία ηχητικά εφέ ήταν οι περιγραφές που περιελάμβαναν οι δημιουργοί με το χέρι πάνω από οποιονδήποτε άλλο θόρυβο υπότιτλων. Η τελευταία λειτουργία βασίζεται στη δυνατότητα αυτόματης λεζάντας που κυκλοφόρησε το 2009 για κείμενο, αλλά προσθέτει τα πρώτα ηχητικά εφέ στο σύστημα.

Το YouTube λέει ότι το πρόγραμμα λειτουργεί παρόμοια με την ανίχνευση αντικειμένων σε εικόνες, αλλά αντιμετώπισε μερικές ακόμη δυσκολίες ως προς την αναγνώριση αντικειμένων. Για να αναγνωρίσουν το πρόγραμμα μόνο αυτούς τους τρεις ήχους, οι μηχανικοί του YouTube έπρεπε να διδάξουν στο πρόγραμμα να εντοπίζουν αυτούς τους ήχους, να τους χωρίζουν προσωρινά και στη συνέχεια να εισάγουν τον αναγνωρισμένο ήχο στους υπότιτλους.

Το σύστημα τείνει επίσης να αγωνίζεται με ηχητικά εφέ που συνέβησαν ταυτόχρονα με άλλους ήχους, όπως γέλιο και ομιλία. Μια άλλη πρόκληση ήταν να βρεθεί ένα αρκετά μεγάλο σύνολο δεδομένων για να εκπαιδεύσει το σύστημα που δεν είχε ήδη επισημανθεί επαρκώς με τη μη αυτόματη εισαγωγή δεδομένων.

Το δίκτυο βαθιάς μάθησης αναλύει τα μικρά τμήματα στη σειρά και είναι σε θέση να προβλέψει την πιθανότητα αυτών των ηχητικών εφέ με ρυθμό περίπου 100 καρέ ανά δευτερόλεπτο. Οι μηχανικοί του YouTube, ωστόσο, δημιούργησαν το σύστημα με τρόπο που θα επιτρέψει την προσθήκη επιπλέον ηχητικών εφέ στο σύστημα αργότερα.

Γιατί λοιπόν χειροκροτήματα, μουσική και γέλιο; Εκτός από το ότι είναι οι πιο συχνά χειροκίνητες ετικέτες στο σύστημα υπότιτλων, κάθε ένας από αυτούς τους ήχους έχει μόνο μία σημασία. Ένα «κουδούνισμα», εξήγησε το YouTube, προσφέροντας ένα παράδειγμα, θα μπορούσε να είναι ένα κουδούνισμα από κουδούνι, τηλέφωνο ή συναγερμό, παρουσιάζοντας μια εντελώς νέα πρόκληση για το λογισμικό.

Σύμφωνα με το YouTube, προβάλλονται καθημερινά περισσότερα από 15 εκατομμύρια βίντεο με αυτόματους υπότιτλους. Σε μια δοκιμή της τελευταίας ενημέρωσης των αυτόματων λεζάντων, τα δύο τρίτα ανέφεραν ότι οι ετικέτες ηχητικών εφέ βελτίωσαν τη συνολική εμπειρία.

Πρόσφατες δημοσιεύσεις

$config[zx-auto] not found$config[zx-overlay] not found