Materiał przygotował: Michał Kotlarek, Inżynieria multimediów, rok I

Branża multimedialna jest jedną z najważniejszych gałęzi przemysłu telewizyjnego, jak i teleinformatycznego. Przedstawienie wszelkich zasobów informacyjnych w formie obrazu oraz dźwięku wymaga złożonej koordynacji wielu zespołów. Pomimo tego, iż lata rozwoju multimediów pozwoliły wypracować pewne schematy. Które pomagają uniknąć komplikacji, czy błędów w realizacji. Pomyłki wciąż się zdarzają. Pewne procesy jak montaż wideo czy generowanie modeli w przestrzeni trójwymiarowej. To procesy pochłaniające znacznie wiele czasu, przez co ma się ograniczony czas na wprowadzenie zmian. By pewne aspekty produkcji filmowej czy innej, były nieco lepsze. Postanowiono zastosować rozwiązania oparte o sztuczną inteligencję. Jednakże wpierw aby móc mówić o sztucznej inteligencji musimy, najpierw wyjaśnić czym ona jest.

Sztuczna Inteligencja – mówiąc najprościej, (artificial intelligence, AI) to systemy lub maszyny, które naśladują ludzką inteligencję w celu wykonywania zadań i mogące sukcesywnie usprawniać swoje działanie na podstawie zbierane informacje. W sztucznej inteligencji chodzi bardziej o proces i możliwości super wspomaganego myślenia i analizy danych niż o konkretny format czy funkcję. Kojarzy się ona z funkcjonalnymi, humanoidalnymi robotami podbijającymi świat, lecz nie ma na celu zastąpienia ludzi. Tak naprawdę ma znacznie zwiększyć możliwości i efekty pracy ludzkiej. Oznacza to, że należy ją zaliczyć do najbardziej wartościowych zasobów przedsiębiorstwa.

Po wstępnym wyjaśnieniu, czym sztuczna inteligencja jest. Przejdźmy do przykładów jej użycia w wymienionej wcześniej branży. Jedną z najnowszych zastosowań, możemy zauważyć pewien twór chińskiej firmy Sogou. Jest to wirtualna tłumaczka migowego, która ma „rozwiązywać problemy osób niedosłyszących doświadczających wielkich niedogodności w interakcji z resztą świata”. Xiao Cong opiera się na Vocational Avatar firmy Sogou, który służył jako podstawa wirtualnych prezenterów informacyjnych, które firma uruchomiła w 2019 roku we współpracy z Zhangyue Technology i państwowym serwisem medialnym Xinhua. Rzecznik firmy Sogou powiedział, że Xiao Cong jest ulepszeniem swojego Vocational Avatar, stwierdzając, że najnowszy dodatek „wyróżnia się realistycznymi efektami cyfrowymi, wysoce zrozumiałym i powszechnie akceptowanym sposobem przedstawiania języka migowego”. Prezenterka 3D jest w stanie imitować gesty rąk, mimikę twarzy i ruchy warg, niezbędne do skutecznej gestykulacji. Xiao Cong oferuje „natychmiastową” dokładność na poziomie 85 procent, jak twierdzi firma.

Zdjęcie przedstawiające model tłumaczki języka migowego

Inny interesujący przykład, jaki można zauważyć to program o nazwie RunwayML. Jest to jeden z pierwszych programów do edycji filmów używających różnych zaawansowanych algorytmów automatyzujących pracę w stopniu znacznym. Firma Runway opracowuje nową generację narzędzi twórczych. Wykorzystuje najnowsze postępy w grafice komputerowej i w  dziedzinie głębokiego uczenia, aby przesuwać granice możliwości, a co za tym idzie, przekraczać bariery kreatywności. Runway redefiniuje sposób, w jaki tworzymy. To pozwala tworzyć rzeczy, które wcześniej wydawały się niemożliwe do stworzenia. Jak większość tego typu programów wykorzystujących tę zależność, jest tu zastosowane zjawisko głębokiego uczenia (Deep Learning) w dalszej części prezentacji, zostanie wyjaśnione jej działanie na prostszym przykładzie.

Przykładowe zdjęcie pokazujące klatkę wejściową obrabianego filmu powyżej, a poniżej przedstawiono efekt

Oprócz warstwy wizualnej warto też się zająć oprawą audio. Do tego celu wykorzystano, także potencjał cyfrowego umysłu. Platformę, którą warto mieć na uwadze nazywa się AIVA. Jest to firma założona przez Pierre Barreau, który jest informatykiem, nominowanym reżyserem i kompozytorem. Pierre prowadzi firmę w kierunku jego wizji, aby ustanowić AIVA jako jedną z największych kompozytorek wszechczasów i napędzić świat spersonalizowaną muzyką. 

Jej działanie polega na złożonym użyciu zjawiska głębokiego uczenia. Głębokie uczenie to szczególny rodzaj uczenia maszynowego, w którym wiele warstw „sieci neuronowych” jest zaprogramowanych do przetwarzania informacji między różnymi punktami wejściowymi i wyjściowymi. Chociaż tylko luźno opiera się na strukturze neuronowej ludzkiego mózgu, pomaga myśleć o tym w ten sposób. Dzięki temu sztuczna inteligencja może zrozumieć i modelować abstrakcje wysokiego poziomu w danych, takie jak wzorce w melodii lub cechy twarzy osoby. Jest to w skrócie proces tworzenia zaawansowanych konstruktów metafizycznych, na podstawie prostych danych wejściowych. Czyli rozłożenie zaawansowanych problemów, na czynniki pierwsze. 

Po wysłuchaniu dużej ilości muzyki i poznaniu własnych modeli teorii muzyki AIVA komponuje własne nuty. Te utwory są następnie odtwarzane przez profesjonalnych artystów na prawdziwych instrumentach w studiu nagraniowym, uzyskując najlepszą możliwą jakość dźwięku. Chociaż AIVA jest w stanie skomponować klasyczne melodie w ciągu kilku minut, jej klienci zazwyczaj poszukują muzyki, która „wspomaga opowiadanie ich treści wizualnych”. Aby to osiągnąć, czasami potrzeba im kilku iteracji, zanim zostanie wygenerowany właściwy dźwięk. Chociaż muzyka, której AIVA słucha i z której się uczy, jest rzeczywiście wolna od praw autorskich. Jej własne kompozycje nie są własnością publiczną, ponieważ są zarejestrowane w ramach SACEM.

Podsumowując Sztuczna Inteligencja w branży multimedialnej, pomimo młodego udziału. Jest w stanie zagwarantować nowy rozdział w historii przekazywania informacji audiowizualnej. Kto wie jak, będzie wyglądać branża multimedialna za kilka lat, dzięki jej działaniu. Pewne jest jednak to, że skoro światowe korporacje korzystają z wyżej wymienionych usług. To znaczy o bardzo wysokim postępie technologicznym w naszych czasach. Jest to milowy krok w wielu dziedzinach, jednak niektórzy obawiają się końca swoich karier. Ze względu na to, iż SI pozwala zredukować koszty w zasadzie do ceny energii i kosztów utrzymania. Jaka jednak będzie ostateczna przyszłość, tego dowiemy się w swoim czasie.