– Analizujemy i łączymy coraz więcej danych, dzięki czemu można wytwarzać różnego rodzaju sztuczne dane. W Techmo zajmujemy się głównie syntezowaniem głosów, robiliśmy przymiarki takich komunikatów jak prezydent Obama mówiący w języku polskim. Tutaj jest bardzo duże pole do różnego rodzaju nadużyć. Łatwo wytworzyć komunikat audio znanej osoby i powiedzieć jej głosem coś, czego nigdy nie powiedziała. Wygenerowanie wywiadu z kimś, kto nie istnieje, nie jest w tej chwili żadnym problemem – mówi agencji informacyjnej Newseria Innowacje dr hab. Bartosz Ziółko, prezes zarządu Techmo.
Mimo że technologia deepfake zrodziła się w internecie i jest powszechnie wykorzystywana m.in. do zamieniania twarzy aktorów w materiałach filmowych, jej potencjał wykracza daleko poza aspekty rozrywkowe. Wykorzystując zdobycze sztucznej inteligencji w procesie zautomatyzowanej obróbki danych wizualno-dźwiękowych, można syntezować sztuczne dane imitujące konkretne obiekty bądź odgłosy.
Firma Techmo wykorzystała tę technologię, aby usprawnić autorskie rozwiązania z zakresu syntezowania mowy. Inżynierowie sięgnęli po algorytmy uczenia maszynowego, aby wyszkolić sztuczną inteligencję w procesie imitowania mowy wskazanego użytkownika. Dzięki temu firma może tworzyć personalizowane boty głosowe, które imitują brzmienie wybranej osoby. Algorytmy Techmo analizują dźwięki źródłowe dostarczone przez klienta i na tej podstawie tworzą profil syntezowania danego głosu.
– Technologia deepfake potrzebuje danych i algorytmów. I obie te części w ostatnich latach nabrały zupełnie nowych wymiarów, są dużo większe bazy zdjęć, nagrań wideo czy audio. To jest bardzo szybko rosnąca branża. Są też różnego rodzaju algorytmy oparte na sieciach neuronowych, temu trendowi sprzyja też coraz silniejsza architektura komputerów, coraz większe możliwości przetwarzania danych – zauważa ekspert.
Potencjał tej technologii docenili także inżynierowie firmy Nvidia. Zaprojektowali narzędzie Maxine, które jest zdolne do generowania obrazów typu deepfake na potrzeby wideorozmów. Oprogramowanie analizuje obraz z kamery komputerowej i w czasie rzeczywistym przetwarza go w taki sposób, aby rozmówca wyglądał jak najkorzystniej podczas rozmowy. Algorytmy potrafią przeskalować stream do wyższej rozdzielczości, zwiększyć płynność nagrania, a nawet obrócić twarz w taki sposób, aby rozmówca mówił prosto do kamery.
O krok dalej poszli twórcy aplikacji Avatarify, która umożliwia użytkownikom Skype’a, Zooma oraz Slacka wcielenie się niemal w dowolną osobę podczas rozmowy. Oprogramowanie analizuje obraz przechwycony przez kamerę i wykorzystuje dane analityczne opisujące ruchy mimiczne rozmówcy w procesie animowania statycznego obrazu. Tym samym zasilając bazę danych aplikacji dowolnym zdjęciem, można wcielić się w zilustrowaną postać.
– Siła mediów jest duża, a fałszywe komunikaty mają silne oddziaływanie. Pod kątem reklamowym i kreowania światopoglądu jest duże pole do popisu, komercjalizowalność tego typu technik jest spora. Czasami łatwiej wygenerować nieprawdziwe treści, niż tworzyć prawdziwe, za którymi trzeba chodzić, analizować i odpowiednio przygotować. Są też inne zastosowania, jak np. generowanie wypowiedzi osób już nieżyjących. To mogą być zarówno osoby, które niedawno zmarły, a jest planowana kontynuacja serialu, czy jakiejś gry, mogą to być też komunikaty osób historycznych – wymienia Bartosz Ziółko.
Według analityków z firmy Grand View Research wartość globalnego rynku sztucznej inteligencji w 2020 roku wyniesie 62,4 mld dol. Przewiduje się, że do 2027 roku wzrośnie do 733,7 mld dol. przy średniorocznym tempie wzrostu na poziomie 42,2 proc.
Napisz komentarz
Komentarze