W ostatnim roku pojawiło się wiele narzędzi opartych o modele uczenia maszynowego zwane sieciami neuronowymi, których zadaniem jest tworzenie zdjęć i filmów obiektów, które nie istnieją w świecie rzeczywistym. Te narzędzia wykorzystywane są często do generowania filmów ze znanymi osobami (potocznie zwanych deepfake: https://en.wikipedia.org/wiki/Deepfake), w których osoby te mówią coś, czego w rzeczywistości nie powiedziały. Kilka przykładów takich filmów możemy znaleźć tutaj:
Jednak możliwości zastosowania tych narzędzi są dużo szersze, gdyż potencjalnie pozwalają na generowanie dowolnego obrazu czy dźwięku (na przykład generowania głosu znanej osoby na podstawie tekstu pisanego). W połączeniu z narzędziami do generowania tekstu (Jak na przykład model GPT-3: https://en.wikipedia.org/wiki/GPT-3) mogą one służyć do generowania fake newsów na niespotykaną dotąd skalę i o niespotykanej dotąd jakości.
Jak zatem możemy się bronić przed takimi narzędziami?
Jednym z podejść jest stosowanie innych sieci neuronowych do wykrywania tych fałszywych treści (na przykład w tym konkursie – https://www.kaggle.com/c/deepfake-detection-challenge). Na ten moment bliższa analiza obrazu jest w stanie ujawnić pewne cechy, które odróżniają te obrazy od obrazów prawdziwych, więc teoretycznie możemy nauczyć model, który zastępuje w tym człowieka. Z tym podejściem jest jednak pewien problem, który postaram się pokrótce objaśnić. Najpierw jednak musimy zrozumieć, jak uczone są takie algorytmy. Skupimy się tutaj na algorytmach do generowania obrazu, gdyż obrazują one dobrze, gdzie może leżeć problem.
Obecnie najlepszymi i najszerzej stosowanymi modelami generujących obrazy są architektury sieci nuronowych typu GAN (https://en.wikipedia.org/wiki/Generative_adversarial_network). Są one uczone w bardzo ciekawy sposób. Otóż stawiamy obok siebie 2 sieci neuronowe: Pierwsza z nich (tzw. Generator) ma za zadanie generować obrazy fałszywe (np, twarze), a druga (tzw, Dyskryminator) dostaje w losowej kolejności obrazy prawdziwe i fałszywe i musi nauczyć je odróżniać od siebie. W tym samym czasie zadaniem Generatora jest nauczyć się jak oszukiwać Dyskryminator tak, by ten rozpoznawał fałszywe obrazy jako prawdziwe.
Na początku uczenia modelu Dyskryminator ma łatwe zadanie, jednak po jakimś czasie Generator staje się tak dobry, że Dyskryminator nie jest w stanie odróżnić obrazu prawdziwego od fałszywego. Nie oznacza to od razu, że wygenerowane obrazy są w stanie oszukać człowieka. Zależy to w dużej mierze od jakości Dyskryminatora: Im lepszy Dyskryminator, tym większa szansa, że Generator nauczy się tworzyć obrazy zbliżone do prawdziwych. Jeśli założymy, że do stworzenia Generatora użyjemy bardzo dobrej sieci, to jedynym ograniczeniem staje się jakość Dyskryminatora. I tutaj dochodzimy do sedna problemu: każde narzędzie oparte o sieci neuronowe, które zostanie stworzone do wykrywania deepfake może jednocześnie posłużyć do treningu GAN-ów i sprawić, że będą one w stanie oszukać te algorytmy po jakimś czasie.
Wydaje się więc, że zwalczanie ognia ogniem w tym przypadku może nie dać dobrych rezultatów i zawczasu powinno się też pomyśleć o innych metodach (np. kryptograficznych) do weryfikacji czy dane wideo jest prawdziwe, gdyż w pewnym momencie narzędzia te dojdą do poziomu, gdzie nikt nie będzie w stanie odróżnić prawdy od fałszu, używając tylko algorytmów do rozpoznawania obrazu.
Zawodowo od 8 lat zajmuje się analizą danych, uczeniem maszynowym i sztuczną inteligencją. Związany był z takimi polskimi firmami jak Gemius, IIIT, Nethone, Daftcode oraz Sigmoidal. Obecnie pracuje w polskiej spółce SonarHome, gdzie rozwija narzędzia do wyceny nieruchomości oparte o sztuczną inteligencję.
Kilka lat temu założył z Maciejem Dziubińskim fundację Ogólnopolski Instytut Uczenia Maszynowego, w której prowadzi wraz z młodymi naukowcami i studentami badania nad sztuczną inteligencją oraz zajmuje się wspieraniem i promocją polskich badaczy z obszaru uczenia maszynowego.
Z wykształcenia absolwent Wydziału Fizyki, a obecnie w trakcie doktoratu z sieci neuronowych na Wydziale Matematyki, Informatyki i Mechaniki na Uniwersytecie Warszawskim.
This website uses cookies to improve your experience while you navigate through the website. Out of these, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may affect your browsing experience.
Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.
Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.
Niekończąca się walka z Deepfake
W ostatnim roku pojawiło się wiele narzędzi opartych o modele uczenia maszynowego zwane sieciami neuronowymi, których zadaniem jest tworzenie zdjęć i filmów obiektów, które nie istnieją w świecie rzeczywistym. Te narzędzia wykorzystywane są często do generowania filmów ze znanymi osobami (potocznie zwanych deepfake: https://en.wikipedia.org/wiki/Deepfake), w których osoby te mówią coś, czego w rzeczywistości nie powiedziały. Kilka przykładów takich filmów możemy znaleźć tutaj:
Jednak możliwości zastosowania tych narzędzi są dużo szersze, gdyż potencjalnie pozwalają na generowanie dowolnego obrazu czy dźwięku (na przykład generowania głosu znanej osoby na podstawie tekstu pisanego). W połączeniu z narzędziami do generowania tekstu (Jak na przykład model GPT-3: https://en.wikipedia.org/wiki/GPT-3) mogą one służyć do generowania fake newsów na niespotykaną dotąd skalę i o niespotykanej dotąd jakości.
Jak zatem możemy się bronić przed takimi narzędziami?
Jednym z podejść jest stosowanie innych sieci neuronowych do wykrywania tych fałszywych treści (na przykład w tym konkursie – https://www.kaggle.com/c/deepfake-detection-challenge). Na ten moment bliższa analiza obrazu jest w stanie ujawnić pewne cechy, które odróżniają te obrazy od obrazów prawdziwych, więc teoretycznie możemy nauczyć model, który zastępuje w tym człowieka. Z tym podejściem jest jednak pewien problem, który postaram się pokrótce objaśnić. Najpierw jednak musimy zrozumieć, jak uczone są takie algorytmy. Skupimy się tutaj na algorytmach do generowania obrazu, gdyż obrazują one dobrze, gdzie może leżeć problem.
Obecnie najlepszymi i najszerzej stosowanymi modelami generujących obrazy są architektury sieci nuronowych typu GAN (https://en.wikipedia.org/wiki/Generative_adversarial_network). Są one uczone w bardzo ciekawy sposób. Otóż stawiamy obok siebie 2 sieci neuronowe: Pierwsza z nich (tzw. Generator) ma za zadanie generować obrazy fałszywe (np, twarze), a druga (tzw, Dyskryminator) dostaje w losowej kolejności obrazy prawdziwe i fałszywe i musi nauczyć je odróżniać od siebie. W tym samym czasie zadaniem Generatora jest nauczyć się jak oszukiwać Dyskryminator tak, by ten rozpoznawał fałszywe obrazy jako prawdziwe.
Na początku uczenia modelu Dyskryminator ma łatwe zadanie, jednak po jakimś czasie Generator staje się tak dobry, że Dyskryminator nie jest w stanie odróżnić obrazu prawdziwego od fałszywego. Nie oznacza to od razu, że wygenerowane obrazy są w stanie oszukać człowieka. Zależy to w dużej mierze od jakości Dyskryminatora: Im lepszy Dyskryminator, tym większa szansa, że Generator nauczy się tworzyć obrazy zbliżone do prawdziwych. Jeśli założymy, że do stworzenia Generatora użyjemy bardzo dobrej sieci, to jedynym ograniczeniem staje się jakość Dyskryminatora. I tutaj dochodzimy do sedna problemu: każde narzędzie oparte o sieci neuronowe, które zostanie stworzone do wykrywania deepfake może jednocześnie posłużyć do treningu GAN-ów i sprawić, że będą one w stanie oszukać te algorytmy po jakimś czasie.
Wydaje się więc, że zwalczanie ognia ogniem w tym przypadku może nie dać dobrych rezultatów i zawczasu powinno się też pomyśleć o innych metodach (np. kryptograficznych) do weryfikacji czy dane wideo jest prawdziwe, gdyż w pewnym momencie narzędzia te dojdą do poziomu, gdzie nikt nie będzie w stanie odróżnić prawdy od fałszu, używając tylko algorytmów do rozpoznawania obrazu.
Autor
Piotr Tempczyk
Zawodowo od 8 lat zajmuje się analizą danych, uczeniem maszynowym i sztuczną inteligencją. Związany był z takimi polskimi firmami jak Gemius, IIIT, Nethone, Daftcode oraz Sigmoidal. Obecnie pracuje w polskiej spółce SonarHome, gdzie rozwija narzędzia do wyceny nieruchomości oparte o sztuczną inteligencję.
Kilka lat temu założył z Maciejem Dziubińskim fundację Ogólnopolski Instytut Uczenia Maszynowego, w której prowadzi wraz z młodymi naukowcami i studentami badania nad sztuczną inteligencją oraz zajmuje się wspieraniem i promocją polskich badaczy z obszaru uczenia maszynowego.