Chat GPT i inne cuda na kiju AI

Przez ostatnie kilka lat sporo zamieszania zrobiły rewolucyjne narzędzia AI, takie jak GPT, DALL-E, Midjourney, Copilot itd. U niektórych odżyły lęki o powstanie Skynetu i koniec rasy ludzkiej. Pojawiło się zagrożenie utraty pracy dla wielu specjalności. Artykuł może napisać AI, grafikę może wygenerować AI, znanego aktora może zastąpić deepfake. Chat GPT wygeneruje kod w kilkanaście sekund, podczas gdy programiście mogłoby to zająć kilka dni. Zawody kreatywne do tej pory miały solidną podstawę do czucia się bezpiecznie na rynku pracy. Obecnie się to zmienia. Jest to z pewnością rewolucja, której jesteśmy świadkami. Nadeszły ciekawe czasy…

Z modeli generowania obrazów rzadko korzystam, dużo częściej z Chat GPT i o nim jest głównie ten artykuł.

Niektórzy przwidują koniec świata, dla siebie widzę rozwój narzędzi AI, jako szansę na pozyskanie zupełnie nowych 2, mocne ułatwienie pracy z "upierdliwym" kodem.

Obecnie można poprosić Chat GPT, aby skorygował tekst, zrobił podsumowanie tekstu, zrobił tłumaczenie, napisał piosenkę itd. Liczba możliwości jest ogromna. Na stronie można znaleźć bardzo ciekawe przykłady promptów. Prompt to inaczej zapytanie dla tego narzędzia.

Chat GPT bazuje na algorytmie LLM służący do przetwarzania języka naturalnego (ludzkiego). Twórcy podczas uczenia wrzucają wielkie ilości danych, algorytm szuka powiązań i kojarzy ze sobą komunikaty. Chat GPT jest modelem generatywnym, zawsze udziela odpowiedzi. Niestety, także wtedy, gdy nie wie, co odpowiedzieć, albo wtedy, gdy zupełnie nie zrozumiał promptu. Zupełnie jak politycy podczas trudnej konferencji prasowej 😉

Odpowiedź modelu nie musi być zgodna z rzeczywistością. Same modele posiadają tylko informacje i skojarzenia między nimi, brakuje natomiast ludzkiej inteligencji. Za to dobrze ją symuluje, ale tylko symuluje. Człowiek zawsze musi zweryfikować wynik działania.

Aby nie przegapić pociągu i wykorzystać szansę na rynku, postanowiłem poświęcić regularnie czas na naukę prompt-engineeringu, bo tak się nazywa nowa dziedzina inżynierii. Polega na pisaniu promptów-zapytań do modeli.

W połowie tego roku fraza wybuchła popularnością w wyszukiwarce Google:

W internecie nie brakuje zachwytów nad możliwościami czatu ale rzeczywistość jest bardziej w odcieniach szarości. Problemów jest kilka, np. nie jest dokonywany fact checking, odpowiedź nie musi być zgodna z oczekiwaniami, wygenerowany kod może zawierać błędy itd. Więc warto zawsze sprawdzić wygenerowany prompt, jeśli masz intencję np. wykorzystać narzędzie do generowania automatycznych maili do klienta.

Z mojej perspektywy

Gdzie widzę potencjał zastosowania chatu w mojej działalnościach

tłumaczenia – lepiej sobie radzi niż Google Translate.
podsumowania tekstów, wideo, podcastów. Oszczędza mi czas.
korekta tekstów – poprawki językowe, gramatyczne, ortograficzne.
analiza tekstu.
generator nazw, opisów, tekstów np. nazw produktu, artykułów, pism.
projektowanie stron www.
wsparcie do używanych narzędzi np. generowanie promptów dla DALL-E aby generować obrazki na bloga czy formuł Excela.
programowanie np. kod frontendu, powtarzalnego kodu, generowanie wyrażeń regularnych, znajdowanie błędów i dziur bezpieczeństwa, generowanie przypadków testowych.
skomplikowanych zadania (np. wyrażenia regularne).
zabawa np. generowanie piosenek, naśladowanie stylu pisarskiego itd.

Jak zautomatyzowałem użycie Chat-GPT?

Bardzo lubię korzystać z aplikacji GetPocket ,służącej do zapisywania linków, do przeczytania później. Niektóre artykuły mają po kilkadziesiąt minut czytania, a praktycznych informacji jest zaledwie kilkanaście punktów. Wpadłem na pomysł, aby zbudować automat do pobierania najnowszych wpisów, wrzucania linków do ChatGPT i przygotowywania na ich podstawie streszczeń.

Do zbudowania pipeline wykorzystałem make.com – platformę no-code/low-code łączącej ze sobą różne aplikacje internetowe, za pomocą której można automatyzować procesy. Ustawia się trigger na początku, np. czas czy wejście na określony url.

Mój flow wygląda tak:

Co 4 h, moduł Pocket zwraca najnowsze wpisy z tagiem summarize, dalej jest budowany JSON z danymmi dt. linku. Na podstawie poniższego prompta jest budowane zapytanie do ChatGPT:

Make notes from the text from url "{{2.given_url}}" with the most unique and helpful points, list of key points. Extract tools/apps/devices names and urls to list. Use text original language. If you can't make notes, then return "<not summarized>"

A na koniec informacje o linku i podsumowaniu są zapisywane w AirTable.

Przykładowo, biorę techniczny link https://thinkinglabs.io/articles/2022/05/30/on-the-evilness-of-feature-branching-the-problems.html, w rezultacie otrzymuję nowy rekord w AirTable.

Dla tego artykułu streszczenie jest całkiem użyteczne. Dostałem je w postaci punktów, uzyskałem listę używanych odnośników. Mogę streszczenie dodać do mojego second braina, bo może przydać się na później, jakbym pisał np. artykuł o praktykach używania narzędzi kontroli wersji kodu.

Z drugiej strony, dla innego artykułu: https://www.bogaty.men/koty-4-2023/, który jest przeglądem sytuacji ekonomicznej, dostaję bełkot nie mający nic wspólnego z artykułem.

1. Koty 4 2023 to konkurs dla studentów, którzy chcą zdobyć doświadczenie w zakresie tworzenia aplikacji mobilnych. 
2. Konkurs jest otwarty dla studentów z całego świata, którzy ukończyli 18 lat. 
3. Zgłoszenia są przyjmowane do końca 2023 roku. 
4. Uczestnicy mogą tworzyć aplikacje mobilne w językach Swift, Java, HTML5, CSS3, JavaScript i innych. 
5. Uczestnicy mogą korzystać z narzędzi takich jak Xcode, Android Studio, Visual Studio Code, Adobe Creative Suite i innych. 
6. Uczestnicy mogą tworzyć aplikacje na urządzenia takie jak iPhone, iPad, Android, Windows Phone i inne. 
7. Zwycięzcy otrzymają nagrody w wysokości do 10 000 USD. 

Tools/apps/devices names and urls: 

- Xcode (https://developer.apple.com/xcode/)
- Android Studio (https://developer.android.com/studio)
- Visual Studio Code (https://code.visualstudio.com/)
- Adobe Creative Suite (https://www.adobe.com/creativecloud.html)
- iPhone (https://www.apple.com/iphone/)
iPad (https://www.apple.com/ipad/)
Android (https://www.android.com/)
Windows Phone (https://www.microsoft.com/en-us/windows/phones)

Tak więc,jak na załączonym screenie widać, ChatGPT popełnia błędy w interpretacji treści artykułu.

Jak się uczę?

Na początku moim głównym źródłem inspiracji był Twitter. Feed podrzucał mi regularnie posty, testowałem różne znajdowane ciekawostki, czytałem artykuły o zasadach działania.

Jakiś czas temu przeczytałem w newsletterze Jakub Mrugalski pisał o sprzedaży ebooka który współtworzył o użyciu Chat GPT w automatyzacji – Codzienność z GPT-4. Zakupiłem go, przeczytałem i wdrażam.

Do tego śledzę źródła jak twitter, fora programistyczne, blogi dt. AI.