#GenAI

Wyciąganie danych z dokumentów z pomocą AI: jak połączyć GenAI, BigQuery i zdrowy rozsądek

Sławomir Mytych, Data Architecture Lead

Wprowadzenie: papierowy / pdf-owy chaos kontra cyfrowa precyzja

Dla każdego zespołu, który mierzył się z przetwarzaniem dokumentów papierowych, PDF-owych skanów czy nieustrukturyzowanych zasobów, jedno jest jasne: to nie jest problem intelektualny czy technologiczny tylko problem skali. Dziesiątki (a czasem tysiące) formatów, brak standardów, aneksy i decyzje administracyjne, łącznie setki tysięcy dokumentów, miliony stron. Przy takich wolumenach nawet najlepiej zorganizowane zespoły operacyjne uginają się pod ciężarem manualnej pracy.

Tu właśnie pojawia się rola AI. Ale nie tej, która wszystko zrobi sama. Tylko tej, która odpowiednio wysterowana wydobędzie potrzebne informacje szybciej, taniej i nierzadko z mniejszą liczbą błędów niż człowiek. To pozwoli odciążyć ludzi i przyspieszyć procesy decyzyjne. W tym tekście pokażę Ci, jak wykorzystaliśmy modele GenAI i narzędzia GCP do przetworzenia dziesiątek tysięcy dokumentów w jednym z projektów Alterdata i jakie praktyczne wnioski możesz z tego wynieść dla swojej organizacji.śnie dlatego kluczowe jest przestrzeganie najlepszych praktyk w budowie i wdrażaniu modeli ML.

Od czego zaczęliśmy: skala i bałagan

Startowaliśmy jak wiele organizacji: z cyfrowym archiwum, które w rzeczywistości było zbiorem ponad 40 000 dokumentów w różnych formatach (PDF, skany JPG, TIFF), o różnych nazwach, długościach, bez wspólnej struktury. W dokumentach znajdowały się dane wrażliwe, decyzje administracyjne, aneksy do umów, zgody lokalizacyjne, faktury kosztowe, raporty techniczne, protokoły odbioru, pisma procesowe i wiele innych kategorii.

Właśnie ten miks form i treści powodował, że tradycyjne podejście (OCR + regex + reczna weryfikacja) nie miało szans zadziałać w akceptowalnym czasie i budżecie. powinniśmy spróbować podjąć, aby go zatrzymać i w jakim momencie chcemy je wykonać.

Proof of Concept: Jak Generative AI sobie z tym poradzi?

Zaczęliśmy od dwutygodniowego PoC-u na wybranej próbce 500 dokumentów. To nie była tylko szybka demonstracja – nad tym etapem pracowaliśmy intensywnie: iterując podejścia, testując różne warianty promptów i oceniając, jak model radzi sobie z nietypowymi strukturami, skanami niskiej jakości czy niespójnym językiem dokumentów.

Cel: sprawdzić, czy model (w tym przypadku Google Gemini + GCP Functions) jest w stanie:

  • rozpoznać typ dokumentu (np. decyzja lokalizacyjna vs. aneks vs. umowa),
  • wyodrębnić kluczowe dane (numery spraw, daty, lokalizacje, strony, kontrahenci),
  • przetworzyć dokumenty o różnej strukturze i jakości,
  • ustandaryzować dane wyjściowe do formy tabelarycznej (BigQuery).

Efekty? Po dwóch tygodniach testów model osiągnął ponad 90% trafności w klasyfikacji dokumentów i około 95% skuteczności w wyodrębnianiu danych z kluczowych pól. Jak na różnorodność form, układów i jakości źródeł – to wynik, który uznaliśmy za wystarczająco dobry, by przejść dalej.

Architektura: prostota, która skaluje

Finalne rozwiązanie zbudowaliśmy w oparciu o:

  • Google Cloud Storage do przechowywania dokumentów,
  • Cloud Functions jako kontroler orkiestracji i wywołań modelu,
  • Gemini (Vertex AI) do klasyfikacji, ekstrakcji i cięcia wielostronicowych plików,
  • BigQuery jako docelowy storage danych ustrukturyzowanych,
  • oraz dashboard analityczny + interfejs do walidacji i inspekcji wyników.ndacjom produktów.

Całość została przemyślana tak, by dobrze znosić rzeczywistość projektu: powtarzalne testy, zmienne dane i nieoczywiste przypadki.

  • Obsługa iteracyjnych poprawek (czyli dziesiątki prób z promptami, dopasowywanie logiki do wyjątków, walidacja edge-case’ów) była podstawą.
  • Architektura musiała uwzględniać model pracy, w którym AI wspiera ludzi, ale nie działa autonomicznie – dlatego każda decyzja była możliwa do zweryfikowania.
  • Przygotowaliśmy też wszystko pod dużą skalę – przetwarzanie batchowe, bez zawieszania się na pojedynczym błędzie i bez ręcznej interwencji przy każdym pliku.

Iteracje i lekcje: bez iluzji, złożona praca i konkretne doświadczenie

Największe wyzwania nie były ani czysto techniczne, ani stricte operacyjne – pojawiały się właśnie na styku technologii i praktyki, gdzie narzędzia mają realnie wspierać realizację celów biznesowych:

  • Jak zbudować matrycę typów dokumentów, która obejmie wszystkie przypadki?
  • Jak walidować dane, które często pojawiały się w różnej formie (np. adres raz skrócony, raz opisowy)?
  • Jak zdecydować, co model ma odczytać zawsze, a co tylko wtedy, gdy to możliwe?

W sumie przeszliśmy kilkaset iteracji promptów i logiki kontrolnej, zanim doszliśmy do momentu, w którym zespół uznał jakość danych za "produkcyjną". Wprowadziliśmy też mechanizmy walidacji biznesowej i reguły flagowania podejrzanych wartości (np. niezgodności w liczbach).

Efekty: 30 000 dokumentów w dwa tygodnie i odzyskane 2000 godzin pracy

W finalnym przetwarzaniu uzyskaliśmy:

  • przetworzenie prawie 30 000 dokumentów w mniej niż dwa tygodnie,
  • skuteczność ekstrakcji na poziomie 95% dla krytycznych danych,
  • dane gotowe do raportowania i integracji z ERP,
  • odzyskane ~2000 roboczogodzin pracy manualnej.

Ale to, co okazało się najistotniejsze, wydarzyło się po stronie interpretacji wyników. Dzięki dobrze przetworzonym i uporządkowanym danym klient uzyskał wgląd w informacje, których wcześniej nie znał. Zidentyfikowano nieuświadomione wcześniej rozbieżności, dublujące się zobowiązania i niepotrzebne koszty.

Efekt? Realne decyzje biznesowe, które w perspektywie roku przyniosły kilka milionów złotych oszczędności. To pokazuje, że największa wartość z wdrożenia GenAI nie leży tylko w szybkości, ale w możliwości zrozumienia tego, co do tej pory było ukryte w plikach PDF.

Co możesz zrobić u siebie?

Jeśli mierzysz się z podobnym problemem nieustrukturyzowanych danych:

  1. Zacznijmy od audytu: jakie masz dokumenty, ile, w jakiej formie, czego od nich oczekujesz?
  2. Wybierzemy kluczowe typy dokumentów i zdefiniuj wymagane dane do ekstrakcji.
  3. Zbudujemy PoC na małej próbie: sprawdź co działa, a co nie.
  4. Będziemy interować prompt engineering + walidacja + ocena jakości.
  5. A potem będziemy skalować

Pamiętaj: AI nie zastąpi człowieka, ale jeśli zrobi to 10x szybciej i 10x taniej – a do tego zyskujesz dostęp do informacji, do których wcześniej nie miałeś wglądu, co może przynieść wartość wielokrotnie większą niż oszczędności czasu i zasobów, jeśli tylko odpowiednio je wykorzystasz. To często właśnie te dane decydują o zmianie decyzji, renegocjacjach, optymalizacjach – i realnych pieniądzach. masz realny powód, by z niej skorzystać.

Chcesz porozmawiać o tym, jak AI może pomóc Twoim dokumentom?
Odezwij się do nas.

W Alterdata łączymy dane, narzędzia AI i realne potrzeby biznesowe. Z efektem - umów się na bezpłatną konsultację!

Przeczytaj również:

Przeglądaj inne posty

Tematyka Rozwiń sekcję
Artificial Intelligence
Big Data
Business Intelligence
Data Analytics
Data Engineering
Data Science
E-commerce
Gaming
Generative AI
Machine Learning
MLOps
News