Importoni të dhëna nga PDF në Excel përmes Power Query

Detyra e transferimit të të dhënave nga një spreadsheet në një skedar PDF në një fletë Microsoft Excel është gjithmonë "argëtuese". Sidomos nëse nuk keni softuer të shtrenjtë njohjeje si FineReader ose diçka të tillë. Kopjimi i drejtpërdrejtë zakonisht nuk çon në asgjë të mirë, sepse. pas ngjitjes së të dhënave të kopjuara në fletë, ato ka shumë të ngjarë të "ngjiten së bashku" në një kolonë. Kështu që ata do të duhet të ndahen me kujdes duke përdorur një mjet Teksti sipas kolonave nga skeda Data (Të dhënat - Teksti në kolona).

Dhe sigurisht, kopjimi është i mundur vetëm për ato skedarë PDF ku ka një shtresë teksti, dmth me një dokument që sapo është skanuar nga letra në PDF, kjo në parim nuk do të funksionojë.

Por nuk është aq e trishtueshme, me të vërtetë 🙂

Nëse keni Office 2013 ose 2016, atëherë në disa minuta, pa programe shtesë, është mjaft e mundur të transferoni të dhëna nga PDF në Microsoft Excel. Dhe Word and Power Query do të na ndihmojë në këtë.

Për shembull, le të marrim këtë raport PDF me një mori tekstesh, formulash dhe tabelash nga faqja e internetit e Komisionit Ekonomik për Evropën:

Importoni të dhëna nga PDF në Excel përmes Power Query

… dhe përpiquni të tërhiqeni prej tij në Excel, thoni tabelën e parë:

Importoni të dhëna nga PDF në Excel përmes Power Query

Shkojme!

Hapi 1. Hapni PDF në Word

Për disa arsye, pak njerëz e dinë, por që nga viti 2013 Microsoft Word ka mësuar të hapë dhe njohë skedarët PDF (madje edhe ato të skanuara, domethënë pa një shtresë teksti!). Kjo bëhet në një mënyrë krejtësisht standarde: hapni Word, klikoni Skedari - Hap (Skedar - Hap) dhe specifikoni formatin PDF në listën rënëse në këndin e poshtëm djathtas të dritares.

Pastaj zgjidhni skedarin PDF që na nevojitet dhe klikoni hapur (E hapur). Word na tregon se do të ekzekutojë OCR në këtë dokument në tekst:

Importoni të dhëna nga PDF në Excel përmes Power Query

Ne pajtohemi dhe brenda pak sekondash do ta shohim PDF-në tonë të hapur për modifikim tashmë në Word:

Importoni të dhëna nga PDF në Excel përmes Power Query

Natyrisht, dizajni, stilet, shkronjat, titujt dhe fundet e faqeve, etj. do të fshihen pjesërisht nga dokumenti, por kjo nuk është e rëndësishme për ne - na duhen vetëm të dhëna nga tabelat. Në parim, në këtë fazë, tashmë është joshëse që thjesht të kopjoni tabelën nga dokumenti i njohur në Word dhe thjesht ta ngjisni në Excel. Ndonjëherë funksionon, por më shpesh çon në të gjitha llojet e shtrembërimeve të të dhënave - për shembull, numrat mund të kthehen në data ose të mbeten tekst, si në rastin tonë, sepse. PDF përdor jo ndarës:

Importoni të dhëna nga PDF në Excel përmes Power Query

Pra, le të mos shkurtojmë qoshet, por të bëjmë gjithçka pak më të komplikuar, por të drejtë.

Hapi 2: Ruani dokumentin si faqe në internet

Për të ngarkuar më pas të dhënat e marra në Excel (nëpërmjet Power Query), dokumenti ynë në Word duhet të ruhet në formatin e faqes së internetit - ky format është, në këtë rast, një lloj emëruesi i përbashkët midis Word dhe Excel.

Për ta bërë këtë, shkoni te menyja Skedari – Ruaj si (Skedar - Ruaj si) ose shtypni tastin F12 në tastierë dhe në dritaren që hapet, zgjidhni llojin e skedarit Faqja e internetit në një skedar (Faqja në internet - skedar i vetëm):

Importoni të dhëna nga PDF në Excel përmes Power Query

Pas ruajtjes, duhet të merrni një skedar me shtesën mhtml (nëse shihni shtesat e skedarëve në Explorer).

Faza 3. Ngarkimi i skedarit në Excel nëpërmjet Power Query

Ju mund ta hapni skedarin e krijuar MHTML në Excel drejtpërdrejt, por më pas ne do të marrim, së pari, të gjitha përmbajtjet e PDF-së menjëherë, së bashku me tekstin dhe një mori tabelash të panevojshme, dhe, së dyti, do të humbasim përsëri të dhënat për shkak të pasaktë. ndarësit. Prandaj, ne do të bëjmë importimin në Excel përmes shtesës Power Query. Kjo është një shtesë plotësisht falas me të cilën mund të ngarkoni të dhëna në Excel nga pothuajse çdo burim (skedarë, dosje, baza të të dhënave, sisteme ERP) dhe më pas të transformoni të dhënat e marra në çdo mënyrë të mundshme, duke i dhënë formën e dëshiruar.

Nëse keni Excel 2010-2013, atëherë mund të shkarkoni Power Query nga faqja zyrtare e Microsoft-it – pas instalimit do të shihni një skedë Kërkesa e energjisë. Nëse keni Excel 2016 ose më të ri, atëherë nuk keni nevojë të shkarkoni asgjë - i gjithë funksionaliteti është tashmë i integruar në Excel si parazgjedhje dhe ndodhet në skedën Data (Data) në grup Shkarkoni dhe konvertoni (Merr dhe transformo).

Pra, ne shkojmë ose te skeda Data, ose në skedën Kërkesa e energjisë dhe zgjidhni një ekip Për të marrë të dhëna or Krijo pyetje - Nga skedari - nga XML. Për t'i bërë të dukshëm jo vetëm skedarët XML, ndryshoni filtrat në listën rënëse në këndin e poshtëm djathtas të dritares në Te gjitha dokumentet (Te gjitha dokumentet) dhe specifikoni skedarin tonë MHTML:

Importoni të dhëna nga PDF në Excel përmes Power Query

Ju lutemi vini re se importi nuk do të përfundojë me sukses, sepse. Power Query pret XML nga ne, por ne në fakt kemi një format HTML. Prandaj, në dritaren tjetër që shfaqet, do t'ju duhet të klikoni me të djathtën në skedarin e pakuptueshëm për Power Query dhe të specifikoni formatin e tij:

Importoni të dhëna nga PDF në Excel përmes Power Query

Pas kësaj, skedari do të njihet saktë dhe do të shohim një listë të të gjitha tabelave që përmban:

Importoni të dhëna nga PDF në Excel përmes Power Query

Mund të shikoni përmbajtjen e tabelave duke klikuar butonin e majtë të miut në sfondin e bardhë (jo në fjalën Tabela!) të qelizave në kolonën Të dhëna.

Kur të përcaktohet tabela e dëshiruar, klikoni në fjalën e gjelbër Tryezë – dhe ju “bien” në përmbajtjen e tij:

Importoni të dhëna nga PDF në Excel përmes Power Query

Mbetet për të bërë disa hapa të thjeshtë për të "krehur" përmbajtjen e tij, domethënë:

  1. fshini kolonat e panevojshme (klikoni me të djathtën në kokën e kolonës - Heq)
  2. zëvendësoni pikat me presje (zgjidhni kolonat, kliko me të djathtën - Zëvendësimi i vlerave)
  3. hiqni shenjat e barabarta në kokë (zgjidhni kolonat, kliko me të djathtën - Zëvendësimi i vlerave)
  4. hiqni vijën e sipërme (Fillimi – Fshi linjat – Fshi linjat kryesore)
  5. hiqni linjat boshe (Faqja kryesore - Fshi linjat - Fshi linjat boshe)
  6. ngrini rreshtin e parë në kokën e tabelës (Faqja kryesore – Përdorni rreshtin e parë si tituj)
  7. filtroni të dhënat e panevojshme duke përdorur një filtër

Kur tabela të kthehet në formën e saj normale, ajo mund të shkarkohet në fletë me komandën mbyllni dhe shkarkoni (Mbyll & Ngarko) on Kryesor skedën. Dhe ne do të marrim një bukuri të tillë me të cilën mund të punojmë tashmë:

Importoni të dhëna nga PDF në Excel përmes Power Query

  • Transformimi i një kolone në një tabelë me Power Query
  • Ndarja e tekstit ngjitës në kolona

Lini një Përgjigju