Wilt u sommige webpagina's archiveren om later op elk apparaat te lezen?  Het antwoord is om die websites te converteren naar PDF met Wget.

Hoe meerdere webpagina's te converteren naar PDF's met Wget

Advertentie Er zijn veel online tools, browserextensies en desktopplug-ins om van een webpagina een PDF te maken. Als u deze tools regelmatig gebruikt, kunt u een situatie tegenkomen waarin u meerdere links in één keer moet converteren. Het is tijdverspilling en vervelend om ze één voor één te doen. U ku

Advertentie

Er zijn veel online tools, browserextensies en desktopplug-ins om van een webpagina een PDF te maken. Als u deze tools regelmatig gebruikt, kunt u een situatie tegenkomen waarin u meerdere links in één keer moet converteren. Het is tijdverspilling en vervelend om ze één voor één te doen.

U kunt deze taak automatiseren via een eenvoudig opdrachtregelprogramma genaamd Wget. Met behulp van enkele scripts of apps en deze tool laten we u zien hoe u meerdere webpagina's in een PDF-bestand kunt opslaan.

Waarom Wget?

Wget is een gratis softwarepakket om bestanden van internet te downloaden. Maar het is ook een perfect hulpmiddel om een ​​hele webpagina naar uw computer te spiegelen. Dit zijn de redenen:

  • Het is niet-interactief, wat betekent dat het op de achtergrond kan werken en u gegevens kunt laten overzetten zonder uw aanwezigheid te vereisen.
  • Wget begrijpt de mappenstructuur van de website. Het kan links op de HTML-pagina volgen om een ​​lokale versie van een externe website te maken. Daarbij respecteert het ook het robots.txt-bestand.
  • Het kan zelfs werken in trage of instabiele netwerkverbindingen. Als de server opnieuw instellen ondersteunt, blijft het proberen totdat de volledige bestandsoverdracht naar uw computer is.
  • Wget ondersteunt proxyservers. Het helpt de netwerkbelasting te verlichten, het ophaalproces te versnellen en toegang te bieden achter de firewalls.

Wget installeren

Op macOS

De snelste manier om Wget te installeren is via Homebrew. Het is een pakketbeheerder voor macOS om nuttige Unix-hulpprogramma's en apps te installeren. Lees dit artikel over het installeren van macOS-apps via Homebrew. Typ vervolgens in

 brew install wget 

Je krijgt realtime voortgang bij het installeren van alle tools (indien aanwezig) die nodig zijn om Wget op je Mac te laten werken. Als je Homebrew al hebt geïnstalleerd, moet je Brew-upgrade uitvoeren om de nieuwste versie van dit hulpprogramma te krijgen.

Op Windows 10

Er zijn veel versies van Wget beschikbaar voor Windows 10. Ga naar Eternally Board om de nieuwste 64-bits versie te downloaden. Plaats het uitvoerbare bestand in een map en kopieer het naar station C :.

installeer locatie van wget in Windows

Nu voegen we het Wget-pad toe aan de omgevingsvariabele van uw systeem om dit hulpprogramma vanuit elke map uit te voeren. Navigeer naar Configuratiescherm> Systeem en klik op Geavanceerde systeeminstellingen . Klik in het venster dat wordt geopend op Omgevingsvariabelen .

klik omgevingsvariabele in geavanceerde systeeminstellingen

Selecteer Pad onder Systeemvariabelen en klik op Bewerken . Klik vervolgens op de knop Nieuw in de rechterbovenhoek van het venster. Typ C: \ wget en klik op OK .

voeg wget toe aan de systeemomgevingsvariabele

Open de opdrachtprompt en typ wget-h om te testen of alles werkt. Typ in PowerShell wget.exe -h om het Help-menu van Wget te laden.

voer wget uit vanaf de opdrachtprompt

Sla uw koppelingen op in een tekstbestand

Omdat we te maken hebben met meerdere links, is het een moeilijke taak om links één voor één te plakken. Gelukkig zijn er browserextensies om u te helpen deze taak te voltooien.

Link Klipper: het extraheert alle links op een webpagina als een CSV- of TXT-bestand. U kunt zelfs een rechthoekig gebied op de webpagina slepen om links selectief te kopiëren. Het bestand wordt opgeslagen in de map Downloaden .

link klipper chroom extensie

Snap Links Plus: hiermee kunt u lasso-elementen op een pagina plaatsen en er dingen mee doen. Houd de rechtermuisknop ingedrukt en sleep een selectierechthoek rond koppelingen. Druk op de Control- toets en kopieer uw koppelingen naar het klembord.

Een map opzetten

Wget werkt als een webcrawler door webpagina-elementen uit de HTML-bestanden te extraheren, inclusief logo, lettertypen, afbeeldingsminiaturen, CSS- en JavaScript-bestanden. Het probeert ook een mapstructuur te maken die lijkt op de externe server. Maak een aparte map voor Wget-downloads om webpagina's op te slaan en ook om rommel te voorkomen.

Voer op uw Mac-terminal of in een opdrachtprompt op Windows in

 mkdir Wgetdown 

Hiermee maakt u een nieuwe map in de basismap. Je kunt het noemen wat je maar wilt. Voer vervolgens in

 cd Wgetdown 

Wijzig map. Dit verandert de huidige werkmap in Wgetdown.

Details van de Wget-opdrachten

Nadat we de map hebben gemaakt, gebruiken we de werkelijke Wget-opdracht

 wget -E -H -k -K -p -i [Path to Your Text File] 

Wget gebruikt GNU getopt om opdrachtregelargumenten te verwerken. Elke optie heeft een lange vorm, samen met de korte. Lange opties zijn handig om te onthouden, maar nemen de tijd om te typen. U kunt ook verschillende optiestijlen combineren. Laten we de details van deze opties nader bekijken:

  • -E (–adjust-extensie) : als een bestand van het type “app / xhtml + xml” of “text / html” wordt gedownload en de URL niet eindigt met de HTML, voegt deze optie HTML toe aan de bestandsnaam.
  • -H (–span-hosts) : wanneer u links recursief probeert op te halen, wil men niet veel onnodige gegevens ophalen. U wilt dat Wget alleen specifieke links volgt. Deze optie schakelt host-spanning in, waardoor Wget recursieve run elke host kan bezoeken waarnaar wordt verwezen door een link. Bijvoorbeeld afbeeldingen die worden weergegeven vanaf een andere host.
  • -p (–pagina-vereisten) : deze optie downloadt alle bestanden die nodig zijn voor het weergeven van een HTML-pagina. Het bevat inline afbeeldingen, audio en stylesheets waarnaar wordt verwezen.
  • -k (–convert-links) : het converteert de links in het document om ze geschikt te maken voor offline weergave. Het bevat ingesloten afbeeldingen, links naar stylesheets, hyperlinks naar niet-HTML-inhoud en meer.
  • -K (–back-up geconverteerd) : bij het converteren van een bestand maakt deze optie een back-up van de oorspronkelijke versie met een .orig- achtervoegsel.
  • -i (-invoerbestand) : lees URL's van een pad naar uw lokale of externe bestand.

De opdrachten in gebruik nemen

Om deze opdrachten in de praktijk te demonstreren, overweeg een website-handleiding met de naam Writing Workflows. Deze handleiding bestaat uit een inhoudsopgave met een link naar afzonderlijke hoofdstukken. Het einddoel is dat u een afzonderlijk PDF-bestand van die secties wilt maken.

Stap 1 : Open Terminal en maak een nieuwe map aan, zoals hierboven besproken.

maak een map via Terminal

Stap 2 : Gebruik de Link Klipper-extensie om uw links op te slaan als een tekstbestand. Sla uw bestand op in de map Downloads .

links toevoegen via link klipper extensie

Stap 3 : Typ in terwijl u zich in de map Wgetdown bevindt

 wget -E -H -k -K -p -i /Users/rahulsaigal/Downloads/links.txt 

wget-commando's in gebruik nemen

Stap 4 : Druk op Enter. Wacht tot het proces is voltooid.

wget commando in proces

Stap 5 : Navigeer naar de map Wgetdown. U ziet de primaire map Processword.net met alle webpagina-items en hoofdstuk1.html.

gedownloade bestanden met alle middelen

HTML omzetten naar PDF

Een webpagina omzetten naar een PDF ziet er eenvoudig uit. Maar het is een moeilijke taak om ze eruit te laten zien als de originele webpagina. Het produceren van een gewenst resultaat hangt af van:

  • Systeemlettertypen beschikbaar.
  • De integriteit van HTML-markeringen.
  • Benodigde functies die tabellen of zwevende afbeeldingen ondersteunen.
  • Optioneel inhoudsopgave.

Windows 10

PrinceXML is een app om HTML-bestanden snel naar PDF te converteren. Hiermee kunt u HTML-inhoud typen, opmaken en afdrukken met configureerbare lay-out en ondersteuning voor webstandaarden. Het wordt geleverd met veel nuttige lettertypen en laat u ook de PDF-uitvoer aanpassen. De app is gratis voor niet-commercieel gebruik.

princexml-app voor het converteren van html naar pdf

MacOS

Op uw Mac kunt u een Automator-service maken om een ​​batch HTML-bestanden naar PDF's te converteren. Open Automator en maak een Quick Action- document. Stel de serviceoptie in om bestanden of mappen van Finder te ontvangen. Sleep vervolgens in Shell-script uitvoeren en stel de invoeroptie Pass in op als argumenten . Plak dit script vervolgens in de body

 for theFileToProcess in " " do cupsfilter "$theFileToProcess" > "${theFileToProcess%.*}.pdf" done 

Sla het bestand op als HTML2PDF.

shell-script om bestanden naar Mac te converteren

Selecteer nu alle HTML-bestanden in Finder. Klik met de rechtermuisknop en kies Services> HTML2PDF . Wacht enkele ogenblikken om al uw bestanden te converteren.

converteer een heleboel HTML-bestanden met dit script

Manieren om een ​​enkele webpagina naar PDF te converteren

Op het eerste gezicht lijken de stappen voor het converteren van meerdere webpagina's naar PDF ingewikkeld. Maar als u eenmaal de stappen en het proces begrijpt, bespaart u op de lange termijn tijd. U hoeft geen geld uit te geven aan webabonnementen of dure PDF-converters.

Als u op zoek bent naar manieren om een ​​enkele webpagina om te zetten in PDF, lees dan dit stuk over het omzetten van webpagina's naar PDF 3 Eenvoudige manieren om webpagina's om te zetten in PDF's 3 Eenvoudige manieren om webpagina's om te zetten in PDF's U kunt een webpagina omzetten in een PDF en lees het offline. Hier zijn de eenvoudigste tools die het werk op elk apparaat doen. Lees verder .

Ontdek meer over: PDF, Wget.