Voor geavanceerde gegevensanalyse is Python beter dan Excel.  Hier leest u hoe u uw Excel-gegevens in een Python-script kunt importeren met Panda's!

Hoe Excel-gegevens in Python-scripts te importeren met Panda's

Advertentie Microsoft Excel is de meest gebruikte spreadsheetsoftware ter wereld, en niet zonder reden: de gebruiksvriendelijke interface en krachtige ingebouwde tools maken het eenvoudig om met gegevens te werken. Maar als u meer geavanceerde gegevensverwerking wilt doen, moet u verder gaan dan de mogelijkheden van Excel en een script- / programmeertaal zoals Python gaan gebruiken

Advertentie

Microsoft Excel is de meest gebruikte spreadsheetsoftware ter wereld, en niet zonder reden: de gebruiksvriendelijke interface en krachtige ingebouwde tools maken het eenvoudig om met gegevens te werken.

Maar als u meer geavanceerde gegevensverwerking wilt doen, moet u verder gaan dan de mogelijkheden van Excel en een script- / programmeertaal zoals Python gaan gebruiken. In plaats van uw gegevens handmatig in databases te kopiëren, volgt hier een korte zelfstudie over het laden van uw Excel-gegevens in Python met Panda's.

Opmerking: als je Python nog nooit eerder hebt gebruikt, kan deze tutorial een beetje moeilijk zijn. We raden aan om met deze websites te beginnen om Python te leren. De 5 beste websites om Python te leren programmeren De 5 beste websites om Python te leren programmeren Wilt u Python programmeren? Dit zijn de beste manieren om Python online te leren, waarvan vele volledig gratis zijn. Lees meer en deze eenvoudige Python-voorbeelden om aan de slag te gaan 10 Basic Python-voorbeelden die u zullen helpen snel te leren 10 Basic Python-voorbeelden die u zullen helpen snel te leren Dit artikel van eenvoudige python-voorbeelden is voor degenen die al wat programmeerervaring hebben en gewoon willen overgang naar Python zo snel mogelijk. Lees verder .

Wat zijn panda's?

Python Data Analysis Library ("Panda's") is een open-source bibliotheek voor de programmeertaal Python die wordt gebruikt voor gegevensanalyse en gegevensmanipulatie.

Panda's laadt gegevens in Python-objecten bekend als Dataframes, die gegevens opslaan in rijen en kolommen, net als een traditionele database. Zodra een Dataframe is gemaakt, kan het worden gemanipuleerd met Python, waardoor een wereld van mogelijkheden wordt geopend.

Panda's installeren

Opmerking: u moet Python 2.7 of hoger hebben om Panda's te installeren.

Om met Panda's op uw machine te kunnen werken, moet u de Panda's-bibliotheek importeren. Als u op zoek bent naar een zwaargewicht oplossing, kunt u de Anaconda Python Distribution downloaden, met ingebouwde Panda's. Als u Anaconda niet gebruikt, kunt u Panda's eenvoudig in uw terminal installeren.

Pandas is een PyPI-pakket, wat betekent dat u kunt installeren met behulp van PIP voor Python via de opdrachtregel. Moderne Mac-systemen worden geleverd met PIP. Voor andere Windows-, Linux- en oudere systemen is het eenvoudig om te leren hoe u PIP voor Python installeert. Python PIP op Windows, Mac en Linux installeert. Python PIP op Windows, Mac en Linux installeert Veel ontwikkelaars van Python vertrouwen op een tool PIP genoemd voor Python om alles eenvoudiger en sneller te maken. Hier leest u hoe u Python PIP installeert. Lees verder .

Nadat u uw terminal hebt geopend, kan de nieuwste versie van Panda's worden geïnstalleerd met de opdracht:

 >> pip install pandas 

Pandas vereist ook de NumPy-bibliotheek, laten we dit ook installeren op de opdrachtregel:

 >> pip install numpy 

U hebt nu Panda's geïnstalleerd en klaar om uw eerste DataFrame te maken!

De Excel-gegevens voorbereiden

Laten we voor dit voorbeeld een voorbeeldgegevensset gebruiken: een Excel-werkmap met de titel Cars.xlsx .

Excel-tabel voor python-panda's

Deze gegevensset toont het merk, het model, de kleur en het jaar van de auto's die in de tabel zijn ingevoerd. De tabel wordt weergegeven als een Excel-bereik. Pandas is slim genoeg om de gegevens op de juiste manier te lezen.

Deze werkmap wordt opgeslagen in de map Desktop, hier wordt het gebruikte bestandspad gebruikt:

 /Users/grant/Desktop/Cars.xlsx 

U moet het bestandspad van de werkmap weten om Panda's te kunnen gebruiken. Laten we beginnen met het openen van Visual Studio Code om het script te schrijven. Als u geen teksteditor hebt, raden we Visual Studio Code of Atom Editor Visual Studio Code versus Atom aan: Welke teksteditor is geschikt voor u? Visual Studio Code versus Atom: Welke teksteditor is geschikt voor u? Op zoek naar een gratis en open-source code-editor? Visual Studio Code en Atom zijn de twee sterkste kandidaten. Lees verder .

Het Python-script schrijven

Nu je de gewenste teksteditor hebt, begint het echte plezier. We gaan Python en ons Cars-werkboek samenbrengen om een ​​Pandas DataFrame te maken.

Python-bibliotheken importeren

Open uw teksteditor en maak een nieuw Python-bestand. Laten we het Script.py noemen.

Om met Panda's in uw script te werken, moet u het in uw code importeren. Dit gebeurt met één regel code:

 import pandas as pd 

Hier laden we de Panda's-bibliotheek en koppelen deze aan een variabele "pd". U kunt elke gewenste naam gebruiken, we gebruiken "pd" als afkorting voor Panda's.

Als u met Panda's wilt werken, hebt u een extra object met de naam ExcelFile nodig . ExcelFile is ingebouwd in het Pandas-ecosysteem, dus u importeert rechtstreeks vanuit Pandas:

 from pandas import ExcelFile 

Werken met het bestandspad

Om Panda's toegang tot uw werkmap te geven, moet u uw script naar de locatie van het bestand verwijzen. De eenvoudigste manier om dit te doen, is door uw script het volledige pad naar de werkmap te geven.

Herinner ons pad in dit voorbeeld: /Users/grant/Desktop/Cars.xlsx

U hebt dit bestandspad nodig waarnaar in uw script wordt verwezen om de gegevens te extraheren. In plaats van te verwijzen naar het pad binnen de functie Read_Excel, houdt u de code schoon door het pad op te slaan in een variabele:

 Cars_Path = '/Users/grant/Desktop/Cars.xlsx' 

U bent nu klaar om de gegevens te extraheren met een Pandas-functie!

Excel-gegevens extraheren met Panda's.Read_Excel ()

Met Panda's geïmporteerd en uw padvariabele ingesteld, kunt u nu functies in het Pandas-object gebruiken om onze taak te volbrengen.

De functie die u moet gebruiken, heeft de juiste naam Read_Excel . De functie Read_Excel neemt het bestandspad van een Excel-werkmap en retourneert een DataFrame-object met de inhoud van de werkmap. Panda's codeert deze functie als:

 pandas.read_excel(path) 

Het argument 'pad' wordt het pad naar onze Cars.xlsx-werkmap en we hebben de padreeks al ingesteld op de variabele Cars_Path.

U bent klaar om het DataFrame-object te maken! Laten we alles samenvoegen en het DataFrame-object instellen op een variabele met de naam "DF":

 DF = pd.read_excel(Cars_Path) 

Ten slotte wilt u het DataFrame bekijken, dus laten we het resultaat afdrukken. Voeg een afdrukinstructie toe aan het einde van uw script, met de variabele DataFrame als argument:

 print(DF) 

Tijd om het script in uw terminal uit te voeren!

Het Python-script uitvoeren

Open uw terminal of opdrachtregel en navigeer naar de map waarin uw script zich bevindt. In dit geval heb ik "Script.py" op het bureaublad. Om het script uit te voeren, gebruikt u de opdracht python gevolgd door het scriptbestand:

Python Script In Terminal

Python haalt de gegevens van "Cars.xlsx" naar uw nieuwe DataFrame en drukt het DataFrame af naar de terminal!

Python DataFrame In Terminal

Een nadere blik op het DataFrame-object

Op het eerste gezicht lijkt het DataFrame erg op een gewone Excel-tabel. Panda's DataFrames zijn hierdoor eenvoudig te interpreteren.

Uw kopteksten worden boven aan de gegevensset gelabeld en Python heeft de rijen ingevuld met al uw informatie uit de werkmap "Cars.xlsx".

Let op de meest linkse kolom, een index die begint bij 0 en de kolommen genummerd. Panda's passen deze index standaard toe op uw DataFrame, wat in sommige gevallen handig kan zijn. Als u niet wilt dat deze index wordt gegenereerd, kunt u een extra argument aan uw code toevoegen:

 DF = pd.read_excel(Cars_Path, index=False) 

Als u het argument 'index' op Onwaar instelt, wordt de indexkolom verwijderd en blijven alleen uw Excel-gegevens over.

Meer doen met Python

Nu u de mogelijkheid hebt om gegevens uit Excel-werkbladen te lezen, kunt u Python-programmering op elke gewenste manier toepassen. Werken met Panda's is een eenvoudige manier voor ervaren Python-programmeurs om te werken met gegevens die zijn opgeslagen in Excel-werkmappen.

Het gemak waarmee Python kan worden gebruikt om gegevens te analyseren en te manipuleren, is een van de vele redenen waarom Python de programmeertaal van de toekomst is 6 Redenen Waarom Python de programmeertaal van de toekomst is 6 Redenen waarom Python de programmeertaal van de toekomst is Wil je je programmeervaardigheden leren of uitbreiden? Dit is de reden waarom Python dit jaar de beste programmeertaal is om te leren. Lees verder .

Afbeelding tegoed: Rawpixel / Depositphotos

Ontdek meer over: Data-analyse, Microsoft Excel, Python, Scripting.