import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline


species = pd.read_csv('species_info.csv')

species.head()


sightings = pd.read_csv('observations.csv')

sightings.head()


species.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5824 entries, 0 to 5823
Data columns (total 4 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   category             5824 non-null   object
 1   scientific_name      5824 non-null   object
 2   common_names         5824 non-null   object
 3   conservation_status  191 non-null    object
dtypes: object(4)
memory usage: 182.1+ KB


print(species['conservation_status'].unique())

[nan 'Species of Concern' 'Endangered' 'Threatened' 'In Recovery']


species['conservation_status'] = species['conservation_status'].fillna('Least Concern')

print(species['conservation_status'].unique())

['Least Concern' 'Species of Concern' 'Endangered' 'Threatened'
 'In Recovery']


sightings.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23296 entries, 0 to 23295
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   scientific_name  23296 non-null  object
 1   park_name        23296 non-null  object
 2   observations     23296 non-null  int64 
dtypes: int64(1), object(2)
memory usage: 546.1+ KB


print(f'Number of Species: {species.scientific_name.nunique():,}')

Number of Species: 5,541


species.groupby('category').size().sort_values(ascending=False)

category
Vascular Plant       4470
Bird                  521
Nonvascular Plant     333
Mammal                214
Fish                  127
Amphibian              80
Reptile                79
dtype: int64


species.groupby('conservation_status').size().sort_values(ascending=False)

conservation_status
Least Concern         5633
Species of Concern     161
Endangered              16
Threatened              10
In Recovery              4
dtype: int64


sightings.groupby('park_name').size().sort_values(ascending=False)

park_name
Bryce National Park                    5824
Great Smoky Mountains National Park    5824
Yellowstone National Park              5824
Yosemite National Park                 5824
dtype: int64


print(f'Number of Observations: {sightings.observations.sum():,}')

Number of Observations: 3,314,739


conservation_category = pd.pivot_table(
        species[species.conservation_status != "Least Concern"],
        values='scientific_name',
        index='conservation_status', 
        columns='category',
        aggfunc=pd.Series.count
        )
    
conservation_category


conservation_category.plot(
        kind='barh',
        subplots=True,
        title='Species Count by Conservation Status',
        xlabel= '',
        figsize=(5,10),
        legend=False
    )
plt.tight_layout()


species['is_protected'] = species.conservation_status != 'Least Concern'


category_counts = species.groupby(['category', 'is_protected'])\
                        .scientific_name.nunique()\
                        .reset_index()\
                        .pivot(columns='is_protected',
                                      index='category',
                                      values='scientific_name')\
                        .reset_index()
category_counts.columns = ['category', 'not_protected', 'protected']

category_counts


category_counts['protection_ratio'] = category_counts.protected/ \
    (category_counts.protected + category_counts.not_protected)

category_counts


sns.barplot(x='category', y='protection_ratio', data=category_counts)
plt.title('Protection Ratio by Category')
plt.ylabel('Protection Ratio')
plt.xlabel('Category')
plt.xticks(rotation=45)
plt.tight_layout();


from scipy.stats import chi2_contingency

contingency1 = [[30, 146], [75, 413]]
chi2, p, dof, ex = chi2_contingency(contingency1)

print(f'p-value: {p}')
print(f'The expected frequencies: {ex}')

p-value: 0.6875948096661336
The expected frequencies: [[ 27.8313253 148.1686747]
 [ 77.1686747 410.8313253]]


contingency2 = [[30, 146], [5, 73]]
chi2, p, dof, ex = chi2_contingency(contingency2)

print(f'p-value: {p}')
print(f'The expected frequencies: {ex}')

p-value: 0.03835559022969898
The expected frequencies: [[ 24.2519685 151.7480315]
 [ 10.7480315  67.2519685]]


temp_1 = species[species.category == 'Mammal']\
    .common_names\
    .apply(lambda x: x.replace(',',''))\
    .apply(lambda x: x.replace('(',''))\
    .apply(lambda x: x.replace(')',''))\
    .str\
    .split()

temp_1[:6]

0                         [Gapper's, Red-Backed, Vole]
1                             [American, Bison, Bison]
2    [Aurochs, Aurochs, Domestic, Cattle, Feral, Do...
3    [Domestic, Sheep, Mouflon, Red, Sheep, Sheep, ...
4                                    [Wapiti, Or, Elk]
5                                 [White-Tailed, Deer]
Name: common_names, dtype: object


temp_2 = temp_1.apply(lambda x: [*set(x)])

temp_2[:6]

0                        [Gapper's, Red-Backed, Vole]
1                                   [Bison, American]
2    [Domestic, Domesticated, Aurochs, Feral, Cattle]
3              [Domestic, Red, Sheep, Mouflon, Feral]
4                                   [Wapiti, Or, Elk]
5                                [Deer, White-Tailed]
Name: common_names, dtype: object


temp_3 = temp_2.explode()

temp_3[:6]

0      Gapper's
0    Red-Backed
0          Vole
1         Bison
1      American
2      Domestic
Name: common_names, dtype: object


temp_4 = pd.DataFrame(temp_3.value_counts().reset_index())
temp_4.columns = ['Word', 'Count']

temp_4.head(10)


species['is_bat'] = species.common_names.str.contains(r'\bBat\b', regex=True)

species.head()


species[species.is_bat]


bat_observations = sightings.merge(species[species.is_bat])

bat_observations


bat_observations.groupby('park_name').observations.sum().reset_index()


obs_by_park = pd.pivot_table(
                bat_observations,
                values='observations',
                index='park_name', 
                columns='is_protected',
                aggfunc=pd.Series.sum
        )\
        .rename_axis(None,axis=1)\
        .set_axis(['not_protected', 'protected'], axis=1)\
        .reset_index()

obs_by_park


obs_by_park['protection_ratio'] = obs_by_park.protected/ \
    (obs_by_park.protected + obs_by_park.not_protected)

obs_by_park


obs_by_park['park_name'] = obs_by_park.park_name.apply(lambda x: x.replace('National Park',''))

sns.barplot(data=obs_by_park, x='park_name', y='protection_ratio')
plt.title('Protection Ratio by National Park')
plt.ylabel('Protection Ratio')
plt.xlabel('National Park')
plt.axhline(y=0.5, linewidth=1, color='k', linestyle='--')
plt.xticks(rotation=20);

	category	scientific_name	common_names	conservation_status
0	Mammal	Clethrionomys gapperi gapperi	Gapper's Red-Backed Vole	NaN
1	Mammal	Bos bison	American Bison, Bison	NaN
2	Mammal	Bos taurus	Aurochs, Aurochs, Domestic Cattle (Feral), Dom...	NaN
3	Mammal	Ovis aries	Domestic Sheep, Mouflon, Red Sheep, Sheep (Feral)	NaN
4	Mammal	Cervus elaphus	Wapiti Or Elk	NaN

category	Amphibian	Bird	Fish	Mammal	Nonvascular Plant	Reptile	Vascular Plant
conservation_status
Endangered	1.0	4.0	3.0	7.0	NaN	NaN	1.0
In Recovery	NaN	3.0	NaN	1.0	NaN	NaN	NaN
Species of Concern	4.0	72.0	4.0	28.0	5.0	5.0	43.0
Threatened	2.0	NaN	4.0	2.0	NaN	NaN	2.0

	park_name	not_protected	protected
0	Bryce National Park	1596	1837
1	Great Smoky Mountains National Park	1299	1112
2	Yellowstone National Park	4044	4318
3	Yosemite National Park	2345	2441

	park_name	not_protected	protected	protection_ratio
0	Bryce National Park	1596	1837	0.535100
1	Great Smoky Mountains National Park	1299	1112	0.461219
2	Yellowstone National Park	4044	4318	0.516384
3	Yosemite National Park	2345	2441	0.510029

Biodiversity in National Parks¶

Introduction¶

Goals¶

Import Python Modules¶

Load The Data¶

Inspect the Data¶

Species¶

Sightings¶

Explore The Data¶

Species¶

Sightings¶

Analysis¶

Species¶

Statistical Significance¶

Species in Parks¶

Conclusions¶

Further Research¶

	scientific_name	park_name	observations
0	Vicia benghalensis	Great Smoky Mountains National Park	68
1	Neovison vison	Great Smoky Mountains National Park	77
2	Prunus subcordata	Yosemite National Park	138
3	Abutilon theophrasti	Bryce National Park	84
4	Githopsis specularioides	Great Smoky Mountains National Park	85

	category	not_protected	protected	protection_ratio
0	Amphibian	72	7	0.088608
1	Bird	413	75	0.153689
2	Fish	115	11	0.087302
3	Mammal	146	30	0.170455
4	Nonvascular Plant	328	5	0.015015
5	Reptile	73	5	0.064103
6	Vascular Plant	4216	46	0.010793

	Word	Count
0	Bat	23
1	Shrew	18
2	Myotis	17
3	Mouse	16
4	Chipmunk	13
5	American	12
6	Squirrel	12
7	Vole	11
8	Eastern	11
9	Western	10

	category	scientific_name	common_names	conservation_status	is_protected	is_bat
28	Mammal	Corynorhinus rafinesquii	Rafinesque's Big-Eared Bat	Least Concern	False	True
29	Mammal	Eptesicus fuscus	Big Brown Bat	Species of Concern	True	True
30	Mammal	Lasionycteris noctivagans	Silver-Haired Bat	Species of Concern	True	True
31	Mammal	Lasiurus borealis	Eastern Red Bat, Red Bat	Least Concern	False	True
32	Mammal	Lasiurus cinereus	Hoary Bat	Least Concern	False	True
36	Mammal	Myotis leibii	Eastern Small-Footed Bat, Eastern Small-Footed...	Species of Concern	True	True
37	Mammal	Myotis lucifugus	Little Brown Bat, Little Brown Myotis	Species of Concern	True	True
38	Mammal	Myotis septentrionalis	Northern Long-Eared Bat, Northern Myotis	Threatened	True	True
39	Mammal	Myotis sodalis	Indiana Bat, Indiana Or Social Myotis	Endangered	True	True
40	Mammal	Nycticeius humeralis	Evening Bat	Least Concern	False	True
3033	Mammal	Antrozous pallidus	Pallid Bat, Pallid Bat	Species of Concern	True	True
3034	Mammal	Corynorhinus townsendii	Mule-Eared Bat, Pacific Townsend's Big-Eared B...	Least Concern	False	True
3035	Mammal	Eptesicus fuscus	Big Brown Bat, Big Brown Bat	Species of Concern	True	True
3036	Mammal	Euderma maculatum	Spotted Bat, Spotted Bat	Species of Concern	True	True
3037	Mammal	Lasionycteris noctivagans	Silver-Haired Bat, Silver-Haired Bat	Species of Concern	True	True
3038	Mammal	Lasiurus cinereus	Hoary Bat, Hoary Bat	Least Concern	False	True
3040	Mammal	Myotis ciliolabrum	Small-Footed Myotis, Western Small-Footed Bat,...	Least Concern	False	True
3042	Mammal	Myotis lucifugus	Little Brown Bat, Little Brown Myotis, Little ...	Species of Concern	True	True
4461	Mammal	Eumops perotis	Western Mastiff Bat	Least Concern	False	True
4462	Mammal	Tadarida brasiliensis	Mexican Free-Tailed Bat	Least Concern	False	True
4463	Mammal	Corynorhinus townsendii	Townsend's Big-Eared Bat	Least Concern	False	True
4464	Mammal	Lasiurus blossevillii	Western Red Bat	Species of Concern	True	True
4468	Mammal	Parastrellus hesperus	Canyon Bat	Least Concern	False	True

	park_name	observations
0	Bryce National Park	3433
1	Great Smoky Mountains National Park	2411
2	Yellowstone National Park	8362
3	Yosemite National Park	4786