Հիերարխիկ կլաստերավորված Heatmap Python-ում Seaborn Clustermap-ով


Տվյալների վերլուծության և վիզուալիզացիայի ժամանակ հիերարխիկորեն կլաստերավորված ջերմային քարտեզները հզոր գործիք են ապահովում բարդ տվյալների հավաքածուներում օրինաչափություններն ու հարաբերությունները բացահայտելու համար: Այս հոդվածը ուսումնասիրում է, թե ինչպես ստեղծել հիերարխիկ կլաստերային ջերմային քարտեզ՝ օգտագործելով Seaborn Clustermap Python-ում:

Գործընթացը հասկանալու համար ձեզ օգնելու համար մենք ձեզ քայլ առ քայլ կուղեկցենք ընթացակարգին՝ օգտագործելով կոդի օրինակները: Մենք ձեզ կհանձնարարենք, թե ինչպես խմբավորել և պատկերացնել տվյալները, ինչը ձեզ կտրամադրի կարևոր տեղեկատվություն յուրաքանչյուր փոփոխականի միջև փոխհարաբերությունների վերաբերյալ:

Ի՞նչ է հիերարխիկ կլաստերային ջերմային քարտեզը Python-ում Seaborn Clustermap-ով:

Հիերարխիկ կլաստերավորված ջերմային քարտեզը վիզուալիզացիայի տեխնիկա է, որն օգտագործվում է տվյալների մատրիցը ջերմային քարտեզի ձևաչափով ցուցադրելու համար՝ միաժամանակ ներառելով հիերարխիկ կլաստերավորում: Python-ում Seaborn գրադարանը տրամադրում է օգտակար գործիք, որը կոչվում է Clustermap, որը հնարավորություն է տալիս ստեղծել հիերարխիկ կլաստերային ջերմային քարտեզներ:

Երբևէ աշխատե՞լ եք մեծ և բարդ տվյալների բազայի հետ և դժվարացել եք հայտնաբերել տվյալների օրինաչափությունները կամ կապերը: Եթե այո, ապա դու մենակ չես: Դա կարող է լինել դժվար գործ, որը պահանջում է շատ ժամանակ և ջանք: Դա այն վայրն է, որտեղ ներգրավված են հիերարխիկ կլաստերները: Այս մեթոդը հեշտացնում է ջերմային քարտեզի տողերի և սյունակների կազմակերպումը ըստ դրանց նմանությունների, ինչը թույլ կտա մեզ ավելի լավ հասկանալ տվյալների տարբեր մասերի միջև փոխհարաբերությունները:

Արդյունքը ջերմային քարտեզ է, որը ոչ միայն գրավիչ է թվում, այլև էական ազդեցություն ունի տվյալների հիմքում ընկած կառուցվածքի վրա: Համատեղելով տողերն ու սյունակները՝ մենք կարող ենք եզրակացնել, թե ինչպես են դրանք հավաքվում նմանատիպ օբյեկտների խմբերի կամ ընտանիքների մեջ: Սա հեշտացնում է միտումների և կապերի նույնականացումը, որոնք անմիջապես երևում են չմշակված տվյալներից:

Հիերարխիկ կլաստերային ջերմային քարտեզի գծում Python-ում Seaborn Clustermap-ով

Ստորև բերված են այն քայլերը, որոնք մենք կհետևենք՝ Python-ում հիերարխիկ կլաստերավորված Heatmap-ը Seaborn Clustermap-ով գծելու համար.

  • Ներմուծեք անհրաժեշտ գրադարանները −

    • Ներմուծեք Seaborn գրադարանը՝ օգտագործելով «import seaborn as sns»:

    • Ցանկության դեպքում ներմուծեք Matplotlib գրադարանը լրացուցիչ հարմարեցման համար՝ օգտագործելով «import matplotlib.pyplot as plt»:

  • Բեռնել կամ պատրաստել տվյալների բազան −

    • Բեռնեք տվյալների հավաքածուն, որը ցանկանում եք պատկերացնել՝ օգտագործելով «sns.load_dataset()» կամ պատրաստեք ձեր սեփական տվյալների հավաքածուն համապատասխան ձևաչափով:

  • Տվյալների նախնական մշակում (եթե անհրաժեշտ է) −

    • Կատարեք տվյալների նախնական մշակման բոլոր անհրաժեշտ քայլերը, ինչպիսիք են տվյալների վերաձեւավորումը կամ համախմբումը, ջերմային քարտեզի վիզուալիզացիայի համար հարմար մատրիցա ստեղծելու համար:

  • Ստեղծեք կլաստերային ջերմային քարտեզ -

    • Օգտագործեք `sns.clustermap()` ֆունկցիան` որպես մուտքագրելով նախապես մշակված տվյալների մատրիցը:

    • Արտաքին տեսքը հարմարեցնելու համար նշեք ցանկացած լրացուցիչ պարամետր, օրինակ՝ գունային քարտեզը (`cmap` պարամետր) կամ խմբավորման մեթոդը (`մեթոդ` պարամետր):

  • Ցուցադրել ջերմային քարտեզը

    • Օգտագործեք «plt.show()» ջերմային քարտեզը ցուցադրելու համար, եթե դուք ներմուծել եք Matplotlib գրադարանը 1-ին քայլում:

Օրինակ

import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt

# Load the inbuilt dataset
data = sns.load_dataset("flights")

# Data preprocessing
data_pivot = data.pivot("month", "year", "passengers")

# Data analysis
monthly_totals = data.groupby("month")["passengers"].sum()
yearly_totals = data.groupby("year")["passengers"].sum()

# Data processing
processed_data = data_pivot.div(monthly_totals, axis=0)

# Create the clustered heatmap using seaborn clustermap
sns.clustermap(processed_data, cmap="YlGnBu")

# Display the heatmap
plt.show()

Արդյունք

Հարմարեցված հիերարխիկ-կլաստերային ջերմային քարտեզ Python-ում Seaborn Clustermap-ով

  • Մենք ստեղծում ենք հիերարխիկ կլաստերավորված ջերմային քարտեզ՝ օգտագործելով Seaborn-ի clustermap() ֆունկցիան՝ որպես մուտքագրելով pivot_data մատրիցը:

  • Մենք նշում ենք գունային քարտեզը որպես «YlGnBu»՝ օգտագործելով cmap պարամետրը:

  • Տրվում են հարմարեցման լրացուցիչ տարբերակներ.

  • linewidths=0.5: Սահմանում է գծերի լայնությունը դենդրոգրամներում:

  • figsize=(8, 6): Սահմանում է ստացված ջերմային քարտեզի չափը:

  • dendrogram_ratio=(0.1, 0.2): Կարգավորում է դենդրոգրամների բարձրության հարաբերակցությունը:

Անհատականացրեք ջերմային քարտեզը

  • Մենք օգտագործում ենք ստանդարտ Matplotlib գործառույթներ ջերմային քարտեզը հետագա հարմարեցնելու համար: Այս օրինակում մենք վերնագիրը սահմանեցինք՝ օգտագործելով plt.title(), և պիտակավորեցինք x-առանցքները և y-առանցքները՝ օգտագործելով plt.xlabel() և plt.ylabel() համապատասխանաբար:

Օրինակ

import seaborn as sns

# Load the inbuilt dataset
data = sns.load_dataset("flights")

# Pivot the data to create a matrix for the heatmap
pivot_data = data.pivot("month", "year", "passengers")

# Create the clustered heatmap using seaborn clustermap
sns.clustermap(pivot_data, cmap="YlGnBu", linewidths=0.5, figsize=(8, 6), dendrogram_ratio=(0.1, 0.2))

# Customize the heatmap
plt.title("Hierarchically-clustered Heatmap - Flights Data")
plt.xlabel("Year")
plt.ylabel("Month")

# Display the heatmap
plt.show()

Արդյունք

Եզրակացություն

Եզրափակելով, այս հոդվածը ուսումնասիրեց Python-ում հիերարխիկ կլաստերային ջերմային քարտեզների ստեղծումը՝ օգտագործելով Seaborn Clustermap: Հետևելով ուրվագծված քայլերին՝ կարելի է հեշտությամբ պատկերացնել տվյալների բարդ հավաքածուները և բացահայտել օրինաչափություններն ու հարաբերությունները տվյալների ներսում:

Seaborn գրադարանի կլաստերքարտի ֆունկցիան առաջարկում է ճկունություն և անհատականացման տարբերակներ՝ թույլ տալով օգտատերերին հարմարեցնել գունային սխեման, տողերի լայնությունը, պատկերի չափը և դենդրոգրամի հարաբերակցությունը՝ ըստ իրենց նախասիրությունների: