一个用于多维数据决策树分类的Python模块
项目描述
请查阅模块API页面,获取有关此模块的所有信息,包括有关代码最新更改的信息。
https://engineering.purdue.edu/kak/distDT/DecisionTree-3.4.3.html
该页面列出了您可以在自己的代码中调用的所有模块功能。该页面还详细描述了如何使用模块的增强和袋装功能,以及新引入的RandomizedTreesForBigData类所允许的功能,该类在3.3.0版本中引入。模块的最新更改使您可以处理“大海捞针”和大数据分类问题。当您的训练数据过度集中在某一类上时,“大海捞针”的隐喻很有用。
关于模块的基本目的,假设您已经将训练数据放在了CSV文件中,您只需要向该模块提供文件名,它就会为您完成剩余的工作,无需您在分类新的数据样本时付出太多努力。决策树分类器由以树形结构排列的特征测试组成。与根节点相关的特征测试是那种可以最大程度地消除新数据记录的不同可能类标签的模糊性。从根节点悬挂一个子节点,对应于根节点特征测试的每个可能结果。这个最大类标签消除规则在子节点上递归应用,直到到达叶节点。叶节点可能对应于决策树所需的最大深度,或者是在节点上进行特征测试已无更多可获得的收益的情况。
典型用法语法
training_datafile = "stage3cancer.csv"
dt = DecisionTree.DecisionTree(
training_datafile = training_datafile,
csv_class_column_index = 2,
csv_columns_for_features = [3,4,5,6,7,8],
entropy_threshold = 0.01,
max_depth_desired = 8,
symbolic_to_numeric_cardinality_threshold = 10,
)
dt.get_training_data()
dt.calculate_first_order_probabilities()
dt.calculate_class_priors()
dt.show_training_data()
root_node = dt.construct_decision_tree_classifier()
root_node.display_decision_tree(" ")
test_sample = ['g2 = 4.2',
'grade = 2.3',
'gleason = 4',
'eet = 1.7',
'age = 55.0',
'ploidy = diploid']
classification = dt.classify(root_node, test_sample)
print "Classification: ", classification
项目详情
关闭
DecisionTree-3.4.3.tar.gz的哈希值
| 算法 | 哈希摘要 | |
|---|---|---|
| SHA256 | 0171a9932fd294b168f773a1bbc080a0bb1f571a752f1c327c107d397f356bc9 |
|
| MD5 | 5cb2c6a468777c61e351ace8da787552 |
|
| BLAKE2b-256 | a122fabc080239e5ecc3ca9370c9dc417360515f03eb31f3c44c4071bcfacd3f |