当前位置: 首页 > >

数据挖掘工具---spark使用相关资料

发布时间:

1、网址集锦

这里列举的都spark2.2.1版本下的相关资料,其他版本只要在链接里改一下版本号即可。


spark使用快速预览,地址;


官网spark总的介绍资料,地址;


spark集群模式介绍,地址;


如何向spark集群提交应用程序,地址;


如何在yarn模式下向spark集群提交应用程序,地址;


官方spark编程指导文件,地址;


python语言进行spark编程的pyspark库的相关接口地址;


pyspark库相关类的源文件,地址;


官网python语言的spark应用程序入门例子,地址;


官网python语言的spark应用程序例子,地址;


spark下机器学*效果评估举例,地址;


SparkContext详细介绍,地址;


Spark SQL, DataFrames and Datasets详细介绍,地址


Spark SQL与Hive的交互,详细介绍,地址


mllib下Statistics 类的用法介绍,地址;


spark下实时数据处理接口pyspark.streaming用法介绍,地址;


spark下实时数据处理接口pyspark.streaming相关类的的介绍,地址


Spark Streaming + Kafka处理实时数据,地址;


实时处理kafka数据的例子wordcount,地址;


Apache Kafka 使用介绍,地址;


Apache Kafka 使用例子,地址;


kafka 学* 非常详细的中文教程,地址;


python语言中生产消息,地址;


Spark编写自定义聚合函数,地址;


cloudera实现的spark*台的时间序列模型,地址;


spark-streaming-kafka-assembly_2.11-2.2.1.jar的下载地址


关于pyspark 使用过程中需要python版本不同的需求,详见,上面的方法还没验证。
也可以用其他办法解决,比如,通过ln -s /usr/local/python2.7/bin/python2.7 /usr/bin/python这样的命令来将系统的python指向特定的版本,这是其中的一种解决办法。



友情链接: