主页

0

Anaconda入门

一、Anaconda介绍Anaconda是专注于数据分析的Python发行版本,包含了conda、Python等190多个科学包及其依赖项。 Anaconda通过管理工具包、开发环境、Python版本,大大简化了你的工作流程。不仅可以方便地安装、更新、卸载工具包,而且安装时能自动安装相应的依赖包,同时还能使用不同的虚拟环境隔离不同要求的项目。 在 Anaconda 官网中是这么宣传自己的:适用

0

wireshark快速入门

1、wireshark介绍wireshark是一个非常流行的网络封包分析软件。功能十分强大,可以截取各种网络封包,显示网络封包的详细信息。 wireshark还是开源软件,可以放心使用。官网地址:https://www.wireshark.org/ 使用wireshark必须了解网络协议,否则很难看懂。 wireshark只能查看封包,不能修改封包内容,或者发送封包。 wireshark能获取HT

0

数学基础——浅谈似然

本次学习预期收益: 似然概念,与概率的区别 极大似然求解过程和原理 1、预备知识1.1 概率公理基于测度论的概率公理:概率是一种测度。 第一公理:任一事件的概率都可以用0到 1区间上的一个实数来表示 第二公理:归一原则:事件空间的概率值为1 第三公理:概率加法原则:不相交子集的并的事件集合的概率为那些子集的概率的和 1.2 概率密度函数PDF(Probability Density F

0

Spark-Python脚本快速上手

使用python连接spark开发非交互式的独立程序需要自行初始化SparkContext 运行python脚本需要使用spark自带的bin/spark-submit脚本运行。spark-submit会帮助引入python程序的spark依赖,并且已经配置好了调用spark的PythonAPI的环境。 运行python脚本 1bin/spark-submit my_script.py 初始化

0

Spark Streaming 编程指南&快速入门

检查项 [x] 依赖链接(Linking) [x] 初始化 StreamingContext [x] 离散流(DStreams) [x] DStreams 输入源与接收器(Receivers) [x] DStreams 转化(Transformations) [x] DStreams的输出操作 [x] DataFrame和SQL操作 [x] MLlib 操作 [x] 缓存/持久化(Caching

0

SparkShell快速上手

SparkShell是Spark自带的交互式shell 可用来作即时数据分析 SparkShell可用来与分布式存储在许多机器的内存或硬盘上的数据进行交互。而处理过程分发由Spark自动完成 SparkShell Python和Scala版本的实例 SparkShell启动时,默认就已经自动初始化了一个SparkContext——sc Python 版本打开python版本的sparksh

0

python2.6升级到2.7与pip的安装

python2.6升级到2.7与pip的安装1、python2.6升级服务器上面装的centos5.8的镜像,默认安装的是python2.6.8,由于python官方已经停止了2.6版本的更新,很多第三方的python包也只支持2.7以上的python,例如sckit-learn,所以很有必要升级python 1234567891011121314151617181920# 查看当前系统中的 Py

0

Spark数据读取与保存快速上手

Spark支持多种输入与输出: 文件格式与文件系统 多种文件系统:HDFS NFS AmazonS3 多种文件格式:本地文件 JSON Sequencefile Parquet CSV Spark SQL中的结构化数据源 JSON ApacheHive 数据库与键值存储 JDBC HBase Elasticsearch Cassandra 1、文件格式Spark会针对文件

0

Hadoop/hive文件存储格式

1、基于行存储 基于Hadoop系统行存储结构的优点在于快速数据加载和动态负载的高适应能力,这是因为行存储保证了相同记录的所有域都在同一个集群节点,即同一个 HDFS块。不过,行存储的缺点也是显而易见的,例如它不能支持快速查询处理,因为当查询仅仅针对多列表中的少数几列时,它不能跳过不必要的列读取;此 外,由于混合着不同数据值的列,行存储不易获得一个极高的压缩比,即空间利用率不易大幅提高。 HDF

0

机器学习——TopicModel介绍

一、什么是Topic Module在机器学习以及自然语言处理中, topic model是一种能够在一系列文档集中发现抽象的”主题”的统计学模型。主题模型通常被用作在文本中发现隐含的语义结构的文本挖掘(text-mining)工具。 举个直接的例子,对于一个有特定主题的文档,我们通常可以在文档中找到或多或少频繁出现的特定域的单词,比如”狗”和”骨头”通常出现在和狗相关的文档中,而”猫”和”喵喵”通