2019

2019-06-02

Anaconda入门

一、Anaconda介绍Anaconda是专注于数据分析的Python发行版本，包含了conda、Python等190多个科学包及其依赖项。 Anaconda通过管理工具包、开发环境、Python版本，大大简化了你的工作流程。不仅可以方便地安装、更新、卸载工具包，而且安装时能自动安装相应的依赖包，同时还能使用不同的虚拟环境隔离不同要求的项目。在 Anaconda 官网中是这么宣传自己的：适用

0

开发环境和工具

2019-05-13

wireshark快速入门

1、wireshark介绍wireshark是一个非常流行的网络封包分析软件。功能十分强大，可以截取各种网络封包，显示网络封包的详细信息。 wireshark还是开源软件，可以放心使用。官网地址：https://www.wireshark.org/ 使用wireshark必须了解网络协议，否则很难看懂。 wireshark只能查看封包，不能修改封包内容，或者发送封包。 wireshark能获取HT

2018

0

数学基础

2018-01-19

数学基础——浅谈似然

本次学习预期收益：似然概念，与概率的区别极大似然求解过程和原理 1、预备知识1.1 概率公理基于测度论的概率公理：概率是一种测度。第一公理：任一事件的概率都可以用0到 1区间上的一个实数来表示第二公理：归一原则：事件空间的概率值为1 第三公理：概率加法原则：不相交子集的并的事件集合的概率为那些子集的概率的和 1.2 概率密度函数PDF（Probability Density F

2017

0

大数据

2017-09-20

Spark-Python脚本快速上手

使用python连接spark开发非交互式的独立程序需要自行初始化SparkContext 运行python脚本需要使用spark自带的bin/spark-submit脚本运行。spark-submit会帮助引入python程序的spark依赖，并且已经配置好了调用spark的PythonAPI的环境。运行python脚本 1bin/spark-submit my_script.py 初始化

0

大数据

2017-09-20

Spark Streaming 编程指南&快速入门

检查项 [x] 依赖链接（Linking） [x] 初始化 StreamingContext [x] 离散流（DStreams） [x] DStreams 输入源与接收器（Receivers） [x] DStreams 转化（Transformations） [x] DStreams的输出操作 [x] DataFrame和SQL操作 [x] MLlib 操作 [x] 缓存/持久化（Caching

0

大数据

2017-09-20

SparkShell快速上手

SparkShell是Spark自带的交互式shell 可用来作即时数据分析 SparkShell可用来与分布式存储在许多机器的内存或硬盘上的数据进行交互。而处理过程分发由Spark自动完成 SparkShell Python和Scala版本的实例 SparkShell启动时，默认就已经自动初始化了一个SparkContext——sc Python 版本打开python版本的sparksh

0

开发环境和工具

2017-09-20

python2.6升级到2.7与pip的安装

python2.6升级到2.7与pip的安装1、python2.6升级服务器上面装的centos5.8的镜像，默认安装的是python2.6.8，由于python官方已经停止了2.6版本的更新，很多第三方的python包也只支持2.7以上的python，例如sckit-learn，所以很有必要升级python 1234567891011121314151617181920# 查看当前系统中的 Py

0

大数据

2017-09-20

Spark数据读取与保存快速上手

Spark支持多种输入与输出：文件格式与文件系统多种文件系统：HDFS NFS AmazonS3 多种文件格式：本地文件 JSON Sequencefile Parquet CSV Spark SQL中的结构化数据源 JSON ApacheHive 数据库与键值存储 JDBC HBase Elasticsearch Cassandra 1、文件格式Spark会针对文件

0

大数据

2017-05-02

Hadoop/hive文件存储格式

1、基于行存储基于Hadoop系统行存储结构的优点在于快速数据加载和动态负载的高适应能力，这是因为行存储保证了相同记录的所有域都在同一个集群节点，即同一个 HDFS块。不过，行存储的缺点也是显而易见的，例如它不能支持快速查询处理，因为当查询仅仅针对多列表中的少数几列时，它不能跳过不必要的列读取；此外，由于混合着不同数据值的列，行存储不易获得一个极高的压缩比，即空间利用率不易大幅提高。 HDF

0

机器学习

2017-05-02

机器学习——TopicModel介绍

一、什么是Topic Module在机器学习以及自然语言处理中, topic model是一种能够在一系列文档集中发现抽象的”主题”的统计学模型。主题模型通常被用作在文本中发现隐含的语义结构的文本挖掘(text-mining)工具。举个直接的例子,对于一个有特定主题的文档,我们通常可以在文档中找到或多或少频繁出现的特定域的单词,比如”狗”和”骨头”通常出现在和狗相关的文档中,而”猫”和”喵喵”通

“信数据,得永生！"——未来简史

主页

Anaconda入门

wireshark快速入门

数学基础——浅谈似然

Spark-Python脚本快速上手

Spark Streaming 编程指南&快速入门

SparkShell快速上手

python2.6升级到2.7与pip的安装

Spark数据读取与保存快速上手

Hadoop/hive文件存储格式

机器学习——TopicModel介绍