为ElasticSearch安装IK分词——论汉语博大精深……

一.什么是分词,为什么要分词

          分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。

分词的目的是为了更容易、更精准的命中搜索关键词,更容易是因为分词将搜索关键词分开为多个查询关键词,只要匹配上一个就视为相关结果,更精准是因为分词之后可以比较关键词的命中率,从而实现排序,将你更需要的结果排列在前面。

二.为何选择IK分词器

在Elasticsearch中,内置了很多分词器,但默认的分词器对中文的支持都不是太好。所以需要单独安装插件来支持,比较常用的是IK, Pinyin,Paoding, MMSEG等还有个smartcn分词,不过其实比较鸡肋,汉语实在博大精深,最了解的汉语的还是自己人,官方的standard分词器简直惨不忍睹……基本上就是把字全部拆成一个,准确率感人。目前一般推荐使用的是IK分词,词库丰富,且跟进了ES的最新版本,所以这次我们选择安装的也是IK分词器。

三.安装步骤

虽然ElasticSearch拥有直接安装plugin的功能,但是……IK分词器的最新版本并没有提供可以直接通过bin/plugin安装的包,如果你试过的话,会得到如下结果 阅读全文→

ElasticSearch安装教程——自家的小百度

一.什么是ElasticSearch

          ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。
         我们建立一个网站或应用程序,并要添加搜索功能,令我们受打击的是:搜索工作是很难的。我们希望我们的搜索解决方案要快,我们希望有一个零配置和一个完全免费的搜索模式,我们希望能够简单地使用JSON通过HTTP的索引数据,我们希望我们的搜索服务器始终可用,我们希望能够一台开始并扩展到数百,我们要实时搜索,我们要简单的多租户,我们希望建立一个云的解决方案。Elasticsearch旨在解决所有这些问题和更多的问题。

二.为什么要安装ES?

         ES作为一个成熟的全文搜索引擎提供了从分词到索引的全套解决方案,对于我这种懒得(其实是不会)造轮子的人来说再合适不过了,虽然网上已经有了很多教程,ES本身的安装也很简单,但是我这还是记录下,防止自己脑抽哪天忘了怎么装。

 

三.安装步骤

        ES是使用java开发的,所以首先我们就必须安装java啦,对于centos来说,我们可以选择openjdk也能选择sunjdk,我比较倾向于sunjdk,毕竟是个人折腾,不开源的东西总有些特别的优化。

然后一波进度条走完就安装好了,不过我们还需要额外配置下环境变量

         然后我们就完成了最基本的环境配置,可以开始下载安装ES了,前往ElasticSearch官网下载页面,然选择你需要的版本,使用wget下载到服务器中并解压,然后cd到解压目录直接执行bin/elasticsearch就行,但是!!! 阅读全文→

Centos下使用nvm安装管理node.js

一.什么是Node.js

  Node.js是一个基于Chrome JavaScript运行时建立的平台,用于方便地搭建响应速度快、易于扩展的网络应用。Node.js 使用事件驱动, 非阻塞I/O模型而得以轻量和高效,非常适合在分布式设备上运行数据密集型的实时应用。

二.起因

        由于其特性所以有很多应用是使用Node.js开发的,这次我想用的某个爬虫就是Node.js应用,所以我只能去研究下怎么安装了,看了下网上一堆教程,唯一的感觉是这货版本真的多……作为一个选择强迫症,纠结装哪个版本是痛苦的,直到我发现了NVM——Node Version Manager,一个能够方便安装并管理(切换)Node.js的神器,从此我想切哪个版本切哪个233。

三.安装步骤

        参照其github的readme,安装nvm基本上是一键的

Install script

To install or update nvm, you can use the install script using cURL:

or Wget:

The script clones the nvm repository to ~/.nvm and adds the source line to your profile (~/.bash_profile, ~/.zshrc, ~/.profile, or ~/.bashrc).

 

最后一部分的环境变量设置脚本也完成了,一般不用你去手动执行,我们只需稍等片刻然后关闭ssh窗口并重新打开就能执行nvm命令了 阅读全文→

掌控你的网络——破解DR.COM(U64 吉林大学Ver.)

   一.起因

每个大学基本上都有人和网络对抗,比起南方某些大学的按流量收费以及某些贵的要死的大学网费,吉大的网络还算是相当便宜的了,虽然质量不咋地……不过比较烦的就是用于认证的DR.COM软件,这货我很早以前就碰到过了,当初还在用广电宽带,它的WEB登陆认证就是DR.COM母公司城市热点的产品,现在又碰到它了,颇有一股亲切感(大雾),作为一个专业的网络计费软件,这货拥有一切让人讨厌的特性,绑定MAC,无法DHPC,检测到路由器会断线,然而,最讨厌的是由于其Auth Server位于局域网内,地址用的是10.100.61.3这种地址,而且会发心跳包,所以pptp啥的vpn根本不能用(全局代理,即使使用了chnroute分流也没排除认证服务器的地址,虽然可以自己修改路由表,但是也是略显繁琐),所以我决定不用电脑进行认证。

之前考虑过是不是用树莓派之类的来跑认证程序,但是有点太浪费了(虽然貌似树莓派就是拿来吃灰的),所以我最终还是选择了路由器,去年优酷活动花1块钱搞了个优酷路由宝,前些日子刷了下固件,现在正好拿来用,最主要的是这货内置TF卡,有足够的空间,之前买了个WNDR3800,但是它的RAM和ROM都有点小,装了个OP之后空间也不太多了。

   二.准备

 

  •     硬件:一台路由器,起码得能刷openwrt,然后还得有空间装个python顺便放个脚本,我建议可以直接买个极路由1s或者newifi Y1,性价比都不错,也能满足要求。
  •    软件:xshell,winscp,某学长写的PY脚本(前人栽树后人乘凉啊,有学长罩真好)

   三.方法

我们首先需要开启路由器的telnet或者ssh功能,我刷的固件里相当方便,如果是极路由的官方固件,那么需要获取开发者权限,具体方法百度吧。

drcom2

阅读全文→

了解你的访客——Piwik安装实录

如果要问最好的网站数据统计分析工具是啥,那么毫无疑问是GA——Google Analytics(谷歌分析),然而麻烦的是由于某些众所周知的原因,谷歌旗下绝大部分产品在国内都不能正常访问,虽然GA还能正常使用,但是由于其需要加载的一个JS无法正常访问,所以就麻烦了很多,甚至还会影响网站打开速度,并且我们去查看数据还得通过某些手段,这实在是有些蛋疼。那么我们就需要一个代替品,国内的CNZZ、百度统计之流虽然各种号称媲美GA,但是事实上还是差了不少。那么出路到底在哪?那就是Piwik,它简洁强大,又是一个开源的系统,可以部署在任何PHP+MYSQL上,可以说是最好用的网站统计系统之一,完全不逊色于GA,甚至由于其开源特性,你可以自行修改增添代码,达到各种效果,不可不谓是完美的替代品。

那么,就让我来讲一下如何安装Piwik吧。

  一.简介

Piwik 是一套基于 Php+MySQL 技术构建,能够与 Google Analytics 相媲美的开源网站访问统计系统。Piwik 可以给你详细的统计信息,比如网页浏览人数, 访问最多的页面, 搜索引擎关键词等等,并且采用了大量的AJAX/Flash技术,使得在操作上更加便易。
Piwik 可以安装在你的服务器上面,数据就保存在你自己的服务器上 面。你可以非常容易的插入统计图表到你的博客或是网站后台的控制面板中。安装完成后,你只需将一小段代码放到将要统计的网页中即可。

Piwik还采用了插件扩展及开放API架构,拥有众多不同功能的插件,也可以让开发人员根据自已的实际需求创建更多的功能。

  二.系统需求

  • Web服务器,比如 Apache, Nginx, IIS 等等
  • PHP版本≥5.3.3
  • MySQL≥4.1, 或者是 MariaDB
  • 开启PHP拓展 pdopdo_mysql, 或者mysqli拓展.

需要注意的是,在2016年的Piwik 3.0.0版本将会不再支持PHP 5.3. 接着Piwik将需要PHP 5.5. 当然目前为止Piwik只需要PHP 5.3.3及以上的版本.

用来配置Piwik的MySQL数据库用户需要SELECT, INSERT, UPDATE, DELETE, CREATE, DROP, ALTER, CREATE TEMPORARY TABLES, LOCK TABLES权限

官方推荐的PHP版本为5.5以上,来获得最好的性能并节省资源,此外还需要PHP GD 拓展来生成一些图表。推荐安装的PHP拓展为

  三.安装

首先我们访问Piwik的官网,下载程序然后上传到web目录,解压,访问域名,然后我们就能看到安装向导了。

piwik-1

阅读全文→