优德娱乐
国际娱乐平台官网
Portraits
Journal
Contact
安装google word2vec解析器
svn checkout http://word2vec.googlecode.com/svn/trunk/
cd trunk
make
出现报错:找不到malloc.h
将word2vec几个文件中的 “#include <malloc.h>”替换成“#include <stdlib.h>”之后,再重新执行make
运行成功!
将从商情跑出来的词进行分词并删除停止词,每个词之间用空格隔开,保存为一个文件,这里的文件名为:shiyan,然后执行:./word2vec -train shiyan -output vectors.bin -cbow 0 -size 200 -window 10 -negative 0 -hs 1 -sample 1e-3 -threads 8 -binary 1
trunk
./
word2vec
-
train shiyan
-
output vectors
.
bin
-
cbow
0
-
size
200
-
window
10
-
negative
0
-
hs
1
-
sample
1e-3
-
threads
8
-
binary
1
Starting
training using file shiyan
Vocab
size
:
52346
Words
in
train file
:
12107001
Alpha
:
0.000005
Progress
:
100.00
%
Words
/
thread
/
sec
:
80.91k
%
分词训练参数:
-train:输入文件
-output:输出的词向量(或聚类)
-cbow 0:0表示使用skip-gram模型(慢,对罕见词有利),1表示使用continuous bag-of-words模型(速度快)。
-size 200:每个单词的向量维度是200
-window 10:窗口大小,skip-gram通常在10附近,cbow通常在5附近。
-negative 0:采样使用hierarchical softmax方法(负采样,对常见词有利),不使用negative sampling方法(对罕见词有利)。
-sample 1e-3:采样阈值,如果一个词语在训练样本中出现的频率越大,那么就越会被采样。
-binary 1:1表示模型存储为二进制,0表示模型存储为文本。
还有其他一些默认参数:
-alpha:学习速率,默认为0.025
-min-count:最低频率,默认是5,如果一个词语在文档中出现的次数小于5,那么就会丢弃。
-classes 5:输出单词聚类(聚类个数为5),此时将不再输出词向量。
加载和测试这个模型:
trunk ./distance vectors.bin
Enter
word or sentence
(
EXIT to
break
):
seo
Word
:
seo
Position
in
vocabulary
:
681
Word
Cosine
distance
------------------------------------------------------------------------
seo
优化
0.719739
搜索引擎优化
0.657688
优化
0.638677
关键词
0.607671
网站
seo
0.595945
sem
0.585403
seo
推广
0.582900
关键字
0.572032
seo
搜索引擎
0.555099
seo
技术
0.552127
搜索引擎
0.537766
外贸
seo
0.537455
网站推广
0.536381
网店推广
0.527872
网站优化
0.524872
seo
网站推广
0.516956
外链
0.515978
搜索
0.507645
淘宝推广
0.502895
网站
seo
优化
0.498923
网络营销
0.498747
推广
0.497343
整站
0.497005
竞价
0.489886
内链
0.488461
网盟推广
0.487965
网站站长
0.487357
竞价推广
0.483573
优化推广
0.482869
收录
0.477189
旺道
0.476077
站外
0.471112
网站营销
0.467853
黑帽
0.460517
王通
0.460462
淘宝客
0.451625
靠前
0.445665
站长
0.439734
外贸
b2c
0.436770
淘宝美工
0.435778
Enter
word or sentence
(
EXIT to
break
):
软件开发
Word
:
软件开发
Position
in
vocabulary
:
592
Word
Cosine
distance
------------------------------------------------------------------------
手机软件开发
0.686619
开发软件
0.613448
软件编程
0.602904
网站前端开发
0.594718
ios
软件开发
0.594441
java
软件开发
0.587273
ui
设计
0.580842
ios
开发
0.577102
前端开发
0.576923
android
软件开发
0.576495
开发
0.575300
ios
应用开发
0.573682
应用软件开发
0.572448
软件测试
0.571539
手机开发
0.570288
安卓软件开发
0.555979
ios
0.548380
php
开发
0.543266
软件
ui
设计
0.540917
web
前端
0.539397
手机应用开发
0.536349
app
开发
0.532582
手机软件测试
0.523931
软件技术
0.523016
软件设计
0.522313
移动应用开发
0.521805
.
net
软件开发
0.519345
iphone
软件开发
0.515472
客户端开发
0.513703
网页前端开发
0.511749
手机游戏开发
0.507798
erp
开发
0.504769
嵌入式软件
0.502161
app
开发工程师
0.498728
软件开发师
0.498368
c
#开发 0.493418
网页前端
0.492120
html5
前端开发
0.488186
ios
软件工程师
0.486978
网站前端
0.485179
Enter
word or sentence
(
EXIT to
break
):
设计师
Word
:
设计师
Position
in
vocabulary
:
383
Word
Cosine
distance
------------------------------------------------------------------------
设计美工
0.542570
平面
0.516078
设计学徒
0.500554
ceac
0.483488
设计团队
0.478844
家具设计师
0.459778
软装设计师
0.458273
设计师实习
0.457935
手绘设计师
0.453170
acaa
0.444251
装饰设计师
0.441549
ui
设计师
0.438041
施工图设计师
0.438001
家装设计师
0.433551
美工
0.433171
平面设计
0.429313
网络设计师
0.427992
珠宝设计师
0.426903
adobe
0.426485
设计实习生
0.423995
女装设计师
0.419589
主创
0.417825
电脑设计
0.411264
照明设计师
0.405545
插画师
0.404566
数码设计师
0.401514
绘
0.400261
灯光设计师
0.398222
化妆师
0.398177
设计师主管
0.398145
it
项目经理
0.397077
纸样师
0.396515
近现代
0.393856
插画设计师
0.388611
概念设计
0.387966
商业摄影师
0.387836
制作学徒
0.387594
室内设计
0.387581
设计类
0.387304
android
程序员
0.385852
国际娱乐平台官网
Portraits
Journal
Contact