文章编程开发列表

一分钟介绍文章去重相似度算法原理

本文以谷歌的SimHash为例子介绍下文章去重的基本原理,不同算法原理不同,只是帮大家做个快速入门。算法原理:算法的核心是将文本生成一个二进制hash签名,通过对文章特征的提取,并对特征的的hash进行加权处理,最后合并hash值,得到一个二进制指纹hash。通过计算指纹上相同位置不同数字的个数来计...

阅读全文>> 2018-05-24 10:50:45.0 阅读:510 [编程开发]

非计算机专业新手学什么编程语言

本人就是非计算机,后来自学编程,最后做了软件,主要是网站后台开发相关的工作。说说我学习开发的经历和经验,希望能给你以借鉴。开始的的时候学校开过C语言课程,所以有一定了解,但是不是很懂,算是入门。后来自己想学习网站开发,就放弃了C语言。当时上网查询,作为网络开发,有两大语言asp和php,asp是以v...

阅读全文>> 2018-09-24 20:23:42.0 阅读:168 [编程开发]

基于多种属性的内容推荐算法(原创)

做网站,尤其是内容型的网站,免不了要做内容推荐。其实这与搜索引擎类似,也可以把搜索引擎看做一种关键词的推荐系统。一般来说推荐系统是根据用户的喜好和时间等信息进行排序。重点在于如何评分,一般的文章系统采用的是时间倒序排列,比较智能的就是根据用户的浏览信息智能提取文章,这类的就是根据相似性排序的,也是比...

阅读全文>> 2018-10-25 18:19:37.0 阅读:219 [编程开发]

基于多种属性的java内容推荐算法源码

Master.javapackage com.qinggl.www.recommend;import java.util.ArrayList;import java.util.HashMap;import java.util.Iterator;import java.util.List;import...

阅读全文>> 2018-10-26 14:31:02.0 阅读:760 [编程开发]

多语言网站优化alternate和hreflang

今天跟各位同学讲解下有关Hreflang标签的知识,如果,你有过优化多语言网站SEO的经历,相信对这个标签并不陌生。希望,今天分享的内容能够对各位同学有所帮助。为什么需要hreflang标签?有时候情况复杂点,同一个国家使用多种语言,而且使用人数差别没有那么大,像中文在中国这样具有压倒性主流地位,如...

阅读全文>> 2019-02-24 10:44:08.0 阅读:140 [编程开发]

java是开源的吗

java 是开源的,而且你可以免费使用。但是java的开发工具,有不同版本。常见的是OpenJDK,Oracle JDK。关于Oracle JDK和OpenJDK的区别:openjdk采用GPL V2协议,而JDK则采用JRL。GPL V2允许在商业上使用,JRL只允许个人免费使用。OpenJDK ...

阅读全文>> 2019-04-27 18:00:57.0 阅读:103 [编程开发]

文本指纹提取算法

来源:数据猿 作者:文辉 原文: 文本指纹介绍 互联网网页存在大量的重复内容网页,无论对于搜索引擎的网页去重和过滤、新闻小说等内容网站的内容反盗版和追踪、还是社交媒体等文本去重和聚类,都需要对网页或者文本进行去重和过滤。 最简单的文本相似性计算方法可以利用空间向量模型,计算分词后的文本的特征向量的相...

阅读全文>> 2019-05-26 19:36:17.0 阅读:33 [编程开发]

指纹提取和比对的算法

仅提供一种方法作为参考:1.图形二值化同时去除杂点,注意二值化的比较值确定.凸出部分为1,凹下部分为0.生成0和1的点矩阵D[][](存储点矩阵的方式有很多,可以选择对算法有帮助的结构存储)  //假设点矩阵大小512*512;  Byte d[51...

阅读全文>> 2019-05-26 19:41:42.0 阅读:29 [编程开发]

文本特征提取方法

注:翻译自 scikit-learn 的 User Guide 中关于文本特征提取部分。1. 词袋(Bag of Words)表示文本分析是机器学习的一大应用领域,但是长度不一的字符序列是无法直接作为算法的输入。为了解决这个问题,scikit-learn 提供了几个常用的文本特征提取的方法: ...

阅读全文>> 2019-05-26 19:52:25.0 阅读:32 [编程开发]

python为什么适合人工智能

很多人应该听说python在人工智能上的应用很广泛,很多人也做了分析,但本人认为他们都过于强调语言本身的特点了,而忽略了开发的人。人工智能,是一个智能化很高的行业,对于算法的要求自然非常高,在复杂的算法下维护的难度自然就更大,对于智能开发而言,是一个多学科且专业度很高领域,一般专业的程序员并不具备这...

阅读全文>> 2019-05-29 11:46:05.0 阅读:58 [编程开发]