推荐业务(一)
# 1 离线画像业务
画像的构建作为推荐系统非常重要的环节,画像可以作为整个产品的推荐或者营销重要依据。需要通过各种方法来构建。
文章内容标签化:内容标签化,根据内容定性的制定一系列标签,这些标签可以是描述性标签。针对于文章就是文章相关的内容词语。
文章的关键词、主题词
# 2 TextRank 算法
TextRank 算法是一种基于图的用于关键词抽取和文档摘要的排序算法,由谷歌的网页重要性排序算法 PageRank 算法改进而来,它利用一篇文档内部的词语间的共现信息 (语义) 便可以抽取关键词,它能够从一个给定的文本中抽取出该文本的关键词、关键词组,并使用抽取式的自动文摘方法抽取出该文本的关键句。
TextRank 算法的基本思想是将文档看作一个词的网络,该网络中的链接表示词与词之间的语义关系。
TextRank 算法主要包括:关键词抽取、关键短语抽取、关键句抽取。
(1)关键词抽取(keyword extraction)
关键词抽取是指从文本中确定一些能够描述文档含义的术语的过程。对关键词抽取而言,用于构建顶点集的文本单元可以是句子中的一个或多个字;根据这些字之间的关系(比如:在一 ...
一梦文章推荐业务(一)
# 1 数据库迁移需求
业务 mysql 数据库中的数据,会同步到我们的 hadoop 的 hive 数据仓库中。
为了避免直接连接、操作业务数据
同步一份数据在集群中方便进行数据分析操作
123456hive> show databases;OKdefaultprofiletoutiaoTime taken: 0.017 seconds, Fetched: 3 row(s)
创建 hive 业务数据库 onedream
1create database if not exists onedream comment "user,news information of onedream mysql" location '/user/hive/warehouse/onedream.db/';
# 2 sqoop 导入
用户:基本信息,关注,收藏,搜索,订阅(设置选择喜好频道)
文章:分类,文章
123456789101112131415161718192021#!/bin/basharray=(user_profile user_basic ...